网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于神经网络方法的区间删失数据回归分析:应用于24 h身体活动模式的死亡风险建模  PDF

  • 何灵松 1
  • 范晓东 2
  • 张志方 1
1. 吉林化工学院 理学院,吉林 吉林 132022; 2. 深圳第三人民医院 放射科,广东 深圳 515100

中图分类号: TP183

最近更新:2024-11-04

DOI: 10.19338/j.issn.1672-2019.2024.09.001

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

目的

基于身体活动数据预测每个观测对象的生存概率。

方法

从美国国家健康与营养调查(NHANES)数据库中提取NHANES 2003—2006年不同对象的身体活动监测数据。通过综合Brier评分、受试者工作特征(ROC)曲线及曲线下面积(AUC)等多种评价指标来评价模型的预测性能,比较了条件生存森林、自适应LASSO、深度学习生存模型等三种生存分析模型的预测性能。

结果

本研究所建立的深度学习生存模型的预测性能优于其他两个模型。同时,本研究还分析了各项身体活动变量在深度学习生存模型中的重要性,其中年龄和总活动计数对人的身体影响最大,在内部和外部验证中均观察到类似的结果。

结论

深度神经网络生存模型可以作为预测身体活动对身体影响的有效工具。

身体活动减少是人衰老的一个重要标志。可穿戴技术提供了身体活动的频率、持续时间、强度和时间的可靠测量。在美国国家健康与营养调查(NHANES)数据库中,提供了加速测量法衍生的大量身体数据和全因死亡数据。本文使用NHANES 2003—2006年的身体活动数据与美国国家死亡率登记数据相结合,因此数据包含了每月的死亡率检查数据。现有的一些论文也利用这些数据进行了生存分析,但都仅从传统Cox模型的线性角度进行了分

1-2。因此在模拟临床实践中存在非线性关系时,其预后价值有限。

目前,一些研究表明,机器学习技术(MLT)能够模拟临床特征与生存结果之间的线性和非线性关系,并通过迭代方法提高预测性能。包括条件生存森林(ICcforest)、自适应LASSO(ALASSO)、神经网络生存模型在内的多模型技术已被成功应用于解决临床分析中复杂的预后判定问

3-8,如对乳腺3、软骨肉4、肺结节定性和肺5、口腔6-7和心上型完全性肺静脉异位引流术8的预后预测。尽管目前已经有了很多应用于删失数据的机器学习算法,但神经网络生存算法在区间删失数据的应用仍处于起步阶段。

因此,本研究建立了一种深度神经网络生存模型,并将其与两种最常用的统计回归生存分析算法,条件生存森林和自适应LASSO回归模型进行比较。此外,还分析了最佳预测模型中所有变量的重要性。

1 资料与方法

1.1 数据来源

研究数据来自于NHANES数据库,NHANES是由美国国家卫生统计中心(NCHS)开展的一个广泛的重大项目,是一项基于人群的横断面调查,旨在收集有关美国家庭人口健康和营养的信息。项目每年调查一个全国代表性的样本。主要目标是长期监测美国人口的生活方式,例如,确定在糖尿病等常见的疾病中危险因素的流行程度。NHANES数据可从疾病控制中心(CDC,https://www.cdc.gov/nchs/nhanes/index.htm)公开获得,NHANES访谈部分包括人口统计学、社会经济学、饮食和健康相关问题。体检部分包括生理测量、实验室检查等内容。登记的变量包括每个人的表型和环境暴露信息等。一个特定的NHANES数据库中的加速度测量身体活动(PA)数据,可以从“Examination Data”标签下的“Physical Activity Monitor”子类别中下载。

1.2 研究对象选择与研究设计

NHANES 2003—2004年和2005—2006年研究的加速度测量数据,共有14 631名参与者。在本次研究中,排除了缺失体重指数(BMI)、加速度测量数据少于3 d并且估计磨损时间至少10 h、被NHANES认为数据质量不佳、死亡率信息缺失和缺失收缩压、总脂蛋白或高密度脂蛋白(HDL)胆固醇测量值的参与者。在这项工作中,使用年龄在65~85岁之间的1 950例观测对象的一个子集进行研究。分析的主要目的是通过与条件生存森林和自适应LASSO进行比较,评估构建的深度学习生存模型的有效性。为此,将样本按4∶1的比例,随机分割为训练队列和测试队列,并与表1中列出的变量进行拟合。表1中收集了模型选择的变量。研究结果证明,构建的神经网络生存模型的预测性能明显优于另外两个生存模型,而且相信在有更多的观测数据时,本研究的算法的预测精度可以提高。

表1  2003—2006年美国国家健康和营养调查合并队列研究参与加速度测量人员的人口统计学和临床特征
变量NHANES 编码变量描述变量类型(x¯±s)/[n(%)]
X1 TAC 总活动数 连续变量 155 578.5(94 233.9)
X2 RIDAGEMN 参与监测时的年龄 连续变量 74.7(6.55)
X3 MVPA 中高度剧烈身体活动 连续变量 8.04(12.5)
X4 ASTPsl/nw 从活动到久坐的转变概率 连续变量 0.081(0.052)
X5 ST 久坐时间 连续变量 894.64(133.96)
X6 TLAC 12-2 pm 总对数活动数12 pm~2 pm 连续变量 353.56(118.81)
X7 TLAC 4-6 pm 总对数活动数4 pm~6 pm 连续变量 326.28(115.17)
X8 TLAC 2-4 pm 总对数活动数2 pm~4 pm 连续变量 338.73(119.06)
X9 TLAC 6-8 pm 总对数活动数6 pm~8 pm 连续变量 268.06(112.36)
X10 TLAC 10 am-12 pm 总对数活动数10 am~12 am 连续变量 362.97(129.89)
X11 Mobility problem

0:No

1:Yes

1 104(0.56)

856(0.44)

X12 DrinksPerWeek 连续变量 1.86(5.03)
X13 SATPsl/nw 从久坐到活动的转变概率 连续变量 0.095(0.032)
X14 TLAC 8-10 am 总对数活动数8 am~10 am 连续变量 305.04(147.99)
X15 TLAC 8-10 pm 总对数活动数8 pm~10 pm 连续变量 171.73(108.17)
X16 DrinkStatus

0:不饮酒

1:中度

2:重度

1011(0.52)

814(0.42)

74(0.04)

X17 TLAC 6-8 am 总对数活动数6 am~8 am 连续变量 133.28(129.85)
X18 Smoking status

0:从不

1:以前

2:现在

883(0.45)

876(0.45)

199(0.1)

X19 CHF 充血性心力衰竭

0: No

1: Yes

1 761(0.90)

179(0.09)

X20 Gender

0: 男性

1: 女性

1 017(0.52)

943(0.48)

X21 Diabetes

0: No

1: Yes

1 528(0.78)

382(0.20)

X22 Cancer

0: No

1: Yes

1 516(0.77)

441(0.23)

X23 BMI 连续变量 27.68(6.26)
X24 CHD 冠心病

0: No

1: Yes

1 706(0.87)

230(0.12)

X25 Stroke

0: No

1: Yes

1 700(0.9)

183(0.1)

X26 Race

0:MexicanAmerican

1:Other Hispanic

2:White

3:Black

327(0.1668)

37(0.0289)

1 257(0.6413)

292(0.1490)

X27 TLAC 12-2 am 总对数活动数12 am~2 am 连续变量 17.52(41.59)
X28 TLAC 10 pm-12 am 总对数活动数10 pm~12 am 连续变量 69.22(80.86)
X29 TLAC 4-6 am 总对数活动数4 am~6 am 连续变量 23.98(58.08)
X30 TLAC 2-4 am 总对数活动数2 am~4 am 连续变量 10.43(32.73)
X31 WT 磨损时间 连续变量 288.99(109.9206)

1.3 预测变量和结果

将NHANES加速度计数器衍生的PA数据,与美国国家死亡率登记处和社会人口统计学因素相结合。将年龄、性别、种族、吸烟状况、饮酒状况、BMI(kg/m2)、行动困难、糖尿病、冠心病、充血性心力衰竭、中风、癌症、收缩压、总胆固醇(mg/dL)和高密度脂蛋白胆固醇(mg/dL)等列为预测变量。如果观测对象有以下任何一个问题:行走400 m困难、爬10层楼梯困难或需要使用任何特殊设备才能行走,都将被定义为行动困难。

在NHANES活动监测中,使用臀部佩戴的ActiGraph AM-7164加速度计数器记录每分钟的活动数据。每个参与者都被要求在NHANES检查后连续7 d佩戴该设备,并在睡觉时和与水相关的活动中取下它。

由于分钟级加速度计数器衍生的PA数据很大,目前的做法是采取汇总措施。基于活动记录仪常用的PA汇总数据包括:总活动计数(TAC)、总对数活动计数(TLAC)和中高强度身体活动(MVPA),其中MVPA定义为每分钟超过2 020次的活动。为了反映日常PA模式的全部复杂性。笔者也考虑了每2小时的总对数活动汇总变量(TLAC 12 am~2 am,TLAC 2 am~4 am,...,TLAC 10 pm~12 am),其中每个变量均为TLAC,但是在相应的时间间隔内计算。笔者还使用了两种活动碎片化的测量方法:从久坐到活动的过渡概率(SATPsl/nw)和从活动到久坐的过渡概率(ASTPsl/nw)。久坐定义为超过2 h没有活动。从NHANES数据相关联的每月死亡率检查中得到每个观测对象的生存结果。

1.4 统计机器学习模型

①LASSO的特点是可以使部分特征的模型系数完全为0,从而达到增加模型的稀疏性和筛选重要特征变量的目

8。能够较好的解决回归分析中的多重共线性问题,并且能够很好的解释结果。②用于生存的随机森林(RF)是一种集合算法,条件生存森林通过训练大量生存树,以表决的形式,从个体树之中加权选举出最终的预测结9。③人工神经网络(ANN),这是一种模拟人脑组织结构进行分布并行信息处理的算法模10。该算法模型具有高度的自适应性,可以用来解决生存概率和协变量之间的非线性关系和协变量之间的交互作用等问题。

1.5 数据处理与模型验证

提取到符合条件的1 950个观测数据后,将所有观测数据按8∶2的比例随机分配到训练队列和测试队列中,训练集包含1 560个观测数据,测试集包括390个观测数据。此外,从训练队列中随机抽取10%的患者组成验证队列,通过与测试队列的比较来验证模型。

1.6 模型实现与参数选择

针对基于比例风险(PH)假设的自适LASSO模型(ALASSO),使用R包“ALassoSurvIC”,“ALassoSurvIC”为具有区间删失和左截删失数据的Cox比例危险模型,提供了惩罚性变量选择工具。主函数alacoxIC通过带有自适应套索惩罚的惩罚性非参数极大似然估计(PNPMLE)执行变量选择。该函数还通过贝叶斯信息准则(BIC)最小化自动找到最佳阈值参数。对于ICcforest使用R包“ICcforest”,“ICcforest”为区间删失生存数据构建条件推断森林模型,它提供了两种寻找mtry(在每次分裂中随机选择的预测因子的数量)的方法。一是基于包外误差估计,另一种方法是设置mtry=p。通过对比发现,后一种方法在模拟数据和真实数据中都具有更好的预测性能。因此,使用mtry=p。对于神经网络生存模型,使用协变量输入的神经网络与一种由伯恩斯坦多项式构造的新型神经网络(BPNet)结合的多神经网络方

11,对于协变量输入的神经网络,超参数包括隐层数、每个隐层的节点数、激活函数的选择、L1惩罚参数、批大小、迭代次数和学习率。对于BPNets,超参数是伯恩斯坦多项式的度。神经网络模型涉及到超参数的选择。对于使用协变量输入的神经网络,使用以下超参数:2个隐藏层,每个隐藏层30个神经元,激活函数使用缩放指数线性单位(SELU),L1惩罚l1=0.5,批大小N=100,进行1 000次迭代,学习率设置为0.002,对于伯恩斯坦多项式构造的神经网络,使用的超参数:伯恩斯坦多项式度mn=3。

1.7 模型评估

为了评估模型的预测性能,选择了适用于有删失数据的综合brier评分(IBS)、预测中位生存时间在(Li,Ri)之外的概率(Pout)和预测中值时间低于Li或高于Ri的绝对距离(dout),作为主要评估指标,采用10折交叉验证模式,并报告了所有 10折中每个指标的平均值。10折交叉验证的优点是,所有观测数据都用于训练和验证。为了进一步评估模型,还绘制了随时间变化的受试者工作特征(ROC)曲线,并计算了曲线下面积(AUC)和准确率作为评估指

12-14。随后,为了解释神经网络生存模型的预测,使用神经网络生存模型,为NHANES数据中每个观测者的预测因子重要性进行度量。数据分析使用了R语言(4.2.2版)和Python(3.7版)。神经网络模型通过Tensorflow和Keras构建。

2 结果

确定1 950例符合条件的观测数据,随机将其中390例分配到测试队列,剩下的1 560例作为训练队列数据。在训练队列数据中,随机抽取156例观测数据作为验证队列数据,使用剩下的1 404例作为训练队列数据。

2.1 基线特征

表1中总结了符合条件的观测对象的人口统计、临床特征以及身体活动监测数据。对于连续变量,采以均数±标准差(x¯±s)进行数据表示。对于二元变量或分类变量,使用每个类别中的研究参与者的数量,和该类别在所有参与者中占百分比[n(%)]进行数据表示。截止到2019年,对于NHANES 2003—2006年的研究对象的全因死亡率为结果,通过单预测逻辑回归中的ROC曲线测量,变量按预测性能递减排序。TAC是排名最高的死亡率预测因子(AUC=0.722),而年龄紧随其后(AUC=0.717)。

2.2 模型预测表现

模型的预测性能见表2。总的来说,在综合考虑各种指标后,建立的深度神经网络生存模型的预测性能优于条件生存森林和自适应LASSO方法。

表2  三种模型预测表现
模型IBSPoutdout
NN-IC 0.152 0.895 4.5
ICcforest 0.209 0.898 4.5
ALASSO 0.243 0.896 5.3

2.2.1 主要结果(Brier评分)

使用多种评价指标来评估区间删失条件下的三种模型的预测性能。对于真实的数据分析,使用集成的Brier评分(IBS

15为主要的评估标准,IBS表示为:

IBS(S^)=1ni=1n1u0u{I(Ti>t|Zi)-S^(t|Zi)}2dt

其中S^是模型预测的生存概率,u是所有观测到的有限的(Li,Ri)中的最大值,对于I(Ti>tΖi),当tLi时,I(Ti>tΖi)=1。当tRi时,I(Ti>tΖi)=0。当Li<t<Ri时,I(Ti>tΖi)=(S(tΖi)-S(RΖi))/(S(LΖi)-S(RΖi)),若Li=0,则I(Ti>tΖi)=(S(tΖi)-S(RΖi))/(1-S(RΖi))。若Ri=,则I(Ti>tΖi)=S(tΖi)/S(LΖi)。本研究对比了深度神经网络模型,条件生存森林和自适应LASSO三种方法在身体活动预测中的预测性能,除Brier评分外,还考虑另外两个评估指标:预测中位生存时间在(Li, Ri)之外的概率(表示为Pout),当预测中值时间超出(Li,Ri)时,预测中值时间低于Li或高于Ri的绝对距离(表示为dout)。这些评价指标越小,说明预测性能越好。三种方法预测表现IBS、Pout和dout表2

表2中,可以看出构建的神经网络模型和ICcforest方法,在dout上的预测表现明显优于ALASSO方法。虽然神经网络方法在Pout上的预测表现和另外两种方法相似,但神经网络方法在Brier评分上的预测表现明显优于另外两种方法。

2.2.2 次要结果(ROC曲线和AUC)

本研究分别计算了训练队列和测试队列数据中ICcforest和深度神经网络模型的ROC曲线和AUC

18,ICcforest在训练队列下的ROC曲线见图1,ICcforest在测试队列下的ROC曲线见图2,深度神经网络模型在训练队列下的ROC曲线见图3,深度神经网络模型在测试队列下的ROC曲线见图4。两个模型在训练集和测试集中的AUC值如下,ICcforest(0.807, 0.769)和深度神经网络模型(0.804, 0.806)。通过对比发现深度神经网络模型的AUC值一般与ICcforest模型相似或高于ICcforest。此外,深度神经网络模型在其他评价指标方面比ICcforest具有优势。

fig

图1  ICcforest在训练队列下的ROC曲线

fig

图2  ICcforest在测试队列下的ROC曲线

fig

图3  深度神经网络模型在训练队列下的ROC曲线

fig

图4  深度神经网络模型在测试队列下的ROC曲线

2.2.3 神经网络的预测解释

对神经网络的预测进行解释是至关重要的。采用LIME(local interpretable model-agnostic explanations)方

16,该方法计算每个受试者中每个预测因子的预测重要性水平。为了解释神经网络生存模型的预测,使用神经网络生存模型为NHANES数据中每个观测者的预测因子重要性进行度量。图5显示了对于每个观测对象的前10个重要的预测因子(通过不同的垂直色带进行可视化),其中每一行代表一个预测因子,每个垂直列代表一个观测对象。其中一些是有负重要性的(红色)或正重要性的(蓝色)。

fig

图5  使用LIME方法表示在数据2的外部集中的顶级预测因子的个性化重要性度量

3 讨论

研究比较了自己构建的神经网络方法与ICcForest和ALASSO两种机器学习模型,对区间删失生存数据的预测价值。通过对NHANES数据库中的2003—2004和2005—2006四年的1 950个观测对象的生存率进行预测,对比多个不同的评价指标,证明了神经网络生存模型在身体活动对生存率的影响的预测中性能最优,并且在内部和外部验证中观察到了一致的结果。

本文的主要贡献是使用了一种新的神经方法,用于区间删失数据分析,和Cox模型简单的假设协变量和生存概率之间的关系是线性的不同,笔者不假设任何函数形式的Cox模型参数分量,同时选择最相关的特征。据研究者所知,随着新的随机森林模型的发展,研究人员克服了传统Cox模型和加速失效风险模型的许多局限

17-18,以对抗生存时间和协变量之间的强烈非线性功能依赖关系。然而,正如在NHANES数据中所看到的,条件生存森林和自适应LASSO方法的性能均比构建的神经网络方法要弱。重要的是,构造的特殊的神经网络结构,可以更好地捕捉生物标记物的表达。

研究者目前的方法已经可以很容易地根据协变量的影响和相互作用来解释了。其中一个关键的挑战是提供一种衡量新预测的不确定性的度量,特别是在医学科学应用中,因为患者进化的相当大的内在不确定性。在这个方向上,由于本研究模型中存在似然方程,因此可以使用共形推理思想的扩展来解决这些科学挑战。最后,另一个主要的研究方向是确定每个被选择的变量的重要性。

参考文献

1

MCGREGOR DE, PALAREA-ALBALADEJO J, DALL PM, et al. Cox regression survival analysis with compositional covariates: application to modelling mortality risk from 24-h physical activity patterns[J]. Stat Methods Med Res, 2020, 29(5): 1447-1465. [百度学术] 

2

SMIRNOVA E, LEROUX A, CAO Q, et al. The predictive performance of objective measures of physical activity derived from accelerometry data for 5-year all-cause mortality in older adults: national health and nutritional examination survey 2003–2006[J]. J Gerontol Ser A, 2020, 75(9): 1779-1785. [百度学术] 

3

田朝霞, 李红梅, 杨佳, . 基于随机森林模型的乳腺癌术后病人复发恐惧影响因素研究[J]. 护理研究, 2023, 37(22): 3997-4002. [百度学术] 

4

林跃玮, 黄永明, 李文乐, . 机器学习和传统列线图预测软骨肉瘤肺转移风险的预测模型的建立与评估[J]. 中国骨与关节杂志, 2022, 11(1): 19-26. [百度学术] 

5

吴静. 基于18F-FDG PET/CT的机器学习对肺结节定性和肺癌预后预测的研究[D]. 长沙: 中南大学, 2022. [百度学术] 

6

RAGHAVAN A, SANDRA S, MADAN KUMAR PD. Application of artificial intelligence in the diagnosis and survival prediction of patients with oral cancer: a systematic review[J]. J Oral Res Rev, 2022, 14(2): 154. [百度学术] 

7

ADEOYE J, HUI L, KOOHI-MOGHADAM M, et al. Comparison of time-to-event machine learning models in predicting oral cavity cancer prognosis[J]. Int J Med Inform, 2022, 157: 104635. [百度学术] 

8

刘晓冰, 刘付蓉, 陈泽宇, . Informed LASSO机器学习方法在心上型完全性肺静脉异位引流术后生存分析中的应用[J]. 中国胸心血管外科临床杂志, 2022, 29(7): 848-853. [百度学术] 

9

ISHWARAN H, KOGALUR UB, BLACKSTONE EH, et al. Random survival forests[J]. Ann Appl Stat, 2008, 2(3): 841860. [百度学术] 

10

张安定. 遥感原理与应用题解[M]. 北京: 科学出版社, 2016. [百度学术] 

11

SUN T, DING Y. Neural network on interval-censored data with application to the prediction of Alzheimer's disease[J]. Biometrics, 2023, 79(3): 2677-2690. [百度学术] 

12

STEYERBERG EW, VICKERS AJ, COOK NR, et al. Assessing the performance of prediction models: a framework for traditional and novel measures[J]. Epidemiology, 2010, 21(1): 128-138. [百度学术] 

13

KAMARUDIN AN, COX T, KOLAMUNNAGE-DONA R. Time-dependent ROC curve analysis in medical research: current methods and applications[J]. BMC Med Res Methodol, 2017, 17(1): 53. [百度学术] 

14

柴婕, 刘香丽, 刘瑞东, . logistic回归结合ROC曲线在乳腺癌中的诊断价值[J]. 河南医学高等专科学校学报, 2023, 35(5): 485-489. [百度学术] 

15

SOFIA T, HEIN P, MARTA F. Measures of discrimination and predictive accuracy for interval censored survival data [D]. Netherland: Leiden University, 2015. [百度学术] 

16

黄艺龙, 秦小林, 陈芋文, . 利用LIME对脓毒症预测模型进行可解释性分析[J]. 计算机应用, 2021, 41(S1): 332-335. [百度学术] 

17

CHO H, JEWELL NP, KOSOROK MR. Interval censored recursive forests[J]. J Comput Graph Stat, 2022, 31(2): 390-402. [百度学术] 

18

吴辰文, 梁靖涵, 王伟, . 基于递归特征消除方法的随机森林算法[J]. 统计与决策, 2017(21): 60-63. [百度学术] 

您是第位访问者
中国医学工程 ® 2025 版权所有
技术支持:北京勤云科技发展有限公司
请使用 Firefox、Chrome、IE10、IE11、360极速模式、搜狗极速模式、QQ极速模式等浏览器,其他浏览器不建议使用!
管理员登录