摘要
目的
基于身体活动数据预测每个观测对象的生存概率。
方法
从美国国家健康与营养调查(NHANES)数据库中提取NHANES 2003—2006年不同对象的身体活动监测数据。通过综合Brier评分、受试者工作特征(ROC)曲线及曲线下面积(AUC)等多种评价指标来评价模型的预测性能,比较了条件生存森林、自适应LASSO、深度学习生存模型等三种生存分析模型的预测性能。
结果
本研究所建立的深度学习生存模型的预测性能优于其他两个模型。同时,本研究还分析了各项身体活动变量在深度学习生存模型中的重要性,其中年龄和总活动计数对人的身体影响最大,在内部和外部验证中均观察到类似的结果。
结论
深度神经网络生存模型可以作为预测身体活动对身体影响的有效工具。
身体活动减少是人衰老的一个重要标志。可穿戴技术提供了身体活动的频率、持续时间、强度和时间的可靠测量。在美国国家健康与营养调查(NHANES)数据库中,提供了加速测量法衍生的大量身体数据和全因死亡数据。本文使用NHANES 2003—2006年的身体活动数据与美国国家死亡率登记数据相结合,因此数据包含了每月的死亡率检查数据。现有的一些论文也利用这些数据进行了生存分析,但都仅从传统Cox模型的线性角度进行了分
目前,一些研究表明,机器学习技术(MLT)能够模拟临床特征与生存结果之间的线性和非线性关系,并通过迭代方法提高预测性能。包括条件生存森林(ICcforest)、自适应LASSO(ALASSO)、神经网络生存模型在内的多模型技术已被成功应用于解决临床分析中复杂的预后判定问
因此,本研究建立了一种深度神经网络生存模型,并将其与两种最常用的统计回归生存分析算法,条件生存森林和自适应LASSO回归模型进行比较。此外,还分析了最佳预测模型中所有变量的重要性。
1 资料与方法
1.1 数据来源
研究数据来自于NHANES数据库,NHANES是由美国国家卫生统计中心(NCHS)开展的一个广泛的重大项目,是一项基于人群的横断面调查,旨在收集有关美国家庭人口健康和营养的信息。项目每年调查一个全国代表性的样本。主要目标是长期监测美国人口的生活方式,例如,确定在糖尿病等常见的疾病中危险因素的流行程度。NHANES数据可从疾病控制中心(CDC,https://www.cdc.gov/nchs/nhanes/index.htm)公开获得,NHANES访谈部分包括人口统计学、社会经济学、饮食和健康相关问题。体检部分包括生理测量、实验室检查等内容。登记的变量包括每个人的表型和环境暴露信息等。一个特定的NHANES数据库中的加速度测量身体活动(PA)数据,可以从“Examination Data”标签下的“Physical Activity Monitor”子类别中下载。
1.2 研究对象选择与研究设计
NHANES 2003—2004年和2005—2006年研究的加速度测量数据,共有14 631名参与者。在本次研究中,排除了缺失体重指数(BMI)、加速度测量数据少于3 d并且估计磨损时间至少10 h、被NHANES认为数据质量不佳、死亡率信息缺失和缺失收缩压、总脂蛋白或高密度脂蛋白(HDL)胆固醇测量值的参与者。在这项工作中,使用年龄在65~85岁之间的1 950例观测对象的一个子集进行研究。分析的主要目的是通过与条件生存森林和自适应LASSO进行比较,评估构建的深度学习生存模型的有效性。为此,将样本按4∶1的比例,随机分割为训练队列和测试队列,并与
变量 | NHANES 编码 | 变量描述 | 变量类型 | ()/[(%)] |
---|---|---|---|---|
X1 | TAC | 总活动数 | 连续变量 | 155 578.5(94 233.9) |
X2 | RIDAGEMN | 参与监测时的年龄 | 连续变量 | 74.7(6.55) |
X3 | MVPA | 中高度剧烈身体活动 | 连续变量 | 8.04(12.5) |
X4 | ASTPsl/nw | 从活动到久坐的转变概率 | 连续变量 | 0.081(0.052) |
X5 | ST | 久坐时间 | 连续变量 | 894.64(133.96) |
X6 | TLAC 12-2 pm | 总对数活动数12 pm~2 pm | 连续变量 | 353.56(118.81) |
X7 | TLAC 4-6 pm | 总对数活动数4 pm~6 pm | 连续变量 | 326.28(115.17) |
X8 | TLAC 2-4 pm | 总对数活动数2 pm~4 pm | 连续变量 | 338.73(119.06) |
X9 | TLAC 6-8 pm | 总对数活动数6 pm~8 pm | 连续变量 | 268.06(112.36) |
X10 | TLAC 10 am-12 pm | 总对数活动数10 am~12 am | 连续变量 | 362.97(129.89) |
X11 | Mobility problem |
0:No 1:Yes |
1 104(0.56) 856(0.44) | |
X12 | DrinksPerWeek | 连续变量 | 1.86(5.03) | |
X13 | SATPsl/nw | 从久坐到活动的转变概率 | 连续变量 | 0.095(0.032) |
X14 | TLAC 8-10 am | 总对数活动数8 am~10 am | 连续变量 | 305.04(147.99) |
X15 | TLAC 8-10 pm | 总对数活动数8 pm~10 pm | 连续变量 | 171.73(108.17) |
X16 | DrinkStatus |
0:不饮酒 1:中度 2:重度 |
1011(0.52) 814(0.42) 74(0.04) | |
X17 | TLAC 6-8 am | 总对数活动数6 am~8 am | 连续变量 | 133.28(129.85) |
X18 | Smoking status |
0:从不 1:以前 2:现在 |
883(0.45) 876(0.45) 199(0.1) | |
X19 | CHF | 充血性心力衰竭 |
0: No 1: Yes |
1 761(0.90) 179(0.09) |
X20 | Gender |
0: 男性 1: 女性 |
1 017(0.52) 943(0.48) | |
X21 | Diabetes |
0: No 1: Yes |
1 528(0.78) 382(0.20) | |
X22 | Cancer |
0: No 1: Yes |
1 516(0.77) 441(0.23) | |
X23 | BMI | 连续变量 | 27.68(6.26) | |
X24 | CHD | 冠心病 |
0: No 1: Yes |
1 706(0.87) 230(0.12) |
X25 | Stroke |
0: No 1: Yes |
1 700(0.9) 183(0.1) | |
X26 | Race |
0:MexicanAmerican 1:Other Hispanic 2:White 3:Black |
327(0.1668) 37(0.0289) 1 257(0.6413) 292(0.1490) | |
X27 | TLAC 12-2 am | 总对数活动数12 am~2 am | 连续变量 | 17.52(41.59) |
X28 | TLAC 10 pm-12 am | 总对数活动数10 pm~12 am | 连续变量 | 69.22(80.86) |
X29 | TLAC 4-6 am | 总对数活动数4 am~6 am | 连续变量 | 23.98(58.08) |
X30 | TLAC 2-4 am | 总对数活动数2 am~4 am | 连续变量 | 10.43(32.73) |
X31 | WT | 磨损时间 | 连续变量 | 288.99(109.9206) |
1.3 预测变量和结果
将NHANES加速度计数器衍生的PA数据,与美国国家死亡率登记处和社会人口统计学因素相结合。将年龄、性别、种族、吸烟状况、饮酒状况、BMI(kg/
在NHANES活动监测中,使用臀部佩戴的ActiGraph AM-7164加速度计数器记录每分钟的活动数据。每个参与者都被要求在NHANES检查后连续7 d佩戴该设备,并在睡觉时和与水相关的活动中取下它。
由于分钟级加速度计数器衍生的PA数据很大,目前的做法是采取汇总措施。基于活动记录仪常用的PA汇总数据包括:总活动计数(TAC)、总对数活动计数(TLAC)和中高强度身体活动(MVPA),其中MVPA定义为每分钟超过2 020次的活动。为了反映日常PA模式的全部复杂性。笔者也考虑了每2小时的总对数活动汇总变量(TLAC 12 am~2 am,TLAC 2 am~4 am,...,TLAC 10 pm~12 am),其中每个变量均为TLAC,但是在相应的时间间隔内计算。笔者还使用了两种活动碎片化的测量方法:从久坐到活动的过渡概率(SATPsl/nw)和从活动到久坐的过渡概率(ASTPsl/nw)。久坐定义为超过2 h没有活动。从NHANES数据相关联的每月死亡率检查中得到每个观测对象的生存结果。
1.4 统计机器学习模型
①LASSO的特点是可以使部分特征的模型系数完全为0,从而达到增加模型的稀疏性和筛选重要特征变量的目
1.5 数据处理与模型验证
提取到符合条件的1 950个观测数据后,将所有观测数据按8∶2的比例随机分配到训练队列和测试队列中,训练集包含1 560个观测数据,测试集包括390个观测数据。此外,从训练队列中随机抽取10%的患者组成验证队列,通过与测试队列的比较来验证模型。
1.6 模型实现与参数选择
针对基于比例风险(PH)假设的自适LASSO模型(ALASSO),使用R包“ALassoSurvIC”,“ALassoSurvIC”为具有区间删失和左截删失数据的Cox比例危险模型,提供了惩罚性变量选择工具。主函数alacoxIC通过带有自适应套索惩罚的惩罚性非参数极大似然估计(PNPMLE)执行变量选择。该函数还通过贝叶斯信息准则(BIC)最小化自动找到最佳阈值参数。对于ICcforest使用R包“ICcforest”,“ICcforest”为区间删失生存数据构建条件推断森林模型,它提供了两种寻找mtry(在每次分裂中随机选择的预测因子的数量)的方法。一是基于包外误差估计,另一种方法是设置mtry=。通过对比发现,后一种方法在模拟数据和真实数据中都具有更好的预测性能。因此,使用mtry=。对于神经网络生存模型,使用协变量输入的神经网络与一种由伯恩斯坦多项式构造的新型神经网络(BPNet)结合的多神经网络方
1.7 模型评估
为了评估模型的预测性能,选择了适用于有删失数据的综合brier评分(IBS)、预测中位生存时间在(Li,Ri)之外的概率(Pout)和预测中值时间低于Li或高于Ri的绝对距离(dout),作为主要评估指标,采用10折交叉验证模式,并报告了所有 10折中每个指标的平均值。10折交叉验证的优点是,所有观测数据都用于训练和验证。为了进一步评估模型,还绘制了随时间变化的受试者工作特征(ROC)曲线,并计算了曲线下面积(AUC)和准确率作为评估指
2 结果
确定1 950例符合条件的观测数据,随机将其中390例分配到测试队列,剩下的1 560例作为训练队列数据。在训练队列数据中,随机抽取156例观测数据作为验证队列数据,使用剩下的1 404例作为训练队列数据。
2.1 基线特征
在
2.2 模型预测表现
模型的预测性能见
模型 | IBS | Pout | dout |
---|---|---|---|
NN-IC | 0.152 | 0.895 | 4.5 |
ICcforest | 0.209 | 0.898 | 4.5 |
ALASSO | 0.243 | 0.896 | 5.3 |
2.2.1 主要结果(Brier评分)
使用多种评价指标来评估区间删失条件下的三种模型的预测性能。对于真实的数据分析,使用集成的Brier评分(IBS
其中是模型预测的生存概率,是所有观测到的有限的中的最大值,对于,当时,。当时,。当时,,若,则。若,则。本研究对比了深度神经网络模型,条件生存森林和自适应LASSO三种方法在身体活动预测中的预测性能,除Brier评分外,还考虑另外两个评估指标:预测中位生存时间在之外的概率(表示为Pout),当预测中值时间超出时,预测中值时间低于Li或高于Ri的绝对距离(表示为dout)。这些评价指标越小,说明预测性能越好。三种方法预测表现IBS、Pout和dout见
从
2.2.2 次要结果(ROC曲线和AUC)
本研究分别计算了训练队列和测试队列数据中ICcforest和深度神经网络模型的ROC曲线和AU

图1 ICcforest在训练队列下的ROC曲线

图2 ICcforest在测试队列下的ROC曲线

图3 深度神经网络模型在训练队列下的ROC曲线

图4 深度神经网络模型在测试队列下的ROC曲线
2.2.3 神经网络的预测解释
对神经网络的预测进行解释是至关重要的。采用LIME(local interpretable model-agnostic explanations)方

图5 使用LIME方法表示在数据2的外部集中的顶级预测因子的个性化重要性度量
3 讨论
研究比较了自己构建的神经网络方法与ICcForest和ALASSO两种机器学习模型,对区间删失生存数据的预测价值。通过对NHANES数据库中的2003—2004和2005—2006四年的1 950个观测对象的生存率进行预测,对比多个不同的评价指标,证明了神经网络生存模型在身体活动对生存率的影响的预测中性能最优,并且在内部和外部验证中观察到了一致的结果。
本文的主要贡献是使用了一种新的神经方法,用于区间删失数据分析,和Cox模型简单的假设协变量和生存概率之间的关系是线性的不同,笔者不假设任何函数形式的Cox模型参数分量,同时选择最相关的特征。据研究者所知,随着新的随机森林模型的发展,研究人员克服了传统Cox模型和加速失效风险模型的许多局限
研究者目前的方法已经可以很容易地根据协变量的影响和相互作用来解释了。其中一个关键的挑战是提供一种衡量新预测的不确定性的度量,特别是在医学科学应用中,因为患者进化的相当大的内在不确定性。在这个方向上,由于本研究模型中存在似然方程,因此可以使用共形推理思想的扩展来解决这些科学挑战。最后,另一个主要的研究方向是确定每个被选择的变量的重要性。
参考文献
MCGREGOR DE, PALAREA-ALBALADEJO J, DALL PM, et al. Cox regression survival analysis with compositional covariates: application to modelling mortality risk from 24-h physical activity patterns[J]. Stat Methods Med Res, 2020, 29(5): 1447-1465. [百度学术]
SMIRNOVA E, LEROUX A, CAO Q, et al. The predictive performance of objective measures of physical activity derived from accelerometry data for 5-year all-cause mortality in older adults: national health and nutritional examination survey 2003–2006[J]. J Gerontol Ser A, 2020, 75(9): 1779-1785. [百度学术]
田朝霞, 李红梅, 杨佳, 等. 基于随机森林模型的乳腺癌术后病人复发恐惧影响因素研究[J]. 护理研究, 2023, 37(22): 3997-4002. [百度学术]
林跃玮, 黄永明, 李文乐, 等. 机器学习和传统列线图预测软骨肉瘤肺转移风险的预测模型的建立与评估[J]. 中国骨与关节杂志, 2022, 11(1): 19-26. [百度学术]
吴静. 基于18F-FDG PET/CT的机器学习对肺结节定性和肺癌预后预测的研究[D]. 长沙: 中南大学, 2022. [百度学术]
RAGHAVAN A, SANDRA S, MADAN KUMAR PD. Application of artificial intelligence in the diagnosis and survival prediction of patients with oral cancer: a systematic review[J]. J Oral Res Rev, 2022, 14(2): 154. [百度学术]
ADEOYE J, HUI L, KOOHI-MOGHADAM M, et al. Comparison of time-to-event machine learning models in predicting oral cavity cancer prognosis[J]. Int J Med Inform, 2022, 157: 104635. [百度学术]
刘晓冰, 刘付蓉, 陈泽宇, 等. Informed LASSO机器学习方法在心上型完全性肺静脉异位引流术后生存分析中的应用[J]. 中国胸心血管外科临床杂志, 2022, 29(7): 848-853. [百度学术]
ISHWARAN H, KOGALUR UB, BLACKSTONE EH, et al. Random survival forests[J]. Ann Appl Stat, 2008, 2(3): 841–860. [百度学术]
张安定. 遥感原理与应用题解[M]. 北京: 科学出版社, 2016. [百度学术]
SUN T, DING Y. Neural network on interval-censored data with application to the prediction of Alzheimer's disease[J]. Biometrics, 2023, 79(3): 2677-2690. [百度学术]
STEYERBERG EW, VICKERS AJ, COOK NR, et al. Assessing the performance of prediction models: a framework for traditional and novel measures[J]. Epidemiology, 2010, 21(1): 128-138. [百度学术]
KAMARUDIN AN, COX T, KOLAMUNNAGE-DONA R. Time-dependent ROC curve analysis in medical research: current methods and applications[J]. BMC Med Res Methodol, 2017, 17(1): 53. [百度学术]
柴婕, 刘香丽, 刘瑞东, 等. logistic回归结合ROC曲线在乳腺癌中的诊断价值[J]. 河南医学高等专科学校学报, 2023, 35(5): 485-489. [百度学术]
SOFIA T, HEIN P, MARTA F. Measures of discrimination and predictive accuracy for interval censored survival data [D]. Netherland: Leiden University, 2015. [百度学术]
黄艺龙, 秦小林, 陈芋文, 等. 利用LIME对脓毒症预测模型进行可解释性分析[J]. 计算机应用, 2021, 41(S1): 332-335. [百度学术]
CHO H, JEWELL NP, KOSOROK MR. Interval censored recursive forests[J]. J Comput Graph Stat, 2022, 31(2): 390-402. [百度学术]
吴辰文, 梁靖涵, 王伟, 等. 基于递归特征消除方法的随机森林算法[J]. 统计与决策, 2017(21): 60-63. [百度学术]