一夜无眠往往会导致第二天疲惫不堪,但它也可能预示着一些健康问题,而这些问题可能要到很久以后才会出现。斯坦福大学医学院的科学家及其合作者已经开发出一种人工智能系统,它可以检查一个晚上睡眠中的身体信号,并评估一个人罹患 100 多种不同疾病的风险。这个名为 SleepFM 的系统是利用 65,000 人近 600,000 小时的睡眠记录训练出来的。这些记录来自多导睡眠图,这是一种深度睡眠测试,使用多个传感器跟踪睡眠期间的大脑活动、心脏功能、呼吸模式、眼球运动、腿部运动和其他身体信号。
睡眠研究包含尚未开发的健康数据
多导睡眠监测被认为是评估睡眠的黄金标准,通常在实验室中通宵进行。虽然多导睡眠图通常用于诊断睡眠障碍,但研究人员认识到,多导睡眠图还能捕捉到大量尚未得到充分分析的生理信息。”克雷格-雷诺兹睡眠医学教授、发表在《自然-医学》上的这项新研究的共同第一作者 Emmanual Mignot 博士说:”我们在研究睡眠时记录了数量惊人的信号。”我们对一个完全由我们照顾的人进行八个小时的研究,这是一种普通生理学。数据非常广泛”。

教授人工智能睡眠模式
为了从数据中获得洞察力,研究人员开发了一种基础模型,这是一种人工智能,旨在从非常大的数据集中学习一般模式,然后将这些知识应用到许多任务中。大型语言模型(如 ChatGPT)也采用了类似的方法,但它们的训练对象是文本而非生物信号。SleepFM 是在 585,000 个小时的多导睡眠监测数据基础上进行训练的,这些数据来自睡眠诊所的患者。每个睡眠监测片段被分为 5 秒钟的片段,其功能类似于用于训练基于语言的人工智能系统的单词。邹说,SleepFM本质上是在学习睡眠语言。
该模型整合了多种信息流,包括大脑信号、心律、肌肉活动、脉搏测量和呼吸时的气流,并学习这些信号如何相互作用。为了帮助系统理解这些关系,研究人员开发了一种名为 “留空对比学习 “的训练方法。在这种方法中,每次移除一种信号,然后要求模型利用剩余数据进行重建。他们在这项工作中取得的技术创新之一,就是想出了如何协调所有这些不同的数据模式,使它们能够结合在一起,学习同一种语言。
根据睡眠预测未来疾病
训练完成后,研究人员针对特定任务调整了模型。首先,他们在标准睡眠研究中对其进行了测试,如识别睡眠阶段和评估睡眠呼吸暂停的严重程度。在这些测试中,SleepFM 的表现与目前领先的模型不相上下,甚至有过之而无不及。随后,研究小组又提出了一个更宏伟的目标:研究睡眠数据能否预测未来的疾病。为此,他们将多导睡眠图记录与同一人的长期健康结果联系起来。之所以能做到这一点,是因为研究人员可以从一家睡眠诊所获得数十年的医疗记录。
斯坦福睡眠医学中心由已故的威廉-德门特博士于 1970 年创建,他被公认为睡眠医学之父。用于训练 SleepFM 的最大群体包括约 35,000 名 2 至 96 岁的患者。他们的睡眠研究记录于 1999 年至 2024 年期间在该诊所进行,并与一些患者长达 25 年的电子健康记录相匹配。该诊所的多导睡眠图记录可以追溯到更久远的年代,但只有纸质记录。利用这个综合数据集,SleepFM 对 1000 多种疾病类别进行了审查,并确定了 130 种仅根据睡眠数据就能准确预测的疾病。其中,癌症、妊娠并发症、循环系统疾病和精神疾病的预测效果最好,预测值的C指数超过了0.8。
如何衡量预测准确度
C 指数或称一致性指数,衡量的是模型根据个人风险进行排序的能力。它表示模型正确预测两个人中谁会先发生健康事件的频率。”对于所有可能的两对个体,该模型会对谁更有可能更早发生某种事件(如心脏病发作)进行排序。C-index 为 0.8 意味着模型的预测在 80% 的情况下与实际事件相符,”邹解释说。SleepFM在预测帕金森病(C指数为0.89)、痴呆症(0.85)、高血压心脏病(0.84)、心脏病发作(0.81)、前列腺癌(0.89)、乳腺癌(0.87)和死亡(0.84)方面表现尤为突出。
研究人员惊喜地发现,该模型可以对多种不同疾病做出有意义的预测。邹还指出,准确度较低的模型(通常C指数在0.7左右)已经被用于医疗实践,例如作为预测病人对某些癌症治疗可能产生的反应的工具。
了解人工智能看到了什么
研究人员目前正在努力改进 SleepFM 的预测,并更好地理解该系统是如何得出结论的。未来的版本可能会纳入来自可穿戴设备的数据,以扩大生理信号的范围。”它无法用语言向我们解释,”邹说。”但我们已经开发出了各种解释技术,以弄清模型在做出特定疾病预测时所关注的是什么”。
研究小组发现,虽然与心脏有关的信号对预测心血管疾病的影响更大,而与大脑有关的信号对预测心理健康的作用更大,但综合所有类型的数据得出的结果最为准确。”米尼奥特说:”我们获得的大部分疾病预测信息都来自于对不同通道的比较。不同步的生理成分–比如大脑处于睡眠状态,而心脏处于清醒状态–似乎预示着问题。生物医学数据科学博士生拉胡尔-塔帕(Rahul Thapa)和丹麦科技大学博士生马格努斯-鲁德-克亚尔(Magnus Ruud Kjaer)是这项研究的共同作者。丹麦科技大学、哥本哈根大学医院、BioSerenity、哥本哈根大学和哈佛大学医学院的研究人员为这项研究做出了贡献。







