EHR 数据的两条路:从联邦学习到大语言模型
技术、隐私与合规, 以及一个无业游民的期待
ChatGPT Health 和 Claude in Healthcare
2026 年 1 月 7 日,OpenAI 推出了 ChatGPT Health 功能,让用户可以阅读并理解自己的电子健康档案(Electronic Health Record, EHR)。这看似只是 OpenAI 对业务线的一次扩展,但紧接着在 1 月 11 日,Anthropic 也宣布推出基于 Claude 模型的 Healthcare and Life Sciences 功能。这两家顶级模型厂商几乎同时进入医疗数据领域,而他们触碰到的恰好是过去几年医疗学术领域比较火热的课题之一:如何利用真实世界数据(Real-World Data, RWD)提升医疗研发(Research & Development, R&D),特别是如何处理基于 EHR 的医疗信息,以及如何在隐私约束下开展联邦学习。
EHR 的结构与我们熟悉的消费级健康数据完全不同。一次常规体检可能包含血压、心率曲线、血常规结果、心电图以及影像描述。这类数据没有精致的图表,也不会自动解释意义,只给出一个数值和合理区间:120/80 的血压、72 bpm 的心率、白细胞 6.5×10⁹/L 的血常规,看似井井有条,却无法回答一个最重要的问题:这到底意味着什么?要理解这些指标之间的关系、严重程度或潜在风险,通常需要具备医学背景的人。
与此同时,在过去几年的消费端,可穿戴设备也完成了从计步玩具到生理健康检测终端的转变。特别是各式各样的智能手表(Apple Watch、Garmin),智能手环(Whoop),智能戒指(Oura Ring),从简单记录步数,发展到分析心率、睡眠、心率变异性和运动状态。 同样发展起来的还有各种医疗设备,比如雅培的动态血糖监测仪,它可以提供长时间的实时血糖数据曲线;在最新的 Apple Watch 系统中,甚至加入了血压趋势预测功能(高血压通知); 此外还有各种智能设备,比如体重仪能帮你分析你的体脂率、BMI、骨盐、蛋白质和水分含量等推算指标。虽然有些数据未经过 FDA 认证,绝大多数也是靠模型的推测,虽然这个精度并不如医疗器械那么准确,但这类功能确实标志着个人健康数据正在以前所未有的密度和速度被生产出来。
所以当我看到 ChatGPT Health 发布的时候,第一反应其实是开心的。一方面是是因为我自己就需要这种工具来帮我理解和分析自己的健康数据(又不得不吐槽一下英国的 NHS 了,毕竟在英国生活五年,我真正去到 GP 并见到医生的次数一共只有三次,绝大多数时候都是自己在 Google 上看病)。另一方面,当两家顶级科技公司同时加码医疗数据方向时,往往意味着后面有可能会出现一波热潮和潜在的就业机会。也许在未来几年,甚至就在 2026 年,这会变成一种相对主流的研究方向和产业路线,带来一批新的岗位和项目。
NLP 和 Statistics
这也让我重新想到 2021 年申请博士的那段经历。最开始我和布里斯托大学的一位教授套瓷,研究方向是 biomedical knowledge discovery and triangulation using natural language processing,本质上是用 NLP 从生物医学文献中抽取知识,识别并量化风险因素、中间表型与疾病结局之间的关系。那时没有 ChatGPT,也没有大语言模型,所谓 NLP 主要停留在 NLTK、词袋模型和早期 Google BERT 上,知识抽取、语义推理与关系识别都需要大量的标注和手工规则。后来教授因为没有经费只能招自费博士,而我无法自费,这条路也就不了了之了。
再往后我遇到了现在的导师,做的依然是医疗数据处理,只不过是用纯统计的方法来处理基于 EHR 的 Multimorbidity 数据来进行聚类分析。我们用贝叶斯非参数方法,在EHR 中识别疾病共存的模式和结构,并完成对结果的不确定性量化。最开始那段时间我对这个研究课题是真的很感兴趣,也确实花了很多精力在读文献和实验上(但做到现在早已没了热情)。
博士第一年的时候,我经常对比统计学与机器学习在生物医疗领域的应用。统计学在医疗研究中已有悠久的历史,其理论基础和可解释性都较为成熟。而机器学习则展现出了革命性的潜力,像 AlphaFold 这样具有突破性的成果让人看到了非常巨大的应用前景,但机器学习模型在原理和可解释性方面依然是个 Black Box。虽然机器学习在医疗图像领域在过去十年确实积累了大量成果,MRI、CT 和病理切片分析在计算机视觉方向(CV)有成熟的模型、稳定的 benchmark 和明确的标注体系,做出来的成果也颇为很漂亮;但如果回到自然语言处理(NLP)这条线,当时缺乏完善的评估体系,相关研究也在陷入瓶颈期,几乎看不到能直接落地的医疗应用,更多是学术圈的自嗨(仅代表个人观点)。所以这也让我一直有个挥之不去的疑问:用机器学习,特别是自然语言处理来辅助临床诊疗,真的可靠吗?
NLP在医疗数据方面发展缓慢,在当时看来主要有多个原因,但最重要的还是数据规模、质量和可用性,尤其是涉及到隐私保护的问题。机器学习模型要靠数据来训练,数据要进入模型,模型要通过大规模学习来提取特征和规律。而医疗自然语言信息中包含大量敏感隐私数据,无论在监管审批还是伦理层面都面临严格限制。而统计模型在处理医疗数据的方式恰好相反。统计建模通常基于数据结构与变量关系来构建模型框架,然后将模型拟合到数据上,最终输出参数估计、置信区间或概率分布。换句话说,模型结构是先验设定的,数据的作用是估计参数,而非塑造模型本身。这意味着传统统计模型中,模型结构通常基于领域知识先验设定,数据主要用于参数估计和假设检验;而深度学习则通过大规模数据端到端地学习表征和决策规则。这样做有两个好处:第一,医疗数据仅用于估计预定义模型的参数,不会被用于训练多任务的通用大模型;第二,数据的作用是在数学假设之下优化参数,推断过程透明可审计,而不是流入一个Black Box 式的计算体系。对于医疗这种高度敏感且结构化的领域来说,这种路径天然符合监管逻辑。
这也解释了为什么在处理 RWD 上的研究者会如此重视隐私与合规。EHR 数据分散在不同机构和医院,很难形成 centralized 数据库,于是我们引入类似 federated learning 的框架,在不移动原始数据的前提下,通过分布式计算交换特征信息和模型参数来完成全局建模。这条路线严格对齐了监管机构对数据保护要求,也符合政府对敏感健康数据的最小可用原则。从我个人的角度看,这不仅是一条技术路线,更是一条价值路线:医疗数据的隐私保护本身就是底线,而不是一个可以从商业上被牺牲的变量。
但当我们转而谈到用 LLMs 来“理解医疗数据”时,路线似乎突然拐回了另一条轨道:将数据(即便经过脱敏处理)交给一个通用模型,再由模型给出解释或建议。对于科技公司和个人用户这似乎解决了很多问题和需求,缓解了医疗资源不足的问题,并且伴随着日益丰富的个人健康数据,个性化医疗和精准医疗也变得更加可能。但是对于药企、生物制药或临床试验这样的严肃场景,统计师需要基于数据给出严格且可追责的结论报告,并通过人工复核与FDA监管审查。在这样的语境下,完全依赖大语言模型处理敏感医疗数据仍有多个难以绕开的风险:hallucination、prompt injection导致的信息泄露,以及模型的可解释性与可追责性问题。这些问题并不足以支撑一个严肃的监管体系,更无法形成负责任的医疗合规。
从这个角度看,科技公司在医疗场景上大举押注 LLMs,未必能直接改善我这种想做严肃医疗统计、又在意隐私与合规的人的处境。甚至某种程度上,它可能是一条商业上很好讲故事,但在监管和责任边界上仍然高度不确定的道路。
一个无业游民的期待
话说回来,理性分析归理性分析,现实是我现在就要毕业了,现实是我现在连一个稳定的工作都没有,之前的生物统计师岗位终面后等了2周还在 Pending,大概率是也没拿下,又一次回到了 0 offer 的状态。所以我对这个领域的态度难免有些矛盾:一方面会本能地质疑仅靠 LLMs 处理医疗数据是不是一条靠谱的路线;另一方面,又真心希望这波 AI + 医疗的浪潮,哪怕在泡沫之外,也能催生一些扎实的项目和岗位。如果最终能顺便多创造几个像我这样背景的人的工作机会,那当然更好了。
Published on 12 January 2026