清华校友立功！谷歌发布首个全科医疗大模型，14 项任务 SOTA

来源：量子位 2023-08-02 12:07:25

全球首个全科医疗大模型正式发布：

由谷歌 Research 和 DeepMind 共同打造的多模态生成模型Med-PaLM M，懂临床语言、懂影像，也懂基因组学。

(资料图)

在 14 项测试任务中，Med-PaLM M 均接近或超过现有 SOTA，前提是所有任务都使用一组相同的模型权重。

而在 246 份真实胸部 X 光片中，临床医生表示，在高达 40.50% 的病例中，Med-PaLM M 生成的报告都要比专业放射科医生的更受采纳，这表明 Med-PaLM M 并非 " 纸上谈兵 "，用于临床指日可待。

对此，谷歌也自己给出了评价：

这是通用医学人工智能史上的一个里程碑。

所以，Med-PaLM M 具体什么来头？

全球首个全科医疗大模型来了

在正式了解 Med-PaLM M 之前，我们先简单介绍谷歌自建的多模态医学测试基准MultiMedBench。

谷歌表示，在 MultiMedBench 之前，市面上缺乏这样一个全面的多模态医学基准。

该基准由 12 个开源数据集和 14 个单独的任务组成，用于测量通用生物医学 AI 执行各种临床任务的能力。

其中 12 个数据集共包含了六种生物医学数据模式（文本、放射学（CT、MRI 和 X 光）、病理学、皮肤病学、乳房 X 光检查和基因组学），14 个任务则涵盖五种类型（问题回答、报告生成和摘要、视觉问题回答、医学图像分类和基因组变体调用）。

Med-PaLM M 就在上面进行了微调。

正如其名 "M" 代表多模态，Med-PaLM M 相比之前谷歌发布的 Med-PaLM、Med-PaLM-2 等医疗大模型，是一个主打全科、通才的医疗 AI，不仅能回答各种医学问题，还能直接看片、懂基因组学。

它的基本架构是 PaLM-E（多模态语言模型），并采用 ViT 预训练模型作为视觉编码器，具体实现了三种组合：

-PaLM 8B+ViT 4B ( PaLM-E 12B )

-PaLM 62B+ViT 22B ( PaLM-E 84B )

-PaLM 540B+ViT 22B ( PaLM-E 562B )

通过 MultiMedBench 对 PaLM-E 模型进行微调，并将其与生物医学领域对齐，Med-PaLM M 得以诞生。以下是一些实现细节：

（1）数据集和预处理方面，将 MultiMedBench 中所有图像大小调整为 224 × 224 × 3，同时按需使用填充来保留原始纵横比。

（2）由于谷歌的目标是训练一个通用的生物医学 AI 模型，使用统一的模型架构和模型参数，用多模式输入执行多个任务。为此，他们为 Med-PaLM M 提供了特定于各种任务的指令以及一个纯文本的 " 一次性示例 "。

如下图所示的胸部 x 光解读和皮肤病变分类任务所示，这些指令有一种写提示语的味道，以 " 你是一个很给力的放射科助理 " 开头。

（3）训练过程中，作者对 PaLM-E 进行了端到端的微调。在多模态任务中，图像标记与文本标记交错，以形成对 PALM-E 模型的多模式上下文输入。对于所有微调任务，多模式上下文输入最多包含 1 个图像，然而 Med-PaLM M 能够在推理过程中处理具有多个图像的输入。

14 项任务接近 or 超 SOTA，临床战胜 40% 放射科医生

性能评估阶段，作者主要测试 Med-PaLM M 的 " 多面手 "（即全科）能力、突发涌现能力以及放射学报告生成质量（与真实放射科医生进行对比）。

结果显示：

（1）与专业 SOTA 模型和无生物医学领域微调的广义模型（PaLM-E 84B）相比，Med-PaLM M 在 MultiMedBench 上的所有任务、数据集和指标组合（共计 14 项）中，性能均基本接近 SOTA 或超过 SOTA。

需要注意的是，该结果是在没有任何特定任务定制的情况下使用相同的模型权重集实现的。

（2）在 scale 实验中，三个不同规模的 Med-PaLM M 对各类任务的影响各不相同：

粗略来看，对于纯语言任务和需要调整的多模式任务来说，模型越大越好；但对图像分类和胸部 X 光报告生成任务来说，84B 的效果比 562B 表现反而更好一些。

（3）零样本思维链推理能力涌现。Med-PaLM M 可以通过胸部 X 射线图像检测没有训练过的结核病，与针对该类数据集进行专门优化过的 SOTA 结果相比，它的准确率已相差不大。不过，它给出的具体报告还是存在具体错误，说明还有不足。（4）放射性报告生成测试中，80B 参数的 Med-PaLM M 平均有 40.50% 的报告比放射科医生做的更好（被临床医生采纳），而 12B 和 562B，分别为 34.05% 和 32.00%。另外，遗漏和错误率测试显示，Med-PaLM M 12B 和 84B 模型平均每份报告的遗漏率最低，为 0.12，其次是 562B 模型为 0.13。这一结果与 MIMIC-CXR 上人类放射科医生基线报告的相当。

多久能实用？

作为人类首个全科医学大模型，Med-PaLM M 多久能投入实用，想必也是大家关心的问题。

虽然它被 " 自诩 " 为里程碑（主要是因为靠一组模型权重在各种生物医学任务上接近或超过 SOTA），但谷歌也指出目前还有不少局限性待解决。

比如缺乏高质量的测试基准。谷歌表示，这是迄今为止通用生物医学人工智能发展的关键瓶颈，因为只有高质量的基准才能在很大程度上促进相关领域的发展。

而目前的 MultiMedBench 还存在单个数据集大小有限以及模式和任务多样性有限（比如缺乏转录组学和蛋白质组学）等问题。

再比如，扩展（scale）多模态 AI 模型也具有挑战性。

在语言领域，这一操作可以显著提高性能和应急能力。然而，谷歌在 Med-PaLM M 上的初步实验表明，由于医学数据的稀缺性，这对于生物医学任务领域的多模态广义模型来说并没有这么简单。

作者介绍

目前，谷歌仅发布了 Med-PaLM M 的论文。

它一共有两位共同一作，其中一位叫 Tao Tu。

他本科毕业于北理工（2010 年），硕士毕业于清华大学，博士为美国哥伦比亚大学，专业都是医学工程。目前已在谷歌担任软件工程师快两年。

论文地址：

https://arxiv.org/abs/2307.14334

上一篇:《西游：笔绘西行》挥墨如花笔灵角色介绍下一篇:最后一页

精彩推送

清华校友立功！谷歌发布首个全科医疗大模型，14 项任务 SOTA

清华校友立功！谷歌发布首个全科医疗大模型，14 项任务 SOTA

《西游：笔绘西行》挥墨如花笔灵角色介绍

直播预告 | 8月3日尚赫益生菌即将上市

郭生白丨三十张方丨天下太平丨四逆散

笔记本开始菜单图标变小了（笔记本开始菜单不见）

南都电源：再生铅产品年产能约65万吨

澳科大团队开发出能预测潜在新冠病毒危险突变株的人工智能模型

上半年国有企业利润总额同比增长5%

为什么打不了视频 为什么打不了字

高龄“母亲”的“孩子”长得更高？

红米note9放声音震动

华为p40pro怎么升级鸿蒙2.0（华为p40pro怎么升级鸿蒙系统）

华为新机子怎么激活

北京多家公园、博物馆恢复开放！

此次强降雨造成河北540703人受灾 因灾死亡9人

「世界说」就业市场紧张、童工法被削弱……美国非法雇佣童工数量激增44%！美媒：旨在保护儿童的制度已崩溃

车e贷一旦逾期就会上征信吗

东胜智慧城市服务：林锐康获委任为首席财务官、公司秘书及授权代表

从“尖刀利刃”到“警队教头” 换一种方式守护初心

山西省晋中市2023-08-01 17:01发布地质灾害黄色预警

东方证券：维持新东方-S“买入”评级 目标价54.2港元

最超值的第二代骁龙8旗舰手机，魅族20系列至高省300元

香榭里社区暑期“希望家园 彩虹行动”职工子女托管班开班

斗罗大陆cos：五位女神公开，森林女王小舞一袭清新的绿色长裙

老马攻略：帕纳辛纳科斯不惧挑战，SK迪尼普需要调整

沧州制造业向“新”而行

乔丹 Air Jordan 1 Low Aquatone 蓝灰紫钩低帮运动鞋

定位高于秦PLUS DM-i？吉利银河L6有望9月上市 高配售价15万以上

新乡市红旗区财政局联合区税务局开展“八一”走访慰问活动

「Silo」完成 3200 万美元 C 轮融资，以帮助食品供应链公司管理财务

2023年枣庄继续调整退休人员基本养老金

河南21支救援队驰援河北！上百名队员携39艘冲锋舟同心抗洪

商务部：适度扩大对无人机的出口管制 不针对任何特定国家和地区

助学圆梦 挚爱左贡— — 一汽丰田“丰尚”公益品牌在行动

山东省防办：别放松警惕！台风“卡努”路径仍有不确定性

2023年中国中学生手球锦标赛在江苏金湖开赛

致高中家长：越老越吃香的4个大学专业，就业容易，越老收入越高

罗马诺：皇家社会希望尽快完成引进A席交易，球员也热衷于转会

锦屏记txt下载微盘（噬天狂颜txt下载微盘）

究竟是谁把商业机密“说”出去了？也许你就是那个泄密者

红米k40充满电后会自动断电吗

金融机构编码在线查询 金融机构编码查询网

谁无法在湖人打完整赛季？美媒评3人名单：拉塞尔在列 两新援入选

上海专家成功断掌再植 被机器铰砸的重伤员获救

【聚焦】遵义全力推动工业经济高质量发展

Mysteel调研：传统淡季下的重庆建筑钢材下游施工及采购调研

毕业季，找工作！新虹街道多举措帮助大学生易就业

《海贼王》大妈篇结束之后，山治和路飞的悬赏金额肯定又要涨了！

【灾后恢复重建 惠安全力以赴】救灾防病 疾控保驾护航

安徽选手夏琦大运会夺金：很高兴能代表家乡参赛

宿迁市洋河新区（关于宿迁市洋河新区介绍）

中金：维持医思健康(02138)“跑赢行业”评级 目标价6港元

全国工商联、中银协发布2023“助微计划”倡议书：共助小微加速回暖复苏

农发行四川渠县支行7.8亿元推动乡村路网项目建设

7月31日金诚石化石脑油价格下调

7月31日 14:13分 华星创业（300025）股价快速拉升

尚未“封神”但已稳稳落地

白银乡提升村级财务监管工作

2023湖南永州市双牌县人力资源和社会局事业单位选调1人公告

和田白玉都有什么料

中炬高新法定代表人变更 何华卸任中炬高新董事长

未来三天陕西大部仍有小雨或阵雨

千元高性能游戏机？疑似荣耀X50 GT入网 支持35W充电

贵州黎平：旧日乡村换新颜

七星关城区这一路段交通管制！

明星刘维登不上母亲微信发文求助 聊天记录删除不能恢复：官方火速回应

“八一”慰问送关怀 浓浓情意暖军心

赛托生物（300583）2023年中报财务简析：营收净利润双双增长，存货大幅上升

不明觉厉！常熟这些“强基工程”，太牛了！

金华学校（关于金华学校的基本详情介绍）

松下zs7gk怎么样（松下zs7论坛）

微信、QQ、微博等多家平台已把帐号改为账号

每天支付宝小鸡庄园答题答案：在天愿做比翼鸟连理枝写的是谁

青春接力，爱在行动！社区里传递起高中生志愿服务接力棒

高质量发展调研行|山东潍坊：“硬核城市”是怎样炼成的

未来7天前有喜事飞进门，贵人相助步步高升，升职在即的3大生肖

紫罗兰翡翠中带黄翡

《石勒》：拨开历史风烟，雕刻鲜活面孔

女同事过生日送什么礼物比较好

为什么打不了视频为什么打不了字

此次强降雨造成河北540703人受灾因灾死亡9人

东方证券：维持新东方-S“买入”评级目标价54.2港元

香榭里社区暑期“希望家园彩虹行动”职工子女托管班开班

定位高于秦PLUS DM-i？吉利银河L6有望9月上市高配售价15万以上

商务部：适度扩大对无人机的出口管制不针对任何特定国家和地区

助学圆梦挚爱左贡— — 一汽丰田“丰尚”公益品牌在行动

金融机构编码在线查询金融机构编码查询网

谁无法在湖人打完整赛季？美媒评3人名单：拉塞尔在列两新援入选

上海专家成功断掌再植被机器铰砸的重伤员获救

【灾后恢复重建惠安全力以赴】救灾防病疾控保驾护航

中金：维持医思健康(02138)“跑赢行业”评级目标价6港元

7月31日 14:13分华星创业（300025）股价快速拉升

中炬高新法定代表人变更何华卸任中炬高新董事长

千元高性能游戏机？疑似荣耀X50 GT入网支持35W充电

明星刘维登不上母亲微信发文求助聊天记录删除不能恢复：官方火速回应

“八一”慰问送关怀浓浓情意暖军心

借物喻理的作文600字初一借物喻理的作文600字

履职尽责守护安全

中央气象台时隔11年发布暴雨红色预警京津冀等地有大到暴雨

“蛙泳之王中国制造”——“新蛙王”覃海洋是怎样炼成的

【探馆成都大运会】打卡“宇宙之门”科幻展感受科幻与艺术的碰撞

他趣怎么更换手机号他趣更换手机号方法

洛克王国墨玉雕琢活动怎么玩墨玉雕琢活动通关攻略[多图]

今日交叉货币分析：澳元/日元保持在93.00以上英镑/日元下跌逼近178.00

广东已有多名歌迷被骗数万元警方提醒不要脱离官方渠道交易

三星Galaxy Z Flip5与Z Fold5发布先行者计划8499元起

高质量发展调研行｜毛乌素沙地深处打造“绿色气田”

崔东树：插混持续走强预计电动车电池装车需求增长持续慢于整车总量增长

欣旺达拟投资19亿元在匈牙利建厂

“防晒+”盛行市场呈现多元化趋势

高二学生单科成绩8分家长质问学校：你们咋教的？

【学思想强党性重实践建新功】省就业服务局：列出清单鼎力服务星火创业项目

轿车内3500元被盗安庆一男子“拉车门”盗窃落网