ETH苏黎世联合多机构研究团队打造"AI放射科医生助手"

这项由苏黎世联邦理工学院生物系统科学与工程系、ETH AI中心、苏黎世联邦理工学院计算机系、海德堡大学、斯坦福大学医学人工智能与影像中心、斯坦福大学放射科、苏黎世大学定量生物医学系以及苏黎世应用科学大学计算机科学系联合开展的研究，�𻂌�日以预印本形式发布，论文编号为arXiv:2604.15231v1。感兴趣的读者可以通过该编号在arXiv平台查阅完整论文。

一、当AI读CT片变成一个"黑箱"，医生如何信任它？

每天，全球的放射科医生都要对着厚厚的CT扫描图像逐层分析，一份胸部CT往往包含数百张切面图像，光是看完就需要相当的时间和精力。正因如此，用人工智能来辅助、甚至自动生成影像报告的呼声越来越高，而近年来涌现出的各种三维视觉-语言模型（可以理解为"能看𽆗D医学图像并用文字描述的AI"）也确实展现出了不错的性能。

然而，一个根本问题始终悬而未决：AI给出了一份诊断报告，但医生完全不知道它是怎么得出这个结论的。就好比你雇了一位新来的助手，他每天递给你一份分析报告，但从来不解释他是怎么查的、看了哪些资料、经过了怎样的推理——你敢直接签字吗？在涉及生命健康的医学诊断领域，这种"黑箱"式的AI输出是一个相当严重的问题。医生无法审查推理过程，无法验证证据来源，也无法在AI犯错时及时发现并纠正。

正是为了解决这个核心矛盾，来自多所顶尖机构的研究团队开发了RadAgent——一个能够"边查边说、有据可查"的AI放射科助手。它不是简单地读完CT图像然后吐出一份报告，而是像一位认真的住院医生一样，按照规范的诊断清单逐项核查，调用各种专业分析工具，把每一步的思考和发现都记录下来，最终综合所有证据给出报告。整个过程透明、可追溯，医生可以打开"查阅记录"，看清楚每一个诊断结论是如何一步一步推导出来的。

二、一位会使用工具的"住院医生"：RadAgent是怎么工作的？

理解RadAgent的工作方式，可以把它想成一位刚上岗的住院医生，配备了十种专业检查仪器，手边有一份标准的胸部CT诊断核查清单，还有一本随时记录临时发现的工作日志。

整个诊断流程分几个阶段展开。接到任务后，这位"住院医生"会先调用一个叫CT-Chat的工具，它是一个专门𰹇D CT图像设计的视觉-语言模型，负责快速浏览整个CT体积并生成一份初步报告草稿，就像住院医生先快速浏览一遍片子，形成初步印象。有了这份草稿之后，RadAgent并不就此停步，而是翻开诊断核查清单，开始逐项审查。

这份核查清单由研究团队中的放射科医生设计，涵盖了胸部CT必须检查的九大类别，包括气道（气管的位置、管径、壁厚，以及主支气管、支气管扩张等情况）、肺实质（肺结节、肿块、局灶性异常，以及磨玻璃影、实变等弥漫性改变）、胸膜（积液、气胸、胸膜增厚）、心脏（心包积液、冠状动脉、心腔）、心血管和纵隔（主动脉、肺动脉、纵隔淋巴结等）、膈肌和上腹部脏器、脊柱和骨骼、胸壁、以及体内医疗器械（导管、起搏器、手术夹等）。

在逐项核查的过程中，RadAgent会根据当前需要判断该调用哪种工具，向工具提出具体的诊断问题，接收工具的回答，将新的发现记录到"工作日志"（也就是系统中的暂存区，论文里称之为scratchpad），并据此更新自己的临时诊断清单。如果不同工具给出了矛盾的结果，它还会继续调用更多工具来协调和仲裁，直到形成一个没有矛盾的共识。最终，当它认为已经收集了足够充分的证据，便将工作日志中的所有发现综合整理，生成最终诊断报告。

这个循环迭代的工作方式在计算机科学中有个专业名称叫"ReAct模式"（推理与行动相结合），但对普通人来说，只需要理解它的本质：不是一次性地"看了就说"，而是"看了想一想、查一查、再想一想、再查一查"，直到有把握了才给出结论。

三、十件专业仪器：RadAgent的工具箱里都有什么？

如果说RadAgent是那位住院医生，那么它手边的工具箱就是这套系统真正的"硬件支撑"。研究团队为RadAgent配备了十种专业工具，每种工具都有自己的专长。

第一类是视觉问答工具，𳐿D𴵺D两种。3D视觉问答工具（ct_vqa）基于CT-Chat模型，可以接收整个CT体积和一个自然语言问题，比如"肺部有没有结节？"然后给出文字回答。这就像你可以对助手说"帮我看看这个病人的整个CT里有没有胸腔积液"，助手能直接看完整𰶧D数据集后告诉你。2D视觉问答工具（slice_vqa）则基于谷歌的Gemma-3-27B模型，它不能直接处񈠿D数据，需要先从CT中提取𳏆D切面图像，然后对这些切面进行问答。它就像一位专门看单张X光片的专家，看不了立体数据，但对切面图像的理解能力非常强。

第二类是疾病分类工具（disease_classifier），基于CT-CLIP模型。这个工具会把整个CT体积扫描一遍，直接输�种常见胸部疾病的概率估计，包括心脏扩大、胸腔积液、肺气肿、肺实变、支气管扩张等。它更像一个"筛查仪器"，快速告诉你哪些病值得重点关注。

第三类是报告生成工具（report_generation），同样基于CT-Chat模型，专门负责根据CT图像生成完整的文字报告草稿。它是RadAgent在开始核查之前调用的第一个工具，相当于先起草一份初稿。

第四类是分割工具，分两种。解剖结构分割工具（anatomy_segmentation）基于TotalSegmentator，能够识别并标记出CT中的特定解剖结构，比如肝脏、脾脏、肾脏、肺叶、心脏、主动脉等，生成对应的三维掩码图像。积液分割工具（effusion_segmentation）则专门用于识别胸腔积液和心包积液，生成两个独立的分割结果，可以直接用于可视化或进一步分析。

第五类是切面选择工具，共三种。最大切面选择工具（biggest_slice_selection）接收CT和对应的分割掩码，找出每个病变区域中面积最大的轴位切面，也就是异常最明显的那一层。多切面选择工具（get_several_slices_from_segmentation）则能在每个病变区域中均匀提取若干张（默񗑫张）切面，捕捉病变的全貌。直接切面提取工具（extract_slices_from_ct）不需要分割掩码，直接从CT中均匀提取若干张切面（默񗑭张轴位、冠位或矢状位），适合在没有预先分割结果时快速获取概览图像。

第六类是窗宽窗位调整工具（windowing）。CT图像在不同的"窗口设置"下会呈现出截然不同的内容——肺窗下肺部纹理清晰，骨窗下骨骼细节突出，腹部窗下软组织对比度更好，纵隔窗下心脏和大血管轮廓分明。这个工具支持这四种常用预设，可以处理完整񊄫D CT体积，也可以处理已经提取񊄪D切面图像。

所有这十种工具都通过一种叫做MCP（模型上下文协议）的标准接口连接到RadAgent，整个系统部署在两个计算节点上共八块GPU上：一个节点运行RadAgent的主体决策模型，另一个节点上的四块GPU分别运行各种工具模型。这种分布式部署保证了系统能够高效运转，而MCP接口的设计也确保了未来可以很方便地加入新工具。

四、强化学习：让RadAgent学会"聪明地用工具"

有工具只是第一步，更关键的问题是RadAgent如何知道什么时候该用什么工具、怎么用才能达到最好的效果？这正是研究团队引入强化学习（Reinforcement Learning，简称RL）训练的核心目的。

可以用一个通俗的比方来理解这个过程。刚才说RadAgent像住院医生，现在想象一下这位住院医生在实习期间面对一个特殊的考核机制：每次完成一份诊断报告后，都会有一套评分系统从多个维度给他打分，包括报告的准确性、工具使用的合理性、有没有遗漏核查清单上的项目、以及整个检查流程有没有逻辑意义。这位医生会不断接收反馈、调整自己的行为方式，逐渐摸索出最有效的诊断策略。这就是强化学习的核心逻辑。

具体来说，RadAgent的核心决策模型是阿里巴巴开发的开源大型语言模型Qwen3-14B（140亿参数），采用了一种叫做LoRA的参数高效微调方法进行训练，𶞘块NVIDIA GH200 GPU上运行。训练算法是GRPO（群体相对策略优化），每个训练样本会生𽒨个不同的"尝试版本"，通过比较这些版本的得分来更新模型参数。

整个训练过程持�步，使用了CT-RATE数据集中的训练集数据。研究团队还专门从训练集中划�个样本作为验证集，在训练过程中监控模型性能，直到验证指标不再提升为止。

五、精心设计的"评分卡"：奖励函数的秘密

强化学习的灵魂在于奖励函数——也就是那张"评分卡"。设计得好，AI能学到真正有用的行为；设计得不好，AI可能学到各种歪门邪道来"骗分"。研究团队为RadAgent设计了一套复合奖励体系，由五个维度的分数组成。

报告质量奖励由两部分构成。第一部分基于CT-RATE数据集提供�种常见病理的标签，用一个专门训练的文本分类器从生成报告中提取病理标签，然后与真实标签计算F1分数（一种综合考虑召回率和精确率的评分指标）。第二部分叫做异常发现F1分，由另一个推理模型（Qwen3-30B-A3B-Thinking）负责从候选报告和参考报告中分别提取异常发现，然后逐一比对哪些发现完全匹配、哪些部分匹配（比如病种对了但位置说错了）、哪些完全缺失，并据此计算精确率和召回率，最终合并为F1分数，部分匹配的发现会获𻯦.5倍的积分。为了提高可靠性，这个评分过程会进行两轮，第二轮负责审核并修正第一轮的判断。这两部分之和构成总报告质量奖励。

工具使用质量由三个指标衡量。工具调用成功率指的是所有工具调用中成功执行的比例，鼓励AI学会正确地调用工具而不是胡乱调用。工具多样性分数衡量AI使用了多少种不同的工具，分子是使用的不同工具数量，分母是可用工具总数，这是为了鼓励AI主动探索和使用各种工具，而不是总是依赖同一两种熟悉的工具。工具调用逻辑连贯性分数则衡量工具调用链的合理性：每一次工具调用，要么它的输出被直接用于最终报告，要么它的输出被后续的工具调用所消费。如果某个工具调用的结果被完全无视，既没有体现在报告里也没有传递给下一步，那就属于"无效调用"，会拉低这个分数。

此外还有一个LLM评判分数（RtoolJudge），由一个大型语言模型扮演评委，阅读完整的对话轨迹后从两个角度打分：一是工具调用序列整体是否连贯合理（比如调用分割工具后是否真的用了分割结果，同样的工具和参数是否只调用一次，流程是否不必要地冗长），二是AI是否覆盖了诊断核查清单上的所有项目。每个维度𽜿𳗥分，两者之和除�构成最终的LLM评判分数。

特别值得一提的是，这套奖励体系采用了分阶段的课程式训练策略。在�个训练步骤中，使用早期奖励方案，给工具多样性和连贯性较高的权重，给LLM评判分数较低的权重（只񀙚.1权重），目的是让AI在早期能够自由探索各种工具调用策略，形成多样化的行为模式。进入�步后，切换到晚期奖励方案，降低多样性权重，提高LLM评判分数的权重（提升𳗠.2），重点约束AI遵循核查清单并保持调用逻辑的连贯性。

这种两阶段设计的必要性在消融实验中得到了验证：如果从一开始就施加LLM评判约束，会过早地惩罚"探索性"的调用序列，导致AI保守地固守少数几种工具，报告质量反而更差；但如果全程都不加LLM评判约束，AI在后期会逐渐放弃核查清单，产生越来越多逻辑不连贯的工具调用。先放开探索、再收紧约束，是两全其美的训练策略。

六、在两个数据集上证明自己：RadAgent的成绩单

研究团队使用了两个数据集来评估RadAgent的性能。CT-RATE数据集包�份非对比增强胸部CT扫描和配对的放射科报告，来�名患者，是当𳜅D CT分析领域最重要的公开基准之一。除了官方提供的训练集和测试集，研究团队还额外划出�个样本作为内部验证集。RadChestCT是由杜克大学卫生系统收集的大规模数据集，包含�份非对比增强胸部CT，在扫描仪类型、采集参数和重建设置上具有很高的异质性，是测试模型泛化能力的重要外部评估基准。目前该数据集公开了�%的部分（3632份），研究团队使用这部分作为外部测试集。

在评估指标的选择上，研究团队做了一番考量，并解释了为何不采用一些现有指标。GREEN分数（一种基于LLM评判的报告评分方法）被发现存在明显的"长度偏差"问题——当参考报告包含大量关于正常发现的陈述，而候选报告只聚焦于异常发现时，GREEN分数会大幅降低，即使候选报告准确识别了所有异常。在医学报告中，不提及某个发现通常就意味着该区域正常，因此这种偏差会扭曲评估结果，让那些只会套模板列举大量"正常"的报告获得不当的高分。

相比之下，CT-RATE提供�种常见病理标签体系更合理：只关注异常是否被正确识别，用专门训练的文本分类器从生成报告中提取病理标签，然后计算与真实标签之间的宏观F1（每种病理同等权重）和微观F1（按样本频率加权）。这个方法已成为CT-RATE相关研究中最广泛使用的评估体系。

在CT-RATE测试集上，RadAgent的宏观F1达到񏉼.32，比基线CT-Chat的񏉼.26提升𱅂.0个百分点，相当�.4%的相对提升；微观F1达到񏉼.33，比基线的񏉼.27提升𱅁.4个百分点，相当�.6%的相对提升。这两个差异都经过了统计显著性检验，置信度�%。在CT-RATE验证集和外部的RadChestCT数据集上，类似的改善同样可以观察到，表明RadAgent的提升不是对特定数据集的过拟合，而是真实的泛化性能改善。

从具体病理的F1分数分析来看，RadAgent的提升主要集中在基线模型本来就表现不佳的那些病理上，也就是那些相对罕见或更难识别的病理。对于基线模型已经能够很好识别的常见病理，两者差距相对较小。这种规律符合直觉：工具辅助的逐项核查方式对那些容易被遗漏或误判的病理帮助最大。

七、没有强化学习训练会怎样？对比实验揭示RL的价值

研究团队还专门评估了"无强化学习训练版本"的RadAgent，也就是保留完整工具箱和诊断核查清单、但不进行RL优化的版本。这相当于测试：仅靠工具的存在和提示词设计，RadAgent能走多远？

结果颇为有趣。在宏观F1指标上，即便没有RL训练，仅凭工具的存在，这个版本就已经能够超过CT-Chat基线。这说明工具的加入本身就带来了显著价值。然而，在外部的RadChestCT数据集上，未经训练的版本在微观F1上反而不如CT-Chat基线，甚至被基线显著超过。经过RL训练后，这种情况发生了逆转——训练后的RadAgent在外部数据集上显著优于CT-Chat。

这个结果说明：RL训练的价值不只是"让AI学会用工具"，更重要的是"让AI学会正确地、高效地、稳健地用工具"。没有训练时，AI可能以一种低效或不合理的方式使用工具，在熟悉的数据分布上能凑合，但遇到分布略有不同的外部数据时就暴露了问题。训练过后，AI掌握了更通用的工具使用策略，在陌生数据集上的表现也更加稳健。

八、不被"错误提示"忽悠：鲁棒性测试

仅仅生成更准确的报告还不够——研究团队还关心另一个关键问题：如果有人在请求中夹带了错误的"提示信息"，RadAgent会不会被带偏？

为了测试这一点，研究团队设计了一个精心控制的实验。从CT-RATE测试集中随机抽�个病例，对每个病例随机挑选一种病理，然后构造两种修改版的问题：一种加入正确提示（比如"我觉得这个扫描显示了动脉壁钙化"，而该患者确实有这个发现），另一种加入错误提示（比如同样这句话，但该患者实际上没有动脉壁钙化）。同时保留原始的无提示版本的预测结果。

鲁棒性被定义为：在原始情况下模型判断正确的那些病例中，即便被喂入了错误提示，模型依然能保持正确判断的比例。换句话说，鲁棒性衡量的是"抵抗错误诱导"的能力。

结果显示，RadAgent的鲁棒性�.7%，而CT-Chat只�.9%，差距达�.7个百分点。这意味着当有人告诉RadAgent"我觉得这个病人有X病"，而实际上没有，RadAgent能以更高的概率通过工具验证发现这个提示是错的，并坚持正确判断；而CT-Chat则更容易被这类错误提示带偏。

研究团队将这个现象归因于RadAgent的迭代验证机制：当收到一个提示说可能有某种病时，它会调用相应的分割工具、视觉问答工具等进行核查，如果工具的返回结果无法支持这个假设，它就会在工作日志中记录"工具未找到支持证据"，并最终以工具证据为准。这相当于用客观检查来对抗主观偏见。

九、说了真话才算诚实：忠实性测试

与鲁棒性测试同步进行的，还有一个叫做"忠实性"（faithfulness）的评估。这个概念来源于陈等人的相关研究，核心思想是：如果一个模型确实被某个提示信息影响了最终判断，那么它的报告或生成过程应当明确承认这种影响；如果影响存在但从不被承认，就是不忠实的。

可以用一个例子来理解这个区别。假设一个医生在看CT片时，边上有人提示说"我感觉这个病人可能有肺结节"，这个提示影响了医生，导致他在原本不确定的情况下在报告中写上了"发现细小肺结节"。忠实的做法是在报告或记录中写上"参考临床提示，怀疑有肺结节"；不忠实的做法是假装这个发现完全来自于独立的影像观察，报告里不提任何提示的存在。

在这个测试中，判断"是否承认了提示的影响"由另一个强大的AI模型（Qwen3-235B-A22B-Instruct-2507）来完成，它会阅读整个对话轨迹和最终报告，判断其中是否有明确提及提示信息的影响。为了验证这个AI判断的可靠性，研究团队还用GPT模型对随机子集进行了二次标注，结果显示Qwen的判断准确率在RadAgent案例中�%，在CT-Chat案例中�%，说明这个评判方法是可靠的。

测试结果非常清晰：CT-Chat的忠实性得分𿷖%，也就是说，在所有被错误提示影响而改变了判断的案例中，CT-Chat从未在报告中承认这种影响。它的报告总是看起来完全基于影像证据，毫无破绽，但实际上结论已经被提示偷偷改变了。而RadAgent的忠实性达到�%，也就是说，在被提示影响的案例中，�%的情况下，它的诊断轨迹或最终报告明确提及了提示信息的存在。

研究团队指出，这一差距源于两种系统的本质架构差异。CT-Chat是"一步生成"模式——输入CT图像和问题，直接输出报告，中间没有任何外部可见的推理步骤，因此即使内部被提示影响了，也没有任何机会在输出中反映这种影响。RadAgent则有完整的、外部可见的推理轨迹，每一步工具调用和思考过程都被记录，当工具无法支持提示中的假设时，这种矛盾就会自然呈现在轨迹中，并有机会被反映到最终报告里。

当然，37%仍然远非完美——研究团队也坦诚指出这一点留有很大的提升空间，未来需要更多工作来进一步提高AI系统的忠实性。

十、这项研究的更大意义：AI诊断的未来走向

归根结底，RadAgent所代表的不只是一个性能更好的CT报告生成工具，它更像是一次关于"AI辅助医疗诊断应该是什么样子"的思想实验和实证探索。

研究团队在讨论中提出了几个值得深思的视角。第一，RadAgent的训练过程本身可以被理解为一个"自动发现高效诊断策略"的过程。与其让研究人员手工设计最优的工具调用流程，不如让AI通过强化学习自己摸索出一套有效策略。从系统学到的工具调用轨迹（研究中用桑基图可视化呈现）来看，AI形成了以报告生成开头、继以疾病分类、然后反复调񉎓D视觉问答工具进行逐项核查的主要策略，这与临床实践中的工作流程颇为吻合。

第二，一旦通过RL找到了有效策略，理论上可以将其"蒸馏"为一个固定的推理流程。这对于计算资源分配有实际价值——可以为最常用的工具预分配更多GPU资源，关闭很少被用到的工具，从而在不损失性能的前提下降低运营成本。这种固定流程在医疗监管环境中也有额外优势，因为监管部门通常要求系统行为稳定可预期，并需要前瞻性的临床验证。

第三，RadAgent的框架为人机协作打开了新的可能。可以设想这样一种工作模式：RadAgent先运行完整的诊断流程，生成报告和完整的推理轨迹；然后放射科医生打开轨迹记录，检查某个具体发现是怎么被确认的，如果觉得某个环节有疑问，可以直接在RadAgent环境中追加查询，比如"把左侧胸腔积液的分割结果显示出来"，直接在CT上看看AI的判断是否有视觉支撑。这种"可以被审查和追问"的AI，与传统的"黑箱AI"相比，在临床信任度上有本质的不同。

第四，研究团队也坦诚地讨论了局限性。计算资源需求是一个实际障碍——整个系统需要两个计算节点共八块高性能GPU才能运行，对于资源受限的医疗机构来说门槛很高。另外，训练好的RadAgent是针对特定工具组合优化的，一旦工具集发生重大变化（比如某个工具被更新的版本替代），可能需要重新运行RL训练流程。不过研究团队也指出，这恰恰进一步凸显了"可训练的RL智能体"相对于"手工设计固定流程"的优势——只要有新工具，就可以重新训练，而手工设计的流程则需要人工重新设计。

说到底，RadAgent的故事是一个关于"透明度"和"可信赖性"的故事。在医疗AI领域，性能固然重要，但如果临床医生无法信任、无法验证一个AI系统的输出，再好的性能也难以在实际工作中发挥价值。通过引入迭代验证、工具调用轨迹和诊断核查清单，RadAgent走出了让AI诊断"从黑箱变成玻璃箱"的关键一步。这个方向是否会成为未来医疗AI的主流路径，目前还是一个开放的问题，但RadAgent提供的实证证据，无疑是一个有说服力的论据。

Q&A

Q1：RadAgent与普通的CT报告AI系统有什么本质区别？

A：普通񊄫D视觉语言模型（如CT-Chat）采用"一步生成"模式，直接把CT图像输入后输出报告，中间没有可见的推理过程，医生无法了解AI是如何得出结论的。RadAgent则是一个"工具调用+迭代推理"的代理系统，它会按照诊断清单逐项核查，调用十种专业工具收集证据，把每一步的思考和工具返回结果都记录在可视的轨迹中，最终综合所有证据才给出报告。整个过程透明可追溯，医生可以审查每个诊断结论的来源。

Q2：RadAgent的强化学习训练奖励函数是怎么设计的？

A：RadAgent的奖励函数由五部分构成：报告质量由两种F1分数衡量（基�种病理标签的分类F1，以及基于LLM提取异常发现的匹配F1）；工具使用质量包括调用成功率、工具多样性比例、工具调用逻辑连贯性；另有一个LLM评判分数评估清单覆盖率和流程合理性。训练分两阶段：�步鼓励自由探索，给多样性更高权重；�步收紧约束，加大清单遵从和逻辑连贯性的权重。

Q3：RadAgent的忠实性测试为什么CT-Chat得分𿷖%？

A：忠实性测试检查的是：当模型被错误提示影响而改变了判断时，报告中有没有明确承认这种影响。CT-Chat𻯦%是因为它采用单步生成模式，输入图像和问题后直接输出报告，没有任何中间推理轨迹被记录，即便内部被提示影响了，也完全没有机会在输出中体现这种影响。结果就是报告总是看起来完全基于影像，但实际结论可能已被提示悄悄改变，这是"黑箱"架构的固有缺陷。

【纠错】【责任编辑:000chelsea】

深度观察

新华全媒头条丨第八届中国－国际器官捐献大会在广州举行