人机大战到底为了证明什么?

  最近几天,全国很多地方都是高温酷暑,但是周围不少影像科医生因为看到医学影像“人机大战”的文章,感觉被浇了一盆冷水,急着跑来问我医学影像科医生的出路到底在哪?鉴于文章广泛的社会影响力,我觉得应该站出来提出一些自己的疑问和看法。

  作为最早一批接触人工智能的医生,近两年我见证了整个领域的飞速发展。很多企业从一开始的无人问津,火热到现在的动辄几亿元融资。在众多博人眼球的新闻报道和企业宣传文章中,最有效或传播力度最具爆炸性的恐怕就是所谓的“人机大战”了。

  从“IBM深蓝”到“谷歌AlphaGo”,一个个棋类大师“倒在”机器人手下,直到今天医学影像界的“人机大战”也不期而至。我最早接触医学影像人机大战是在2017年底,当时央视有一档“机智过人”节目,一个号称“啄医生”的机器人工智能模型和15个医学影像专家在节目中比赛找肺结节。看完以后,觉得虽然节目为了传播效果存在一些误导,但最起码规则明确,能让人看懂,能让像我一样的影像科医生找出问题所在并提出问题。而最近越来越多的“人机大战”,已经让我们这些从业者看不太懂了。

  人机大战为了证明什么?

  “人机大战”到底为了证明什么?机器出具的影像科报告比医生更准确?还是在极个别领域弥补医生的不足?

  以近期传播比较广泛的一篇报道为例,其中就指出“机器分别以87%、83%的准确率,战胜医生战队66%、63%的准确率。”这个“准确率” 到底是指什么呢?是肿瘤病灶检出正确率?定位正确率?量化正确率?还是良、恶性诊断正确率?另外,检查方法到底是用CT还是MRI(磁共振)?一连串疑问令人不解。难道是机器出具的影像科报告比医生更准确?

  我们医院在医学影像人工智能领域已经深耕了2年时间,也有大量机器比影像科医生“厉害”的科研证据,但都是局限在极个别单项上能弥补医生的“先天不足”。比如微小肺结节的检出,医生因为精力耐力眼力等有限,确实不如机器找的准、找的快。再比如对病灶体积的测量,以前医生也只是从连续二维图像上估测,而机器可以做到更快更精准的测量。但是,所有这一切只是把原来医生做的不够完美的方面进一步推向精准,完全谈不上取代医生,只是给医生提供了一件更称心的工具,仅此而已。

  说句题外话,我还很为参赛的影像专家们捏把汗。根据报道,参赛医生团队只有60%左右的“准确度”,这种报道难道不会对他们的职业生涯造成影响吗?患者们会放心地找这样的医生团队看病吗?

  1、比赛成绩能说明临床应用效果吗?

  跟大家分享一个真实案例。之前有过一个检出肺结节的医学影像人工智能竞赛,最后冠军团队的准确率在竞赛小数据集测试达到90%的准确率,但是真正把模型拿到实际临床环境中测试,发现只有不到60%准确率,可以说完全没有临床可用性。

  其实,要想说清楚这个问题,就涉及到有关“人机大战”另外几个重要指标:

  第一、比赛测试题来源,测试题与训练集的关系,测试题数据处理的方法;

  第二、金标准如何制定,包括数据入组标准,征象判断标准,结果判断标准等。

  首先,为什么测试题来源很重要?测试题来源是检测AI模型表现稳定性的关键因素;也是检验其是否存在小数据刷准确率等常用的“机器考试刷分”的方法;同样也是优质医疗资源能否顺利下沉的最基础指标。例如,模型如果只在同一个数据源中(可以理解为同一家医院)反复大量训练,那么该模型就会只适应该数据源中的数据。换句话说,就是同一家医院出来的片子模型识别效果好,但是换一家医院,模型效果就完全没法看。所以,如果不注明测试题的来源,无论有什么样的公正机构把关,都说明不了该模型的临床应用价值。优质医疗资源下沉,解决“偏远地区”老百姓看病问题更是天方夜谭。

  其次,为什么金标准规则制定很重要?因为它是体现测试结果科学性的关键指标。我们经常在各种企业宣传的文章中看到,诸如肺结节检出率高达98%等等非常“亮眼”的数据。但是金标准规则制定完全避而不谈。最后我们刨根问底去查,发现其中很多是4mm以下甚至6mm以下的肺结节不作为结节计算,所以这个98%的“亮眼”数据只是一个含水分的噱头。

  2、关于误导及暗示

  值得警惕的是,目前的很多公开报道或宣传紧紧抓住了大众的恐惧心理,不断植入一些场景,会让人相信机器人已经可以替代影像科医生。比如,很多报道中会提到“某某机器人影像诊断能力相当于一个高级职称医师级别的水平”。首先,高级职称医生最终诊断结果是符合临床使用场景的,目前哪个机器人能够做到?另外,还有报道表面宣称“人工智能不能替代医生,因为医生还能做给患者提供人文关怀等机器不能完成的工作”,这些假设的前提就是建立在医生现有工作已经被机器取代。如果认可这一说法,实际上就是以被误导和暗示为“前提”。我可以告诉你,在现实中根本不存在讨论这个“影像科医生不出报告还能干什么”这个话题。

  3、什么项目适合“人机大战”

  从宣传的角度,其实任何形式的“人机大战”都能博取到足够多的眼球,因为大众喜闻乐见。我也能理解企业的“良苦用心”。毕竟之前有“IBM深蓝”及“谷歌AlphaGo”的宣传神话在。但是大家应该留意的是,棋类游戏是非常适合人机大战的。因为棋类游戏有非常明确的限制条件,且有定义明确的规则,同时也是零和博弈。在这个闭合空间内,人类和机器来做比拼。

  而反观现实中的临床环境,可以总结为规则不断变化的游戏的无限集合。任何时候出现重大发展,游戏规则都要重写。在这样一种环境下,凭借我们目前训练的模型跟医生比较高低,本身就是对医生的“侮辱”。更重要的是,在医学影像工作场景中,医生跟机器人是非零和博弈,是合作共生的关系,这也是跟棋类游戏最本质不同。所以,我们认为医学影像工作场景并不适合做单纯的“人机大战”。你见过哪个厨师非要徒手跟刀具比切菜?当然除了“手撕包菜”。

  4、总结

  当然,也有可能我们了解信息不够全面,没有掌握AI最新的发展水平,欢迎大家一起来更新关于“人机大战”赛事更多信息,让我们这些影像科医生更真切地了解目前技术的发展现状。我们同时也希望有关这方面讨论能够持续报道,让普通百姓了解医学影像行业,也让医学影像的从业者有机会反思自己真正的价值所在。

  在我看来,就像过去人类历史上经历过的一切科技变革,人工智能也将融入医生的工作流程,与医生群体一起更好地造福广大病患。很多人愿意引用威廉·吉布森的名言“未来已来,只是分布不均”。目前看来也的确如此,只是有很多“未来”还分布在人们的想象和恐惧以及“不可告人”的目的当中。

  医学影像界拥抱真正的人工智能,我们同样也支持人工智能企业的宣传。但是不要再拿目前人工智能简单的图像视觉与人类复杂的生物体大脑进行比赛,来博取大众关注,增加大众的恐慌情绪。我们愿意为能解决实际问题的AI产品站台,反对做不良企业市场行为的帮凶。只有大家一起营造AI发展的良好生态,才能推进医学影像健康发展,希望不要在有些功利浮躁的“虚火”下,烧坏了AI这颗幼苗。