科技评论

AI 竞赛没有意义,模型实际不可用,冠军全凭运气?

  到目前为止,这个比赛的数据集看起来还不错,尽管我还没有详细研究(魔鬼经常出现在细节中)。

  该数据集是为一场竞赛而发布的,和往常一样,它在 Twitter 上掀起了一股友好的竞争风气:

  当然,这也引起了很多人的质疑。有人认为,比赛就像掷硬币,全看运气。只要有些人的模型和其他人相比更符合数据集,就可以获得高分。

  有人认为「既然有一个不变的测试集,你怎么能过度适合?」,也有人认为「所提出的解决方案决并不打算直接应用」。

  随着讨论的进行,我意识到,虽然我们「都知道」竞争结果在临床意义上有点可疑,但我从来没有真正看到一个令人信服的解释——为什么会这样。

  我希望通过这篇文章告诉你,为什么比赛并不能构建真正意义上有用的人工智能系统。

  让我们开始讨论吧

  辩论不是一件错误的事情

  那么什么是医学人工智能竞赛呢?以下是一些选项:

  让团队尝试解决临床问题

  让团队探索如何解决问题并尝试新的解决方案

  让团队建立一个在竞赛测试集中表现最好的模型

  浪费时间

  现在,我并没有那么疲倦,我跳到最后一个选项(怎样才能让时间花得有价值是一个问题,临床效用只是一个考虑因素)。

  但前三个选项呢?这些模型是否适用于临床任务,它们是否带来了广泛适用的解决方案和足够的新颖性,或者它们只是在竞赛中表现良好,而不是在现实世界中?

  (剧透:我要为后者辩护)。

  好的模型与坏的模型

  我们是否应该期待这场竞赛会产生好的模型?让我们看看组织者怎么说。

  酷!完全同意!缺乏大型、标记良好的数据集是构建有用的临床人工智能的最大障碍,因此该数据集应该会有所帮助。

  但是说数据集是有用的并不是说这个竞赛会产生好的模型。

  因此,为了定义我们的术语,我们假设一个好的模型是一个可以在没有遇到过的数据上检测出脑出血情况的模型(模型对数据没有认知)。

  与之相反,一个坏的模型指的是不能在未遇到的数据中检测出脑出血的模型。

  这些定义是没有争议的。我相信大赛组织者同意这些定义,他们更希望自己的参赛者构建出好的模型,而不是坏的模型。事实上,他们显然是以一种旨在推广优秀模型的方式来举办比赛的。

  这还不够。

  Epi vs ML,战斗!

如果学术上的争论这么可爱就好了

  ML101(这里拟人化了)告诉我们,控制过度拟合的方法是使用一个保持测试集,它里面是模型训练期间没有见过的数据。这模拟了医生在临床环境中看到新病人的情况。

  ML101 还认为,保持数据只适用于对一个模型进行测试。如果你测试多个模型,那么即使你没有将测试信息泄漏到你的开发过程中,你的最佳结果可能也只是一个异常值,它只是偶然地比你的最差结果好。

  因此,如今的竞赛组织者只会制作出具有持久性的测试集,并且只允许每个团队在数据上运行他们的模型一次。在 ML101 看来,这样问题就解决了。获胜者只测试了一次,所以没有理由认为他们的模型是靠着异常情况得到这个结果的,他们有最好的模型。

  别那么快,伙计。

  让我给你介绍一下 Epidemiology 101,他声称自己有一枚神奇的硬币。

  Epi101 告诉你掷硬币 10 次。如果你得到 8 个或更多的人头,这就证实了硬币是魔法(虽然这个断言显然是胡说八道,但你还会跟着玩,因为你知道 8/10 人头等于一个公平硬币的 p 值<0.05,所以它一定是合法的)。

  在你不知道的情况下,Epi101 对另外 99 个人做了同样的事情,所有人都认为他们是唯一一个测试硬币的人。你认为接下来会发生什么?

  如果硬币是完全正常的,而不是魔法,大约 5 个人会发现硬币是特别的。这看起来似乎很明显,但要从个人的角度来考虑——这 5 个人都只做了一次测试。根据他们的说法,他们有统计上显著的证据表明他们持有一枚「魔法」硬币。

  现在想象一下你不是在掷硬币。假设你们都在一个竞赛测试集中运行一个模型。与其怀疑你的硬币是不是魔法,你反而希望你的模型是最好的,因为这将为你赢得 25000 美元。

  当然,你只能提交一个模型。如果多余一个,那就是作弊。其中一个模型可以表现得很好,这相当于掷一个公平的硬币得到 8 个人头,只是一个偶然事件。

Copyright © 2002-2019 huohu365.com. 火狐网 版权所有