GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账|微动态
时间:2023-06-26 09:15:00来源:机器之心

几天前,一篇名为《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》的论文经历了一场舆论风波。

论文地址:https://arxiv.org/pdf/2306.08997.pdf


(资料图片)

最初,研究团队从 MIT 的数学、电气工程和计算机科学 (EECS) 专业的课程问题、期中考试和期末考试中,整理出了一个包含 4550 个问题和解决方案的综合数据集,并让各种大语言模型去完成这个数据集的题目,得出了「GPT-4 几乎满分通过 MIT EECS 和数学本科考试」的结论。

这一结果很快被人指出不够严谨,还给出了多项证据和详尽的分析,表示数据集本身就有问题,用 GPT-4 自动打分的评价机制也很有问题:

「我们的批评主要是针对这项研究的方法和严谨性,而不是针对其内容。我们对大型语言模型实际解决麻省理工学院课程的能力没有任何意见,只是认为本文未能以科学严谨的方式证明这一点。」

面对扑面而来的质疑,研究团队在接下来的一周里却没有进行任何公开回应,没有承认,也没有道歉。

但在昨天,人们等到了来自几位教授(也是论文作者)署名的官方通报:

6 月 24 日,Armando Solar-Lezama(MIT EECS 教授和 CSAIL 首席运营官 / 副主任)、Tonio Buonassisi(MIT 机械工程教授)和 Yoon Kim(MIT EECS 和 CSAIL 助理教授)就该论文情况发表了公开声明。

声明内容如下:

6 月 15 日,Iddo Drori 在 arXiv 上发布了一篇与麻省理工学院几十门课程的考试和作业数据集相关的研究论文,他这样做没有得到其他合著者的同意,尽管已经被告知在发表前应该纠正的问题。我们中的一个人在周末旅行后,于 6 月 18 日星期天才知道这个帖子。

在处理这件事的过程中,我们发现,与 Drori 向我们和为该项目收集数据的学生所传达的信息相反,Drori 并没有得到所有导师的许可来收集构成论文主题的数据集的作业和考试题。其中一些涉及课程的导师,在论文出现在社交媒体上和 Drori 未经许可在网上发布数据样本时,才知道这个数据集的存在且其中包含了自己的课程材料。

这些都是正在通过机构渠道解决的严重问题,所以我们不愿意公开发表这样的声明,但我们觉得有必要解释为什么这篇论文不应该被发表而必须被撤回。我们已经要求 Drori 从 arXiv 撤回这篇论文,并且直接联系了 arXiv 解释了这个情况。

我们想强调的是,这篇论文中的所有学生作者都非常努力地工作,如果数据是在同意的情况下收集的,这本来是一篇非常有趣和宝贵的论文。已经发表的工作中出现的问题并不是学生的错。

而且,GPT-4 不能获得麻省理工学院的学位。

这样一份调查声明,真的足够了吗?回想一周前三位质疑者提交的分析,数据集被污染、手动检查的结果与论文所说的「几乎满分通过」相差甚远,这至少意味着论文内容应该被重新审查。

显然,并不是所有人都对调查结果满意,有人表示这是避重就轻的说法,只是关注他们不应该使用这些数据的事实,而不提捏造结果的错误。

「所以这三位麻省理工学院的教授认为,未经同意使用数据是论文的唯一问题。」

针对「这本来是一篇非常有趣和宝贵的论文」的说法,更多人点了反对:「让 GPT-4 给自己生成的答案打分,这就是有趣和宝贵吗?」

另外,有人发现 Iddo Drori 的个人主页已经更新,删掉了「MIT 客座教授」的 title。而且根据领英主页的信息,他将在这个月结束自己的 MIT 访问之旅。

「一些教授决定让一位客座讲师成为替罪羊,并试图将每个人的注意力从方法论转移到数据隐私问题上,却没有批评这篇论文。这是多么典型的学术政治问题。」

正如三位质疑者在博客中所写的那样:「这篇论文道出了最近人工智能领域研究的一个更大趋势。随着该领域的进展越来越快,新发现的时间节奏似乎在缩短,这往往伴随着捷径。一个特别令人担忧的趋势是使用像 GPT-4 这样基于语言的模型来评估一个模型的准确性的技术。」

对于此事,你怎么看?

标签:

最新
  • GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账|微动态

    几天前,一篇名为《ExploringtheMITMathematicsandEECSCurriculumUsingLargeLanguage

  • 明起试用!杭州亚运数字专用车道别随便走 当心被罚_全球热讯

    明起试用!杭州亚运数字专用车道别随便走当心被罚

  • 今日看点:全国4504万亩耕地受旱 15条河流发生超警洪水

    【全国4504万亩耕地受旱15条河流发生超警洪水】记者从水利部了解到,截

  • 寒武纪公园在哪里?南寒公园在什么位置?

    寒武纪公园在哪里直到5 3亿年前的寒武纪,神奇的寒武纪生命大爆发的

  • 结节是怎么形成的怎样才能消除_哈气是怎么形成的_全球快报

    1、呼吸:就是张嘴呼吸,把胸中压抑的气体吐出来。2、成因:人体口腔中

  • 《诗画秭归》灯展在屈原故里景区“点亮”

    “诗画秭归”主题灯会“诗画秭归”主题灯会“诗画秭归”主题灯会“诗画

  • 头条焦点:百度首页不见了怎么办(百度主页打不开 怎么办)

    1、问题描述:此问题可能是浏览器异常或者网络延迟导致解决方案一:1

  • 超高性价比!机械革命无界14Pro低至3999元!

    京东此款目前活动售价只要3999元,近期好价。这款笔记本使用i7-12650H

  • 世界热讯:2024什么行业发展前景好呢

    2024年创业到底做什么比较好呢?关于创业这个话题常年的热度都是非常高

  • 每日热讯!苏丹首都民众举行大规模集会 要求结束冲突

    6月24日电,苏丹首都喀土穆部分居民区的数千民众走上街头,举行大规模

  • 世界快看:商洛市交投资源公司开展“2023年压力管道泄漏堵漏暨冻伤自救互救”应急演练

    来源:商洛新闻网发布日期:2023-06-2119:50:582752发表于陕西商洛新闻

  • 邮报:纽卡有意水晶宫后卫安德森,但只有7500万镑预算可能买不了 环球热讯

    直播吧6月22日讯《每日邮报》报道,纽卡斯尔询问了关于水晶宫后卫安德

  • 螃蟹账号代售怎么绑定支付宝 螃蟹账号代售设置提现账户教程

    螃蟹账号代售怎么绑定支付宝螃蟹账号代售设置提现账户教程,

  • 铁器如何保养不生锈?

    一、引起金属生锈的原因1、大气相对湿度大气相对湿度对金属生锈的影响

  • 关于2023年广东省“民主法治示范村(社区)”申报名单的公示

    根据《关于开展2023年广东省“民主法治示范村(社区)”创建活动的通知

  • 天天快资讯丨香港地铁列车(香港地址大全)

    您好,现在蔡蔡来为大家解答以上的问题。香港地铁列车,香港地址大全相

  • 旅游
    • 2023压铸机行业发展现状及供需趋势分析-视点

    • 河北省人才市场认证_河北省人才市场

    • 本科信息管理与信息系统考研方向(信息管理与信息系统专业就业方向) 世界快资讯

    • 端午假期最后一天,广州地铁多条线路迟收一小时