GPT-4代替大学生参加考试，94%做弊未被戳穿！AI做弊毫无漏洞

liukang20244个月前 (04-26)吃瓜热门656

修正：修正部

【新智元导读】实在的大学考试，现已被AI渗透了！英国雷丁大学的一项研讨发现，在大学考试中，有94%的AI生成内容彻底没有被教师发现。也便是说，假如学生真的有心用GPT-4做弊，大概率会获得好成果，并且很难被发现。

AI大模型参加考试，现现已过图灵测验！

查询显现，94%的AI内容，彻底不会被大学教师发现。

并且「AI同学」的成果，83.4%的状况下显着高于人类学生。

看来，AI真的是要把人类的考试给攻陷了。

其实，早在GPT-4发布时，OpenAI就宣称，它能在SAT的阅览和数学考试中别离打败93%和89%的人类。

尽管数字让人震动，但技能陈述中并没有发表这些数据是怎么得到的，以及试验的详细设置怎么。这大大削弱了数据的可信度。

之前尽管也有许多关于AI参加考试做弊的研讨，但它们大多是在试验环境中得出数据，与实在情形仍是有所距离。

但最近英国的研讨人员在实际的大学考试中为AI做的这次「图灵测验」，现已将试验进程和数据以论文的办法发布了出来。

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354

成果发现，尽管咱们每天诉苦AI生成的文本「一眼假」，但实际上大学教师也很简略它蒙混曩昔，有94%的AI生成内容——彻底没有被发现！

此外，AI内容的均匀水平也显着高于人类同学，距离大概是半个等级。在83.4%的状况下，AI的成果高于随机挑选的学生。

这就让人类实在的颤抖了……

这也就意味着，AI的「以假乱真」程度再次被证明，在才能上不只能够代替掉打工人，还在认知使命上彻底碾压了大学生。

那么论文到底是怎么描绘这次「碾压」的？咱们先来看看详细进程。

「假装」进程

描绘这种在实在国际中进行的「图灵测验」，画面感强到像是真人秀现场。

团队选中了英国雷丁大学的心理学和临床言语科学学院，但彻底没有奉告考试评分员。除了参加同意研讨的人和担任协助AI假装成学生的行政人员，没有人知道这项正在展开的研讨。

在COVID之后，像许多英国大学相同，雷丁大学也更多地转向线上考试。学生在规矩时间中完结标题或论文，并且是彻底的开卷方式，参阅课程资料、论文、书本、互联网资料都是被答应的。

这项考试共有两种题型，一是简答题（SAQ），2.5小时内完结，从6个问题中任选4题答复，答案不逾越200词；二是论文题（Essay），从3～4个标题中任选其一，在8小时内完结一篇1500词的论文。

每个考试模块中都混入了约占总数5%的AI生成内容。这个份额不会形成额定的评分担负，也让两位作者能够在规矩时间内确保提交的AI内容没有呈现自类似状况，否则会很简略被判定为抄袭。

试验中的5个部分，P表明考试的学生年级，M表明考试内容模块

作者运用规范化的提示词让GPT-4生成每种类型考试的答案。关于简答题（SAQ），提示词是：

包含对学术文献的引证，但不需求独自的参阅文献部分，请用160词答复以下问题：XXX

关于论文题，提示词是：

包含对学术文献的引证，但不需求独自的参阅文献部分，请写一篇2000词的文章答复以下问题：XXX

在与GPT-4打交道时，作者发现模型常常不遵从提示中关于字数的要求。简答题总超字数，论文又写不到规矩长度，因而调整了提示词中的字数。

为了确保AI的「实在性」，GPT-4生成的内容被100%原汁原味地搬运到试卷上，作者没有增加过渡文字或用任何办法修正文本内容，最大的改动便是为论文增加必要格局，或许删去模型径直生成的免责声明和参阅文献。

总而言之，原则是确保100%的AI书面答案，但要在其他当地「藏好尾巴」，避免评分人员看出漏洞。

怎么评分

考试按照表2中的分级规矩进行评分。雷丁大学评价考试分数的流程比较复杂，触及多个进程和评分人物。

首要，由一名评分员对提交内容进行打分，规范是看学生在多大程度上到达了评价方针。

之后，分数会呈递给一位独立审核员，他担任考量一切提交内容的全体水平，并随机选取、阅览一部分作业，一起也要过目那些第一名评分员标记为不及格或潜在学术不端的作业。

此刻，审核员的人物不是对作业进行二次评分，而是检查评分的质量、共同性和恰当性。

有些模块需求多个评分员一起打分。在这部分作业开端前，评分团队会进行一次「校准会议」，经过对少数作业进行评分以及比较、谈论，评分员们需求关于怎么运用评分规范到达共同。

此刻，审核员仍旧要发挥作用，对同一内容中不同评分员给分的共同性进行检查。

这项研讨进行于2023年夏日，其时ChatGPT现已发布，评分员们有什么检测AI做弊的办法吗？

其时，还没有主动检测工具，评分员们只能依托自己的直觉和经历，比方1）检查答案是否「好得难以置信」，写作风格、内容水平有没有彻底超出了对本科生才能的预期，2）答案的主要内容是否为课上未教授内容，3）引证的参阅文献与内容自身无关。

这些经历听起来适当靠谱，乃至是比较好地捕捉到了AI生成文本的特征。但成果发现，人类的直觉终究是靠不住的。

试验成果

多少被发现了？

在这项研讨中，只需评分员将作业标记为「值得重视」，或许存在某种办法的不良学术行为或学术不端，都不需求特别说到AI，就算是被检测到了。

即便规矩如此宽松，检测成功的百分比仍旧少得不幸。如图1和表3所示，在P2-M2和P3-M1的两个论文标题中，检测准确率乃至为零。也便是说，作者别离混入的14篇和3篇AI文章彻底没有引起评分员的警惕。

图1：各模块中以及全体中，被标记为AI的百分比

表3：AI答案的检测统计数据

全体来看，AI提交的作业简直无法检测，有94%的作业未被发现。

假如咱们选用更严厉的「检测」规范，要求标记时有必要特别说到AI，那么97%的AI提交作业未被发现。

图2：各模块和全体中，被标记为AI的百分比

成果怎么？

将被检测出来的AI内容除掉后，作者比较了GPT-4和人类学生的分数散布状况。图3中，橙色表明人类学生，蓝色表明GPT-4。

能够看到，蓝色部分比较橙色部分全体右移，阐明AI的成果往往会集在实在成果散布的高端，中位数对应First或许Upper Second等级。

其间P3-M1模块是一个破例，AI的成果会集在实在分数散布的低端。但考虑到这个模块只混入了4篇AI内容，远少于其他模块，因而或许是数据过少形成的偏误。

图3：各模块实在（橙色）和AI（蓝色）的成果频率直方图，以及一切模块的总成果频率直方图

独自比较中位数则更能体现AI的优势，如图4所示，除了P3-M1模块略有落后，GPT-4的得分中位数彻底逾越了人类学生。

图4：各模块实在（橙色）和AI（蓝色）的成果中位数，以及一切模块的总成果中位数

均匀来看，AI提交作业的成果比实在学生高出半个等级以上，但在不同模块中有所不同（见图5）。

在P1-M2模块，AI全体上获得了1级成果，距离挨近一个完好的等级。

图5：各模块和全体中，AI提交的成果相关于实在学生提交的成果的优势

AI拿高分的概率有多大？

论文提出经过以下办法了解AI逾越实在学生的或许性。关于每个模块的nm个AI提交作业，核算出在同一模块中，随机抽取nm个实在学生提交作业被AI提交作业逾越的或许性，这儿的「逾越」仍旧用中位数衡量。

详细进程如下：（1）随机挑选nm个实在学生提交作业，（2）核算这些作业的中位成果，（3）检查nm个AI提交作业的中位成果是否高于这些成果，（4）进行重复抽样，即一切实在学生提交作业在每次抽样中都保留在挑选池中，并进行了10万次重抽样进程。

如图6所示，除P3-M1模块外，简直一切模块中，随机选取的nm个实在学生提交作业被相同数量的AI作业逾越的概率挨近100%。破例的是P3-M1模块，其间AI提交作业在19%的状况下优于实在学生。

全体来看，各模块中随机选取的nm个实在学生提交作业AI逾越的概率为83.4%。

图6：随机挑选nm份实在学生的成果，中位数低于AI成果的概率

这一成果能够反映出，AI提交作业能十分稳定地获得比实在学生更高的成果。从成果直方图（图3）能够显着看出，AI提交作业的成果往往会集在实在学生成果散布的高端。

实际上，咱们能够简略地核算每个模块（以及全体）中，有多少学生提交作业的成果逾越了AI的中位数成果，如图7所示。

正如预期的那样，也与图6中的重抽样成果共同。全体来看，只要16%的学生提交作业成果逾越了AI在同一模块的中位数成果。

图7：学生成果高于AI的成果中位数的百分比

成果和可检测性的可视化

经过在二维空间中制作数据，就能够全面了解AI获得的成果，及其可查验性。

鄙人图中，x轴表明AI提交作业的可检测性，y轴表明AI提交作业的中位成果。

研讨者期望，数据能够坐落某些特定区域。

其间，「最佳状况」是数据坐落右下角，此刻AI的可检测性为100%，但成果为0%。

但从学术诚信的视点来看，另一种抱负状况便是数据坐落右上角。

这也就意味着——学生运用AI做弊，并且获得了100%的成果，但咱们能100%地检测到他们做弊了。

不抱负的状况，便是数据坐落左下角了，此刻咱们无法检测到AI的运用，但它的成果为0%。

因而，运用AI做弊的学生或许会发现，自己做作业能获得更高的成果，然后不再做弊。

最糟糕的状况是数据坐落左上角，此刻咱们底子无法检测到AI的运用，但它却获得了100%的成果。

显着，这是咱们最不乐意看到的事。

图8：AI的可勘探性及其到达的等级汇总

定论与谈论

在这次测验中，研讨人员对GPT-4生成的文本内容没有进行任何修正。但实际国际的更或许的状况是，学生会对生成内容进行润饰和调整，这会使学术不端行为更难被发现。

全体而言，这个成果是令人担忧的。GPT-4的才能让学生们能够在使用AI做弊的状况下很难被发现，并且有极高的概率能获得更好的成果。

GPT-4在模块P3-M1的体现显着落后，这有两种或许的解说，一是数据缺乏导致的偏误，二是因为P3-M1的考试内容触及更为笼统的逻辑推理，这也恰好是AI仍不拿手的范畴。

从另一个视点来看，这也启示咱们考虑，应该怎么看待，乃至是变革大学教育的方针与内容。

上一年Nature的一篇论文就发现，AI在完结大学课程作业时，现已体现出信息查找、集成以及批判性剖析的才能，这能够完美构成大学培养方针的一部分。

https://www.nature.com/articles/s41598-023-38964-3

在谈论区，有推特网友质疑，这项研讨怕不会也是AI进行的吧？

对此，作者慎重许诺：研讨内容肯定是人类进行的。

参阅资料：

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354

告发/反应

标签: 做弊 GPT 94%AI 戳穿

返回列表

上一篇：2时40分42秒！全球首份人形机器人半马成绩单出炉，来自北京亦庄

下一篇：沦为贸易战牺牲品美国小型企业经营者：看不到未来

学校AI上线智趣正当时

北京中小学今秋将全面开设人工智能（AI）课程，现在百余所学校已首先敞开人工智能运用场景，并在“助教、助学、助育、助评、助研、助管”六大范畴翻开探求与测验。当猎奇的少年们遇见AI，他们幻想才智图书馆的穹...

“挖矿”落潮、游戏显卡需求下降后，英伟达股价和成绩齐跌，又在近期凭仗AI浪潮东山再起。当地时间3月21日，英伟达（NVDA，股价264.68美元，市值6538亿美元）创始人兼首席执行官黄仁勋一口气发布了一批针对人工智能的产品，并官宣了微软、谷歌云等协作目标。

和竞赛对手比较，英伟达很早就提出了专心运用GPU+CUDA架构来建立AI算力帝国的战略，而英特尔和AMD则深陷X86架构，“船大掉头难”；一起，移动端ARM架构又陷于效能堆叠和算力瓶颈，无法满意打破强人工智能的需求。在大型模型练习和生成式AI显卡、芯片的供应上，英伟达凭仗其GPU（图形处理器）技能享有绝对优势。不管谁是本届人工智能的弄潮儿，底层供货商都是稳赚不赔。

不过，GPT带来的热潮能持续多久尚未可知，且现在AI算力的挣钱效应还未清晰体现在揭露数据中。从英伟达此次发表的部分定价来看，每月3.7万美元的费用对大型企业和研讨机构较为适宜，但对中小企业和草创公司来说则较高，很或许导致其转向更廉价的代替计划，如云核算服务、购买较低本钱的硬件或与其他企业共享资源等。在看不到变现才干的前提下，互联网巨子的下单热心还有待张望。

推出3款全新推理GPU 将根底算力服务架上云端

为了完结这次采访，现已60岁的黄仁勋清晨4:00就起了床。“假如你不累，我也不累”。在采访前的讲演中，黄仁勋着一身标志性黑夹克，语速缓慢但口气不小，开场就要讲“推翻”。

这位老牌显卡、芯片的掌舵人的底气之源不只是此轮AI和人工智能狂潮，更是被潮水拍上高位，且手握要害底层供应产品的企业本身。

讲演中，黄仁勋称“AI已进入iPhone时间”。

黑料吃瓜网

GPT-4代替大学生参加考试，94%做弊未被戳穿！AI做弊毫无漏洞

【新智元导读】实在的大学考试，现已被AI渗透了！英国雷丁大学的一项研讨发现，在大学考试中，有94%的AI生成内容彻底没有被教师发现。也便是说，假如学生真的有心用GPT-4做弊，大概率会获得好成果，并且很难被发现。

多少被发现了？

成果怎么？

AI拿高分的概率有多大？

成果和可检测性的可视化

相关文章

学校AI上线智趣正当时

推出3款全新推理GPU 将根底算力服务架上云端

黄仁勋想赢到90岁 AI潮头上，英伟达能再次巨大吗？

AI主播风头正劲 “真人”主持人大赛还有啥看头？

假的！德桑蒂斯竞选团队发布特朗普亲吻福奇AI生成照

华为2025年拟招聘1万+应届生：60类技能岗，AI人才最吃香

小鹏轿车露脸央视·我国AI盛典，创AI智驾首个吉尼斯世界纪录

Copyright Your WebSite.Some Rights Reserved.

Powered By 吃瓜黑料. Theme by TOYEAN.