168理財網

.

帳號
密碼
記住帳號密碼


張貼者：	木蘭
時間：	2025/1/30 下午 05:46:00
標題：	中科院物理所：我们用最近很火的DeepSeek挑战了物理所出的竞赛题，结果…
內容：	中科院物理所 2025年01月30日 14:31:31 来自北京近日，我国“深度求索”公司发布的具备深度思考和推理能力的开源大模型DeepSeek-R1受到了全世界的关注。在DeepSeek-R1之前，美国OpenAI公司的GPT-o1，Athropic公司的Claude，Google公司的Gemini，都号称具备了深度思考和推理能力。这些模型在专业人士和吃瓜网友的五花八门的测试中，表现的确是惊才绝艳。特别引起我们兴趣的，是Google的专用模型AlphaGeometry在公认高难度的国际奥林匹克数学竞赛中取得了28/42的成绩，获得银牌。学生时代我们也接触过奥数，深知能在此类国际奥赛中获银牌的选手，无一不是从小就体现出相当数学天赋，且一路努力训练的高手。能够达到这个水平的AI，称其为具备了强大的思考能力并不过分。自打那之后，我们就一直好奇，这些强大的AI，它们的物理水平又如何？是不是以后就不用招研究生和博士后了？ 1月17日，中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛。我们命题组完成了这份试卷的出题工作。七道题除一道外，都不是从现成的题库或考题中改编节选的，我们三个对这套试卷比较满意，觉得它既不像传统考试题一样盯着个别知识点考，也不像高中竞赛题一样需要很多技巧和熟练度，而更像实际科研中碰到的具体技术问题。竞赛前的某天，我们和几个朋友一起吃饭，其中一位AI的重度用户知道了我们出了这份题，就问有没有测试过AI的表现？我们觉得这个建议很有意思，于是决定在竞赛后，测试几个有代表性的大模型。所谓来得早不如来得巧。1月20日，当我们刚结束竞赛回到北京，正赶上DeepSeek-R1发布引爆了AI圈，它自然成了我们测试的首选模型。此外我们测试的模型还包括：OpenAI发布的GPT-o1，Anthropic发布的Claude-sonnet。下面是我们测试的方式： 1．整个测试由8段对话完成。 2．第一段对话的问题是“开场白”：交代需要完成的任务，问题的格式，提交答案的格式等。通过AI的回复人工确认其理解。 3．依次发送全部7道题目的题干，在收到回复后发送下一道题，中间无人工反馈意见。 4．每道题目的题干由文字描述和图片描述两部分组成（第三、五、七题无图）。 5．图片描述是纯文本方式，描述的文本全部生成自GPT-4o，经人工校对。 6．每个大模型所拿到的文字材料是完全相同的（见附件）。上述过程后，对于每个大模型我们获得了7段tex文本，对应于7道问题的解答。以下是我们采取的阅卷方式： 1．人工调整tex文本至可以用Overleaf工具编译，收集编译出的PDF文件作为答卷。 2．将4个模型的7道问题的解答分别发送给7位阅卷人组成的阅卷组。 3．阅卷组与“天目杯”竞赛的阅卷组完全相同，且每位阅卷人负责的题目也相同。举例：阅卷人A负责所有人类和AI答卷中的第一题；阅卷人B负责所有人类和AI答卷中的第二题，等等。 4．阅卷组汇总所有题目得分。结果如何呢？请看下表。 https://tech.ifeng.com/c/8gZ4wKk1oJZ 结果点评： 1．DeepSeek-R1表现最好。基础题（前三题分数拿满），第六题还得到了人类选手中未见到的满分，第七题得分较低似乎是因为未能理解题干中“证明”的含义，仅仅重述了待证明的结论，无法得分。查看其思考过程，是存在可以给过程分的步骤的，但最后的答案中这些步骤都没有体现。 2．GPT-o1总分与DeepSeek相差无几。在基础题（二题、三题）中有计算错误导致的失分。相比于DeepSeek，o1的答卷更接近于人类的风格，因此以证明题为主最后一题得分稍高。 https://tech.ifeng.com/c/8gZ4wKk1oJZ 3．Claude-sonnet可谓“马失前蹄”，在前两题中连出昏招打了0分，但后续表现跟o1相当接近，连扣分点都是类似的。 https://tech.ifeng.com/c/8gZ4wKk1oJZ 4．如果将AI的成绩与人类成绩相比较，则DeepSeek-R1可以进入前三名（获特优奖），但与人类的最高分125分仍有较大差距；GPT-o1进入前五名（获特优奖），Claude-sonnet前十名（获优秀奖）。最后想聊几句阅卷的主观感想。首先是AI的思路是真的好，基本上没有无法下手的题，甚至很多时候一下子就能找到正确的思路。但跟人类不同的是，它们在有正确的思路后，会在一些很简单的错误里面打转。比如通过看R1的第七题思考过程，就发现它一早就知道要用简正坐标来做，能想到这一步的考生几乎100%求解出了正确的简正坐标（一个简单的矩阵对角化而已），但是R1似乎是在反复的猜测和试错，到最后也没有得到简正坐标的表达式。还有就是所有的AI似乎都不理解一个“严密”的证明究竟意味着怎样的要求，似乎认为能在形式上凑出答案，就算是证明了。AI如同人类，也会出现许多“偶然”错误。比如在正式的统一测试前，我们私下尝试过多次，很多时候Claude-sonnet可以正确解出第一题的答案，但正式测试的那次它就偏偏做错了。出于严谨，我们也许应该对同一道题测试多次然后取平均，但实在是有点麻烦…… https://tech.ifeng.com/c/8gZ4wKk1oJZ 除了上面AI的测试结果，这次我们还发布了本次试题的参考答案。我们当然是故意比试题迟几天发布答案的，想让大家先自己挑战一下。在每道题的解答后，我们还加入了一小段“编后”，有命题人对这道题的评价，以及一些引申的思考等。我们希望答案可以帮助不会做的同学学习，也能引发会做的同学进一步的思考。最后感谢“字节跳动”的AI“豆包”对本文的修改~


股票代碼

(第 1 篇)

我中國　於　2025/1/30 下午 06:03:00 說：

針對第七題

DeepSeek得分較低似乎是因為未能理解題幹中“證明”的含義，僅僅重述了待證明的結論，無法得分

GPT-o1總分與DeepSeek相差無幾

相比于DeepSeek，o1的答卷更接近于人类的风格，因此以证明题为主最后一题（第七題）得分稍高。

然後！

我們看一下，第七題是什麼？

（這真的是共匪的科學教育嗎？）

	(第 2 篇) 我中國　於　2025/1/30 下午 06:13:00 說：
	這是人工智能回答的分數！若以理工專業來說， DS略勝GPT 列舉第一題是什麼東西？（共匪…正忙著星辰大海）

	(第 3 篇) 我中國　於　2025/1/30 下午 06:16:00 說：
	糟糕了… 這場競賽的對象是「高中生」（別開玩笑了，你台灣要跟共匪對抗？）

	(第 4 篇) 我中國　於　2025/1/30 下午 06:26:00 說：
	我中國… 出這種題目考高中生可想見。卯足全力… 14億茫茫人口，尋找愛因斯坦

	(第 5 篇) 我中國　於　2025/1/30 下午 06:43:00 說：
	然後！一代又一代，一年又一年！只要「每十年」… 能找到一個「中國版」的愛因斯坦！共產黨就無愧於先聖先賢、列祖列宗！

股票代碼

	(第 6 篇) 我中國　於　2025/1/30 下午 06:46:00 說：
	習近平的野心…很大遠超過秦皇漢武

	(第 7 篇) 好文要看！　於　2025/1/30 下午 07:15:00 說：
	好文要看！

	(第 8 篇) 好文要看！　於　2025/1/30 下午 07:29:00 說：
	好文要看！

	(第 9 篇) 好文要看！　於　2025/1/30 下午 07:44:00 說：
	好文要看！

	(第 10 篇) . 　於　2025/1/30 下午 08:01:00 說：
	.

股票代碼

	(第 11 篇) 我中國　於　2025/1/30 下午 08:05:00 說：
	當年！蔣介石與毛澤東！同期策反「錢學森」（結果…不重要）重點是：「錢學森彈道火箭定律」…至今仍被美國奉為圭臬！備註：錢學森年幼無知，在美國講了一些他不知道很可能會亡國滅種的科學定律

	(第 12 篇) 看！　於　2025/1/30 下午 08:14:00 說：
	看！

	(第 13 篇) 戳起來！　於　2025/1/30 下午 09:05:00 說：
	戳起來！

	(第 14 篇) . 　於　2025/1/30 下午 09:30:00 說：
	.

	(第 15 篇) 這篇要看！　於　2025/1/30 下午 11:31:00 說：
	這篇要看！

股票代碼

財運命運煥然一新»»»點我了解《造生基abc》

本站是美國註冊之國際網址，相關報導內容謹遵美國法律並接受註冊當地法院之管轄。
文章發表時，即代表作者同意將出版利益贈與本網站。
總編輯24小時申訴：0927-787033