如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

时间：2025-06-22 07:00:15来源：当前位置：当前位置：首页 >

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果，突出了一个政治正确，6款大模型，OpenAI的o3倒数第一，我当时看到的时候就觉得很奇怪，o3好歹也是曾经的一代王者，高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下，因为这道题除了o3，其他的国产模型都答对了。

这是第五题的原题，正确答案是A. - 1/2。

这是之前的第三方的测试结果，6个模型…。

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

上一篇 : 华为Pura 80首销遇冷，是否说明消费者已经开始对麒麟芯片性能有所觉醒？

下一篇 : Golang vs Rust vs Dlang 哪个更有前途，哪位大牛这 3 门语言都用过？

相关文章：

{dede:myad name='右侧广告位'/}

iOS 26 的新设计被吐槽丑，苹果在设计更新时考虑了哪些因素？你对这一设计都有哪些评价？

正常，iOS7的时候也说丑，甚至比现在更甚。但是...
2025-06-21阅读全文 >>
PHP现在真的已经过时了吗？

一个社区语言能泛起多大浪花？PHP30周年线上活动PHPve...
2025-06-21阅读全文 >>
“哨兵模式”涉嫌泄密，你支持封杀特斯拉吗？

这就不得不聊下国企优秀的保密策略了。企业内部的一些通用开...
2025-06-21阅读全文 >>
Mac上有那些你认为极其好用的***？

最新刚好入手一台 mackbook写了一下工具安装记录，插楼...
2025-06-21阅读全文 >>
谷歌云服务宕机导致 OpenAI、Shopify 等服务中断，此次宕机的具体技术原因是什么？

昨天的 GCP 全球宕机事故报告出了，给大家解读下。从 ...
2025-06-21阅读全文 >>

养花知识本月排行

1什么是稳定币？有人说它是「一场饮鸩止渴的游戏」，你怎么看？
055驱逐舰是个什么概念?
腰陆陆续续疼了一年多了，这个是腰突吗?
请问有没有什么工具能够生成局域网的网络拓扑结构图？
什么是 5G 固定无线接入（FWA）？
刘亦菲和张柏芝年轻的时候，谁更美？
世界上哪款战斗机最好看？
男子因眼睛小被小米汽车系统频繁误判疲劳驾驶，一路提醒20多次，这是智能汽车通病吗？怎么解决该 bug？
穿内衣时，总往上跑，内衣是大了还是小了？
iOS 26 的新设计被吐槽丑，苹果在设计更新时考虑了哪些因素？你对这一设计都有哪些评价？

{dede:myad name='右侧广告位'/}

养花知识精选

养花知识推荐