如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

时间：2025-06-20 01:30:15来源：当前位置：当前位置：首页 >

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果，突出了一个政治正确，6款大模型，OpenAI的o3倒数第一，我当时看到的时候就觉得很奇怪，o3好歹也是曾经的一代王者，高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下，因为这道题除了o3，其他的国产模型都答对了。

这是第五题的原题，正确答案是A. - 1/2。

这是之前的第三方的测试结果，6个模型…。

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

上一篇 : 前端如何设计网页？

下一篇 : Mac微信如何备份聊天记录?

相关文章：

{dede:myad name='右侧广告位'/}

豫剧真的再也回不到以前的水平了吗？

2014年。说实话，除了京剧，我来郑州15年了，还是第一次...
2025-06-20阅读全文 >>
为什么他们可以闻出来我身上的穷酸味?

在深圳宝安机场候机，饿的不行了，找到一家面馆，里面人不多，三...
2025-06-20阅读全文 >>
马斯克宣布星舰将配备 42 台发动机，如何评价这一设计？

第十飞星舰 s36 静态测试原地爆炸了，我的判断没错，v2 ...
2025-06-20阅读全文 >>
如何评价DuckDB?

确实性能强大，我感觉单机TPC-H应该是跑的最快的了。原理...
2025-06-20阅读全文 >>
微软宣布 5 月 28 日开始下架「Microsoft 远程桌面」应用，背后原因有哪些？

咦这事和我之前参加过的讨论有关，我应该可以回答至少一部分原因...
2025-06-20阅读全文 >>

养花知识本月排行

1家里想搞一个服务器，怎么才不违规？
这种情况如何提高打字速度？
有哪些小众的开源项目养活了一大批人?
美军航母编队有能力拦截DF-21D和DF-26吗？
有没有GUI框架开发难度小，***消耗又不多，而且又跨平台？
为什么说Go语言的设计是工程先进但学术落后?
曼德拉是南非的罪人吗？
以色列是如何从三天前的不可一世要灭了伊朗到今天的哭哭啼啼要“为生存而战”的？
如何看待华人派遣赴日it彻底崩了？
国产手机APP为什么越来越臃肿？

{dede:myad name='右侧广告位'/}

养花知识精选

养花知识推荐