Gemini 2.5 Deep Think 在人类终极考试 (HLE) 中取得了最佳表现。HLE 是一项极具挑战性的测试,旨在衡量 AI 回答数千道数学、人文和科学领域众包问题的能力。谷歌声称,其模型在 HLE(不使用工具)上的得分为 34.8%,而 xAI 的 Grok 4 得分为 25.4%,OpenAI 的 o3 得分为 20.3%。

谷歌还表示,Gemini 2.5 Deep Think 在 LiveCodeBench 6(一项极具挑战性的竞技编程任务测试)中的表现优于 OpenAI、xAI 和 Anthropic 的 AI 模型。谷歌的模型得分为 87.6%,Grok 4 得分为 79%,OpenAI 的 o3 得分为 72%。
 

Gemini 2.5 Deep Think 可自动与代码执行和 Google 搜索等工具协同工作,该公司表示,它能够产生比传统 AI 模型“更长的响应”。

在谷歌的测试中,与其他人工智能模型相比,该模型能够生成更详细、更美观的网页开发任务。该公司声称,该模型可以帮助研究人员,并“有可能加速探索之路”。
 

埃隆·马斯克的 xAI 最近发布了自己的多智能体系统Grok 4 Heavy,据称该系统在多个基准测试中达到了业界领先的性能。OpenAI 研究员诺姆·布朗在播客中表示,该公司在今年国际数学奥林匹克竞赛中获得金牌的未发布的人工智能模型也是一个多智能体系统。同时,Anthropic 的研究智能体(能够生成详尽的研究摘要)也由多智能体系统驱动。

尽管性能强劲,但多智能体系统的运行成本似乎比传统AI模型更高。这意味着科技公司可能会将这些系统限制在其最昂贵的订阅计划中,xAI和现在的谷歌都选择了这样做。

谷歌表示,计划在未来几周内通过 Gemini API 与一组选定的测试人员分享 Gemini 2.5 Deep Think。该公司表示,希望更好地了解开发者和企业如何使用其多智能体系统。