埃隆·马斯克的xAI发布最新旗舰机型Grok 3

周一晚,埃隆·马斯克的人工智能公司xAI发布了其最新旗舰人工智能模型Grok 3,并为Grok iOS和Web应用程序推出了新功能。

Grok是xAI对OpenAI的GPT-4o和Google的Gemini等模型的回应,它可以分析图像并回答问题,为马斯克的社交网络X的许多功能提供动力。Gro3开发了几个月,最初计划于2024年发布,但未能如期发布。

周一的推出令人雀跃。

xAI一直在使用位于孟菲斯的一个庞大数据中心,内有大约20万个GPU来训练Grok 3。马斯克在X上的一篇帖子中声称,Grok 3比其前身Grok 2使用了“10倍”更多的计算能力,使用了一个扩展的训练数据集,据称包括法庭案例的文件。

xAI团队成员在直播演示Grok 3期间,包括马斯克(最右边)。图片来源:xAI

马斯克在周一的直播演示中表示:“Grok 3比Grok 2的能力高出一个数量级。”“[这是一个]追求最大真相的人工智能,即使这个真相有时与政治正确相抵触。”

Grok 3准确地说是一族模型。Grok 3 mini是Grok 3家族中的一个较小版本,可以更快地回答问题,但精度略有损失。Grok 3的并非所有模型和相关功能都已推出(一些处于测试阶段),但它们在周一开始推出。

xAI声称Grok 3在包括AIME(评估模型在数学问题样本上的表现)和GPQA(使用博士级物理、生物学和化学问题评估模型)在内的基准测试中击败了GPT-4o。据xAI称,Grok 3的一个早期版本在Chatbot Arena中获得了竞争力,这是一个众包测试,将不同的人工智能模型相互对比,并让用户投票选择他们喜欢的回答。

图片来源:xAI

新Grok 3家族中的两个模型,Grok 3 Reasoning和Grok 3 mini Reasoning,可以仔细“思考”问题,类似于OpenAI的o3-mini和中国人工智能公司DeepSeek的R1等“推理”模型。推理模型在给出结果之前会努力自我事实检查,这有助于它们避免一些通常会让模型出错的陷阱。

xAI声称,Grok 3 Reasoning在几个流行的基准测试上超过了o3-mini的最佳版本——o3-mini-high。其中包括一项称为AIME 2025的最新数学基准测试。

图片来源:xAI

这些推理模型可以通过Grok应用程序访问。用户可以要求Grok 3“思考”,或者在处理更困难的问题时,利用“大脑”模式进行具有额外计算的推理。xAI将这些推理模型描述为最适合数学、科学和编程问题。

马斯克表示,为了阻止AI模型开发者从其他模型中提取知识,Grok应用程序中一些推理模型的“想法”被隐藏了起来。最近,DeepSeek被指控提取OpenAI的模型来开发自己的模型。

Grok的推理模型支撑了Grok应用程序中的一个新功能,称为DeepSearch,这是xAI对OpenAI深度研究等AI支持的研究工具的回应。 DeepSearch扫描互联网和X分析信息,并根据问题提供摘要。

X的高级会员+(每月50美元)将首先获得Grok 3的访问权限,其他功能将限于xAI称之为SuperGrok的新计划后。SuperGrok的价格为每月30美元或每年300美元(如果泄露是真实的),可以解锁额外的推理和DeepSearch查询,并提供无限制的图像生成。

图片来源:xAI

未来——可能最快将在大约一周内——Grok应用程序将获得“语音模式”,马斯克表示,这将赋予Grok模型一个合成的声音。再过几周,Grok 3模型将通过xAI的企业API提供,同时提供DeepSearch功能。

xAI计划在未来几个月内开源Grok 2,马斯克表示。

“我们的一般做法是,在下一个版本完全发布时,我们将开源最后一个版本[Grok],”他继续说道。“当Grok 3稳定成熟,大约在几个月内,我们将开源Grok 2。”

大约两年前,马斯克宣布Grok时,将这个人工智能模型描述为前卫,不加过滤,反对“唤醒”——总的来说,愿意回答其他人工智能系统不愿回答的争议性问题。在某些方面,他实现了这一承诺。例如,要求粗俗时,Grok和Grok 2将乐意履行,吐出ChatGPT中不太可能听到的丰富多彩的语言。

但在Grok 3之前的Grok模型在政治问题上则有些犹豫,不会越过某些界限。实际上,一项研究发现,在跨性别权利、多样性计划和不平等等话题上,Grok在政治意识形态上倾向于左倾。

马斯克将这一行为归咎于Grok的训练数据——公共网页——并承诺“将Grok更接近政治中立”。目前尚不清楚xAI是否实现了这个目标,以及可能会有什么后果。