xAI 推出 Grok-3
埃隆·马斯克的人工智能公司xAI于2025年2月17日发布了其最新的旗舰模型Grok 3,具有增强的功能、一系列专业化模型以及像DeepSearch这样的新工具,使其在人工智能领域成为一个强大的竞争者。
Grok 3的主要特点
使用位于孟菲斯的大型数据中心开发,拥有大约200,000个GPU,Grok 3 代表了人工智能能力的重大飞跃1。该模型的计算能力是其前身 Grok 2 的十倍,并且包含了扩展的训练数据集,其中包括法律文件2。Grok 3 并非单一实体,而是一个人工智能模型家族,每个模型都针对特定功能设计:
- Grok 3:具有增强功能的主模型
- Grok 3 Mini:以轻微牺牲准确性为代价提供更快的响应
- Grok 3 Reasoning 和 Grok 3 Mini Reasoning:专注于高级问题解决任务3
这一多样化的模型系列使 xAI 能够满足从快速响应到复杂推理任务的各种人工智能应用需求,使 Grok 3 成为一个多功能且强大的人工智能系统。
基准性能

Grok 3 在各类基准测试中表现出色,超越了许多竞争对手。以下是基准测试结果的详细分析:
- 推理 + 测试时计算:
- 数学 (AIME ’24):Grok-3 Reasoning Beta (93),Grok-3 mini Reasoning (96),o3-mini-high (87),o1 (83),DeepSeek-R1 (80),Gemini-2 Flash Thinking (73)
- 科学 (GPQA):Grok-3 Reasoning Beta (85),Grok-3 mini Reasoning (84),o3-mini-high (80),o1 (78),DeepSeek-R1 (71),Gemini-2 Flash Thinking (74)
- 编码 (LCB Oct-Feb):Grok-3 Reasoning Beta (79),Grok-3 mini Reasoning (80),o3-mini-high (74),o1 (73),DeepSeek-R1 (65),Gemini-2 Flash Thinking (46)
- 标准基准测试:
- 数学 (AIME ’24):Grok-3 (52),Grok-3 mini (40),Gemini-2 Pro (36),DeepSeek-V3 (39),Claude 3.5 Sonnet (16),GPT-4o (9)12
- 科学 (GPQA):Grok-3 (75),Grok-3 mini (65),Gemini-2 Pro (65),DeepSeek-V3 (59),Claude 3.5 Sonnet (65),GPT-4o (50)12
- 编码 (LCB Oct-Feb):Grok-3 (57),Grok-3 mini (41),Gemini-2 Pro (36),DeepSeek-V3 (40),Claude 3.5 Sonnet (36),GPT-4o (34)12
此外,Grok-3 的早期版本代号为“Chocolate”,成为第一个在 LMSYS Chatbot Arena 中突破 1400 ELO 分数的 AI 模型,在所有类别中排名第一3。在 AIME 2025 数学竞赛中,Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 占据了前两名的位置,显著超越了其他推理模型2
附加功能
Grok 3 引入了多种创新工具和功能,增强了其功能性和用户体验。DeepSearch 是一款全新的 AI 驱动研究工具,可扫描互联网和 X(前身为 Twitter),分析信息并根据用户查询提供简明摘要12。此功能旨在与 OpenAI 的深度研究工具等竞争对手的类似产品竞争3。
埃隆·马斯克宣布,Grok 3 很快将具备语音交互功能,语音模式预计将在初始发布后一周内上线45。此外,xAI 计划在未来几周内通过其商业 API 提供 Grok 3 模型,以及 DeepSearch 功能43。此 API 访问将允许开发者和企业将 Grok 3 的高级推理和研究能力集成到他们自己的应用程序和服务中67。
定价和访问选项
Grok 3最初向X Premium+订阅用户提供,每月收费50美元12。xAI还推出了一个新的SuperGrok计划,每月30美元或每年300美元,提供额外的DeepSearch查询、增强的推理能力和无限的图像生成功能34。Grok应用程序很快将支持语音交互,并计划在未来几周内提供企业API访问5。与此同时,xAI计划在Grok 3完全稳定后开源Grok 2,继续履行其承诺,将以前的版本发布供公众使用56。