GPT-5来了！有博士级专业能力，跑分图却闹大乌龙

GPT-5来了！有博士级专业能力，跑分图却闹大乌龙

2025-08-11 12:58

【TechWeb】8月8日消息，今日凌晨，业内等待2年的GPT-5终于正式亮相了！

一发布，GPT-5就冲上大模型竞技场榜首，在文本、编程、数学等全方面排名第一，全面超越Gemini-2.5-pro、Grok4等一众竞品大模型。

OpenAI称，GPT-5不仅在基准测试中表现优于以前的模型，更快地回答问题，而且最重要的是，它对现实世界的查询更有用。在减少幻觉、改善指令遵循和最大限度地减少阿谀奉承方面取得了重大进展，同时在ChatGPT最常见的三种用途（写作、编码和健康）中提高了GPT-5的性能。

OpenAI CEO 山姆奥特曼（Sam Altman）表示，GPT-5非常聪明，如果说GPT-4还是大学生，GPT-5已经达到了博士级别的智能，与其对话就像是与一位在任何领域都拥有博士学位的专家沟通。

发布会上，奥特曼提到，32个月之前，OpenAI发布了ChatGPT，并在发布首周获得超100万用户。如今，ChatGPT在全球范围内已有超过7亿用户。

不过，在发布过程中，GPT-5团队放出的一张“跑分”柱状图却闹了个“9.11>9.9”的大乌龙，在社交平台上被众人diss。

就是下面这张，“亮点”在：69.1数值的柱状图高度还不如52.8高。

被人截图挂网上了，网友嘲是又一次“9.11>9.9”时刻。去年，ChatGPT-4o在回答“9.11和9.9哪个更大？”时曾答出经典的“9.11>9.9”。

现在，OpenAI官网已经悄悄更新了新的图片（如下）。这个比例正常多了。

抛开这些，先看看GPT-5能力升级重点。

GPT-5超越一切

OpenAI此次发布的GPT-5系列模型包括：GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四个版本。

GPT-5首次集成多模态和推理能力，能自行判断何时开启深度思考，相当于把GPT系列和o系列进行了统一，用户使用时不用再切换模型类型。

免费用户的GPT-5用量有限，超过限额后将自动转至GPT-5-mini。GPT-5-pro仅供Pro订阅用户使用，可凭借扩展推理功能，提供更全面、更准确的答案。

针对开发人员，在API平台上，OpenAI推出了GPT-5、GPT-5 mini、GPT-5 nano三种模型选择。

从官方放出的“跑分”情况，多项基准测试中，GPT-5超过了OpenAI o3、GPT-4o等此前OpenAI最强大的模型，在数学、编码、视觉感知和健康方面表现尤其出色。

同时，GPT-5-pro模型还在科学知识基准测试GPQA上获得了新的SOTA，无需工具即可得分88.4%。

最好编程模型

OpenAI特别强调了几点：GPT-5是迄今为止最好的编程模型。

在真实世界编程SWE-benchVerified测试中GPT-5得分74.9%，较o3版本的69.1%有所提升。GPT‑5以更高的效率和速度获得了高分：与o3在高推理强度下相比，GPT‑5的输出tokens数量减少了22%，工具调用次数减少了45%。

在代码编辑评估Aider polyglot上，GPT-5创下了88%的新纪录，与o3相比，错误率降低了三分之一。

在网页开发中，GPT-5创造新纪录，超越Gemini-2.5-pro和Claude-Opus-4。

为了验证GPT-5编码的能力，在发布会上，OpenAI还特地邀请了AI编程创企Cursor联合创始人兼首席执行官Michael Truell进行现场演示。

Michael Truell表示，GPT-5是我们使用过的最智能的编码模型，GPT-5在API调用中展现出了不错的稳定性，在Cursor里解决上述问题时，它面对的是一组从未见过的定制模型、从未见过的定制工具，还需要从网上抓取文本、在代码库里搜索等，解决问题的速度比他本人要快很多。

OpenAI官网上公开了更多编程案例。

例如，下面这个，开发出的小游戏，画面精美、游戏机制和可玩性都很不错。

同时，OpenAI称GPT-5在Agent任务方面同样表现出色。GPT‑5在指令跟踪基准测试（Scale MultiChallenge为69.6%，由o3-mini评分）和工具调用基准测试（τ2-bench telecom为96.7%）方面创下了新纪录。

通用Agent创企Manus联合创始人兼首席科学家Yichao ‘Peak’ Ji称，“GPT‑5在各种Agent任务中表现出色，即使在未修改任何代码或调整提示的情况下。对工具使用的更精确控制使Agent的稳定性和可操纵性有了显著的飞跃。”

另外，GPT-5要比目前最擅长写作的GPT-4.5更加优秀。GPT-5改进了语音功能，听起来就像跟人对话一样自然。

OpenAI还强调，GPT-5是迄今为止解决健康相关问题的最佳模型，它使用户能够了解并倡导自己的健康。该模型的得分明显高于HealthBench上的任何先前模型⁠。与之前的模型相比，GPT-5更像是一个积极的思维伙伴，主动标记潜在的问题，并提出问题以提供更有帮助的答案。该模型现在还提供了更精确和可靠的响应，适应了用户的背景、知识水平和地理位置，使其能够在各种情况下提供更安全、更有用的响应。

OpenAI还面向付费用户推出个性化定制的ChatGPT，支持自定义聊天功能，可调整模型的性格，还能改变聊天界面的颜色。

在价格上，GPT-5也较有竞争力的。

GPT-5：输入1.25美元/百万token，输出10美元/百万tokenGPT-5 mini：输入0.25美元/百万token，输出2美元/百万tokenGPT-5 nano：输入0.05美元/百万token，输出0.4美元/百万token。

对于开发人员来说，与Anthropic和Google的最强大模型相比，GPT-5成本相当或者更低。

马斯克不服

对于GPT-5的各种“第一”，奥特曼的老冤家马斯克也在第一时间表示了不服。

马斯克在社交平台发文：在人类最后测试上，还是Grok4 Heavy更胜一筹。内涵GPT-5这最强大模型有水分。

GPT-5后续实测到底表现如何，我们也将持续关注。（果青）