分享好友 最新动态首页 最新动态分类 切换频道
GPT-5来了!有博士级专业能力,跑分图却闹大乌龙
2025-08-11 12:58

【TechWeb】8月8日消息,今日凌晨,业内等待2年的GPT-5终于正式亮相了!

一发布,GPT-5就冲上大模型竞技场榜首,在文本、编程、数学等全方面排名第一,全面超越Gemini-2.5-pro、Grok4等一众竞品大模型。

OpenAI称,GPT-5不仅在基准测试中表现优于以前的模型,更快地回答问题,而且最重要的是,它对现实世界的查询更有用。在减少幻觉、改善指令遵循和最大限度地减少阿谀奉承方面取得了重大进展,同时在ChatGPT最常见的三种用途(写作、编码和健康)中提高了GPT-5的性能。

OpenAI CEO 山姆 奥特曼(Sam Altman)表示,GPT-5非常聪明,如果说GPT-4还是大学生,GPT-5已经达到了博士级别的智能,与其对话就像是与一位在任何领域都拥有博士学位的专家沟通。

发布会上,奥特曼提到,32个月之前,OpenAI发布了ChatGPT,并在发布首周获得超100万用户。如今,ChatGPT在全球范围内已有超过7亿用户。

不过,在发布过程中,GPT-5团队放出的一张“跑分”柱状图却闹了个“9.11>9.9”的大乌龙,在社交平台上被众人diss。

就是下面这张,“亮点”在:69.1数值的柱状图高度还不如52.8高。

被人截图挂网上了,网友嘲是又一次“9.11>9.9”时刻。去年,ChatGPT-4o在回答“9.11和9.9哪个更大?”时曾答出经典的“9.11>9.9”。

现在,OpenAI官网已经悄悄更新了新的图片(如下)。这个比例正常多了。

抛开这些,先看看GPT-5能力升级重点。

GPT-5超越一切

OpenAI此次发布的GPT-5系列模型包括:GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四个版本。

GPT-5首次集成多模态和推理能力,能自行判断何时开启深度思考,相当于把GPT系列和o系列进行了统一,用户使用时不用再切换模型类型。

免费用户的GPT-5用量有限,超过限额后将自动转至GPT-5-mini。GPT-5-pro仅供Pro订阅用户使用,可凭借扩展推理功能,提供更全面、更准确的答案。

针对开发人员,在API平台上,OpenAI推出了GPT-5、GPT-5 mini、GPT-5 nano三种模型选择。

从官方放出的“跑分”情况,多项基准测试中,GPT-5超过了OpenAI o3、GPT-4o等此前OpenAI最强大的模型,在数学、编码、视觉感知和健康方面表现尤其出色。

同时,GPT-5-pro模型还在科学知识基准测试GPQA上获得了新的SOTA,无需工具即可得分88.4%。

最好编程模型

OpenAI特别强调了几点:GPT-5是迄今为止最好的编程模型。

在真实世界编程SWE-benchVerified测试中GPT-5得分74.9%,较o3版本的69.1%有所提升。GPT‑5以更高的效率和速度获得了高分:与o3在高推理强度下相比,GPT‑5的输出tokens数量减少了22%,工具调用次数减少了45%。

在代码编辑评估Aider polyglot上,GPT-5创下了88%的新纪录,与o3相比,错误率降低了三分之一。

在网页开发中,GPT-5创造新纪录,超越Gemini-2.5-pro和Claude-Opus-4。

为了验证GPT-5编码的能力,在发布会上,OpenAI还特地邀请了AI编程创企Cursor联合创始人兼首席执行官Michael Truell进行现场演示。

Michael Truell表示,GPT-5是我们使用过的最智能的编码模型,GPT-5在API调用中展现出了不错的稳定性,在Cursor里解决上述问题时,它面对的是一组从未见过的定制模型、从未见过的定制工具,还需要从网上抓取文本、在代码库里搜索等,解决问题的速度比他本人要快很多。

OpenAI官网上公开了更多编程案例。

例如,下面这个,开发出的小游戏,画面精美、游戏机制和可玩性都很不错。

同时,OpenAI称GPT-5在Agent任务方面同样表现出色。GPT‑5在指令跟踪基准测试(Scale MultiChallenge为69.6%,由o3-mini评分)和工具调用基准测试(τ2-bench telecom为96.7%)方面创下了新纪录。

通用Agent创企Manus联合创始人兼首席科学家Yichao ‘Peak’ Ji称,“GPT‑5在各种Agent任务中表现出色,即使在未修改任何代码或调整提示的情况下。对工具使用的更精确控制使Agent的稳定性和可操纵性有了显著的飞跃。”

另外,GPT-5要比目前最擅长写作的GPT-4.5更加优秀。GPT-5改进了语音功能,听起来就像跟人对话一样自然。

OpenAI还强调,GPT-5是迄今为止解决健康相关问题的最佳模型,它使用户能够了解并倡导自己的健康。该模型的得分明显高于HealthBench上的任何先前模型⁠。与之前的模型相比,GPT-5更像是一个积极的思维伙伴,主动标记潜在的问题,并提出问题以提供更有帮助的答案。该模型现在还提供了更精确和可靠的响应,适应了用户的背景、知识水平和地理位置,使其能够在各种情况下提供更安全、更有用的响应。

OpenAI还面向付费用户推出个性化定制的ChatGPT,支持自定义聊天功能,可调整模型的性格,还能改变聊天界面的颜色。

在价格上,GPT-5也较有竞争力的。

GPT-5:输入1.25美元/百万token,输出10美元/百万tokenGPT-5 mini:输入0.25美元/百万token,输出2美元/百万tokenGPT-5 nano:输入0.05美元/百万token,输出0.4美元/百万token。

对于开发人员来说,与Anthropic和Google的最强大模型相比,GPT-5成本相当或者更低。

马斯克不服

对于GPT-5的各种“第一”,奥特曼的老冤家马斯克也在第一时间表示了不服。

马斯克在社交平台发文:在人类最后测试上,还是Grok4 Heavy更胜一筹。内涵GPT-5这最强大模型有水分。

GPT-5后续实测 到底表现如何, 我们也将持续关注。(果青)

最新文章
足球——英超联赛:阿森纳战平利物浦(2)_腾讯新闻
当日,在英国伦敦进行的2025-2026赛季英超联赛第21轮的一场比赛中,阿森纳队主场0比0战平利物浦队。1月8日,阿森纳队球员哲凯赖什(后)与利物浦队球员弗林蓬拼抢。新华社/欧新1月8日,阿森纳队球员哲凯赖什(右)与利物浦队球员科内特拼抢
年后第一周,A股冲击4000点,关注这三大板块_腾讯新闻
本周A 股呈现慢牛上涨趋势,其中上证指数微涨0.13%,深证成指小跌0.58%,创业板指跌1.25%。在乐观情绪加持下,市场走出了极其罕见的十一连阳,春季躁动已经发动,2025年完美收官。整体来看,全 A 平均股价小跌0.33%,本周市场受多重利好催
深圳大益普洱茶罗湖百事达店直营店
深圳大益普洱茶罗湖百事达店直营店深圳大益普洱茶罗湖百事达店是直营店,位置就在罗湖百事达商场里面,这里卖的都是正宗的大益普洱茶,适合喜爱喝茶的人来逛一逛。你是不是也经常在茶店里被各种花里胡哨的包装迷惑?其实许多茶都不太对劲,
原创央视《大生意人》被观众要求下架!理由:演技尴尬、挂羊头卖狗肉
最近,陈晓的口碑也是逐渐沦陷了。不仅颜值状态被人吐槽,就连新剧也被观众要求下架!那么,他的新剧《大生意人》到底差在哪呢?好不容易盼来了《大生意人》的播出。当时预告放出的时候,就令人期待满满。因为无论是质感,还是剧情,人物什
40万彩礼钱险变“茶叶投资”,虹口民警与银行联手按下“停止键”_腾讯新闻
“投资茶叶销地中心,日获利可超万元。”如此极具诱惑力的宣传话术,让受害人执意要转账40万元用于“投资”,却不知自己正一步步踏入骗子精心编织的诈骗陷阱。近日,虹口警方依托“警银联动”机制,成功劝阻一起大额网络投资理财诈骗案件,
网贷现逾期,农商行贷款能否获批?深度解析+避坑指南,2026年必看秘籍!
朋友们最近我身边好几个朋友都遇到了一个疑问网贷逾期了现在想申请农商行的贷款,能通过吗? 这个难题真的挺让人头疼的。我是一个过来人去年因为工作变动,手头紧就借了点网贷,结果后来工资没发还不了就逾期了,那时候真是急得不行天天盯
Lunita9.8-9.14星座一周运势_腾讯新闻
白羊座 ★★★★事业:工作进展顺利,特别适合做细致的整理和计划。团队会议或与同事的沟通会很高效,能够解决之前卡住的问题。感情:有伴者更容易通过日常的互动加深感情,比如一起做家务或健身。单身者可能在工作环境中遇到聊得来的人。
回望2025·儿童友好篇丨这一年,央媒何以频频聚焦合肥女性?
这一年,我们与全市480余万妇女姐妹同心同向、并肩奋进。思想政治引领、科技创新驱动、乡村振兴赋能、儿童友好城市建设、妇女权益保障、妇联改革深化等各项工作实现突破性进展,持续领跑全省、影响全国……这一年,新华社、光明日报、中国
环境监察服装制服 冬
聊城鸿运莱技术部门为您提供信息,环境监察服装 指导价格冬装220/件成品检验的主要内容有:(1)款式是否同确认样相同。(2)尺寸规格是否符合工艺单和样衣的要求。(3)缝合是否正确,缝制是否规整、平服。(4)条格面料的服装检查对格对
新邱区法学会组织开展“法治护航民企”主题活动|民营经济促进法|法律_网易新闻
6月25日,阜新市新邱区法学会组织开展“法治护航民企”主题活动。法学专家深入企业宣讲《民营经济促进法》,帮助企业精准把握法律红利,将”纸面条款“转化为发展动能。在“泽程化工”“煜科化工”“昊瑞化工”, 新邱区法学会向企业赠送《
相关文章
推荐文章
发表评论
0评