GPT-5.4发布:OpenAI终于补上了最关键的短板,为什么它会是OpenClaw的天选模型?
# GPT-5.4发布:OpenAI终于补上了最关键的短板,为什么它会是OpenClaw的天选模型?
GPT-5.4,突然发布,在GPT-5.3发布不久,让我们来看看这个据说是OpenClaw的天选模型。
GPT-5.4 这次最值钱的地方,不是单项能力又涨了几个点,而是它终于开始像一个完整模型了。代码能力保住了,知识工作更强了,工具使用更稳了,电脑操作能力也被正式拉上来了,而且已经同时进了 ChatGPT、Codex 和 API。

如果一定要用一句大白话来概括,那就是: GPT-5.3 Codex 那种能干活的代码实力 , 比 GPT-5.2 更完整的专业能力 , 更强的工具和 Agent 味道 , 更适合真正拿来长期当主力模型的使用体验。
现在如果想体验ChatGPTPlus,国内推荐正规充值渠道,已经充值上万人,没有封号先例,地址如下:
ChatGPT官网直充:https://chongzhi.aliyuncn.com (opens new window)

# 真正让人上头的,不只是它更强,而是它终于更顺了
很多模型的问题,不是某一项特别差,而是组合起来别扭。
有的模型特别会写代码,但你和它沟通需求的时候,总像在跟一台把人话压缩过的机器交流。你明明在聊业务,它非要给你整出一股“技术说明书”的味儿。还有的模型聊天确实顺,可一到复杂任务、长上下文、多工具链路,就容易掉状态,前面说的东西后面忘,刚定的目标一会儿又跑偏。
GPT-5.4 这次给人的最大变化之一,就是它开始明显往“能干活,也能好好说话”这个方向靠了。
说白了,这一代开始,你不只是“问它一个问题”,而是真的更像在“带着它一起做事”。
# 最关键的一件事:GPT-5.4是第一个原生带电脑操作能力的通用模型
这次 GPT-5.4 有个特别值得单拎出来说的点:它是 OpenAI 推出的第一个原生具备电脑操作能力的通用模型。
这个“原生”很重要。 因为过去大家一提 AI 操作电脑,脑子里想到的更多还是外接 Agent、外挂工具、额外封装、再配一层自动化框架。可 GPT-5.4 这次最大的不同,是它本身就开始往“模型即 Agent”的方向走了。
换句话说,过去我们常说“给模型接个 Agent”,现在越来越接近另一种状态:模型本身就在往 Agent 长。
这件事对 OpenClaw 这种强调真实执行链路的场景,意义特别大。
因为你真正需要的,从来都不是一个只会补代码片段的模型,而是一个能看懂环境、能持续记住目标、能找对工具、还能把一串动作接起来做完的执行体。
# OSWorld这次很夸张:AI第一次在电脑操作测试里跑到人类前面
光讲概念没意思,还是得看结果。

OSWorld 现在基本可以算是“AI 操作电脑”这个方向最有代表性的测试之一。它测的不是纯问答,而是模型能不能通过截图和键鼠动作,在桌面环境里完成真实任务。
GPT-5.4 在这个测试里拿到 75.0% 的成功率,GPT-5.2 是 47.3%,人类基准是 72.4%。也就是说,至少在这个特定测试环境里,GPT-5.4 已经第一次超过了人类基准。
当然,这里也得把话说完整。
这个“超过人类”,说的是特定基准下的结果,不等于现实世界里 AI 已经全面比人更会用电脑。真实场景有更多变量,软件环境更乱,权限、弹窗、网络、异常状态也更多。所以这件事最合理的理解应该是:GPT-5.4 已经把“会操作电脑”这件事,从展示功能推到了一个开始具备实际参考价值的水平。
但即便带着这层克制去看,这个分数也已经很吓人了。 因为从 47.3% 到 75.0%,这不是小修小补,这是直接跨了一个台阶。
# 它不只是会操作电脑,它还更像能替你干活了
这次另一个特别有说服力的指标,是 GDPval。

这个测试不是考模型会不会背知识点,而是看它能不能在真实职业任务里把活做出来。覆盖 44 个职业的真实工作任务,像做 PPT、填表格、写分析报告这类事情,都属于它的考核范围。
GPT-5.4 在 GDPval 上做到 83.0%,GPT-5.2 是 70.9%。 这个成绩背后最重要的信号,不是“它更聪明了”,而是“它更像一个能进工作流的东西了”。
以前你会觉得模型擅长的是答题、总结、生成,真正要落到工作里,总差一点点职业感。现在 GPT-5.4 的方向已经明显变了,它不是在证明自己能写一段漂亮的话,而是在证明自己可以进入表格、演示文稿、文档、研究、分析这些具体工作形态里去做事。
# Excel和金融分析,是这次最现实的一块落地
OpenAI 这次其实把方向说得很明白:他们就是在冲“AI 办公”这件事。

而且不是泛泛地喊口号,是直接把 Excel 和金融分析这种最容易量化价值的场景拎出来打。
比如投行分析师级别的表格建模任务里,GPT-5.4 达到了 87.3%,而 GPT-5.2 只有 68.4%。
这事为什么值得关注? 因为 AI 真正有价值的办公场景,很多时候不是“帮我写一封邮件”,而是“帮我把这张表搭出来”“帮我把这个模型理顺”“帮我快速改一个财务逻辑”“帮我把一堆数据揉成可交付的东西”。
这类任务以前模型不是不能做,而是很容易只做到“看起来像”,一到真正讲格式、讲结构、讲一致性、讲公式逻辑,就露馅。 GPT-5.4 现在明显是在往这块补课,而且补得还挺狠。
# 幻觉也在降,而且这次给的是很实在的数字
还有一个很容易被忽略,但其实特别关键的点:GPT-5.4 的事实性错误在继续下降。
单条事实性错误概率比 GPT-5.2 低了 33%,完整回答出错率下降了 18%。 这个提升不算那种“一眼就惊艳”的能力,但它对日常使用的影响非常大。
因为你跟模型长期协作,最怕的不是它偶尔慢一点,也不是它某次回答不够漂亮,而是它一本正经地胡说。尤其进了金融、法务、运营、商业分析这类工作流,只要有幻觉,后面全是人工返工成本。
所以 GPT-5.4 这次最讨喜的一点,其实就是它整体变得更像一个“能放心让它先做一版”的模型了。
# 代码能力没丢,这一点比什么都重要
当然,说了这么多,如果代码能力掉了,那前面都白聊。 好消息是,这次最关键的工程能力并没有掉。
GPT-5.4 Thinking 在 SWE-Bench Pro 上做到 57.7%,GPT-5.3 Codex 是 56.8%,基本持平。
这正是很多人最想看到的结果。 不是那种“语言更好了,但代码软了”,也不是“会写代码,但整个人还是像个不会交流的脚本机”。
而是它把原来 GPT-5.3 Codex 那种硬实力保住了,再把知识、表达、专业工作能力、工具执行能力一起往上抬。 这才是真正意义上的升级。
# 100万上下文,终于开始对长任务认真了
GPT-5.4 还有一个特别大的变化,就是上下文窗口。
API 和 Codex 里,GPT-5.4 支持 100 万 tokens 上下文。相比 GPT-5.2 的 40 万,直接来到 2.5 倍。
这对 Agent 和复杂任务来说,非常关键。
因为很多人对上下文的理解,还停留在“能塞更长的文本”。其实真正重要的是,它能不能在长链路任务里持续记住目标、记住约束、记住你前面已经定过的东西。
以前上下文不够大的时候,模型常常不是不会做,而是做到一半开始失忆。前面讨论过的条件,后面忘了;前面收集过的信息,后面又重新来一遍;整个任务越长,稳定性越差。
100 万上下文的意义就在这里。它不是为了炫数字,而是为了让模型在更真实、更长、更复杂的执行过程中,别那么容易掉线。
# ChatGPT里的实际使用方式,也比以前灵活多了
这次另一个很实用的变化,是 GPT-5.4 Thinking 的使用方式终于更像给真人设计的了。
以前跟 ChatGPT 聊,模型一旦进入深度思考,你就只能等。它要是方向跑偏了,那就只能等它输出完,再重新来一遍,时间浪费了,token 也浪费了。
现在不一样了。
GPT-5.4 Thinking 会先给你一个思考计划,而且你可以在回答过程中随时打断、换方向、补要求、纠偏。
这个改动看起来不炸裂,但实际体验会非常舒服。
因为以前很多人对 Thinking 模型最大的抱怨,不是它不够聪明,而是它一想就想太久,而且你还没法中途把它拽回来。现在这个问题,总算开始被正面解决了。
# 额度和价格,也终于到了“主力可用”的区间
再强的模型,如果用不起,也很难成为真正的主力。
所有 ChatGPT 付费用户都可以使用 GPT-5.4 Thinking。Plus 和 Business 用户每周 3000 次额度,Pro 基本不用太担心上限。Auto 模式下遇到复杂问题还会自动路由到 GPT-5.4 Thinking,这部分通常不计入手动额度。
API 价格方面,GPT-5.4 的标准定价是每百万输入 token 2.5 美元、输出 15 美元;GPT-5.4 Pro 则是输入 30 美元、输出 180 美元。
这也很符合它现在的定位:GPT-5.4 是适合大多数人真正拿来用的主力模型,GPT-5.4 Pro 则更像给极高强度、极高要求场景准备的“性能拉满版”。
所以如果你问我,这波更新最大的现实意义是什么,我会说不是“又出了个更强模型”,而是 OpenAI 终于把“能打”和“能长期用”这两件事,往一起拧了。
# 当然,它也不是全能王,模型选择还是得看场景
说到底,没有哪个模型能把所有事情全包了。
GPT-5.4 这次把“专业知识 + 代码能力 + 电脑操作 + 工具调用 + 长上下文”这几个维度捏到了一起,这条路线现在确实很强。可如果你把问题换成别的方向,不同模型还是会有不同优势。
所以最合理的结论,不是“GPT-5.4 已经统一天下”,而是它在自己的主战场上,完成度已经很高了。尤其是专业任务、Agent 任务、长上下文、电脑操作这些以前最容易掉链子的场景,它现在明显更像那个能扛住主力位的模型。
还是那句话,没有最强的模型,只有最适合你那条工作流的模型。
但至少这次,GPT-5.4 已经很像 OpenAI 这边“最不别扭的那个答案”了。
# 说回OpenClaw,为什么我会觉得它就是现在最对味的底座
如果你是拿模型来聊天,那模型顺不顺嘴很重要,如果你是拿模型来写代码,那工程能力最重要。

如果你是拿模型来跑 Agent、接工具、做长任务,那稳定性、上下文、电脑操作、工具搜索这些能力就都不能掉。
问题就在这儿:过去很长一段时间,这几个点经常不在同一个模型身上,GPT-5.4 这次最让我舒服的地方,就是它终于不像以前那样让你做取舍题了。
你不需要为了代码能力去忍受“不会说人话”,也不需要为了交流自然去接受“真干活差点意思”,更不需要为了 Agent 场景去额外给它缝太多补丁。
尤其对 OpenClaw 这种强调真实执行的东西来说,底座模型最怕的不是某一项不够顶,而是短板太明显。GPT-5.4 这次,恰恰就是那个把短板补得最像样的选手。
# 最后一句:这次真不是“换个版本号”,而是默认模型该动了
总结下来,GPT-5.4 最狠的地方不是某一项分数突然封神,而是它把过去最影响体验的那几个断层,补得差不多了。
它在专业工作上更强了,GDPval 做到 83.0%;在电脑操作上直接冲到 75.0%,超过了特定测试环境下的人类基准;在表格和文档这种真实办公活上明显更成熟;在幻觉上继续往下压;在代码和工具执行这两块,又没有把原来的硬实力丢掉。
再加上前置思考计划、可中途纠偏、更长上下文、更清晰的思考档位选择,这一代 GPT-5.4 给人的感觉已经不是“更聪明一点”,而是“更像一个真的能跟你一起把活干完的东西”。
所以如果你本来就在用 OpenClaw,我的看法很直接: 只要支持一到位,默认模型真的该切 GPT-5.4 了。 这次,它不像一个“可选新版本”。 它更像那个你等了很久,终于等到的主力答案。