chatgpt

GPT-5.4发布：OpenAI终于补上了最关键的短板，为什么它会是OpenClaw的天选模型？

# GPT-5.4发布：OpenAI终于补上了最关键的短板，为什么它会是OpenClaw的天选模型？

GPT-5.4，突然发布，在GPT-5.3发布不久，让我们来看看这个据说是OpenClaw的天选模型。

GPT-5.4 这次最值钱的地方，不是单项能力又涨了几个点，而是它终于开始像一个完整模型了。代码能力保住了，知识工作更强了，工具使用更稳了，电脑操作能力也被正式拉上来了，而且已经同时进了 ChatGPT、Codex 和 API。

如果一定要用一句大白话来概括，那就是： GPT-5.3 Codex 那种能干活的代码实力 , 比 GPT-5.2 更完整的专业能力 , 更强的工具和 Agent 味道 , 更适合真正拿来长期当主力模型的使用体验。

现在如果想体验ChatGPTPlus，国内推荐正规充值渠道，已经充值上万人，没有封号先例，地址如下：

ChatGPT官网直充：https://chongzhi.aliyuncn.com (opens new window)

# 真正让人上头的，不只是它更强，而是它终于更顺了

很多模型的问题，不是某一项特别差，而是组合起来别扭。

有的模型特别会写代码，但你和它沟通需求的时候，总像在跟一台把人话压缩过的机器交流。你明明在聊业务，它非要给你整出一股“技术说明书”的味儿。还有的模型聊天确实顺，可一到复杂任务、长上下文、多工具链路，就容易掉状态，前面说的东西后面忘，刚定的目标一会儿又跑偏。

GPT-5.4 这次给人的最大变化之一，就是它开始明显往“能干活，也能好好说话”这个方向靠了。

说白了，这一代开始，你不只是“问它一个问题”，而是真的更像在“带着它一起做事”。

# 最关键的一件事：GPT-5.4是第一个原生带电脑操作能力的通用模型

这次 GPT-5.4 有个特别值得单拎出来说的点：它是 OpenAI 推出的第一个原生具备电脑操作能力的通用模型。

这个“原生”很重要。因为过去大家一提 AI 操作电脑，脑子里想到的更多还是外接 Agent、外挂工具、额外封装、再配一层自动化框架。可 GPT-5.4 这次最大的不同，是它本身就开始往“模型即 Agent”的方向走了。

换句话说，过去我们常说“给模型接个 Agent”，现在越来越接近另一种状态：模型本身就在往 Agent 长。

这件事对 OpenClaw 这种强调真实执行链路的场景，意义特别大。

因为你真正需要的，从来都不是一个只会补代码片段的模型，而是一个能看懂环境、能持续记住目标、能找对工具、还能把一串动作接起来做完的执行体。

# OSWorld这次很夸张：AI第一次在电脑操作测试里跑到人类前面

光讲概念没意思，还是得看结果。

OSWorld 现在基本可以算是“AI 操作电脑”这个方向最有代表性的测试之一。它测的不是纯问答，而是模型能不能通过截图和键鼠动作，在桌面环境里完成真实任务。

GPT-5.4 在这个测试里拿到 75.0% 的成功率，GPT-5.2 是 47.3%，人类基准是 72.4%。也就是说，至少在这个特定测试环境里，GPT-5.4 已经第一次超过了人类基准。

当然，这里也得把话说完整。

这个“超过人类”，说的是特定基准下的结果，不等于现实世界里 AI 已经全面比人更会用电脑。真实场景有更多变量，软件环境更乱，权限、弹窗、网络、异常状态也更多。所以这件事最合理的理解应该是：GPT-5.4 已经把“会操作电脑”这件事，从展示功能推到了一个开始具备实际参考价值的水平。

但即便带着这层克制去看，这个分数也已经很吓人了。因为从 47.3% 到 75.0%，这不是小修小补，这是直接跨了一个台阶。

# 它不只是会操作电脑，它还更像能替你干活了

这次另一个特别有说服力的指标，是 GDPval。

这个测试不是考模型会不会背知识点，而是看它能不能在真实职业任务里把活做出来。覆盖 44 个职业的真实工作任务，像做 PPT、填表格、写分析报告这类事情，都属于它的考核范围。

GPT-5.4 在 GDPval 上做到 83.0%，GPT-5.2 是 70.9%。这个成绩背后最重要的信号，不是“它更聪明了”，而是“它更像一个能进工作流的东西了”。

以前你会觉得模型擅长的是答题、总结、生成，真正要落到工作里，总差一点点职业感。现在 GPT-5.4 的方向已经明显变了，它不是在证明自己能写一段漂亮的话，而是在证明自己可以进入表格、演示文稿、文档、研究、分析这些具体工作形态里去做事。

# Excel和金融分析，是这次最现实的一块落地

OpenAI 这次其实把方向说得很明白：他们就是在冲“AI 办公”这件事。

而且不是泛泛地喊口号，是直接把 Excel 和金融分析这种最容易量化价值的场景拎出来打。

比如投行分析师级别的表格建模任务里，GPT-5.4 达到了 87.3%，而 GPT-5.2 只有 68.4%。

这事为什么值得关注？因为 AI 真正有价值的办公场景，很多时候不是“帮我写一封邮件”，而是“帮我把这张表搭出来”“帮我把这个模型理顺”“帮我快速改一个财务逻辑”“帮我把一堆数据揉成可交付的东西”。

这类任务以前模型不是不能做，而是很容易只做到“看起来像”，一到真正讲格式、讲结构、讲一致性、讲公式逻辑，就露馅。 GPT-5.4 现在明显是在往这块补课，而且补得还挺狠。

# 幻觉也在降，而且这次给的是很实在的数字

还有一个很容易被忽略，但其实特别关键的点：GPT-5.4 的事实性错误在继续下降。

单条事实性错误概率比 GPT-5.2 低了 33%，完整回答出错率下降了 18%。这个提升不算那种“一眼就惊艳”的能力，但它对日常使用的影响非常大。

因为你跟模型长期协作，最怕的不是它偶尔慢一点，也不是它某次回答不够漂亮，而是它一本正经地胡说。尤其进了金融、法务、运营、商业分析这类工作流，只要有幻觉，后面全是人工返工成本。

所以 GPT-5.4 这次最讨喜的一点，其实就是它整体变得更像一个“能放心让它先做一版”的模型了。

# 代码能力没丢，这一点比什么都重要

当然，说了这么多，如果代码能力掉了，那前面都白聊。好消息是，这次最关键的工程能力并没有掉。

GPT-5.4 Thinking 在 SWE-Bench Pro 上做到 57.7%，GPT-5.3 Codex 是 56.8%，基本持平。

这正是很多人最想看到的结果。不是那种“语言更好了，但代码软了”，也不是“会写代码，但整个人还是像个不会交流的脚本机”。

而是它把原来 GPT-5.3 Codex 那种硬实力保住了，再把知识、表达、专业工作能力、工具执行能力一起往上抬。这才是真正意义上的升级。

# 100万上下文，终于开始对长任务认真了

GPT-5.4 还有一个特别大的变化，就是上下文窗口。

API 和 Codex 里，GPT-5.4 支持 100 万 tokens 上下文。相比 GPT-5.2 的 40 万，直接来到 2.5 倍。

这对 Agent 和复杂任务来说，非常关键。

因为很多人对上下文的理解，还停留在“能塞更长的文本”。其实真正重要的是，它能不能在长链路任务里持续记住目标、记住约束、记住你前面已经定过的东西。

以前上下文不够大的时候，模型常常不是不会做，而是做到一半开始失忆。前面讨论过的条件，后面忘了；前面收集过的信息，后面又重新来一遍；整个任务越长，稳定性越差。

100 万上下文的意义就在这里。它不是为了炫数字，而是为了让模型在更真实、更长、更复杂的执行过程中，别那么容易掉线。

# ChatGPT里的实际使用方式，也比以前灵活多了

这次另一个很实用的变化，是 GPT-5.4 Thinking 的使用方式终于更像给真人设计的了。

以前跟 ChatGPT 聊，模型一旦进入深度思考，你就只能等。它要是方向跑偏了，那就只能等它输出完，再重新来一遍，时间浪费了，token 也浪费了。

现在不一样了。

GPT-5.4 Thinking 会先给你一个思考计划，而且你可以在回答过程中随时打断、换方向、补要求、纠偏。

这个改动看起来不炸裂，但实际体验会非常舒服。

因为以前很多人对 Thinking 模型最大的抱怨，不是它不够聪明，而是它一想就想太久，而且你还没法中途把它拽回来。现在这个问题，总算开始被正面解决了。

# 额度和价格，也终于到了“主力可用”的区间

再强的模型，如果用不起，也很难成为真正的主力。

所有 ChatGPT 付费用户都可以使用 GPT-5.4 Thinking。Plus 和 Business 用户每周 3000 次额度，Pro 基本不用太担心上限。Auto 模式下遇到复杂问题还会自动路由到 GPT-5.4 Thinking，这部分通常不计入手动额度。

API 价格方面，GPT-5.4 的标准定价是每百万输入 token 2.5 美元、输出 15 美元；GPT-5.4 Pro 则是输入 30 美元、输出 180 美元。

这也很符合它现在的定位：GPT-5.4 是适合大多数人真正拿来用的主力模型，GPT-5.4 Pro 则更像给极高强度、极高要求场景准备的“性能拉满版”。

所以如果你问我，这波更新最大的现实意义是什么，我会说不是“又出了个更强模型”，而是 OpenAI 终于把“能打”和“能长期用”这两件事，往一起拧了。

# 当然，它也不是全能王，模型选择还是得看场景

说到底，没有哪个模型能把所有事情全包了。

GPT-5.4 这次把“专业知识 + 代码能力 + 电脑操作 + 工具调用 + 长上下文”这几个维度捏到了一起，这条路线现在确实很强。可如果你把问题换成别的方向，不同模型还是会有不同优势。

所以最合理的结论，不是“GPT-5.4 已经统一天下”，而是它在自己的主战场上，完成度已经很高了。尤其是专业任务、Agent 任务、长上下文、电脑操作这些以前最容易掉链子的场景，它现在明显更像那个能扛住主力位的模型。

还是那句话，没有最强的模型，只有最适合你那条工作流的模型。

但至少这次，GPT-5.4 已经很像 OpenAI 这边“最不别扭的那个答案”了。

# 说回OpenClaw，为什么我会觉得它就是现在最对味的底座

如果你是拿模型来聊天，那模型顺不顺嘴很重要，如果你是拿模型来写代码，那工程能力最重要。

如果你是拿模型来跑 Agent、接工具、做长任务，那稳定性、上下文、电脑操作、工具搜索这些能力就都不能掉。

问题就在这儿：过去很长一段时间，这几个点经常不在同一个模型身上，GPT-5.4 这次最让我舒服的地方，就是它终于不像以前那样让你做取舍题了。

你不需要为了代码能力去忍受“不会说人话”，也不需要为了交流自然去接受“真干活差点意思”，更不需要为了 Agent 场景去额外给它缝太多补丁。

尤其对 OpenClaw 这种强调真实执行的东西来说，底座模型最怕的不是某一项不够顶，而是短板太明显。GPT-5.4 这次，恰恰就是那个把短板补得最像样的选手。

# 最后一句：这次真不是“换个版本号”，而是默认模型该动了

总结下来，GPT-5.4 最狠的地方不是某一项分数突然封神，而是它把过去最影响体验的那几个断层，补得差不多了。

它在专业工作上更强了，GDPval 做到 83.0%；在电脑操作上直接冲到 75.0%，超过了特定测试环境下的人类基准；在表格和文档这种真实办公活上明显更成熟；在幻觉上继续往下压；在代码和工具执行这两块，又没有把原来的硬实力丢掉。

再加上前置思考计划、可中途纠偏、更长上下文、更清晰的思考档位选择，这一代 GPT-5.4 给人的感觉已经不是“更聪明一点”，而是“更像一个真的能跟你一起把活干完的东西”。

所以如果你本来就在用 OpenClaw，我的看法很直接：只要支持一到位，默认模型真的该切 GPT-5.4 了。这次，它不像一个“可选新版本”。它更像那个你等了很久，终于等到的主力答案。

#GPT-5.4 #GPT-5.4 Thinking #OpenClaw