
配图来源:Google 官方博客《Gemma 4: Byte for byte, the most capable open models》
过去一年,AI 行业最容易被看见的竞争指标一直是模型排行榜:谁的推理更强,谁的上下文更长,谁在编程基准上领先一截。但如果把最近一轮产品发布放在一起看,会发现竞争焦点已经开始偏移。真正决定下一阶段差异的,不再只是“模型本身有多强”,而是谁能把模型嵌进可执行的工作流里,以及谁能把这种能力部署在自己可控的环境中。
这轮变化有两个非常清晰的信号。
第一个信号来自 OpenAI 最新的 Agents SDK 更新。它强调的已不是单次对话能力,而是更接近生产系统的执行结构:模型原生的 agent harness、可读写文件的工作区、对 shell 和补丁式编辑等能力的支持,以及原生 sandbox 执行。换句话说,厂商开始把“模型如何安全、持续、可观察地完成多步任务”当成一等公民,而不是把 agent 留给第三方框架自己拼装。
这件事的意义不在于又多了一个 SDK,而在于平台方开始重新定义工作流栈的归属。过去很多团队默认把模型当作底层 API,再在外部加编排层、记忆层、工具层和执行层;现在模型提供方正在主动把这些能力往自身平台内收。这样做的直接结果,是 agent 从“会说话的自动机”变成“可进入业务流程的执行单元”:它要能打开文件、调用工具、保存中间状态、在出错后恢复,并在必要时接受人工审批。
第二个信号来自 Google 对 Gemma 4 的定位。Gemma 4 的关键价值不只是参数规模、长上下文或多模态,而是 Google 明确把它包装成“面向 agentic workflows 的开放模型”,并进一步用 Apache 2.0 许可释放了部署自由度。这意味着企业和开发者不仅能用模型,还能把模型放在自己的硬件、自己的网络边界和自己的合规体系里运行。对于很多真正要落地的组织来说,这一点的现实价值,往往比排行榜上多几分更大。
如果说 OpenAI 在强化“平台内的工作流控制权”,那么 Gemma 4 所代表的,是“部署主权”的上升。前者希望把开发者留在自己的执行栈上,让 agent 更容易生产化;后者则在争夺另一类开发者——那些更在意本地部署、数据边界、成本弹性和可定制性的团队。两条路线并不互斥,但它们清楚地说明:AI 行业正在从单纯的模型竞争,转向运行方式的竞争。
这会带来三个值得关注的变化。
第一,工作流会成为新的产品分水岭。 未来用户感知到的差异,越来越不是“这个模型回答得更像人”,而是“这个系统能不能真的把事情做完”。是否支持多代理协作、是否能接企业内部工具、是否具备可追踪和可审计的执行链路,都会比单轮对话体验更重要。谁能把这些能力标准化,谁就更接近企业预算。
第二,开放许可与本地运行不再只是开源社区议题,而会变成企业采购议题。 当模型逐步进入客服、代码、数据分析、文档处理甚至内部运营流程后,数据是否离开本地网络、执行环境是否可控、工具调用是否可限制,都会直接影响采用决策。Gemma 4 这类开放模型的价值,恰恰在于给企业提供了“可落地而非仅可试用”的选项。
第三,模型厂商的竞争会越来越像云平台竞争。 拼的不只是模型训练能力,而是 SDK、运行时、工具接口、可观测性、权限边界、恢复机制与生态兼容性。模型能力是门票,工作流基础设施才是黏性来源。谁占据 agent 的默认开发路径,谁就更可能占据下一阶段的应用入口。
这也是为什么最近行业里关于长上下文、多模态、代码能力和 agent 的讨论会同时升温。它们并不是孤立卖点,而是在为同一个方向服务:让模型从“回答问题”变成“持续执行任务”。一旦目标变成任务闭环,系统设计的优先级就会发生变化。安全沙箱、状态管理、工具编排、成本控制,都会从幕后问题走到台前。
对开发者和企业来说,这轮变化的启示很直接:选型时不该只看模型榜单,而应同时问三个问题——它是否容易接入真实工作流,它是否允许把关键执行环节留在自己掌控的环境里,它是否能在成本、权限和审计上经得起长期运行。能同时回答好这三个问题的平台,才更有机会成为下一阶段的基础设施。
模型竞赛当然还会继续,新的基准、新的纪录、新的旗舰也不会停止。但从产业重心看,真正决定下一轮格局的,可能不是谁把分数再抬高一点,而是谁先把“可执行、可部署、可治理”的 AI 工作流做成默认选项。
参考资料:
- OpenAI 官方:The next evolution of the Agents SDK
- OpenAI 官方文档:Agents SDK
- Google 官方:Gemma 4: Byte for byte, the most capable open models
- Google 官方模型卡:Gemma 4 model card