今天到底发布了什么
这次发布的重点不是单个聊天模型升级,而是 Google 把 Gemini 往“能执行复杂流程的 agent 引擎”方向推了一步。
官方给 3.5 Flash 的定位很清楚:它面向长周期、多步骤、需要工具调用的任务,尤其强调 agentic workflow 和 coding。Google 称 3.5 Flash 在多个代码和 agent 基准上超过 Gemini 3.1 Pro,例如 Terminal-Bench 2.1、GDPval-AA、MCP Atlas,也在 CharXiv Reasoning 这类多模态理解任务上给出高分。Google DeepMind 的模型卡还写到,3.5 Flash 支持文本、图像、音频、视频输入,输入上下文最高 1M token,输出最高 64K token。
这些数字可以说明一件事:Flash 不再只是“低成本、快一点”的小模型。Google 正在把 Flash 做成可以承接实际工作流的主力模型。
但这仍然不等于 3.5 Pro 已经发布。企业做选型时,不能把 3.5 Flash 的公开指标直接套到 3.5 Pro 身上,也不能提前假设 Pro 一定更便宜、更稳、更适合所有场景。
为什么 Pro 没发布,Flash 反而更值得先看
很多老板看到 Pro 没上线,会觉得这次发布“不完整”。但从企业落地角度看,3.5 Flash 先上线反而更有参考价值。
因为大多数企业真正需要的不是模型在榜单上多高,而是它能不能稳定跑流程。
比如:
- 能不能读一批资料,拆出任务,再按顺序调用工具;
- 能不能在代码库里定位问题、写补丁、跑验证;
- 能不能处理长文档、票据、合同、报表和多轮上下文;
- 能不能把搜索、表格、邮件、日历、业务系统串成一个动作链;
- 能不能在速度、成本和正确率之间达到可用平衡。
这些问题更接近 Flash 的发布重点。Google 在 Gemini App 里把 3.5 Flash 作为默认模型,在开发者侧把它接入 Antigravity、Managed Agents 和 Gemini API,本质上是在告诉市场:这一轮竞争的焦点已经不是“谁聊天更像人”,而是谁能更快、更稳地帮用户完成真实任务。
这对中小企业很关键。AI 真正进入业务系统后,最贵的通常不是一次模型调用,而是失败重试、人工兜底、流程中断、权限误用和错误数据写入。模型再强,如果不能被放进一个可控流程里,仍然很难变成生产力。
关于 Gemini 3.5 Pro,现在能说和不能说的边界
能说的只有三点:
第一,Google 已经承认 3.5 Pro 存在,并且正在内部使用。
第二,Google 预计下个月推出 3.5 Pro。
第三,从命名和产品线看,3.5 Pro 大概率会承担更复杂、更高质量或更旗舰的任务,但这只是基于产品命名的合理推断,不是官方已经公布的参数。
不能说的更多:
- 不能说 3.5 Pro 已经正式开放;
- 不能说它的 API 价格已经确定;
- 不能说它的上下文、输出长度和多模态能力一定等同或高于 3.5 Flash;
- 不能说它已经在某些第三方榜单上稳定超过某个模型;
- 不能把 3.5 Flash 的模型卡指标直接当成 3.5 Pro 指标;
- 不能用“今天 Pro 发布”作为企业采购、报价或系统架构承诺。
这点很重要。很多 AI 热点文章最容易犯的错,就是把“系列发布”“Flash 上线”“Pro 预告”混成一句“Gemini 3.5 Pro 发布”。这样写流量可能更高,但会误导项目决策。
如果一家企业正在做 AI 客服、知识库、自动化流程、代码生成或内部 agent 平台,今天可以开始关注 Gemini 3.5 Flash;但如果方案里明确写“等 Gemini 3.5 Pro 上线后再做最终技术选型”,那就应该把时间点写成预计下月,并保留复测环节。
老板真正该看的不是模型名,而是三个落地问题
第一个问题:你的业务是要“回答问题”,还是要“执行动作”?
如果只是知识问答、文档总结、营销草稿,模型强一点当然有帮助,但差距未必决定成败。真正拉开差距的是资料质量、提示词结构、审核流程和内容发布机制。
如果要让 AI 调接口、写数据、生成报表、修改代码、处理工单、安排日程,那模型只是其中一环。你还需要权限控制、日志记录、失败回滚、人工确认点和异常告警。3.5 Flash 这次强调 agent 工作流,说明大厂也在把重点放到“可执行”上。
第二个问题:你的流程能不能被拆成可验证步骤?
Agent 最大的价值不是一次性给一个漂亮答案,而是能把复杂任务拆开、逐步执行、每一步都有结果。企业要先把流程标准化,再谈接入模型。否则模型越强,越容易把混乱流程自动化放大。
第三个问题:你的团队有没有持续维护能力?
Google 发布新模型,不代表企业接入后就一劳永逸。模型更新、提示词更新、知识库更新、接口更新、权限变化、员工反馈,都会影响 AI 系统效果。没有维护机制的 AI 项目,刚上线时可能惊艳,一个月后就可能变成没人敢用的工具。
什么时候值得真正评估 Gemini 3.5 Pro
等 3.5 Pro 正式发布后,企业再看四类信息:
- 官方模型卡:上下文长度、输出长度、输入类型、限制和安全评估;
- API 文档和价格:是否适合高频业务调用;
- 真实任务测试:用自己公司的文档、代码库、业务流程,而不是只看公开榜单;
- 稳定性和治理能力:权限、日志、工具调用、失败处理、数据隔离是否能满足生产要求。
如果你只是做内容、问答、内部资料整理,可以先拿 3.5 Flash 做小范围验证。如果你要做复杂 agent、代码库维护、财务文档处理、跨系统自动化,建议等 3.5 Pro 正式开放后,把 3.5 Flash、3.5 Pro 以及当前可用的其他主流模型一起做同题测试。
不要因为一个模型名字更新就立刻重构系统。更稳的做法是把模型抽象成可替换层:业务流程、权限、日志、数据和人工审核不绑死某一个模型。这样无论下个月 3.5 Pro 表现如何,企业都能快速切换,而不是重新做一遍系统。
华茂思捷的判断
这次 Gemini 3.5 的真实信号,不是“3.5 Pro 今天横空出世”,而是 Google 把 Flash 推成了面向 agent 和代码工作流的默认级能力。
对企业来说,下一阶段 AI 落地的竞争会从“选哪个聊天模型”转向“谁能把模型放进真实业务流程里,并且让它稳定、可控、可复盘地执行”。模型能力越强,流程治理越重要。
如果你现在正准备做 AI 客服、AI 知识库、业务系统自动化、代码辅助维护或企业内部 agent,不建议先围绕 Gemini 3.5 Pro 写死方案。更合理的路径是:先梳理流程,确定哪些动作能自动执行、哪些必须人工确认,再用 3.5 Flash 和现有模型做小样本验证;等 3.5 Pro 正式发布后,再把它纳入同一套评测。
华茂思捷做 AI 应用落地、企业系统开发和旧系统改造时,也会优先把模型接入层、业务流程、权限日志和人工审核拆开设计。你可以先看我们的核心服务,如果已经有具体流程或系统,也可以通过联系咨询把当前业务链路先梳理一遍,再决定模型和 agent 的接入方式。
参考来源
- Google: Gemini 3.5: frontier intelligence with action
- Google DeepMind: Gemini 3.5 Flash Model Card
- Google: The Gemini app becomes more agentic, delivering proactive, 24/7 help
- Google: Building the agentic future: Developer highlights from I/O 2026
- AP News: Google announces slew of AI advances, including a personal AI assistant coming soon

