Gemini File Search 支持多模态：企业知识库终于不只会搜文字了

Google 近期宣布 Gemini API File Search 扩展到多模态 RAG、自定义元数据和页级引用。简单说，AI 知识库不再只处理纯文本，它可以更好地处理图片、文档页面、截图和带来源的检索结果。

这条新闻对企业的意义很直接：很多公司的知识根本不只存在于 Word 文档里。产品手册、施工照片、合同扫描件、后台截图、流程图、设计图、培训材料、售后记录和 Excel 截图，都是业务知识的一部分。

一、先说官方更新的重点

根据 Google 官方博客，这次 File Search 更新包括三类能力：多模态检索、自定义元数据过滤和页级引用。多模态意味着系统可以围绕图像和文本一起做检索，元数据让企业可以按类别、客户、产品、时间、权限等维度过滤，页级引用则能让回答更容易追溯到来源。

这三个能力组合起来，说明企业知识库正在从“能回答”升级到“能查证”。过去很多知识库项目的痛点，不是 AI 说不出答案，而是答案来自哪里、是否可靠、是否过期、是否适用于当前客户或产品型号，很难判断。

当检索可以结合图片、元数据和页级来源，企业才有机会把知识库从聊天工具变成业务支撑系统。

很多企业第一次做 AI 知识库，会把 PDF、Word、网页和 FAQ 全部丢进去，然后期待 AI 自动回答所有问题。这个做法很容易遇到瓶颈。

因为真实业务资料经常不是纯文本。售后人员要看设备照片，客服要看商品截图，项目经理要看后台页面，财务要看票据扫描件，培训要看流程图，销售要看产品图册。只处理文字，知识库就会漏掉大量上下文。

更关键的是，很多问题需要证据。客户问某个功能怎么操作，AI 不能只回答一段话，最好能指向手册第几页、后台截图哪一块、历史工单哪条记录。否则员工不敢用，客户也不会完全相信。

第一种误判，是把知识库当成资料上传工具。资料上传只是第一步，真正重要的是资料结构、权限、更新机制和引用来源。

第二种误判，是只追求“回答得像人”。企业知识库更重要的是回答得准、能追溯、能复核。如果 AI 语气很好但来源不清，业务风险反而更高。

第三种误判，是忽视图片和截图。很多企业的流程、故障、产品细节和后台操作都靠图像理解。如果知识库只处理文字，它对一线业务的帮助会被限制。

第一类是客服和售后。企业可以把产品说明书、常见问题、操作截图、维修照片和历史工单整理进知识库，让 AI 先给客服生成可引用的回答草稿。

第二类是内部培训。新人经常问的流程、系统操作、制度条款和案例截图，可以做成带来源的问答助手。重点不是让新人少问，而是让答案更统一。

第三类是项目交付。软件项目里的需求文档、原型截图、测试用例、验收清单和问题记录，都可以成为项目知识库，帮助项目经理更快定位上下文。

第四类是销售支持。产品资料、案例、报价边界、行业解决方案和客户问题，可以做成销售知识库。但报价和承诺必须保留人工确认，不能让 AI 直接对外承诺。

第一，资料分类。不要把所有文件扔进一个文件夹。至少要按产品、客户、业务线、版本、时间和权限分层。

第二，元数据。每份资料最好有标题、类型、适用范围、更新时间、负责人和敏感级别。没有元数据，后续检索很难精准。

第三，引用要求。知识库回答最好要求带来源，尤其是合同、报价、售后、制度和技术文档。没有来源的回答只能作为参考，不能直接作为结论。

第四，更新机制。谁负责更新资料，旧版本怎么下线，错误答案怎么反馈，这些必须提前定。

第五，权限边界。不是所有资料都应该让所有员工和所有 AI 任务看到。客户资料、合同、财务、内部策略和敏感技术文档都要分权限。

最稳的第一版，不是做一个包罗万象的大知识库，而是做一个“客服或售后知识库小闭环”。

先选一个产品线，把最近三个月的常见问题、产品手册、操作截图、售后记录和客服回答整理出来。AI 只负责生成回答草稿、引用来源和提醒风险点，最终由客服确认后发送。

上线两周后，看四个指标：自动命中率、人工修改率、平均响应时间和错误反馈数量。如果这些指标明显改善，再考虑接入更多产品资料、更多渠道和更多员工。

这个路径比一上来做企业全知识库更稳。因为它能用真实业务数据证明价值，也能尽早暴露资料质量、权限和维护问题。

华茂思捷科技的判断是：Gemini File Search 的多模态升级，代表企业知识库正在进入第二阶段。第一阶段是“把资料变成能问答的文本库”，第二阶段是“把图像、截图、文档页、元数据和来源证据一起纳入业务判断”。

对中小企业来说，最重要的不是马上追某个 API，而是先把自己的资料体系整理好。资料分散、版本混乱、权限不清、没人维护，再强的多模态检索也很难稳定产生价值。

如果你正在考虑 AI 知识库、AI 客服、售后知识库、内部培训助手或业务资料检索系统，可以先看华茂思捷科技的核心服务。如果你已经有资料和业务场景，也可以通过联系咨询先做一次资料盘点和第一版闭环设计。