小牛配资性能超越Google与Meta同类模型，FG-CLIP2到底做对了什么？

　　据悉，在长短文本图文检索、OVD目标检测、局部图像分类、全局图像分类多达29个公开基准测试中，FG-CLIP2全面超越Google的SigLIP 2与Meta的MetaCLIP2，成为目前性能最强的图文跨模态视觉语言模型（VLM）。

　　FG-CLIP 2性能雷达图

　　中文benchmark综合排名

　　更值得关注的是，FG-CLIP2攻克了CLIP模型长期存在的“细粒度识别”问题，实现了AI在视觉与语言理解上从“看得见”到“看得清”的跨越。

　　如果说CLIP给AI配了一副普通的眼镜，让它能看清世界；那么FG-CLIP2就是给它配了一副‘高精度光学显微镜’，让它能洞察入微。

　　什么是FG-CLIP2

　　为什么它如此重要？

　　在深入FG-CLIP2之前，我们有必要了解一个背景：

　　CLIP是由OpenAI在2021年提出的开创性模型。它的核心思想是通过对比学习，将图像和文本在同一个语义空间中对齐。

　　这意味着，CLIP不是为特定任务（如猫狗分类）训练的，而是学习图像的“通用视觉概念”，并用自然语言来理解和描述它们。这一范式转变，为后来的多模态大模型和文生图、视频大模型（如DALL-E、Stable Diffusion）奠定了关键基础。

　　另外，CLIP为代表的跨模态VLM模型主要研究图像特征与文本特征的对齐。当研究对象变成图像特征到文本描述的生成时，就对应多模态大语言模型LMM；而作为LMM的对偶问题，AIGC生成模型则主要研究如何从文本特征实现图像的生成；当关注点转移为从图文特征到空间模态的对应时，对应的就是在安防、自动驾驶和具身智能中极为关键的开放世界目标检测OVD模型。

　　也可以说，CLIP属于基础模型，它的性能决定了AIGC、LMM等模型的能力上限。

　　然而，以往的CLIP 模型虽然在全局对齐任务上表现良好，但在需要区分细微物体属性、空间关系和复杂语言表达的任务上容易失分，尤其是中文理解方面更是薄弱。

　　FG-CLIP 2 针对这些问题，通过丰富的细粒度监督信号和多个判别目标，大幅提升了模型对细节的捕捉和中英文双语的兼容能力。

　　我们来看两张图，可以直观感受这种能力跃进：

　　图1: FG-CLIP2可以辨别出猫的种类、在遮挡情况下看清猫的状态，甚至在平面结构下，能识别出一只猫在屏幕前，一只在屏幕里。

　　图2:当图像中包含多个物体或复杂场景时，重要细节往往被背景信息淹没，FG-CLIP2仍能以96%的置信度准确识别出正确的文本描述。

　　三重创新

　　构筑技术护城河

　　为了让FG-CLIP2实现真正的局部理解和像素级对齐，360人工智能研究院在模型训练最基础的环节：数据、方法和架构等，都进行了系统性的重构。

　　高质量数据集—FineHARD

　　数据是模型成功的基石。训练数据覆盖了大规模中英文数据，英文部分基于增强版 LAION-2B，中文则整合了 Wukong、Zero 以及 360 AI Research 自有的 5 亿对大规模数据。

　　第二阶段更有专门的细粒度区域-文本对齐数据，涵盖千万级样本。为填补中文评测空白，团队还自建了 LIT-CN、DCI-CN、DOCCI-CN 等长描述检索集和 BoxClass-CN 区域分类集，实现了对模型多维度、双语细粒度能力的全面评估。

　　全局细粒度对齐：不仅包含了常规的图像“短文本”描述（平均长度约20个词），还为每张图像生成包含场景背景、对象属性及空间关系等详细信息的“长文本”描述（平均长度 150个词+），显著提升了全局语义密度。

　　局部细粒度对齐：每张图像包含基于开放世界目标检测模型提取的目标实体的位置，即为每个目标区域对应的region描述。数据集包含高达4000万个bounding box及其对应的区域级细粒度描述文本。

　　细粒度难负样本：基于细节属性扰动方法，利用LLM模型为FineHARD数据集构造并清洗出了1000万组细粒度难负样本。大规模难负样本数据是FineHARD数据集区别于已有数据的重要特点。

　　训练方式的“全局+局部”策略

　　与CLIP的粗粒度对齐训练方法（图像整体与文本整体信息对齐）相比，FG-CLIP 2在训练方法的核心创新体现在基于OVD和LMM的技术积累，实现了图像局部信息与文本局部信息的对齐，从而解决了以CLIP为代表的第一代跨模态VLM模型对齐粒度粗糙的本质缺陷。

　　具体来说，FG-CLIP 2采用了两阶段的训练策略：

　　Stage1为预训练，采用与CLIP相同的整体信息对齐训练策略，来实现初步的图文语义对齐；这一阶段与CLIP的关键区别是，我们在普通的噪声较高的互联网短文本之外，为图像增加了对应的包含详细细节描述的长文本，通过数据层面的关键改变，为stage2的细粒度对齐打下初步基础。

　　Stage2为关键的细粒度对齐训练，这里不再采用CLIP的整体对齐策略，而是采取图像局部信息与文本局部信息对齐的训练策略，这一步是FG-CLIP 2能够实现图文细粒度理解的关键方法。

　　动态分辨率 + 中英双语支持

　　在视觉处理部分，FG-CLIP 2采用数据自适应分辨率策略：根据每批次图像的最大尺寸，从128, 256, 576, 784, 1024中选择目标分辨率，避免如SigLIP 2的随机采样机制带来的图像变形过大的问题，确保训练与推理行为的一致性，同时将图像放大或缩小操作降至最低。

　　为了更好的适配中英双语，在两阶段的训练中均精选了大规模、高质量的中英文数据，使得模型能够充分的学习两种原生语境。

　　FG-CLIP 2模型不是简单的实验室研究，已经以“API+MCP”形式开放，无论是互联网搜广推、智能办公检索，还是复杂场景下的视觉分析，FG-CLIP 2都将以“眼观六路、洞察细节”的领先能力，为开发者与企业用户提供稳定、易用和强大的跨模态智能服务。

　　告别“差不多”AI

　　细粒度视觉撬动产业新支点

　　作为视觉基石模型，FG-CLIP 2通过提升对图像中局部区域、物体属性、空间关系与语义细节的跨模态理解能力，显著增强了图文匹配的精度与场景适应性，为千行百业的智能化升级提供关键支撑。

　　图文检索

　　FG-CLIP 2可实现“以文搜图”的精准定位，例如根据“穿红色裙子、手持咖啡杯、站在商场玻璃门前的女性”这类复杂描述，准确检索出目标图像。相比传统CLIP仅匹配整体语义，细粒度版本能捕捉关键局部特征，提升识别准确率。

　　AIGC内容生成

　　可作为生成模型的反馈或控制信号，确保生成内容在细节层面与文本提示高度一致。例如，在广告图像生成中，保障品牌LOGO位置、产品颜色、文案布局等关键元素的精确呈现，避免“生成偏差”或“品牌失真”，提升内容可用性。

　　内容审核

　　细粒度理解能力使模型能识别敏感或违规的局部信息，如特定人物、标志、不当文字或隐喻性图像组合，而不仅依赖整体图像分类。这对于社交平台、直播、UGC内容的合规性审查具有重要意义，尤其在应对“打擦边球”类内容时更具优势。

　　安防监控

　　FG-CLIP2可支持自然语言驱动的视频检索，如“寻找背着黑色双肩包、穿蓝色T恤的男子”，实现快速线索定位，提升应急响应效率。其跨模态能力降低了对结构化标签的依赖，适用于复杂、动态的监控场景。

　　具身智能

　　可帮助机器人准确理解细粒度语言指令。例如，执行“拿餐桌上的红色水杯”时，能区分多个杯子中的目标；或在“把玩具放进绿色收纳箱”任务中，精准识别颜色和容器。相比普通CLIP，它更能理解“脏的抹布”“打开的抽屉”等状态描述，提升机器人在家庭、仓储等场景中感知与操作的准确性。

　　目前FG-CLIP2已在360集团的多个核心业务中落地，包括广告图像匹配、IoT摄像机场景识别与360云盘图片搜索。模型在高并发场景下稳定运行，延迟可控在毫秒级，验证了其在真实商业环境中的工程可靠性。细粒度CLIP不仅是模型能力的提升，更是推动AI从“看得见”向“看得懂”跃迁的关键一步，为各行业实现高精度、可解释、语义丰富的视觉智能应用奠定坚实基础。

　　构建自主AI核心能力

　　360的AI长期主义

　　FG-CLIP2的成功并非偶然，它源于360在AI底层能力建设上的长期投入与坚持。

　　作为一家拥有浏览器、安全、搜索、广告、AI助手等完整生态的科技企业，360深知：没有统一而强大的AI底层能力，就难以支撑未来智能化生态的发展。因此早在2015年，360便成立了人工智能研究院，开始系统性地构建技术基础。

　　在2021年，当全球的目光还聚焦于ChatGPT的语言能力时，360人工智能研究院已着手探索“AI如何看懂图像、理解空间、识别语义关系”等更深层的问题。如今，360已构建起一个覆盖视觉、语言、知识与智能应用的全方位技术版图。旗下FG-CLIP、LMM-Det、360VL、SEEChat、HiCo、PlanGen等核心模型，不仅代表了前沿科研水平，也广泛应用于产业实践。

　　截至目前，研究院累计已有12篇论文被ICLR、ICCV等国际顶级会议收录，并在多项人工智能基础科研竞赛中取得领先成绩。