新闻 /

怎样让 CLIP 模子更关切细粒度特征学习足球投注app,幸免"近视"?
360 东说念主工智能商议团队提议了FG-CLIP,不错显然缓解 CLIP 的"视觉近视"问题。
让模子能更关切于正确的细节描写,而不是更全局然而失实的描写。

模子收效的重要在于高质料数据。
就在最近,冷大炜博士团队将这一"隐痛"开源:FineHARD 高质料图文对皆数据集。该数据集主打两个中枢特色:细粒度 + 难负样本。
FineHARD 是 FG-CLIP 模子背后的高质料图文对皆数据集,以限制化与精采化为特色,包含 1200 万张图像过火对应的长、短描写文本,遮蔽4000 万个鸿沟框,每个鸿沟框均附带细粒度区域描写(Fine-Grained Regional Description)。
此外,FineHARD 立异性地引入了1000 万组细粒度难负样本(Hard Fine-grained Negative Samples),这些经过算法筛选的打扰样本梗概灵验教悔模子对同样办法的分辨技艺。
基于该数据集施行的 FG-CLIP 已被 ICML25 接管,它在万般下贱任务中显贵优于原始 CLIP 和其他起头进步伐,包括细粒度理会、绽开词汇对象检测、追到文本图文检索以及通用多模态基准测试等。

细粒度 + 难负样本
具体来看,FineHARD 数据集主要包含以下三方面责任。
全局细粒度对皆:FineHARD 数据集不仅包含了旧例的图像"漫笔本"描写(平均长度约 20 个词),同期为了弥补漫笔本描写细节缺失的问题,FG-CLIP 团队基于多模态 LMM 模子为数据围聚的每张图像生成了包含场景配景、对象属性及空间关联等详备信息的"长文本"描写(平均长度 150 个词 +),显贵教悔了全局语义密度。
局部细粒度对皆:"长文本"描写主要从文本侧为细粒度对皆打好了数据基础,为了进一步从图像侧也教悔细粒度技艺,FG-CLIP 团队为 FineHARD 数据围聚的每张图像进行基于绽开寰球办法检测模子提真金不怕火了图像中大部分办法实体的位置,并为每个办法区域匹配了对应的 region 描写。FineHARD 数据集包含高达 4000 万个 bounding box 过火对应的区域级细粒度描写文本。
细粒度难负样本:在上述全局细粒度对皆和局部细粒度对皆的基础上,为了进一步提高模子对图文细节的对皆理会和分辨技艺,FG-CLIP 团队基于细节属性扰动步伐,愚弄 LLM 模子为 FineHARD 数据集构造并清洗出了 1000 万组细粒度难负样本。大限制难负样本数据是 FineHARD 数据集区别于已少见据的第三个蹙迫特色。
FineHARD 数据集构建
FineHARD 数据集以 1200 万张高质料图像为中枢基底,每张图像均配备精确的语义描写文本。数据集包含 4000 万个鸿沟框标注,每个鸿沟框均附带区域级细粒度描写(Fine-Grained Regional Description),并通过算法筛选整合了 1000 万组细粒度难负样本。在数据预贬责阶段,团队聘任散布式筹算架构,依托 160 × 910B 算力的 NPU 集群,在 7 天内完成数据清洗、特征提真金不怕火及多模态对皆等中枢操作,杀青了从原始图像到结构化数据的高效转机。
多模态描写生成机制
FineHARD 的文本描写体系基于 GRIT 数据集进行深度优化。领先通过严格筛选保留 1200 万张代表性图像,随后引入幻觉信息较小的多模态大模子 CogVLM2-19B,为每张图像生成包含场景配景、对象属性及空间关联的长描写文本。相较原始 GRIT 数据集的约略空洞式描写(平均长度约 20 词),本数据集的文本描写平均延长至 150 词以上,显贵教悔了语义密度与场景复原度。这种描写体系既保留了原始数据集的通用性,又通过精采化标注增强了语义抒发技艺。
鸿沟框与语义描写的协同构建
基于生成的长描写文本,聘任当然谈话贬责器具 spaCy 进行指代抒发(如"红色汽车"、"左上角的瓶子")的提真金不怕火与解析。原始 GRIT 数据集虽提供基础鸿沟框,但存在类别遮蔽不全(如部分图像仅标注东说念主)等问题。为此,FG-CLIP 团队联想了双重增强政策:
细粒度描写补充:对基础鸿沟框补充细粒度指代描写。
办法检测延长:通过预施行的 Yolo-World 模子对图像与指代抒发进行集合推理,生成独特鸿沟框。聘任非极大值扼制(NMS)技能过滤重复区域,仅保留置信度>0.4 的高质料揣测效劳。
最终构建出包含区域级语义描写的 4000 万鸿沟框体系,杀青视觉元素与语义信息的精确对皆。


细粒度负样本生成与质料考证
为教悔模子对同样办法的判别技艺,FG-CLIP 团队建立了基于属性扰动的负样本生成决策。具体历程如下:
属性修改政策:在保握对象称号一致的前提下,通过开源大谈话模子 Llama-3.1-70B 对正样本描写进行属性替换(如将"红色汽车"改为"蓝色汽车"),生成 10 个属性同样但语义不同的负样本;
文本表率化贬责:移除特殊标记(分号、逗号、换行符等),确保描写时局息争性;
质料评估体系:对 3000 个样本进行东说念主工复核,效劳败露 98.9% 的样本相宜质料法式,仅 1.1% 被判定为噪声——该罅隙率处于无监督生成步伐的合理阈值范围内。
此类微小语义互异的负样本更逼近真确场景中物体外不雅同样但属性不同的复杂情况,使模子在视觉定位任务中具备更强的鲁棒性。

FineHARD 数据集分析常见数据集对比
为了定量分析 FineHARD 数据集的特色,咱们与一些业界常用的数据集,如 Flickr30k,CC3M 和 COCO 在图像,文本描写,办法 bounding box 和难负样本等四个维度进行了对比,如下图所示。

FineHARD 数据集在限制和质料方面阐扬尤为隆起,畸形是在细粒度标注和具有挑战性的负样本方面。在限制上,FineHARD 涵盖了 1200 万张图像、4000 万个鸿沟框以及相应的描写,数目远超同类数据集。举例,与凡俗使用的 COCO 数据集比拟,后者仅提供 150 万个鸿沟框,而 FineHARD 数据集则领有 4000 万个鸿沟框,极地面丰富了对象定位和识别的施行资源。此外,FineHARD 数据集的一个显贵特色是包含了 1000 万个难例细粒度负样本,这些样本经过悉心联想以匡助模子更好地分辨语义同样对象间的微小互异,从而灵验教悔其在万般下贱任务中的性能阐扬。通过这么的综合构建,FineHARD 数据集不仅在数目上占据上风,同期也在质料上为高等视觉理会和办法检测技能的发展提供了坚实基础。
细粒度数据集对比
咱们进一步将其与其他特意的细粒度数据集(如 LVIS 和 V3Det)进行了对比。FineHARD 通过 CogVLM2-19B 和 YOLO-World 生成的 region 描写中提真金不怕火并汇总了类别标签,以构建数据围聚所涵盖的对象类别信息。下表展示了不同数据集在图像数目、文本描写数目与由不同文本描写归纳出的孤独类别标签数目的对比,详细因为差距悬殊,横纵坐标均为对数坐标:

为了进一步分析 FineHARD 数据集的样本万般性,咱们当场采样了与 V3Det 考虑图像限制(243,000 张)的子集进行对比,在这个子围聚,FineHARD 包含了 21k 个孤独类别标签,显贵高于 V3Det 的 13k 个,标明 FineHARD 数据集在语义遮蔽范围和万般性方面具有显然上风。此外,咱们使用 t-SNE 降维步伐对采样数据的类别标签进行可视化展示:

该图进一步考证了在考虑图像限制下,FineHARD 数据集呈现出更凡俗的类别散布,阐扬其在视觉语义上的丰富性和更高的万般性。跟着数据集延长至 1,200 万张图像,类别标签和描写文本的万般性进一步显贵教悔。这种限制的增长不仅增强了模子对稀薄类别的学习技艺,也为细粒度视觉理受命务提供了更全面的数据撑握。这记号着 FineHARD 在构建大限制、高质料、高万般性视觉谈话数据集方面迈出了蹙迫一步。
可应用于具身智能、3D 建模等领域
从技能应用长进看,FineHARD 数据集将对多个前沿领域产生影响:
多模态大模子施行:通过海量图文 - 区域对皆数据的预施行,可显贵教悔模子的跨模态理会与生成技艺,畸形是对图像细节的理会与对皆;
具身智能系统建立:诱骗细粒度空间描写与动作语义,为机器东说念主提供更精确的环境感知与操作提醒解析技艺,股东工业自动化向想法决策层面升级;
3D 场景建模与数字孪生:区域级细粒度描写可动作语义特征点云的生成依据,为虚构场景重建提供高精度语义锚点,加快 AR/VR 等千里浸式技能发展;
细粒度识别打破:通过难负样本的拒抗施行,可灵验教悔模子对访佛类别(如不同型号汽车、同样品种花草)的判别技艺,股东安防、零卖等场景的落地应用。
相貌 Github:https://github.com/360CVGroup/FG-CLIP
数据集地址:https://huggingface.co/datasets/qihoo360/FineHARD
一键三连「点赞」「转发」「防备心」
接待在驳斥区留住你的念念法!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见足球投注app
