
本文的第一作者杜·亨格(Du Henghui)是中国人民大学的第二年硕士学生。它的主要研究讲话包括在大型多模型模型中了解和推理视听场景,以及长期的视频理解。作者来自受欢迎的大学,中国的Tinshua大学和北京的Tencent PCG AI技术中心。人类生活在一个充满视觉和音频信息的世界中。近年来,许多任务都使用有关这两种方式的信息来提高他们对视听场景的理解并得出不同类型的任务。过去的大量工作着重于完成一项任务,相比之下,人类对围绕我们的复杂世界有一个共同的感知理解。因此,如何通过对视听场景的普遍理解设计模型是类似人类的视听场景,这是通往未来AGI的道路上的重要主题。当前的主要学习范式是建造紧密数据的多任务指令,并根据此直接进行良好的调整。但是,这是多任务学习的更好的学习范式吗?最近由Gewu-Lab,中国Hillhouse School,中国伦敏大学和北京腾讯PCG AI技术中心共同发表的CVPR 2025年文章指出,主要电流的当前学习范式忽略了多媒体数据的异质性与任务之间的复杂关系之间的复杂关系。为了有效地在任务之间执行相互可视化的帮助,作者的团队提出了一个新的学习大型模型的范式。这从两个角度有效地集成了多模式的方案:数据和模型,通过了解tesques的多种方案来克服专家模型。所有数据,模型和代码集都是开源的。目前,工作仍在扩大更多。感兴趣领域的专家可以参加CO统一的理解,产生和推理的统一框架的构建。如果您有兴趣,请发送电子邮件至
[email protected]。文档标题:螃蟹:在音频 - 视觉场景的理解模型中与明确的合作统一:https://arxiv.org/abs/2503.13068项目主页:https://github.com/gewu-lab/crab crab for Audio和Adcurio出现。空间定位允许模型输入音频和图像以找到图像中显示的对象。空间 - tiempo的侵害意味着音频和视频场景的进入,以重现该乐器,并且该模型回答了相关问题,以及对信息和空间信息的理解和推断。对像素级别的理解进入音频和图像,以允许分割出现在S4,MS3,AVSS和AVS,AVS等图像中的对象。参考和其他细分任务。视觉和听觉信息是两种类型的信息我们最暴露了。近年来,许多任务已经开始探索基于这两种方式的视听场景任务的理解。它可以主要分为四种不同类型的任务:时间定位,空间定位,像素级别和时空推断。模型中需要具有不同级别的功能。过去的许多工作重点是完成一项任务,相比之下,人类对周围的复杂世界有共同的感知理解。因此,该模型具有理解统一的视听场景的能力,这一点极为重要。领先的多模式模型的开发已成为当前的主要学习范式,以构建大型调整数据指令并直接训练各种不同的任务。但是,这种学习范式忽略了多模式数据和任务之间复杂关系的异质性。只需用C训练所有任务振荡训练可能会导致任务之间的相互干扰。这种现象已经在以前的作品中得到了证明,并且该问题对于了解视听场景的任务更为重要,而任务之间存在显着差异。为了有效解决以前的问题,本文档在任务之间提供了有效的相互支持。为了执行此操作,我们从数据和模型的角度提出了统一屏幕支持的相互支持学习范式。为了阐明任务之间的相互支持关系,首先构建了包含特定时间和空间信息的可视化推理过程的AV-UIE数据集,以有效地建立任务之间的相互支持关系。接下来,为了进一步促进学习过程中任务之间的相互支持,本文档提出了一个具有多个头部的Moe Lora结构。每个头负责学习不同级别的多模式数据交互。通过这种结构,模型的不同功能分开,该功能显示任务之间的相互支持关系,建立交换功能并在不同任务之间建立相互支持的桥梁。 AV-UIE:一组数据,该数据已根据视听场景说明显示的推理过程进行了调整,并且在了解现有视听场景的数据集中的标签是简单的单词或短语。在培训过程中,这种简单的标签无法显着帮助其他任务。它还简单地隐含了模型培训效果。不能保证它对其他任务有用。为了进一步促进任务之间的相互支持并反映了相互支持关系的可视化,本文档提出了一个具有可视化推理过程的视听场景的AV-OIE数据集。通过改进现有数据集的标签,添加了一个可视化推理过程,其中包括特定的时间和空间信息,澄清相互支持任务之间的RT关系。图1。使用AV-UIE数字集的结构过程和可视化推理过程图1说明了数据集的特定结构过程和统计分析。通过在上下文中学习的功能强大的现有多模式用于注释,以从音频和视频场景中的不同任务中恢复数据,也将原始数据的标签用作保证结果的精确度和推理过程的合理性,这允许Gemini 1.5 1.5 Pro(包括该场景的时间和空间),例如时间和空间。进行手动检查和更正以确保数据的质量。在培训过程中,这些复杂的标签是可以使用的标签,以便该模型被视为对内容和空间信息的精确理解。与DI DI可视化场景相对应赋予模型的特定功能,并帮助其他取决于这些特定功能的任务。图2显示了两个任务AVQA和AVVP。这是用相互帮助执行数据样本的,这些数据样本代表不同颜色的不同类型的空间信息。这两个任务都可以通过提高空间和时间定位功能而受益。图2。在看到推理过程时,AVQA和AVVP任务的示例彼此有用。 AV-UIE数据集包含九个任务的数据,总共有200k培训样本。其中,定位任务包括AVE和AVVP,具有6.8%的数据,空间定位任务包括ARIG,25.8%的数据核算和理解像素级别的任务包括S4,MS3,AVS和Ref-AVS,以及代表41.6%的数据。与其他说明相比,在与紧密数据集的汇编中,每个任务的训练样本数量相对较小,但是任务之间的相互帮助可以改善M在可视化推理过程的帮助下,ODEL在单个任务中的性能。 CRAB:一个统一的学习框架以显示任务之间相互帮助的统一学习框架,可以从数据角度使用时间信息查看推理过程。这是为了限制结果模型并显示不同类型的技能,但是有什么方法可以让该模型在培训过程中有效学习这些不同的技能?为此,本文档提出了一个统一的学习框架,以了解视听场景。图3说明了该模型的一般体系结构,包括三个统一的多模式接口,主要用于处理掩码数据音频,视觉和分割,以及一个具有相互作用中识别的LORA结构的大型模型,这些模型用于在学习过程中有效地学习不同级别的数据交互,以显示任务之间相互帮助的相互帮助。图3。洛拉模型的一般体系结构传统结构con使用A和B的一组对称矩阵,下游有效地使用任务。具有多个对称AB矩阵的LORA MOE结构通常用于多次调整,负责解决单个任务。为了进一步促进任务之间的相互支持,与本文档中提出的相互作用相对应的LORA结构(请参见图4)包括共享矩阵和Lorah头的多个MOM B。矩阵是建立的,每个头都想学习不同级别的数据交互并具有不同的技能。 Para有效区分不同的头部,添加其他路由器以将不同的权重分配给不同的任务。例如,在学习过程中,AVQA空间时间推理任务着重于改善模型的同步和空间定位功能,因此更多与头部相对应的参数可改善某些特征,而其他SPACE任务和其他SPACE任务可以从这些改善的头部中受益。从这个角度来看,模型函数分为许多特定功能,模型可以显示以完成不同类型的任务,并且任务之间共享的功能在任务之间创建了辅助桥。图2。为了证明实验的有效性以及通过使用多个lora头进行相互作用来启用的LORA结构的分析,并显示了ASIS学习范式持久性,本文档比较了单个任务中所有独特的任务和模型的共同模型,从而为比较消融实验提供了全面的结果。表1显示了与多个任务的一般模型的比较结果。与其他模型相比,本文档中提出的统一的蟹框具有对所有类型任务的更一般的了解技能,并在多个任务中实现了更好的性能。这说明了螃蟹在对视听场景的一般理解中的优势。表1。与多个任务中的一般模型的比较结果表2、3、4和5 5显示了与四个任务的原始模型的比较结果,包括时间定位,空间定位,在像素级别的理解和空间 - 周期性推理。它在AVE,ARIG,AVQA等任务中的各个任务中都优于螃蟹模型,我们可以看到它们在AVVP和AVS任务中实现了相似的性能。表6列出了整体消融实验的结果。在这里,精美的简单多任务调整并不能完全提供任务之间的相互帮助,甚至可以降低某些任务的性能。相反,在显示相互支持的学习范式下,任务之间的相互干扰有效地减少了,任务之间的相互援助可以提高单个任务的绩效。表2。与时间定位任务的独特模型的比较结果是头部。在推理过程中,每个卷ER头为每个任务的多模式输入数据生成比索。重量越高,完成任务的取决于您的思想。图3比较了不同任务的三个头。左图显示B1和B2。 Theright的照片是B2和B3。您可以找到两个点。 1)相同类型的任务对不同头部的依赖程度相似,在不同的头部单位中形成不同的组。 2)三个头部不同任务的不同单元表明每个头部具有不同的能力。这表明该模型的特征被分为许多不同的特征,并且多个任务可以取决于相同的特征,从而允许建立相互帮助的关系。图3。3个Rolla头的重量可视化摘要。在本文中,我们为统一的视听场景提出了一个相互支持理解的范式,以在任务之间实现相互支持。许多实验结果S和视觉分析证明了该范式的有效性。我们希望本文提出的想法可以为该领域的发展提供新的研究观点。我希望未来的工作重点关注新的多模式推理范式,希望将现有的多模式推理工作提升到新的水平。