
目标最近一直在做出伟大的运动。几天前,外国媒体透露,马克·扎克伯格(Mark Zuckerberg)正在创建一个名为“超级智能团队”的专家团队,以执行通用人工智能。然后提供了九位数字的薪水来吸引设备人才。刚才现在有一个新的目标,我们已经根据视频培训(集成视频视频预测体系结构2的全名)开始了世界模型V-JAPA 2。对前卫和预测能力进行环境理解,并在新环境中完全实现样本的计划和机器人的控制。梅塔在寻找高级机械智能(AMI)中说,它是关于开发世界有意识的系统,计划未知任务的执行计划,并有效地适应不断变化的环境。这次,元素的主要科学家Yann Lecun似乎直接介绍了世界模型与其他AI模型之间的差异。他说,世界模型是AI可以参考了解世界并预测其行动的结果的抽象数字双胞胎。与语言理解不同,世界模型允许机器了解物理世界并计划行动方案,以完成任务,而无需数百万个实验。可以将世界模型用于推理和计划的AI具有广泛的影响。例如,它可用于帮助视觉残障人士,为混合复杂任务提供指导,自定义教育并了解该法规对程序化状态和外界的影响。此外,世界模型对于自主系统(例如带领新机器人时代的自动驾驶汽车和机器人)很重要,该机器人允许代理商是现实世界,可以帮助完成家庭任务和身体任务,而无需许多机器人培训数据。 V-JAPA 2具有12亿个参数,并基于联合集成预测体系结构(JAPA)。在TH之前IS,Meta表明JAPA架构在处理方式(例如3D图像和云)方面效果很好。这次发布的V-JAPA 2是去年首个基于视频的培训模型V-JAPA。居住在。这进一步改善了预测和世界模型,使机器人可以完成与奇怪的生物和环境相互作用的任务。首先,让我们看看一些示例。打开您对世界的理解。 V-Jipa 2结合语言建模,可以很好地理解运动和视觉推理。当视频中的人跳入水中时,V-JAPA 2解释了:前向,超跳跃1.5周,IFN身体旋转。预测接下来会发生什么。 V-JAPA 2可以预测世界的发展。在此示例中,V-Jipa 2可以预测当一个人做他们当前的事情时接下来会发生什么。以下是目标V-JPA 2的性能参考:目前,与V-JAPA 2,下载链接和更多HA有关的文档VE已启动。文档标题:V-JAPA 2:启用对视频模型,预测和纸张链接计划的理解:https://ai.meta.com/research/research/publications/v-ja-ja-2-self-self-self-supervise--video-models-models-enable-enable-enable-enable-enable--enable--enable-prediction-prediction-prediction-and-and-and-planning/projex/projex https://huggingface.co/collections/facebook/v-ja-2-6841bad8413014e185b497a6project网站:https://ai.meta.com/vje/vje/vje/v-ja 2什么是什么创新? V-JAPA 2建立在JAP上,并包含两个主要组件。编码器可以接收原始视频,盐inlaysida并捕获世界各州的语义信息。接收有关预测内容的预测因素,视频镶嵌和其他上下文,并预测输出。在培训过程中,Meta使用基于视频的自我管理学习对V-JAPA 2进行训练。因此,不需要视频培训。 V-JAPA 2培训意味着两个阶段。采取行动之前没有培训,然后进行动作调节培训。第一个faen meta使用了在培训前阶段的视频和100万张图像。这些丰富的视觉数据可以帮助您获取有关世界工作原理的信息,例如模型如何与对象相互作用,对象如何在物理世界中移动,对象如何与其他对象相互作用等等。训练后,Meta发现该模型表现出与理解和预测相关的重要功能。例如,当基于冷冻编码器的能力和预测变量训练阅读模型时,V-JAPA 2在预测Epic-kitchens-100动作预测的预测中建立了新的更高记录,该预测预测该动作将基于以自我为中心的视频在下一秒钟内执行。最后,将V-JAPA 2与语言模型相结合,允许前卫性能以及视频和视频答案的参考点,例如感知测试和tempcompass。在第一阶段之后,模型可以预测TH状态的可能演变e世界。但是,这些预测并未直接考虑代理商采取的特定动作。因此,在第二个训练阶段,META专注于使用机器人数据(包括视觉观察(视频)和机器人执行的控制动作)提高模型计划功能。目标通过向预测变量提供行动信息来集成在JAPA培训过程中。在使用这些附加数据进行培训之后,预测因素会在做出预测时考虑某些动作,并可以将其用于控制。第二个训练阶段不需要大量机器人数据。培训只能使用62个小时的机器人数据来构建可用于计划和控制的模型。 Meta演示了如何在训练阶段发现相关对象的新环境中使用V-JAPA 2计划零样品机器人。与其他基本机器人模型不同,这些模型通常需要特定机器人实例中的一些培训数据和E实施模型。开源机器人数据集以训练模型并直接在Metallab机器人中实现。他们证明,V-JIPA 2的预测因子可用于基本任务,例如到达对象,选择对象并将其放置在新位置。对于短期任务,例如对象的收集和放置,目标以图像形式指定目标。使用V-JAPA 2编码器从当前状态和目标状态获得集成向量。从他们观察到的当前状态来看,机器人可以想象通过预测因子采取一系列候选行动的后果,并根据这些行动与所需目标的距离限定候选行动。在每个时间步骤中,机器人通过模型的预测控制复制替换,并执行以下动作,以最高分数来解决目标。对于长期任务,例如收集对象并将它们放在t中他纠正了位置,指定机器人试图实现的一组视觉亚物体,类似于对人类观察到的模仿的视觉学习。通过这些视觉次级对象,将新物体放置在新的和无形的环境中的V-JAPA 2的成功率达到65%至80%。在当前的物理理解参考点中,目标发布了三个新的参考点,以评估现有模型理解和推断视频的物理世界的能力。人类在三个参考点(精度范围为85%至95%)中表现良好,但是上层模型(包括V-JAPA 2)之间存在很大的差距,这表明该模型需要进一步改善这些方向。第一个参考点是Intphys 2,专门设计用于衡量模型区分物理理性和非理性场景的能力,并根据第一个参考的构建和扩展e intphys。他们设计了类似于评估年轻人的Cognitific Ientific开发的Inphys2,如何通过“意外”范式获得直觉的身体能力。他们为游戏引擎生成视频。在这里,两个在某个时间点上完全相同的视频,其中一个具有违反物理定律的事件。该模型必须确定哪些视频具有违反物理法的事件。在几乎所有场景和条件下,人类都可以完美地完成此任务,但是我们可以看到当前的视频模型仅在随机级别附近完成。 intphys 2项目链接:https://github.com/facebookrearch/intphys2huggingface链接:https://huggingface.co/datasets/facebook/intphysbook/intphys2pperh link: https://ai.meta.com/research/publications/intphys-2-benchmarking-in-physics-netair-physics-innestisisment-in-complex-synchétic-environels/secondBenchmark-mvpbbench衡量视频语言模型的物理理解能力。ons。与文献中的其他问题和答案的参考点不同,MVPbench的目的是减少视频语言模型中流行的快捷方式解决方案,例如视觉或文本偏见,取决于表面。 MVPbench的每个示例都有最小的更改。与视觉上相似的视频相同的问题,但答案恰恰相反。要正确回答问题,模型还必须正确回答相应的最小更改。 MVPBENCH项目链接:https://github.com/facebookrearch/minimal_video_pairshuggingface链接:https://huggingface.co/datasets/datasets/datasets/minimal_video_pebide链接: QA dysical-enderding-via-wimimal-video-pires/第三个参考点causalvqa是物理上的bussane bussand(我们的目标是专注于理解因果发生因果发生因果发生因果关系可变可变因果关系(应采取的措施以实现目标)。能够回答有关视频中发生的事情的问题,但是他们仍然很难回答有关发生的事情和接下来会发生的事情,这在预测物理世界如何进化的情况下表明了人类绩效的巨大空间。 https://github.com/facebookrearch/causalvqa paper link: https://ai.meta.com/research/publications/causalvqa-a-physal-causal-rainning-benchmark-for-video-models/v-jepa Surpas Fiaceo Fiaace GPT-4O, etc. However, many tasks require planning in multiple time scales.元研究。