世界模型的重要步骤:EX

本文的主要作者是Baitedan Pico北美的首席研究员Tao Hu博士。近年来,研究领域包括3D重建,4D场景和视频生成,并一直在努力获得最佳的物理表示模型。其他作者是PICO MR Team的中心成员。在过去的一年中,诸如Sora,Keling和Vie之类的模型已经在现场生成领域开始创新。在建立一个更接近现实世界的世界模型的旅行中,相机可控制的一代技术是一个核心难题。视频生成模型不再是单向的“世界模拟器”,而是用户可以自由探索的“平行宇宙”,为诸如沉浸式3D电影等破坏性应用程序建立基础。但是,从Visi Videosunique生成新的视频,具有相应的极端视图(作为±90°的Azimut角度的变化)仍然是该行业的挑战。现有的开源方法基于在视频数据集[4,5]中的多个视觉摄像机和训练中,或被困在阻塞面积的局限性[1,2]的局限性中,这使得很难克服“观点自由”和“物理真理”之间的双重差距。从这个意义上讲,PICO-MR团队提出了一个创新的计划:EX-4D可以为任何单眼视频生成新的视频视频。 EX-4D:更强的一致性:EX-4D超过了最新的开源方法,FVD和其他指标,该方法支持具有高物理一致性的新观点视频的生成。最大的视觉角度:由于新的几何预形式,Ex-4D承认了具有极端视角的高质量视频。提高一般效力。 Lora Li Apaptergero允许您充分利用WAN-2.1模型的强大生成能力,以详细和质量生成视频。 arxiv链接:https://arxiv.org/abs/2506.055554项目主页链接:https://tau-yihouxiang.github.io/projECTS/EX-4D/EX-4D.HTML代码链接:https://github.com分为两个主要想法。方法时间直接使用外部室内参数作为条件控制的观点。这种方法需要在多个观看角度构建相机视频对,并且很难在不同的数据分布下控制相机位移量表,并且未知分布的视频输入可能会发生严重的视觉角度变化。第二种方法将直接投影在点云中,作为其他早期信息。您是点云的促进,不能保留对象之间的遮挡关系,并且在很大程度上取决于对象联合中基座模型的容量。这种控制能力可能不会导致几何关系错误。 EX-4D的三个中心设计,EX-4D的核心目标是从单克隆视频的新角度实现一般的视频产生模型。作为sho在其一般框架下的图中,Ex-4D提出了三个重要设计,同时确保生成的视频符合高质量和高的物理一致性,以充分利用不同类型的视频数据:深网封闭(DW-MEH)达到闭合表面的提取:DW-MEH代表EX-4D Ex-4D框架的核。打破特定云的极限,并首次提议在注册以可见/隐藏的面部膜时使用完全封闭的网格结构,这允许在不进行多次监督的情况下统一处理场景拓扑。 EX-4D在训练之前使用最新深度来预测每张图片的深度图,在3D空间中投射像素以形成网格顶点并从相邻的顶点构建网格补丁。 EX-4D掩盖掩蔽的标记根据其几何关系。如果最小的宽容角度,则在前景和背景之间建立遮挡表面时表小于指定阈值,或者该部分大于指定的阈值。生成的DW网状公式为每幅画提供了连续的遮挡掩码,从而确保了从极端角度产生的视频的物理一致性。构建数据集的仿真蒙版生成策略:解决缺乏训练数据多视图的问题,EX-4D通过两种方式进行模拟。渲染面罩着重于模拟透视运动下对象之间的遮挡关系。 EX-4D使用DW网格表示从新的角度模拟遮挡关系。通过构建输入视图角度的DW网格并使其成为特定的相机轨道,可以获得无形区域的口罩。形态学增加可以进一步消除噪声并满足最现实的闭塞逻辑。后面的掩码重点是将可见区域的边缘像素与推理阶段的视频的真实视频相匹配。 EX-4D使用COtracker3 [3]模型跟踪锚点以确保框架之间可见的部分一致性,从而允许训练数据近似真实的场景无限近似。两代人的artergation,而无需昂贵的多百分之百分比的收购,就可以使用单眼视频的“大脑”“大脑”成为完整的视觉数据,以解决世界模型培训的数据困境。 Livian Lora适配器:EX-4D基于先前训练的WAN-2.1型号,并呈现基于Lora的适配器以完成蒙版视频。基于LORA的适配器体系结构集成了DW-MESH的几何形状在视频生成过程中预发,以确保完整视频的几何一致性和图片的完整一致性,同时保持可控的计算要求。实验结果:以EX-4D定义“极端”的方式,并从新的角度证明了Ex-4D产生的巨大潜力,EX-4D使用一个数据集,Tains 150网络视频,并使用Comor FID,FVD,VBENCH评估模型的性能[6]。在各种观点中,Ex-4D完全超过了生成现有开源可控视角的方法。值得注意的是,新的入口点角度越极端(倾向于90°),前EX-4D的性能益处越多,完全证明了代表DW网格保持身体一致性的可能性。使用VBENCH指标,EX-4D是最常见的,它是100个指标中最高得分,表明能量更强大,更全面。此外,EX-4D邀请50名志愿者评估EX-4D和其他开源方法的生成的有效性。 70.70%的参与者认为,从极端的角度来看,EX-4D方法导致身体一致性的恶化。如果现有的开源方法“暴露缺陷”(对象是委托的,并且阻止)在角度的巨大变化中,EX-4D可以准确保证对象细节的高度一致性。完整的EX-4D消融实验完全证明了每个EX-4D策略的有效性。其中,DW-SMEH意味着性能的最大进步。培训数据的掩模生成策略对于模型培训至关重要。 EX-4D中使用的16个等级的Lora Liviano适配器足够有效地增加范围,只会带来少量的性能。摘要和定性和定量实验表明,EX-4D方法会产生高的身体一致性,高质量的视频结果,并且可以在各种场景中广泛使用,其角度与极端视角的变化很小,从而提高了对观点的新预测的自由。在随后的可控视频生成中,EX-4D专注于提高预测数据的精度,提高模型推理的速度,向生成受控视频的离子越来越快地支持世界模型。参考文献[1] Mark Yu,Wenbo Hu,Jinbo Xing,Ying Shan。轨迹:通过扩散模型在单眼视频中重定向摄像机轨迹,2025。[2] Zeqi Xiao,Wenqi Ouyang,Yifan Zhou,Shuai Yang,Lei Yang,Jianlou Si和Xingang Pan。控制精细谷物视频运动的轨迹。第13届学习表达国际会议,2025年。[3] Nikita Karaev,Iurii Makarov,Jianyuan Wang,Natalia Neverva,Andrea Vedaldi,Andrea Vedaldi,Christian Ruprecht。 cotracker3:带有一个真实的视频,带有更简单,更好的观点的伪tiquetasseguard。 Proc。 Arxiv:2410.11831,2024。[4] Hao He,Yinghao Xu,Yuwei Guo,Gordon Wetzstein,Bo Dai,Hongsheng Li和Ceyuan Yang。 CAMERACTL:启用摄像机控制视频发电视频。 Arxiv预启动ARXIV:2404.02101,2024。[5] Jianhong Bai,Menghan Xia,Xiao Fu,Xintao Wang,Lianrui Mu,Jinwen Cao,Jinwen Cao,Zuozhu Liu,Haoji Hu,Haoji Hu,Haoji Hu,Xiang Bai,Xiang Bai,Pengfei Wan和Di Zhang。重定手: Camera Control Generation Rendering From 1 Video, 2025. [6] Ziqi Huang, Yinan He, Jiahuo Yu, Fan Zhang, Chenyang SI, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpais, Yaohui Wang, Xinyuai Wain, Ziowwai, Yuian VBENCH:通用视频模型的全面参考集。 IEEE/CVF 2024计算机视觉和模式识别会议论文集。

Related Posts

Comments are closed.