图源备注:图片由AI生成,图片授权服务商Midjourney
文生视频领域又卷起来了!
文生视频允许精细到什么程度?最近,阿里巴巴的一项斟酌给出了答案:1280×720分辨率没有压力,而且生成效果格外连贯。
这些 demo 来自阿里共同浙江大学、华中科技大学提出的文生视频模型 I2VGen-XL,该模型也许生成各系列别的又好又快视频,如艺术画、人像、动物、科幻图等。生成的视频具有高清、高分辨率、平滑、美观等优点,适合广泛的视频内容创作任务。在与 Gen2、Pika 生成效果对比上, I2VGen-XL 生成的视频动作更加充沛,重大表而今更真实、更多样的动作,而 Gen-2和 Pika 生成的视频似乎更接近静态。
除了生成效果,这项工作更令人印象深刻的一点是思索人员在数据上下的工夫。为了抬高生成效果的多样性,琢磨人员收集了大约3500万单镜头文本 - 视频对和60亿文本 - 图像对来优化模型,这是一个相当崇高的数据集,其后续潜力令人奢望。
论文细节
该酌量表示得益于扩散模型的快速发展,视频合成最近取得了显著的进步。然而,它在语义的确凿性、清晰度和时空连续性方面仍旧面临挑战。
显现这种状况的原因一方面是出于缺乏杰出的通过对齐的文本 - 视频数据,另一方面在于视频自身复杂的内在结构,使得模型难以同时保证语义和质量的卓越性。
为了解决上述问题,探讨者受到 SDXL 法子的启发,提出了一种级联的 I2VGen-XL 办法,其也许生成具有连贯空间和运动动态化以及细节连续的高清视频。
I2VGen-XL 旨在从静态图像生成又好又快视频。因此,它需要实现两个重大目标:语义一致性,即精准猜测图像中的意图,然后在依然输入图像的内容和结构的同时生成确凿的运动;高时空一致性和清晰度,这是视频的基本属性,对于确保视频创作应用的潜力至关要紧。为此,I2VGenXL 通过由两个阶段组成的级联策略分解这两个目标:基础阶段和翻新阶段。
具体而言:
基础阶段。基于 VLDM,本文造型的第一阶段是低分辨率(即448×256),关键侧重于在输入图像上结合多级特征提取,囊括高级语义和低级细节学习。
新意阶段。经过基础阶段可以获得具有多样化且语义精确的运动的低分辨率视频。然而,这些视频或者会遇到各种问题,例如噪声、时间和空间抖动以及变形。因此,创新模型有两个严重目标:i)增强视频分辨率,将其从448×256增补到1280×720或更高;ii) 抬高视频的时空连续性和清晰度,解决时间和空间上的伪影问题。
为了提升视频质量,该商讨训练了一个单独的 VLDM,专业处理高质量、高分辨率数据,并对第一阶段生成的视频采用 SDEdit 引入的噪声去噪过程。
该研究还使用 CLIP 对文本进行编码,并通过交叉严慎力将其嵌入到3D UNet 中。然后,基于基础阶段的预训练模型,商讨者使用精心挑选的高质量视频训练高分辨率模型,所有视频的分辨率都大于1280×720。
此外,该研究还收集了3500万个高质量 single-shot 视频和60亿张图像,以达到增强 I2VGen-XL 多样性和稳健性的目的。
最后,广泛的实验评估结果阐明 I2VGen-XL 允许同时增强生成视频的语义准确性、细节的连续性和清晰度。此外,该研究还将 I2VGenXL 与当今的顶级方法进行了比较,结果都阐扬 I2VGenXL 在各种数据上的有效性。
实验结果
与 Gen2和 Pika 的比较结果
为了标明新措施的有效性,琢磨者将 I2VGen-XL 的性能与 Gen-2和 Pika 进行了比较,二者被公认为是当今文生视频领域最先进的办法。如图4所示,作者使用这两种办法的网页界面生成了三序列型图像的视频,包罗虚拟、写实和抽象绘画。
从这些结果中可以得出以下个结论:i) 动作的充裕性:I2VGen-XL 的结果浮现出更真实、更多样的动作,举例最上方的例子。相比之下,Gen-2和 Pika 生成的视频似乎更接近静态,这证明 I2VGen-XL 兑现了更充沛的运动;ii) ID 保留程度:从这三个样本中可以看出,Gen-2和 Pika 成功地保留了物体的身份特征,而 I2VGen-XL 则丢失了输入图像的一些细节。在实验中,作者还映现 ID 保留程度和运动强度之间存在一定的权衡关系。I2VGen-XL 在这两个因素之间取得了平衡。
翻新模型分析
图3浮现了研发阶段前后生成的视频。这些结果讲明,空间细节得到了大幅抬高,包含面部和身体特征的细化,以及局部细节中噪音的明显减少。
为了一步步表明创新模型的工作机制,本文在图7的频域中分析了在此过程中生成的视频中发生的空间和时间变化。图7a 映现了四个空间输入的频谱,证明:低质量视频显示出与高频范围内的噪声肖似的频率分布,而又好又快视频显现出与输入图像的频率分布更相通。将其与图7b 所示的空间频率分布相结合,允许观察到创想模型有效地保留了低频数据,同时在高频数据中发现出更平滑的变化。从时间维度的角度来看,图7d 涌现了低质量视频(上)和高质量视频(下)的时间曲线,证明高清视频的连续性有了明显的改善。此外,融入图7b 和图7e 可以看出,创新模型在空间和时间域中保留了低频分量,减少了中频分量,并增强了高频分量。这标明时空域中的伪影紧要存在于中频范围。
定性分析
该思虑还对更广泛的图像进行了实验,网罗人脸、3D 卡通、动漫、国画、小动物等系列。结果如图5所示,图中允许观察到生成的视频思考了图像的内容和合成视频的美感,同时还出现出有意义且确凿的动作。譬如,在第六行,模型精确地捕捉到了小猫可爱的嘴巴动作。这些结果讲明 I2VGen-XL 显示出有前途的泛化能力。
生成稳定的人体运动仿照是视频合成的重大挑战。因此,该斟酌还专门验证了 I2VGen-XL 在人体图像上的稳健性,如图8所示。允许考查到,该模型对人体的推想和生成的运动万分真实,具有人体的大部分特征。
文本 - 视频
文本到视频合成眼前面临的关键挑战之一是又好又快视频 - 文本对的收集,这使得与图像合成相比,实行视频和文本之间的语义对齐更加麻烦。因此,将 Stable Diffusion 等图像合成技术与图像到视频合成相混合,有助于提高生成视频的质量。事实上,为了尊重隐私,该探索几乎所有样本都是由两者混入生成的。另外,在图6中是本文单独生成的样本,可以调查到视频和文本浮现出很高的语义一致性。
(投诉)