轮盘app官方网站下载

轮盘游戏 视频生成不再「断片」:OneStory给模子装上「选用性记忆」,跨镜头讲故事东谈主物场景弥远如一

发布日期:2026-04-13 04:19点击次数:191

轮盘游戏 视频生成不再「断片」:OneStory给模子装上「选用性记忆」,跨镜头讲故事东谈主物场景弥远如一

多镜头视频是视觉叙事再普通不外的抒发花式。

但在视频生成领域中,其高质料已毕颇具挑战。

与单镜头视频不同,多镜头视频并不是简便地把几个片断拼接起来,而是要求模子同期处理两类信息:一类需要在不同镜头之间保合手融会,举例东谈主物身份、环境主体和故事干线;另一类则需要跟着叙事当然变化,举例视角切换、动作鼓励和场景转场。

这一任务往往不错界说为:给定每个 shot 的 prompt,以及一个可选的运转图像算作首帧条款,模子需要生成多个 shot,并看护跨 shot 的推行一致性和对每个 shot prompt 的准确免除。

这意味着,模子必须八成合手续爱护长程的跨镜头高下文。关联词,现存枢纽容或存在两类局限:一类枢纽依赖固定窗口,在窗口内同期生成多个 shot,但跟着窗口滑动,较早镜头的信息会被丢弃;另一类枢纽则仅依赖单张漏洞帧算作条款,难以有用传递 shot 内更复杂的叙事细节。

最近,来自Meta 与 University of Copenhagen的探讨者漠视了 OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory(收录于 CVPR 2026)。这项责任聚焦于一个中枢问题:如安在生成多镜头视频时,有用保留长程跨镜头高下文,从辛勤毕更强的叙事一致性。其中枢想路,是为多镜头视频生成设备一种全局但紧凑的跨镜头记忆机制。

OneStory 可生因素钟级、十镜头的长视频故事,在复杂叙事鼓励过程中保合手东谈主物与场景的一致性;同期撑合手 image-to-multi-shot 与 text-to-multi-shot 两种生成缔造,并在 out-of-domain 场景中展现出精采的泛化才略。

OneStory 作念了什么?

OneStory 率先将多镜头视频生成再行表述为一个更当然的问题:next-shot generation。也便是说,模子不再一次性生成整段长视频,而是像讲故事一样,基于前边照旧生成的镜头,生成下一个镜头(每个镜头同期生成)。这么的设定已毕了shot-by-shot 的自回来式多镜头生成。

△  OneStory 的磨练与推理经由暗意图。磨练阶段,模子以前两个 shot 为条款生成第三个 shot;推理阶段,模子字据输入 caption 按 shot-by-shot 的款式慢慢生成多镜头视频。

与此同期,OneStory 以预磨练的 image-to-video 基础模子算作运调度,因此不错当然接受基础模子自身雄伟的视觉条款生成才略。通过这么的任务重构,OneStory 的第一个 shot 不错通过使用任何 text-to-video 或 image-to-video 模子得回,尔后续 shot 则由 OneStory 字据输入的 shot prompt 慢慢生成。

也正因如斯,OneStory 八成在归并个模子中统一撑合手text-to-multi-shot video 和 image-to-multi-shot video两种生成款式。

在此基础上,OneStory 打算了两个漏洞模块。

△  OneStory 中 Frame Selection 和 Adaptive Conditioner 的结构暗意图。Frame Selection 和 Adaptive Conditioner 两者共同已毕了自安妥记忆建模,从而撑合手全局但紧凑的跨镜头高下文泄漏,用于连贯的叙事生成。1. Frame Selection:找到信得过揣摸的历史 memory

并不是统统前序镜头对现时镜头的生成皆同等紧要。

举例,第 1 个镜头中出现主角,轮盘游戏第 2 个镜头切换到副角,第 3 个镜头又回到主角。那么在生成第 3 个镜头时,第 1 个镜头时常比第 2 个镜头更漏洞。基于这种跨镜头揣摸性不均等的欣喜,OneStory 引入了Frame Selection模块,从统统历史镜头中自动挑选出与现时镜头 prompt 在语义上最揣摸的一些帧,算作现时 shot 生成时的 memory。

这一打算不仅幸免了固定窗口滑动带来的淡忘问题,也使模子八成信得过构建起全局的跨镜头高下文。

2. Adaptive Conditioner:把 memory 压缩成高效条款信息

只是"记着"还不够,如何高效地将这些历史信息输入生成器相通漏洞。

△自安妥 patchification。与以往枢纽依时辰划定机械分派 patchifier 不同,Adaptive Conditioner 字据推行揣摸性动态分派不同粒度的 patchifier,从而更高效地行使跨镜头记忆。

OneStory 的Adaptive Conditioner会字据 Frame Selection 模块展望的紧要性,对选中的历史帧进行自安妥 patchification:更紧要的信息保留更细粒度的泄漏,不那么漏洞的信息则被更强地压缩。这么一来,模子就在计较本钱可控的前提下,将历史高下文调度为紧凑而有用的条款信号,并奏凯注入生成过程。

△  多 shot 视频数据蚁集经由

此外,论文莫得沿用"整段故事需要一个总剧本,再辅以分镜头界说"的数据构建款式,而是仅保留分镜头 prompt,并将每个镜头写成带有前文指代关联的姿首。这么的数据花式更面对确切的故事施展逻辑,也让镜头之间八成酿成更当然的叙事流。

实验戒指

△  定性相比戒指。OneStory 八成更针织地免除 shot-level captions,生成在推行和叙事上愈加连贯的多镜头视频。

各实验标明,OneStory 八成在复杂提醒束缚变化的情况下合手续鼓励叙事,同期保合手东谈主物和环境的一致性。论文中也提供了对 OneStory 在复杂叙事场景中的推崇分析,包括:

外不雅变化下的东谈主物一致性保合手

从大全景到局部特写时的空间定位才略

东谈主与物体交互发展过程中的叙事持续才略

这些欣喜诠释,OneStory 学到的并不单是上层的视觉邻接性,而更接近于一种跨镜头叙事合资才略。

OneStory 的真谛是什么?

淌若说单镜头视频生成经管的是"把一段画面作念出来",那么多镜头视频生成信得过要经管的,便是"把一个故事讲下去"。

OneStory 给出的谜底是:不是一味拉长高下文窗口,也不是依赖单张漏洞帧,而是通过自安妥记忆建模,在全局信息建模才略和计较后果之间找到均衡。它让模子在跨镜头生成时,既八成记着昔日,又不会被冗余信息消亡。

关于长视频生成和可控宇宙模子而言,这是一条特别值得心绪的地点,因为 OneStory 为视频模子提供了一种有用的自安妥 memory 经管机制,也为更万古程、更高一致性的视频生成大开了新的可能。

一键三连「点赞」「转发」「防范心」

接待在辩论区留住你的目的!

—  完  —

咱们正在招聘又名眼疾手快、心绪 AI 的学术裁剪实习生  � �

感好奇赞佩好奇赞佩的小伙伴接待心绪 � �  了解坚信

� � 点亮星标 � �

科技前沿进展逐日见轮盘游戏

澳门在线赌钱娱乐网入口