轮盘游戏视频生成不再「断片」：OneStory给模子装上「选用性记忆」，跨镜头讲故事东谈主物场景弥远如一

发布日期：2026-04-13 04:19点击次数：191

多镜头视频是视觉叙事再普通不外的抒发花式。

但在视频生成领域中，其高质料已毕颇具挑战。

与单镜头视频不同，多镜头视频并不是简便地把几个片断拼接起来，而是要求模子同期处理两类信息：一类需要在不同镜头之间保合手融会，举例东谈主物身份、环境主体和故事干线；另一类则需要跟着叙事当然变化，举例视角切换、动作鼓励和场景转场。

这一任务往往不错界说为：给定每个 shot 的 prompt，以及一个可选的运转图像算作首帧条款，模子需要生成多个 shot，并看护跨 shot 的推行一致性和对每个 shot prompt 的准确免除。

这意味着，模子必须八成合手续爱护长程的跨镜头高下文。关联词，现存枢纽容或存在两类局限：一类枢纽依赖固定窗口，在窗口内同期生成多个 shot，但跟着窗口滑动，较早镜头的信息会被丢弃；另一类枢纽则仅依赖单张漏洞帧算作条款，难以有用传递 shot 内更复杂的叙事细节。

最近，来自Meta 与 University of Copenhagen的探讨者漠视了 OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory（收录于 CVPR 2026）。这项责任聚焦于一个中枢问题：如安在生成多镜头视频时，有用保留长程跨镜头高下文，从辛勤毕更强的叙事一致性。其中枢想路，是为多镜头视频生成设备一种全局但紧凑的跨镜头记忆机制。

OneStory 可生因素钟级、十镜头的长视频故事，在复杂叙事鼓励过程中保合手东谈主物与场景的一致性；同期撑合手 image-to-multi-shot 与 text-to-multi-shot 两种生成缔造，并在 out-of-domain 场景中展现出精采的泛化才略。

OneStory 作念了什么？

OneStory 率先将多镜头视频生成再行表述为一个更当然的问题：next-shot generation。也便是说，模子不再一次性生成整段长视频，而是像讲故事一样，基于前边照旧生成的镜头，生成下一个镜头（每个镜头同期生成）。这么的设定已毕了shot-by-shot 的自回来式多镜头生成。

△ OneStory 的磨练与推理经由暗意图。磨练阶段，模子以前两个 shot 为条款生成第三个 shot；推理阶段，模子字据输入 caption 按 shot-by-shot 的款式慢慢生成多镜头视频。

与此同期，OneStory 以预磨练的 image-to-video 基础模子算作运调度，因此不错当然接受基础模子自身雄伟的视觉条款生成才略。通过这么的任务重构，OneStory 的第一个 shot 不错通过使用任何 text-to-video 或 image-to-video 模子得回，尔后续 shot 则由 OneStory 字据输入的 shot prompt 慢慢生成。

也正因如斯，OneStory 八成在归并个模子中统一撑合手text-to-multi-shot video 和 image-to-multi-shot video两种生成款式。

在此基础上，OneStory 打算了两个漏洞模块。

△ OneStory 中 Frame Selection 和 Adaptive Conditioner 的结构暗意图。Frame Selection 和 Adaptive Conditioner 两者共同已毕了自安妥记忆建模，从而撑合手全局但紧凑的跨镜头高下文泄漏，用于连贯的叙事生成。1. Frame Selection：找到信得过揣摸的历史 memory

并不是统统前序镜头对现时镜头的生成皆同等紧要。

举例，第 1 个镜头中出现主角，轮盘游戏第 2 个镜头切换到副角，第 3 个镜头又回到主角。那么在生成第 3 个镜头时，第 1 个镜头时常比第 2 个镜头更漏洞。基于这种跨镜头揣摸性不均等的欣喜，OneStory 引入了Frame Selection模块，从统统历史镜头中自动挑选出与现时镜头 prompt 在语义上最揣摸的一些帧，算作现时 shot 生成时的 memory。

这一打算不仅幸免了固定窗口滑动带来的淡忘问题，也使模子八成信得过构建起全局的跨镜头高下文。

2. Adaptive Conditioner：把 memory 压缩成高效条款信息

只是"记着"还不够，如何高效地将这些历史信息输入生成器相通漏洞。

△自安妥 patchification。与以往枢纽依时辰划定机械分派 patchifier 不同，Adaptive Conditioner 字据推行揣摸性动态分派不同粒度的 patchifier，从而更高效地行使跨镜头记忆。

OneStory 的Adaptive Conditioner会字据 Frame Selection 模块展望的紧要性，对选中的历史帧进行自安妥 patchification：更紧要的信息保留更细粒度的泄漏，不那么漏洞的信息则被更强地压缩。这么一来，模子就在计较本钱可控的前提下，将历史高下文调度为紧凑而有用的条款信号，并奏凯注入生成过程。

△ 多 shot 视频数据蚁集经由

此外，论文莫得沿用"整段故事需要一个总剧本，再辅以分镜头界说"的数据构建款式，而是仅保留分镜头 prompt，并将每个镜头写成带有前文指代关联的姿首。这么的数据花式更面对确切的故事施展逻辑，也让镜头之间八成酿成更当然的叙事流。

实验戒指

△ 定性相比戒指。OneStory 八成更针织地免除 shot-level captions，生成在推行和叙事上愈加连贯的多镜头视频。

各实验标明，OneStory 八成在复杂提醒束缚变化的情况下合手续鼓励叙事，同期保合手东谈主物和环境的一致性。论文中也提供了对 OneStory 在复杂叙事场景中的推崇分析，包括：

外不雅变化下的东谈主物一致性保合手

从大全景到局部特写时的空间定位才略

东谈主与物体交互发展过程中的叙事持续才略

这些欣喜诠释，OneStory 学到的并不单是上层的视觉邻接性，而更接近于一种跨镜头叙事合资才略。

OneStory 的真谛是什么？

淌若说单镜头视频生成经管的是"把一段画面作念出来"，那么多镜头视频生成信得过要经管的，便是"把一个故事讲下去"。

OneStory 给出的谜底是：不是一味拉长高下文窗口，也不是依赖单张漏洞帧，而是通过自安妥记忆建模，在全局信息建模才略和计较后果之间找到均衡。它让模子在跨镜头生成时，既八成记着昔日，又不会被冗余信息消亡。

关于长视频生成和可控宇宙模子而言，这是一条特别值得心绪的地点，因为 OneStory 为视频模子提供了一种有用的自安妥 memory 经管机制，也为更万古程、更高一致性的视频生成大开了新的可能。

一键三连「点赞」「转发」「防范心」

接待在辩论区留住你的目的！

— 完 —

咱们正在招聘又名眼疾手快、心绪 AI 的学术裁剪实习生 � �

感好奇赞佩好奇赞佩的小伙伴接待心绪 � � 了解坚信

� � 点亮星标 � �

科技前沿进展逐日见轮盘游戏

澳门在线赌钱娱乐网入口

视频不再生成轮盘游戏短片

上一篇：轮盘游戏app 044期玫瑰摆设三预测奖号：组六复式推选

下一篇：没有了

轮盘游戏视频生成不再「断片」：OneStory给模子装上「选用性记忆」，跨镜头讲故事东谈主物场景弥远如一

推荐资讯

热点资讯

最新资讯

友情链接：

轮盘游戏 视频生成不再「断片」：OneStory给模子装上「选用性记忆」，跨镜头讲故事东谈主物场景弥远如一

推荐资讯

热点资讯

最新资讯

友情链接：

轮盘游戏视频生成不再「断片」：OneStory给模子装上「选用性记忆」，跨镜头讲故事东谈主物场景弥远如一