EasyCache:无需培训的视频扩散模型的推断:一种

网页设计 bet356官网首页 浏览

小编:本文的第一位作者周Xin和Liang Dingkang的作者团队是Huazhong University and Technology的博士生,主管是Bai Xiang教授。我会合作

本文的第一位作者周Xin和Liang Dingkang的作者团队是Huazhong University and Technology的博士生,主管是Bai Xiang教授。合作者包括冯蒂安(Feng Tianlui)的陈凯(Chen Kai-jin),陈舒(Chen Shuu),科学技术大学,陈舒(Chen Shuu),梅格维(Megvii)技术的谭海·杨(Tan Hai Yang)和香港大学的Zhao Hengshuang。在Hunyuanvideo中,EasyCache在复杂的场景中保持原始视频的不断外观,在很大程度上加速了最近研究的背景和动机,并保持了扩散模型(扩散模型)和扩散变形金刚(DIT)在视频发电领域的广泛应用。大型模型,例如Openi Sora,Hunyuanvideo和Wan2.1,已经能够生成清晰的结构,丰富的细节和非常一致的长视频内容,从而导致数字内容,Worlds VirStals和Multimedia Entertainment的创建的重要变化。但同时,推理缓慢和大量消耗计算机能源的问题越来越突出。以Hunyuanvideo为例,以5秒为720p的分辨率生成视频,并且单个推论已在H20中。这种高资源的成本显着限制了在大型生产方案中实时交互,移动终端和扩散视频技术的应用。这种瓶颈的主要原因是,必须在生成过程中重复几次扩散模型,并且每个步骤都需要对完整的神经元网络进行高级推断,从而产生许多冗余计算。如何在不影响视频质量的情况下显着提高推理效率已成为迫切需要的困难。文档标题:少:没有培训的视频,使用自适应执行时间纸张地址:https://arxiv.org/abs/2507.02860代码地址(开源):https://github.com/h-embodvis/easycache项目:https:https:https:// https:// h-h-h-h-h-h- che原则。本文档中提出的EasyCache是一个新的框架,可以加速推理,而无需培训,模型结构的变化以及 - 线统计信息。中心思想非常直接。在推理过程中,我们在模型退出处动态检测“稳定时期”,并重复使用历史计算的结果以减少冗余推理步骤。 2.1扩散过程的“转换率”,生成扩散模型的正常过程可以理解为“逐渐消除”。每个步骤始于当前的潜在变量,可以预测噪声,更新的状态,并逐渐恢复清晰的视频内容。 Ponga在传递锁中的所有DIT B,都考虑了功能。它可以考虑一个步骤的“定向导数”的线性方法。数字(转换速度,转换速度)被简化为促进分析。通过对扩散变压器的特征的内部分析,我们发现初始消除阶段将大大改变模型的退出,这需要一个完美的理由来获取全球结构。但是,在中期和晚期,模型的“转换速度”往往是稳定的,几乎是线性行为,细节主要是修改的。这种“稳定性”意味着许多步骤的退出可以通过上一步的结果近似,这允许省略许多冗余计算。 2。我们感到惊讶的是,整个模型的入口和出口在时间通道级别上差异很大,呈现出不同的变化模式。 (2)使用缓存适应和多重标准设置累积误差阈值,并为每个步骤动态积累交换速度(误差索引ET)。具体而言,假设KT是局部恒定的,则变化率(局部Stab可以通过通过下一步的变更来调整汇率(本地稳定性试验)来确定能力判断),并且估计的输出率可以作为累积误差的估计来积累。尽管ET低于τ,但最后一个完美推断的转换向量是直接重复使用的。否则,缓存将被重新计算和更新。第一步r是加热,所有完整的推断可确保不会丢失初始结构信息。 (3)不需要培训或模型更改。 EasyCache在推理阶段非常有效,并且不可能重新进入模型,并且不需要原始网络结构的变化。可以实现“插件”。 3。实验结果和视觉分析在多种传统视频的模型中进行了系统的实验,例如开瓶器,WAN2.1和Hunyuanvideo,以研究推理速度与发电质量之间的平衡n。 3.1定量实验结果EasyCache通过Hunyuanvideo实现了2.2倍,PSNR增加了36%,SSIM增加了14%,LPIP显着降低,视频的质量几乎没有损失。此外,我们以WAN 2.1的速度达到了一倍以上的加速度。图像生成任务(例如Flux.1-DEV)也可以提供4.6倍的加速度并改善FID和其他指标。稀缺的护理技术(例如EasyCache和SVG)的平均加速度为3.3倍,还原器的一般推理时间从2小时到33分钟。 3.2视觉比较文档显示了以不同方式生成的视频框架的比较。诸如静态缓存和TEACACHE中的存储之类的方法在不同的细节,结构和清晰度方面的损失程度各不相同。 EasyCache制作的视频或多或少与原始模型在视觉效果方面,保留出色的细节,并且没有明显的Blur或structural损坏。有关可视化的更多信息,请参见https://h--embodvis.github.io/easycache/wan2.1-14b,EasyCache正确地维护了文本。根据SVG,EasyCache可以增加三倍以上的加速度。 4。一般描述和未来的观点。 EasyCache提供了一种新的,简单,高效和独立的范式,以加速视频传播模型的推断。通过加深传播过程的内部法律,它在很大程度上取得了刺眼的质量视频,几乎没有损失,为实施实际应用中实施传播模型提供了坚实的基础。将来,相关的模型和加速技术将继续改善,因此我们想解决“真实时间视频的产生”。

当前网址:https://www.4e534b.com//tutorials/web/2025/0714/338.html

 
你可能喜欢的: