VideoLLM最新研究
VideoLLM最新研究
MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies
MovieLLM:利用人工智能生成的电影增强对长视频的理解(复旦大学)
**地址:**https://arxiv.org/abs/2403.01422
参考:
时间:2024.6.24(v2)
1.摘要
多模态模型的发展标志着机器理解视频的重大进步。这些模型在分析短视频片段方面表现出了良好的前景。然而,当涉及到电影等较长的格式时,它们往往就显得力不从心了。主要的障碍是缺乏高质量、多样化的视频数据,以及收集或注释此类数据所需的大量工作。面对这些挑战,我们提出了 MovieLLM,这是一个新颖的框架,旨在合成一致且高质量的视频数据以进行指令调整。该管道经过精心设计,可通过改进文本反转技术以及 GPT-4 强大的文本生成功能来控制视频的风格。作为第一个这样做的框架,我们的方法以其灵活性和可扩展性而脱颖而出,使用户能够仅使用一个描述来创建自定义电影。这使其成为传统数据收集方法的更好替代方案。我们进行了广泛的实验,验证了 MovieLLM 生成的数据显著提高了多模态模型在理解复杂视频叙事方面的表现,克服了现有数据集在稀缺性和偏见方面的局限性。
2.理解
利用GPT-4并引导文图生成模型生成一致的电影级视频关键帧,利用该框架生成的长视频指令数据,显著提高了多模态模型在理解复杂视频叙事方面的性能,让大模型更懂电影。
该方法包括三个相互关联的步骤:电影情节生成、风格固定化过程和视频指导数据生成。仅凭简单的主题描述,就能够生成整部电影的关键帧。
整个流程如下图所示:首先利用GPT-4基于主题短语生成整个电影情节;利用文本反转技术将从情节生成的风格描述固定到扩散模型的潜在空间,引导其生成具有固定风格的帧。整合先前获取的所有信息,最终生成一致的关键帧和相应的问答对。
- 电影情节生成(Movie Plot Generation):我们没有将绘图生成限制为传统数据源(例如网络或现有数据集),而是利用 GPT-4 的功能来生成合成数据。通过提供主题、概述和样式等特定元素,我们指导 GPT-4 生成适合后一代流程的电影级关键帧描述。
- 风格固定过程(Style Immobilization):通过巧妙地采用文本反转(Gal et al., 2022),我们将从脚本生成的风格描述固定到扩散模型的潜在空间中。这种方法引导模型以一致的风格生成场景,同时在统一的审美下保持多样性。
- 视频指令数据生成(video instruction data generation):通过将 GPT-4 强大的生成能力与开发的风格引导扩散模型相结合,我们生成风格一致的关键帧和相应的 QA 对,从而形成全面的指令调优语料库。
我们的方法允许在不受数据量限制的情况下生成数据集,确保生成的内容具有高度的多样性。此外,它还有助于自动注释,从而显着减少对体力劳动的需求和相关成本。这些优势增强了长视频理解数据集创建的可扩展性、丰富性和效率,标志着该领域的重大飞跃。
我们提出的用于生成长视频指令调整数据集的管道。只需简单的主题描述,我们的流程就能够生成整部电影的关键帧。该流程大致可以分为三个阶段:
(a)电影情节生成,我们使用 GPT-4 根据主题短语生成整个电影情节。
(b)风格固定化过程,我们利用文本反转技术将情节生成的风格描述固定到扩散模型的潜在空间中,引导其生成具有固定风格的框架。
©视频指令数据生成,我们整合之前获得的所有信息,最终生成一致的关键帧和相应的问答对。
总结:类似于大模型在电影领域的效果增强?
Movie101v2: Improved Movie Narration Benchmark
Movie101v2:改进的电影叙述基准(人民大学)
paper:https://arxiv.org/pdf/2404.13370
时间:2024.10.18(v2)
1. 摘要
自动电影旁白旨在生成与视频一致的情节描述,以帮助视障观众。与标准视频字幕不同,它不仅涉及描述关键视觉细节,还涉及推断多个电影镜头中展开的情节,从而提出独特而复杂的挑战。为了推动这一领域的发展,我们引入了 Movie101v2,这是一个专门为电影叙事设计的大规模双语数据集,具有增强的数据质量。重新审视该任务,我们建议将自动电影叙述的最终目标分解为三个渐进阶段,提供清晰的路线图和相应的评估指标。基于我们的新基准,我们对包括 GPT-4V 在内的一系列大型视觉语言模型进行了基线分析,并对叙述生成中的挑战进行了深入分析。我们的研究结果强调,实现适用的电影叙事生成是一个令人着迷的目标,需要进行大量研究。
来自其他数据集(左)和 Movie101v2(右)的示例,其中案例来自 Goodbye Mr. Loser。
2. 理解
不错的任务以及描述,要求比较深入的视频理解能力,如果实现可以对其他任务作出帮助,目前的结果难以满足实际应用需求。
我们的模型框架。(a) 用于 MCN 任务的 RMN;(b) 用于 TNG 任务的全局镜头检索和局部时序定位。
MCN:电影片段解说、RMN:叙述生成框架、TNG:时序定位(不用管)
总结:一个数据集Movie101,随电影自动生成旁白(MCN),比较有意思。
Streaming Long Video Understanding with Large Language Models
使用大型语言模型流式传输长视频理解(港中文)
paper:https://arxiv.org/pdf/2405.16009
时间:2024.5.25(v2)
1. 摘要
本文提出了 VideoStreaming,这是一种用于视频理解的高级视觉语言大型模型 (VLLM),它能够通过流式编码和自适应选择的恒定数量的视频标记来理解任意长度的视频。视觉语言领域视频理解的挑战主要在于从长视频中提取的大量标记造成的巨大计算负担。以前的工作依靠稀疏采样或帧压缩来减少标记。然而,此类方法要么忽视长时间跨度的时间信息,要么牺牲空间细节,导致压缩有缺陷。为了解决这些限制,我们的视频流有两个核心设计:**内存传播流编码和自适应内存选择。**内存传播流编码架构将长视频分割成短剪辑,并使用传播内存顺序对每个剪辑进行编码。在每次迭代中,我们利用前一个剪辑的编码结果作为历史内存,将其与当前剪辑集成以提取压缩表示,该表示封装了截至当前时间戳的视频内容。该方法不仅将长期时间动态合并到流编码过程中,而且还产生固定长度的存储器作为任意长视频的全局表示。编码过程结束后,自适应记忆选择策略从所有历史记忆中选择恒定数量的与问题相关的记忆,并将它们输入 LLM 以生成信息丰富的响应。与问题相关的选择减少了记忆中的冗余,从而实现高效、精确的视频理解。同时,解开的视频提取和推理设计使得LLM可以通过直接选择相应的记忆来回答有关视频的不同问题,而无需为每个问题对整个视频进行编码。通过大量的实验,我们的模型在长视频基准上实现了卓越的性能和更高的效率,展示了对详细问题解答的精确时间理解。
2. 理解
提出一种让LLM可以适配长短视频的视频处理方案,[标记一下,待续]。
图 1a 显示了视频流的概述,其中我们将长视频分割成短剪辑,并将每个剪辑迭代编码到紧凑的内存中。然后,根据具体问题,我们选择恒定数量的相关记忆子集作为LLM的输入以产生答案。 ✓ 和 ✗ 分别表示选定和未选定的存储器。图1b说明了每次流编码迭代的详细过程。我们参考特定时间戳和前一个剪辑的历史记忆将当前剪辑特征编码为压缩表示。