不了解Sora？看完这篇文章你就懂了

农场章文 · 发表于 2024-2-20 15:32

https://baijiahao.baidu.com/s?id=1791398803058021592&wfr=spider&for=pc

Sora的概念介绍

2024年2月16日，OpenAI发布了“文生视频”（text-to-video）的大模型工具，Sora（利用自然语言描述，生成视频）。这个消息一经发出，全球社交主流媒体平台以及整个世界都再次被OpenAI震撼了。AI视频的高度一下子被Sora拉高了，要知道Runway Pika等文生视频工具，都还在突破几秒内的连贯性，而Sora已经可以直接生成长达60s的一镜到底视频，要知道目前Sora还没有正式发布，就已经能达到这个效果。

Sora这一名称源于日文“空”（そら sora），即天空之意，以示其无限的创造潜力。

二、Sora的实现路径

Sora的重要意义在于它再次推动了AIGC在AI驱动内容创作方面的上限。在此之前，ChatGPT等文本类模型已经开始辅助内容创作，包括插图和画面的生成，甚至使用虚拟人制作短视频。而Sora则是一款专注于视频生成的大模型，通过输入文本或图片，以多种方式编辑视频，包括生成、连接和扩展，属于多模态大模型的范畴。这类模型在GPT等语言模型的基础上进行了延伸和拓展。

Sora采用类似于GPT-4对文本令牌进行操作的方式来处理视频“补丁”。其关键创新在于将视频帧视为补丁序列，类似于语言模型中的单词令牌，使其能够有效地管理各种视频信息。通过结合文本条件生成，Sora能够根据文本提示生成上下文相关且视觉上连贯的视频。

在原理上，Sora主要通过三个步骤实现视频训练。首先是视频压缩网络，将视频或图片降维成紧凑而高效的形式。其次是时空补丁提取，将视图信息分解成更小的单元，每个单元都包含了视图中一部分的空间和时间信息，以便Sora在后续步骤中进行有针对性的处理。最后是视频生成，通过输入文本或图片进行解码加码，由Transformer模型（即ChatGPT基础转换器）决定如何将这些单元转换或组合，从而形成完整的视频内容。

总体而言，Sora的出现将进一步推动AI视频生成和多模态大模型的发展，为内容创作领域带来了新的可能性。

		自动登录	找回密码
密码			中文注册