哈尔滨北大荒知青网

 找回密码
 中文注册
搜索
查看: 323|回复: 0

不了解Sora?看完这篇文章你就懂了

[复制链接]
农场章文 发表于 2024-2-20 15:32 | 显示全部楼层 |阅读模式
https://baijiahao.baidu.com/s?id=1791398803058021592&wfr=spider&for=pc


Sora的概念介绍

2024年2月16日,OpenAI发布了“文生视频”(text-to-video)的大模型工具,Sora(利用自然语言描述,生成视频)。这个消息一经发出,全球社交主流媒体平台以及整个世界都再次被OpenAI震撼了。AI视频的高度一下子被Sora拉高了,要知道Runway Pika等文生视频工具,都还在突破几秒内的连贯性,而Sora已经可以直接生成长达60s的一镜到底视频,要知道目前Sora还没有正式发布,就已经能达到这个效果。

Sora这一名称源于日文“空”(そら sora),即天空之意,以示其无限的创造潜力。


二、Sora的实现路径

Sora的重要意义在于它再次推动了AIGC在AI驱动内容创作方面的上限。在此之前,ChatGPT等文本类模型已经开始辅助内容创作,包括插图和画面的生成,甚至使用虚拟人制作短视频。而Sora则是一款专注于视频生成的大模型,通过输入文本或图片,以多种方式编辑视频,包括生成、连接和扩展,属于多模态大模型的范畴。这类模型在GPT等语言模型的基础上进行了延伸和拓展。

Sora采用类似于GPT-4对文本令牌进行操作的方式来处理视频“补丁”。其关键创新在于将视频帧视为补丁序列,类似于语言模型中的单词令牌,使其能够有效地管理各种视频信息。通过结合文本条件生成,Sora能够根据文本提示生成上下文相关且视觉上连贯的视频。

在原理上,Sora主要通过三个步骤实现视频训练。首先是视频压缩网络,将视频或图片降维成紧凑而高效的形式。其次是时空补丁提取,将视图信息分解成更小的单元,每个单元都包含了视图中一部分的空间和时间信息,以便Sora在后续步骤中进行有针对性的处理。最后是视频生成,通过输入文本或图片进行解码加码,由Transformer模型(即ChatGPT基础转换器)决定如何将这些单元转换或组合,从而形成完整的视频内容。

总体而言,Sora的出现将进一步推动AI视频生成和多模态大模型的发展,为内容创作领域带来了新的可能性。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 中文注册

本版积分规则

百度搜索|哈尔滨北大荒知青网 ( 黑ICP备2020005852号 )

GMT+8, 2024-5-5 21:23

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表