一文详解Sora！人工智能的又一个里程碑

前瞻网,光锥智能 2024-02-19 18:38 浏览：

2024年伊始，当地时间2月16日，OpenAI再向世界扔了一枚AI炸弹——视频生成模型Sora，它仅仅根据提示词，就能生成60秒的连贯视频，其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色，也可以根据静态图像制作动画。

一如一年前的ChatGPT，Sora被认为是AGI（通用人工智能）的又一个里程碑时刻。

同日，360创始人周鸿祎提到自己对Sora的看法：Sora的诞生意味着AGI(通用人工智能)实现可能从十年缩短至一两年。

一文详解Sora！人工智能的又一个里程碑

这个模型如此轰动，并不只是因为AI生成的视频时间更长、清晰度更高，而是OpenAI已经超越过去所有AIGC的能力，生成了一个与真实物理世界相关的视频内容。OpenAI提出了一个全新的概念——世界模拟器，这将是实现AGI的一个重要里程碑。

——-Sora如何成为“世界模拟器”？

OpenAI新发布的Sora模型，一脚踹开了2024年AI视频赛道的大门，彻底与2023年以前的旧世界划出了分界线。

OpenAI从一开始瞄准的就不是视频，而是所有存在的影像。

影像是一个更大的概念，视频是其中的一个子集，例如大街上滚动的大屏、游戏世界的虚拟场景等等。OpenAI要做的事情，是要以视频为切入口，涵盖一切影像，模拟、理解现实世界，也就是其强调的“世界模拟器”概念。

正如AI电影《山海奇境》制作人、星贤文化陈坤告诉光锥智能，“OpenAI在向我们展示它在视频方面的能力，但真正的目的在于获取人们的反馈数据，去探索、预测人们想要生成的视频是什么样的。就像大模型训练一样，一旦工具开放，就相当于全世界的人在为其打工，通过不断标记、录入，让其世界模型变得越来越聪明。”

于是我们看到，AI视频成为了理解物理世界的第一个阶段，主要突出其作为“视频生成模型”的属性；发展到第二个阶段，才能作为“世界模拟器”提供价值。

抓住Sora“视频生成”属性的核心在于——找不同，即Sora和Runway、Pika的差异性体现在哪里？这个问题至关重要，因为某种程度上解释了Sora能够碾压的原因。

首先的一点，OpenAI沿用了训练大语言模型的思路，用大规模的视觉数据来训练一个具备通用能力的生成模型。这与文生视频领域“专人专用”的逻辑完全不同。

其次，在Sora身上第一次展现了扩散模型与大模型能力的完美融合。

AI视频就像一部电影大片，取决于剧本和特效两个重要元素。其中，剧本对应着AI视频生成过程中的“逻辑”，特效则对应着“效果”。为了实现“逻辑”和“效果”，背后分化出了两条技术路径扩散模型和大模型，而OpenAI如此迅速地就解决了这个难题。

“模拟”之所以能够如此炸裂，根本的原因在于，用大模型创造出不存在的事物人们已经习以为常，但是能够准确地理解物理世界运转逻辑，例如力是如何相互作用的，摩擦是如何产生的，篮球是如何打出抛物线的等等，这些都是以前任何模型都无法完成的事情，也是Sora超越视频生成层面的根本意义所在。

——-颠覆视频，但远不止视频

Sora成为世界模拟器或许是很久以后的事情，但是就生成视频而言，已经对现在的世界产生了影响。

第一类就是解决之前技术上面无法突破的问题，推动一些行业迈向新的阶段。

最典型的就是影视制作行业，Sora这回最具革命性的能力就是最长生成视频长度达到了1分钟。作为参考，大热门Pika所能生成的长度在3秒、Runway的Gen-2生成长度在18秒，这意味着有了Sora以后，AI视频将能成为真正的生产力，实现降本增效。

陈坤告诉光锥智能，在Sora诞生前，其利用AI视频工具制作科幻电影的成本已经下降至了一半，Sora落地后，更加值得期待。

Sora发布后，令他印象最深刻的是一个海豚骑车的demo。在那个视频中，上半身是海豚，下半身是人的两条腿，腿上还穿了鞋子，在一种极具诡异性的画风中，海豚完成了作为人骑自行车的动作。

“这对我们来说简直太神奇了！这个画面创造出了一种又有想象空间，又符合物理定律的荒诞感，既是情理之中又出乎意料，这才是观众能发出惊叹的影视作品”，陈坤道。

陈坤认为Sora会像当年的智能手机、抖音一样，把所有内容创作者门槛降低一大步，把内容创作者呈数量级放大。

第二类是基于模拟世界的能力，在更多领域中创造出新的事物。

爱丁堡大学的博士生Yao Fu表示：“生成式模型学习生成数据的算法，而不是记住数据本身。就像语言模型编码生成语言的算法（在你的大脑中）一样，视频模型编码生成视频流的物理引擎。语言模型可以视为近似人脑，而视频模型近似物理世界。”

学会了物理世界中的普遍规律，让具身智能也更加接近人的智能。例如在机器人领域，以前的传导流程为，先给到机器人大脑一个握手的指令，再传递到手这个部位，但是由于机器人无法真正理解“握手”的含义，所以只能把指令转化为“手的直径缩小为多少厘米”。若世界模拟器成为现实后，机器人就可以直接跳过指令转化的过程，一步到位理解人的指令需求。

虽然Sora还有许多局限性，但在虚拟和现实世界之间已经建立了一个链接，这让无论是头号玩家式的虚拟世界，还是机器人更像人类，都充满了更大的可能性。

从OpenAI发布文生视频大模型Sora回看生成式人工智能行业发展情况：

——AI大模型是一种新的智能计算范式

超大规模智能模型，简称大模型，是近年兴起的一种新的人工智能计算范式。和传统AI模型相比，大模型的训练使用了更多的数据，具有更好的泛化性，可以应用到更广泛的下游任务中。按照应用场景划分，AI大模型主要包括语言大模型、视觉大模型和多模态大模型等。业界典型的自然语言大模型有GPT-3、源、悟道和文心等。视觉大模型也已广泛应用于自动驾驶、智能安防、医学影像等领域。基于多模态大模型的以文生图技术也迅速发展，AI内容生成(AI Generated Content，AIGC)已成为下一个AI发展的重点领域。

——AIGC行业热度高，受资本追捧

截止2023年4月，AIGC赛道目前在国外已出现了7家独角兽。在我国，超参数和小冰公司已明确成为独角兽公司，Minimax据传估值过10亿美元，光年之外则宣布下一轮融资已被认购2.3亿美元。目前，最受头部资本关注的机构均与底层大模型相关或与AI领军人物下场相关(如王慧文光年之外、李志飞、周伯文、王小川等)。

多家机构已高度明确要将AIGC作为主投赛道，个别投资机构已经推出了相应的主体孵化项目。整体而言，大部队还处在缺乏明确逻辑和标的的观望状态。但预计本年度融资规模将有数倍增长。随着底层大模型的逐步开放以及商业价值的落地验证，预计融资规模将在2024年出现首次阶段性的指数级增长，投资向AIGC全产业链扩散。

——中国AI应用在金融、电信制造、医疗行业加速渗透

目前，随着数字经济与实体经济融合程度不断加深，以及互联网平台的数字化场景向元宇宙转型，人类对数字内容总量和丰富程度的整体需求不断提高。AIGC作为当前新型的内容生产方式，已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展，市场潜力逐渐显现。与此同时，在推动数实结合、加快产业升级的进程中，金融、医疗、制造、工业等各行各业的AIGC应用也都在快速发展。

据IDC，2022年中国人工智能行业应用渗透度排名前五的行业依次为互联网、金融、政府、电信和制造。另外，AI为自动驾驶、交通物流所赋予的价值也不容忽视，据麦肯锡预计，AI为交通领域创造3800亿元的经济价值。

文章来源：前瞻网/光锥智能，图片来源：网络。
本文已标注来源和出处，版权归原作者所有，如有侵权，烦请联系我们删除！
一文详解Sora！人工智能的又一个里程碑

上一篇：工信部等十二部门联合印发《工业互联网标识解析体系“贯通”行动计划（2024—2026年）》
下一篇：中央财经委员会：多措并举助力有效降低全社会物流成本

一文详解Sora！人工智能的又一个里程碑

——-Sora如何成为“世界模拟器”？

——-颠覆视频，但远不止视频

（第9期）“2024年产业数

全国走访交流第6期（合

中物联刘阳副秘书长一行

朱啸虎：中国现实主义

国务院国资委：助力推进

优秀案例-浩德智链：智