openai视频生成模型sora爆火 OpenAI王炸模型官方技术报告解读
openai视频生成模型sora最近彻底爆火了,对于这次的爆火事件很多人还不是很了解,想要知道OpenAI王炸模型究竟是什么样的,那么大家可以看看下面游戏鸟小编带来的官方技术报告解读,会给大家具体的介绍这次科技大爆炸的详情。
OpenAI王炸模型官方技术报告解读
OpenAI 2月16日凌晨发布了文生视频大模型Sora,在科技圈引起一连串的震惊和感叹,在2023年,我们见证了文生文、文生图的进展速度,视频可以说是人类被AI攻占最慢的一块“处女地”。而在2024年开年,OpenAI就发布了王炸文生视频大模型Sora,它能够仅仅根据提示词,生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。
为了方便理解,我们简单总结了这个模型的强大之处:
1、文本到视频生成能力:Sora能够根据用户提供的文本描述生成长达60S的视频,这些视频不仅保持了视觉品质,而且完整准确还原了用户的提示语。
2、复杂场景和角色生成能力:Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜,使得生成的视频具有高度的逼真性和叙事效果。
3、语言理解能力:Sora拥有深入的语言理解能力,能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令,并在生成的视频内容中忠实地反映这些指令。
4、多镜头生成能力:Sora可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。
5、从静态图像生成视频能力:Sora不仅能够从文本生成视频,还能够从现有的静态图像开始,准确地动画化图像内容,或者扩展现有视频,填补视频中的缺失帧。
6、物理世界模拟能力:Sora展示了人工智能在理解真实世界场景并与之互动的能力,这是朝着实现通用人工智能(AGI)的重要一步。它能够模拟真实物理世界的运动,如物体的移动和相互作用。
可以说,Sora的出现,预示着一个全新的视觉叙事时代的到来,它能够将人们的想象力转化为生动的动态画面,将文字的魔力转化为视觉的盛宴。在这个由数据和算法编织的未来,Sora正以其独特的方式,重新定义着我们与数字世界的互动。
01
以下为OpenAI文生视频模型Sora官方技术报告
我们探索了利用视频数据对生成模型进行大规模训练。具体来说,我们在不同持续时间、分辨率和纵横比的视频和图像上联合训练了以文本为输入条件的扩散模型。我们引入了一种transformer架构,该架构对视频的时空序列包和图像潜在编码进行操作。我们最顶尖的模型Sora已经能够生成最长一分钟的高保真视频,这标志着我们在视频生成领域取得了重大突破。我们的研究结果表明,通过扩大视频生成模型的规模,我们有望构建出能够模拟物理世界的通用模拟器,这无疑是一条极具前景的发展道路。
这份技术报告主要聚焦于两大方面:首先,我们详细介绍了一种将各类可视数据转化为统一表示的方法,从而实现了对生成式模型的大规模训练;其次,我们对Sora的能力及其局限性进行了深入的定性评估。需要注意的是,本报告并未涉及模型的具体技术细节。
在过去的研究中,许多团队已经尝试使用递归网络、生成对抗网络、自回归Transformer和扩散模型等各种方法,对视频数据的生成式建模进行了深入研究。然而,这些工作通常仅限于较窄类别的视觉数据、较短的视频或固定大小的视频上。相比之下,Sora作为一款通用的视觉数据模型,其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像,甚至包括生成长达一分钟的高清视频。
将可视数据转换成数据包(patchs)
在可视数据的处理上,我们借鉴了大语言模型的成功经验。这些模型通过对互联网规模的数据进行训练,获得了强大的通用能力。同样,我们考虑如何将这种优势引入到可视数据的生成式模型中。大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来,而Sora则通过视觉包(patchs)实现了类似的效果。我们发现,对于不同类型的视频和图像,包是一种高度可扩展且有效的表示方式,对于训练生成模型具有重要意义。
图注:OpenAI专门设计的解码器模型,它可以将生成的潜在表示重新映射回像素空间
在更高层次上,我们首先将视频压缩到一个低维度的潜在空间:这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合,从而将原始视频转化为这些包。
视频压缩网络
我们专门训练了一个网络,专门负责降低视觉数据的维度。这个网络接收原始视频作为输入,并输出经过压缩的潜在表示。Sora模型就是在这个压缩后的潜在空间中接受训练,并最终生成视频。此外,我们还设计了一个解码器模型,它可以将生成的潜在表示重新映射回像素空间,从而生成可视的视频或图像。
时空包
当给定一个压缩后的输入视频时,我们会从中提取出一系列的时空包,这些包被用作转换token。这一方案不仅适用于视频,因为视频本质上就是由连续帧构成的,所以图像也可以看作是单帧的视频。通过这种基于包的表示方式,Sora能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段,我们只需在适当大小的网格中安排随机初始化的包,就可以控制生成视频的大小和分辨率。
用于视频生成的缩放Transformers
Sora是一个扩散模型,它接受输入的噪声包(以及如文本提示等条件性输入信息),然后被训练去预测原始的“干净”包。重要的是,Sora是一个基于扩散的转换器模型,这种模型已经在多个领域展现了显著的扩展性,包括语言建模、计算机视觉以及图像生成等领域。
图注:随着训练量的增加,扩散转换器生成的样本质量有了明显提高
在这项工作中,我们发现扩散转换器在视频生成领域同样具有巨大的潜力。我们展示了不同训练阶段下,使用相同种子和输入的视频样本对比,结果证明了随着训练量的增加,样本质量有着明显的提高。
丰富的持续时间、分辨率与纵横比
过去,图像和视频生成方法常常需要将视频调整大小、裁剪或修剪至标准尺寸,如4秒、256x256分辨率的视频。但Sora打破了这一常规,它直接在原始大小的数据上进行训练,从而带来了诸多优势。
采样更灵活
Sora具备出色的采样能力,无论是宽屏1920x1080p视频、垂直1080x1920视频,还是介于两者之间的任何视频尺寸,它都能轻松应对。这意味着Sora可以为各种设备生成与其原始纵横比完美匹配的内容。更令人惊叹的是,即使在生成全分辨率内容之前,Sora也能以较小的尺寸迅速创建内容原型。而所有这一切,都得益于使用相同的模型。
以上就是openai视频生成模型sora爆火 OpenAI王炸模型官方技术报告解读全部内容,希望对你有帮助。想查找更多游戏资讯,欢迎持续关注游戏鸟查看。
-
- 魔兽世界冰dk天赋加点推荐
- 阿姆罗2025-04-07 17:11:51
-
- NS2发布会汇总:港版售价3450港币,马车新作首发护航,支持4K120FPS输出!
- 卡缪2025-04-03 10:14:35
-
- 可能涨价?CDPR称《GTA6》涨价对他们来说是有利的。
- 卡缪2025-03-28 17:31:44
-
- 期待不?巴西博主曝Faker的S14冠军皮肤选择为永恩!
- 卡缪2025-03-21 17:04:15
-
- 骂归骂买归买?育碧官宣《刺客信条:影》首日玩家数突破100万人!
- 卡缪2025-03-21 16:52:32
-
- 《云族裔(inZOI)》售价188元!3月20日开启部分系统免费体验!
- 卡缪2025-03-19 17:24:10
-
- 大火!《双影奇境》官宣发售仅一周,销量已突破200万份!
- 卡缪2025-03-14 17:22:08
-
- 《天国:拯救2》新更新超过60G!一共修复超1000项BUG!
- 卡缪2025-03-14 17:14:52
-
- 逆水寒手游元宵节时装怎么获得 2024元宵节时装获取方法
- 亡灵指挥官2024-03-25 15:31:16
-
- 逆水寒手游镜天阁闲游特质怎么获得 镜天阁闲游特质获取攻略
- 破碎之王2024-04-13 20:58:42
-
宾果消消消
宾果消消消是一款轻松有趣的休闲益智游戏,具有创新玩法、精美画面和丰厚内容。不只具有战略深度和用户体会优势,还有引人入胜的关卡规划和多样化的游戏形式。不管你是想要放松休闲,仍是挑战自我,这款游戏都能满意你的需求,快来加入咱们的游戏世界,和老友一同享受消除趣味吧! -
黑暗之心
黑暗之心是一款3D动作RPG欧美暗黑风格手游,由Unity3D引擎打造,追求高端的画质和爽快的打击感,精致细腻、各具特色的人物,气氛浓郁的丰富场景,将给你带来震撼的视效盛宴。 -
全明星街球派对
全明星街球派对是一款3D篮球竞技类型的手游,玩家可以在游戏里尽情享受篮球竞技的乐趣,拥有出色的表现。游戏内设计了超多明星球员,每个明星球员都有自己独特的技能,玩家可以组建一场明星球员的比赛,感兴趣的话快来本站下载吧! -
奇屋寻踪
奇屋寻踪是一款集找物解谜、剧情探索与房屋装饰于一体的高品质卡通风格手游。在幽林城堡中展开神秘旅程,玩家需要依靠敏锐观察力寻找隐藏线索,推动剧情发展。同时,还可以利用获得的奖励解锁家具、翻新古宅,打造梦想之家。游戏关卡精美细腻,细节丰富,烧脑之余更具治愈感。最新版本中加入了全新搜索模式与奖励赛季,让每次挑战都焕发新鲜乐趣,快来加入卡尔的冒险,开启你的神秘解谜之旅! -
蜀汉传卧龙篇
蜀汉传卧龙篇正式版是一款三国题材的单机SLG战棋RPG手游。游戏以古风画面和中国传统乐器配乐,如二胡、古筝、琵琶等,营造出悲壮氛围,展现中国古典美感,让玩家深入体验三国时代的策略与魅力。 -
美少女战姬
美少女战姬是一款二次元风格的回合制冒险游戏。精美的立绘中,拥有几百种美少女战姬,她们具备风格迥异的特色,呈现出美好的姿态。游戏中收集各种画风形象的助手,在剧情的帮助下了解每个美少女的背景,在萌宠的帮助发挥出每个角色战姬的特色。 -
对战精灵
对战精灵是一款以瑟瑞亚大陆为背景的策略竞技手游,融合自走棋、卡牌组合与“幻境吃鸡”等创新玩法,为玩家带来前所未有的战斗体验。在这片被黑暗力量侵袭的幻想世界中,玩家将招募多职业英雄,打造个性阵容,通过羁绊与符文组合创造无限战斗流派。4人实时竞技对战、英雄升级与人口策略决策,构成游戏独特的策略深度。无论你是追求竞技荣耀还是热衷养成收集,这款游戏都能带来充实的游戏乐趣。 -
植物大战僵尸GhTr版
植物大战僵尸GhTr是一款由B站UP主Ghastasaucey制作的高质量同人塔防游戏,保留原作经典玩法的同时,引入了全新的植物杂交系统,玩家可自由合成独特植物阵容应对僵尸进攻。游戏采用全新UI设计、CG动画演出及原创音乐,为玩家带来焕然一新的塔防体验。更有五大玩法模式、个性关卡编辑器、挑战Boss的剧情与英杰之卷系统等内容,满足休闲与策略双重乐趣,是PVZ爱好者不容错过的诚意之作。 -
福运小青蛙
福运小青蛙是一款融合合成、养成、挂机、放置等元素的休闲益智类小游戏,玩家将在一方清新可爱的池塘中,通过购买、合成各种不同形态的小青蛙,解锁更高级别的“福运蛙蛙”。游戏采用卡通画风,每只青蛙都拥有独特外观与进化形态,合成达到指定次数后还能获得红包奖励。支持自动挂机功能,轻松解放双手,离线也能赚取收益,是一款既能养蛙又能放松身心的趣味手游。 -
狩猎冲突
狩猎冲突是一款沉浸感极强的3D真实狩猎模拟手游,带你踏遍全球猎场,在非洲纳米比亚、俄罗斯勘察加森林、美国蒙大拿等多种环境中自由追踪猎物。玩家将扮演一位专业猎人,使用狙击枪、弓箭等多种武器狩猎鹿、熊、狼、鸭子等野生动物,不仅可以参与单人任务挑战,更能加入玩家在线对抗,参与猎人竞赛、俱乐部挑战,体验真正的野性生存冒险。游戏画质堪比AAA大作,支持简体中文设置,是射击与狩猎爱好者不容错过的佳作!