在刚刚过去的春节,科技界再次见证了一场颠覆性技术革命的诞生,2月16日凌晨OpenAI悄无声息向业界扔出一枚“王炸”——正式发布了首款文生视频模型"Sora",继文本、图像之后,OpenAI在视频领域放出大招,AI文生视频技术迈入了一个全新的发展阶段。
首款文生视频模型Sora
OpenAI官方表示:“Sora是能够理解和模拟现实世界的模型的基础,相信这一功能将成为实现AGI的重要里程碑。”
AI 文生视频技术
根据OpenAI官方发布的技术报告以及对外展示的48个视频,Sora是基于Transformer架构的文本条件扩散模型,能够根据文本提示生成长达一分钟的视频,甚至能够扩展现有视频。
OpenAI官方发布的技术报告
Sora的技术报告还强调了其在理解复杂场景、物理属性和场景关系方面的能力,以及在图像和视频编辑任务上的灵活性。
Sora生成的视频不仅在视觉上具有高清画质,而且在光影处理、物理效果(如遮挡和碰撞)、运动连续性等方面表现出接近真实世界的水平,相较于以往模型在生成视频时可能出现的人物形象不一致等问题,Sora还能准确呈现角色和视觉风格的一致性,使得视频场景更加自然连贯。
这些特性使得Sora在制作短视频、动画、电影画面和视频游戏渲染方面展现出巨大的潜力。
Sora的特性
Sora一经发布,迅速在全球范围内掀起惊涛巨浪,马斯克在X平台回复网友“gg humans”,AI文生视频创企Runway联合创始人兼CEO Cristóbal Valenzuela感叹以前需要花费一年的进展,变成了几个月就能实现,又变成了几天、几小时。
Sora被认为在人工智能领域取得了重大突破,它的出现被视为通用人工智能(AGI)实现的重要里程碑,360董事长周鸿祎认为Sora意味着AGI实现将从10年缩短到1年,并且可能给广告业、电影预告片、短视频行业带来巨大的颠覆。
《MIT科技评论》主编指出:“Sora的出现,无疑是人工智能发展历程中的一个里程碑,它的诞生意味着我们正逐步接近一个‘文字即视频’的新时代。”
中国科学院空天信息研究院的谭剑副研究员表示:“Sora的出现,开启了创作力和想象力的时代。”他进一步指出,Sora在理解地球物理世界的规律方面取得了巨大进展,这不仅仅是技术上的突破,更是对传统计算机图形学领域的一次颠覆。
不过也有人对其带来的内容真实性问题和伦理考量表示担忧,指出“确保内容的真实透明成为了一个重要议题”;图灵巨头LeCun认为,仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界。生成视频的过程与基于世界模型的因果预测完全不同。
Sora的发布让文生视频技术进入新的发展阶段,会逐步打破传统的内容创作模式,给广告、游戏、影视等行业带来前所未有的挑战和机遇。
随着技术的迭代,企业能高效低成本地进行产品演示、内容制作、广告创意设计等多元化的数字内容生产,这将进一步加速企业向智能化内容创作与传播的转型步伐,并可能重塑未来多媒体信息生态。
源自:数字开物 2024-02-19 09:45
版权声明:图文仅供公益学习交流用,版权归原著所有