美科技公司“放大招”可根据文字生成视频

青岛财经日报/首页新闻讯近日，美国开放人工智能研究中心（OpenAI）发布首个文生视频模型“Sora”。

根据OpenAI的官方简介，Sora可以制作长达60秒的视频，视频包括了高度清晰的场景、复杂的镜头动作，并可支持多个角色的创作。OpenAI在社交平台上发布了48个从9秒到60秒长度不等的视频样片，效果大幅超越了此前备受追捧的Runway和Pika等AI视频创业公司，引发广泛关注。

业内分析人士表示，Sora无疑是人工智能领域的一次重大突破，该技术不仅展示了AI在理解和创造复杂视觉内容方面的先进能力，而且对内容创作、娱乐和影视制作行业带来了前所未有的挑战和机遇。

根据OpenAI方面的说法，这一平台除了可以根据文字描述生成视频外，还可以根据现有的图片生成视频，目前可生成的视频长度在1分钟左右；而且，视频可具有多个角色、特定类型的运动、精确主题和背景细节等复杂场景。

该公司称，开发这一模型旨在教会人工智能理解和模拟运动中的物理世界，并训练其帮助人们解决需要现实世界互动的问题。

Sora目前仍在测试中，仅向有限数量的创作者提供访问权限。值得一提的是，这一模型现阶段仍存在明显不足，例如“左右混淆”或“无法在整个视频长度中保持视觉的连续性”。

另外，在针对Sora的介绍中，OpenAI指出，当前的模式可能难以准确地模拟复杂场景的物理表现，也可能无法理解因果关系的具体实例，并举例称，视频很可能会出现一个人咬了一口饼干后，饼干上没有咬痕。

接下来，Sora还将接受对抗测试（红队测试）。据介绍，红队测试是网络安全测试中的一项重要测试环节，它指的是由专家团队模拟真实世界的对手，以测试和增强系统的安全性。

OpenAI表示，计划与专家团队合作测试最新模型，并密切关注包括错误信息、仇恨内容和偏见在内的各个领域。

能否带来颠覆性影响

国泰君安证券发布研报称，Sora模型推动AI多模态领域飞跃式发展，AI创作等相关领域将迎来深度变革，AI赋能范围进一步扩大，多模态相关的训练及推理应用也将进一步提升对算力基础设施的相关需求。

清华大学新闻学院教授、博士生导师沈阳表示，Sora模型具备高级影视特效的制作能力，拥有改变影视制作游戏规则的力量。解决了人物一致性问题之后，AI生成视频将大踏步前进，AI视频进入大爆发期。

多模态大模型将成重点发展方向

随着文生图、图片对话技术的成熟，文生视频已成为多模态大模型下一步发展的重点。展望2024年，机构人士认为，大模型领域的竞争将进一步白热化，多模态大模型将成为生成式AI的重点发展方向，并有望推动本轮AI行情进一步扩散。

在国盛证券看来，AI文生视频是多模态应用的下一站。文生视频即根据给定的文字提示直接生成视频。随着文生视频技术的日趋成熟和广泛应用，或将为当下热门的短剧市场带来变数。该技术有望极大降低短剧制作的综合成本，为解决“重制作而轻创作”的共性问题提供解决方案，短剧制作的重心有望回归高质量剧本创作。

中信证券表示，多模态大模型算法的突破将带来自动驾驶、机器人等技术的革命性进步，持续看好本轮生成式AI浪潮对科技产业的长周期影响和改变，继续关注算力、算法、数据、应用等环节的领先厂商。

东吴证券判断，多模态是AI商业宏图的起点，有望真正为企业降本增效，且企业可将节省下来的成本用于提高产品、服务质量或者技术创新，推动生产力进一步提升；同时，也可能出现新的、空间更大的用户生成内容平台。