马斯克评OpenAI首个视频生成模型:人类认赌服输

2024-02-16 18:59:03

Sora生成视频展示 澎湃新闻编辑 秦盛(03:23)

  人工智能(AI)巨头OpenAI在龙年伊始就扔出了杀手锏。

  当地时间2月15日,OpenAI宣布,正在研发“文生视频”模型Sora,可以创建长达60秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色,也可以根据静态图像制作动画。

  根据OpenAI官网,Sora能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。Sora不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。
https://baigouhe.cn 白沟招聘平台 https://www.baigouhe.cn/ 白沟河网箱包加工信息 http://www.tuwenyinshua.cn
  尽管OpenAI也展示了多个目前Sora的缺陷,但是已公布且未经修改的“原生AI视频”足以震撼全场。

OpenAI 视频截图
  外媒援引人智能专家和分析师的话称,Sora视频的长度和质量超出了迄今为止所见的水平,部分视频已经难辨真假。2022年11月推出的ChatGPT引领了全球大模型的蓬勃发展,并开始在特定行业展现生产力,今年推出的Sora是否能承接ChatGPT的衣钵?

  暴走游戏CEO张均在接受澎湃新闻记者采访时表示,虽然舆论对这款产品很沸腾,但相关从业者依然要用开放心态学习,同时冷静观望,“从技术来看,之前Runway、Pika、Google和Meta都推出过文生视频工具,Sora的优势主要是三方面,首先是可以生成长达60秒钟的超长视频,包括多个角色、特定类型动作和主题背景;第二,可以在单个生成的视频中创建多个镜头,模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格。第三,能够理解物体在现实世界中的物理规律和存在方式,不会做出画面精美但到处穿帮的内容。”

  张均表示,Open AI在此前推出的ChatGPT主要还是应用于没有艺术性和不确定的场景,现在很多公司在使用ChatGPT做文本优化,非常节省时间,“用A工具把视频链接直接变成文本,再用GPT秒改,再排查相关词组后,只需要几分钟完成。”

  澜码科技CEO周健则告诉澎湃新闻记者,和其他视频模型相比,最大的区别是Sora是用所谓的文本编码去生成物理世界的模型,大家觉得惊艳也是认为它生成的内容看上去和真的一样。Open AI认为,通过压缩可以对这个世界进行建模,然后能对这个世界进行预测,这是Open AI一直以来的信仰。如果是3、4秒的视频可能能躲避一些bug,60秒的时长对视频里的世界一致性要求更高,否则大家一下子就能看出区别。

  如果说ChatGPT重塑了文本相关行业,那视频模型Sora是否会改写视频行业,甚至是电影产业?

  周健表示,生产力会大大提升,就如之前的文生图,对游戏、广告行业起到的作用是不再靠初级的绘图师通过画来表达创意。但Sora对复杂的交互还是有问题,比如,敲碎一个杯子它就做不到,因为杯子可能通过一定的物理规律进行拆碎,很多碎片弹出来,每一片碎片其实都得遵循物理规律。

  韬蕴资本合伙人常惠芳告诉澎湃新闻记者,Sora对小屏短视频制作可能产生一定影响,小屏图像视频需要处理的数据量不大,网速和普通电脑硬件配置能达到要求的情况下,如果AI有成本优势,某些场景可以替代人工拍摄。在大银幕方面,受制于算力等基础设施的限制,还做不到替代。从投资角度来看,外界会对AI视频类的产品更为关注,例如此前推出的Runway、Pika、Google和Meta等产品。

  张均认为,从行业影响来看,对基础性的画师人才需求会有很大影响,但涉及到艺术和创意类,实际上AI的作用还是非常有限的,Sora可能只能应用于非常有限的重复性制作场景。

  周健也持有类似观点,“不管是《热辣滚烫》还是《流浪地球》,电影里有价值观,有一致性,你现在把剧本拆成1000段prompt,对生成视频‘不一致’的地方,你再靠人去修整,这是很难的事情。但是我也相信,虚拟和现实肯定会融合在一起,肯定会有很多创意出现。”周健认为,对游戏行业会有一些影响,原本的游戏视频要花很大的力气,现在用这个工具变得简单。

  电影导演和视觉特效专家Michael Gracey在接受外媒采访时表示,以后或许不再需要一个由100名-200名艺术家组成的团队来用3年时间完成动画长片,像Sora这样的人工智能工具将使电影制作者能够仔细控制他们的输出,从头开始制作各种视频。

  不过,也有影视后期从业者告诉澎湃新闻记者,AI生成视频技术要真正应用到影视行业制作,要求还是很高,例如要做到能对细节之处随时调整,并且生成的视频具有一定稳定性,不能有变化,目前Sora都不能做到。但该人士也指出,从成本来看,目前专业3D的后期处理,3分钟的视频总价格约为30万元,初步估算一分钟价格约10万元,其中主要是人力成本,需要3人团队投入一个月时间才能制作完成。如果未来Sora真的能投入影视行业商业应用的话,确实有广泛的空间,但现在还有一定差距。

  就如此前ChatGPT问世时,曾有担心是否会取代部分人类工作,尤其是非创意类的岗位。

  一名不愿具名的互联网传媒首席分析师告诉澎湃新闻记者,OpenAI此次推出的Sora是OpenAI多模态能力在应用层面的又一个新高度,也是AI领域新的里程碑。从功能来看,能够用文字生成长达60秒的视频,意味着Sora可以极大程度地降低创意视频的制作门槛,解放生产力,实现“1分钟视频自由”。但同时,也会更加凸显创意和IP的价值,因为AI智能做到辅助生成,但具体的创意还是需要人类来设计和策划,“随着AI时代到来,工具会变得很普及,如果大家都使用工具,那么如何体现自己的竞争力?最后还是会回到创意能力上。”

  还有行业人士认为,国内文本模型的进步速度已经很快,但算力会把差距放大。当然,国内企业的强项是数据,和国外科技企业相比,国内在应用端有优势。

  中国社会科学院法学研究所副研究员唐林垚告诉澎湃新闻记者,从公布的视频来看,相较于其他视频类生成式AI,Sora在画面清晰度、内容流畅度、表意深度和精彩程度方面均有大幅提升:“如果Sora的能力真如官方公布一样强大,且之后可以像ChatGPT一样便捷访问,那么Sora将给广告行业、影视行业和特效行业带来极大的冲击。”

上一篇:

下一篇:

Copyright© 2015-2020 义县信息社版权所有