2024-12-17 22:33 点击次数:128
机器之心报说念白虎 色情
机器之心剪辑部
视频生成起原 OpenAI 了?今天是个好日子,至少谷歌这样思。几个小时前,该公司一键三连,一语气发布了两款视觉生成模子和一个用具:
Veo 2:视频生成模子,可使用文本或图像 prompt 生成高的确感、高质地的视频; Imagen 3:文生图模子,可更古道地投诚领导词,达成愈加丰富的细节和纹理渲染; Whisk:图生图用具,基于 Imagen 3 与 Gemini 的视觉瓦解和描画智商打造,能让用户愈加通俗地调整图像的场景、立场和物体。其中,Veo 2 可说是径直引爆了扫数叮咛网罗。从早期用户发布的生成驱散以及反映来看,Veo 2 的生成质地彰着越过了现时最好的 Sora 等模子。一问世就是当世第一,似乎竣工不错嚣张地喊一声:「还有谁?」
伸开剩余86%谷歌 CEO Sundar Pichai 先容 Veo 2 的推文
据先容,Veo 2 不错创建 2 分钟以上长度的 4k 分离率视频,也能瓦解领导词中的相机浪漫指示(比如广角镜头、POV 和无东说念主机镜头),还能重建出适当的确宇宙的物理交互和东说念主脸心思。
但也必须指出,目前这仅仅一个表面上的上风。在谷歌的实验性视频制作用具 VideoFX 中,Veo 2 目前只提供分离率上限为 720p、长度为 8 秒的视频生成做事。(而目前的 Sora 不错制作高达 1080p、20 秒长的视频。)
尽管如斯,Veo 2 现存的发达依然实足惊艳了其发达是如斯之好,甚至于一心推介自家 Grok 的马斯克也跑来惊奇了一句。
为了佐证 Veo 2 如实优秀,谷歌还作念了一个基于东说念主类评估者的对比评估,轻佻来说就是让东说念主类评估者看不同模子基于归拢领导词生成的视频,然后判断我方更可爱哪一个视频。他们对比了 Meta Movie Gen、可灵 1.5、Minimax 和 Sora Turbo。参与者不雅看了 1003 条领导词及相应视频。
在举座偏好上,Veo 2 的上风十分彰着,被另一个对比模子胜过的概率不越过 33%。
而在指示投诚度上,Veo 2 的发达依旧强势。
令东说念主偶而的反倒是 Sora Turbo,其举座偏好和指示投诚发达是这几个模子内部最差的。Sora 要思「转圜顺眼」,可能还得看以后的满血版了。
Veo 2 发达惊艳
话未几说,望望 Veo 2 的发达,咱们概况就能瓦解为什么它在寰球评审中能够压倒性地战胜之前的明星视频生成模子。
起原是对物理宇宙的瓦解力大大提高。要是不说是 AI 生成的,水下的波纹、光影,狗狗潜水时的动作互助性,王人让东说念主嗅觉如斯的确,仿佛目下的一切王人是手捏相机拍出来的,险些分不出来。
天然姿色盘上的字不是完好,但咱们不错看到,地点盘向左转的时分,举座画面也有一个左移,之后镜头进取从车窗摇到街说念。
作念到这种和主画面保捏强一致性的摇镜头,其实十分难,每个细节王人需要精确浪漫,确保镜头移动时画面中的物体位置和畅通互助一致。
惟有耕作对的确宇宙物理畅通规则的瓦解,智力作念到这点,而 Veo 2 在这方面发达得尤为出色。
除此除外,Veo 2 的另一个亮点就是它生成的东说念主类心思愈加的确。
拿相似的 prompt 去测试其他模子,思达成这种天然又清雅的痴迷微心思,不失真、不鬼畜,试过才知说念有多难。
还有,这画面险些就像从记录片里截取的一幕。镜头里,一个养蜂的男东说念主在蜂群中痛楚,Veo 2 在生成这一场景时,真实是冲突了不少难关。
蜜蜂群体飞翔不仅要发达出天然的互助感,还得和布景、光影无缝对接,幸免出现卡顿或不天然的分散。但 Veo 2 把这些复杂的细节王人处理得恰到平正,蜂群翱游的每一刻王人像是活生生的,「AI 味」依然很淡了。
DeepMind 暗示,天然视频模子时常出现「幻觉」,展示无用要的细节(举例过剩的手指或独特的物体),但 Veo 2 产生这些细节的频率较低,模子的输出愈加传神。
范冰冰 女同天然,手脚一款 SOTA 视频生成模子,光能生成拟真视频可不够。从官方以及网友共享的生成驱散看,Veo 2 在生成幻思和动画内容方面的发达也相似十分出色。
领导词:A meeting of a lion, a bear and a giraffe, all of them wearing suits. Photorealistic, cinematic. 来自 X @hhm
领导词:a sitcom tv show about potatoes,来自谷歌参议科学家 @babaeizadeh
Veo 2 还让创作家不错节略达成畴昔需要复杂后期智力完成的视觉恶果。比如,它不错让这个畅通的立方体褂讪地切换材质,这个画面让东说念主来作念,看起来就很难,换 AI 来作念,其实小数也没变轻佻。
Veo 2 不仅要措置及时跟踪的问题,确保在物体快速移动时也能精确捕捉位置和格式,仅需 Prompt 就能置换材质。最历害的是,它能保证在屡次连气儿变换流程中画面恒久畅通天然,不会出现抖动或错位。
Veo 2 的功能依然被加入到 Google Labs 视频生成用具 VideoFX 中,并扩大了可拜访的用户数目。谷歌暗示,筹谋来岁将 Veo 2 扩张到 YouTube Shorts 和其他居品上。
领导词:A broccoli wearing a leather jacket and carrot wearing a tank top having a steak dinner,来自谷歌参议科学家 @RubenEVillegas
不外 Veo 2 当今还未平定怒放,需要填表列队,恭候平定上线。
列队连气儿:https://labs.google/fx/tools/video-fxOpenAI 连开直播 12 天,天然赚足了流量,但从开播于今干货越来越少,可谓噱头大于推行。
而之前谷歌一直被 OpenAI 狙击,此次终于迎头反击。
雪上加霜的是,OpenAI Sora 的表情负责东说念主 Tim Brooks 也在两个月前遴荐了跳槽至 DeepMind。
按照目前两边时间迭代的速率和质地来看,概况就像网友们所展望的:「谷歌来岁就会把 OpenAI 甩得连尾气王人吃不上了」。
参考内容:
https://blog.google/technology/google-labs/video-image-generation-update-december-2024/白虎 色情
发布于:北京市