AG真人国际厅 字节开源搭伙框架Bernini: AI视频裁剪先齐集再首先

梦瑶 发自 凹非寺
全球皆懂,视频生成这件事,最让创作家头疼的,不一定是画面不够清晰。
而是模子时常听不懂东谈主话!!!(扎心.jpg)
想把好天改成雪天,它可能只会往画面上撒雪花;想把一段动画植入市集LED大屏,它可能边界乱飘、透视不稳。
于是乎,问题来了:AI视频生成,能不成先齐集创作家到底想改什么,再首先生成?
就在刚刚,字节生意化技巧团队反手给出一个行业新解法——
开源面向视频生成与视频裁剪的搭伙框架:Bernini。
主打一个先齐集再生成~

Bernini的想路很径直,让多模态大模子先认真语义齐集与蓄意,再交给diffusion模子完成高质料视觉渲染。
在才调上,Bernini笼罩了参考生成、视频裁剪等多种任务,重点体现的即是两个字:「可控」。
比如改变举座视觉作风时,不仅仅把单帧画得雅瞻念,还能稳住前后帧的一致性,主打一个成果超等稳:

这下好了,AI视频生成也能从听prompt干活,往先齐集、再首先再进一步了~
对了,当今,Bernini的推理代码和权重也曾怒放!!(快乐.jpg)
一条指示改视频,Bernini轻松拿抓「可控裁剪」!
若是说往日许多视频生成模子更像按辅导词出片,那Bernini想处治的,是另一个更实质的问题——
生成之后,怎么不息改?
咱们精深碰到的大无数更正需求听起来皆很easy,但对视频模子来说并不节略!!!
因为视频裁剪不是改一张图,而是在一段连气儿画面里,既要听懂指示,又要保住主体、结构、镜头和通顺相关。
略微处理不好,就会出现主体变形、布景漂移、动作断裂、帧间闪耀等问题。
而Bernini的中枢想路,恰是把这个过程拆得更清晰。

△AI生成
咱们不错把Bernini齐集成一个AI视频片场里的「导演+后期团队」。
前边认真导演的,是一个叫MLLM-based planner的多模态大模子蓄意器。
它会先看懂你的文本指示,也会统统齐集源视频、参考图片、参考视频这些素材,判断目标画面应该形成什么样。
等这一步想清晰后,再交给diffusion模子DiT-based renderer来完成视觉渲染,把前边蓄意好的语义目标,委果形成连气儿、通晓、高质料的视频画面。
是以Bernini框架的妙处,就在于单干饱和清晰:
多模态大模子认真想显著,Diffusion Transformer认真生成出来。
从文本到视频生成,到视频裁剪,再到基于图像和视频参考的复杂扫尾生成皆全部梭哈!

△Bernini在搭伙框架内复旧多种视频生成任务
这套奥妙单干,也让Bernini在视频可控裁剪上,展现出了一批额外直不雅的视频裁剪才调。
最基础的,是一条指示改变天气、季节、材质和作风的才调。
比如归并段城市航拍视频,输入指示后,不错从好天切到雾天、雨天、雪天。
最关节是,它处理的并不仅仅天上多几片雪、画面加一层滤镜,而是会连带更正太空、光照、路面、配置名义和举座环境氛围,让这场天气变化看起来像确切发生在原场景里:

更进一步,Bernini的语义裁剪也曾开动参加「镜头话语」。
领先即是能扫尾画面情绪区域的视角、焦点和动作。
在视角裁剪上,Bernini能进一步齐集场景里的三维相关,让部分视角更正扫尾更稳当透视、结构和空间逻辑:

在焦点裁剪才调上,Bernini还概况凭据指示更正画面的情绪区域,让视频叙事重点随之改变。
比如一个画面里有多个物体,咱们不错让镜头更情绪桌上的收音机,也不错让焦点从出路转到布景,so easy~

虽然,视频创作里最容易卡bug的,还有动作。(doge)
毕竟许多AI视频静止看还行,一动起来就裸露:主体变形、动作断裂、布景漂移,镜头也随着不稳!!
值得一提的是,Bernini在保留主体身份和场景结构的前提下,不错高精确度地改变主体动作活动。
咱们来看底下这段棕熊视频,哪怕从等闲景色改成起身舞蹈、怒吼,环境、光照和镜头相关依然能保持通晓~

这就意味着,Bernini改视频不仅仅让主体「动起来」,还要让动作变化「当然嵌进」原来的画面里。
从反复抽卡到那边辞别改那边,AI视频终于开动有点后期软件的味儿了???
参考素材上场,视频创作更可控、更一致
友友们精深作念AIGC内容创作时,还会遭遇一个问题,那即是——
咱们确切很难用一句prompt,精确形容想要的视觉成果……
尤其是碰到具体材质、某个商品、某种电影颜色,或者一段需要植入到屏幕里的视频素材,就更容易翻车…..
好巧不巧, Bernini除了裁剪的才调很强外,还有一个贼实用的才调:复旧图片和视频算作裁剪参考。
不仅如斯,它还能基于参考输入径直生成新视频,把物体、扮装和场景的一致性问题狠狠拿抓!!
不单靠prompt:用图片和视频算作裁剪参考
领先来看Bernini参考生成的第一个才调——裁剪参考。
具体来说,Bernini不错让创作家径直用视觉样例扫尾扫尾,告白创意、电商展示、影视预演、二次创作友友狂喜!!
比如底下这个增多指定主体的案例,只需要放入一张狗狗参考图,视频里就能当然出现同款狗狗。
再输入一张雪东谈主图片,雪东谈主也能顺滑融进当前视频里,光照、透视、边际相关皆处理得相等当然:

除了参考主体,Bernini还能参考材质。
比如给它布料、朱砂壶、大理石、金属等不同材质参考,原视频里的盘子就不错被改成对应纹理视觉质感~
而况最紧要的是,这种材质变化会随着目标物体通晓存在,而不是播放几帧就漂移、错位或失真:

作风参考也不在话下!
哪怕参考图横跨卡通、写实、水墨、赛博一又克等完全不同的视觉作风,Bernini也能索取作风特征并转移到视频里。
值得一提的是,原视频里的主体和通顺相关也会高度保留,作风变化也会随着时间轴通晓延续:

此外皮裁剪参选取,Bernini还有一类很实用的才调,那即是:图像与视频植入。
全球皆知谈,街头灯箱、市集LED大屏、地铁电视,致使镜头里任何一块屏幕,AG真人国际厅(中国)官网皆不错形成展示位。
而Bernini能作念的,即是把一张海报、一段视频精确填进目标区域里,还能随着原片镜头统统转移,作念到边界不破、透视不乱、时序不抖。
举例给一段街头实拍再提供一张油绘制片,Bernini就能把油画当然贴进牌号里,画面会通度也相等强:

告白预览、影视预演、臆造拍摄里,许多蓝本要反复抠帧、追踪、校透视的使命,这下也能被收进了一次推理里了~
顺带提一嘴,除了裁剪已有视频,Bernini还复旧基于参考图径直生成「新视频」。
咱们先来看全球精深需求相比多的单图参考生成。
比如只给一张香水产物图,再输入「生成一段产物展示视频」的辅导词,模子就能生成真东谈主手持香水动掸的画面。
瓶身详尽、金色液体、玄色标贴这些关节细节,皆能和原图保持很高的一致性。
更有兴趣兴趣的是,换成一条通顺头带,再让模子目田阐扬,它还能生成一只羊驼戴着头带站在沙漠的画面:

归并个才调,既能作念谨慎产物片,也能搞脑洞创意短片,属实有点666了啊??
再进一步,Bernini还能完了多元素组合参考生成。
在此我需要要大大点赞的少许是,咱们喂进去的参考图不一定需要来自归并个物体!!!
比如一座大理石半身像、一副粉色猫耳耳机、一件的玄色T恤、一条热带印花短裤,再加一张落日海滩长椅。
几张图蓝本八竿子打不着,但Bernini却不错把它们组合成归并个视频扮装:

(谁成想呢,NanoBanana那时大热的ootd玩法也曾进阶到「视频」版块了!)
这类才调放到IP联名、臆造东谈主塑造、告白想法片里就很灵验,素材库里蓝本漫步的元素,不错被从头组合成一个全新的扮装和场景~
此外,Bernini还有一个更关节的才调,那即是归并物体的多角度参考。
全球皆知谈,商品和扮装很少惟有一面,包有背带,车有尾灯,雕镂有侧脸和后面,模子若是只看过正面,镜头一排,很容易开动目田阐扬。
而Bernini特别就特别在,它不错吃进归并物体的多张角度参考图——
比如喂给它大理石雕镂的五张多角度参考,再让它生成一段连气儿镜头,雕镂从不同角度出面前,五官、肌肉走向、衣袍褶皱皆能保持高度一致:

终末想说的才调,是场景关节帧到连气儿镜头。
给到归并办公区休息廊的几张关节帧,比如沙发、绿植、走廊至极的玻璃门,Bernini不错生成一段连气儿平移镜头:

说真话,这一步也曾开动接近更长线的宇宙模子才调了。
因为它锻真金不怕火的也曾不仅仅这一帧好不雅瞻念,还包括模子能不成齐集归并个场景在连气儿镜头里的空间相关。
臆造漫游、游戏关卡生成、影视预演,致使具身智能模拟,往后皆绕不开这种连气儿性。
从语义蓄意到视觉渲染,Bernini的关节是「先齐集,再生成」
是以问题来了,Bernini为什么能同期吃文本、视频、参考图,还能把扫尾作念得更稳?
就像前边提到的,其中枢原因在于它莫得让一个模子包办扫数事情,而是把任务拆成了两步。
第一步是「语义蓄意」,让模子先齐集目标。
具体来说,Bernini领先使用MLLM-based planner来齐集文本、视频和参考视觉输入,并径直在ViT embedding space中预测目标语义示意。
这个目标语义示意,不错齐集成生成前的一张「语义草图」。
它不径直规矩每个像素长什么样,而是先形容清晰:目标视频应该包含什么内容、结构怎么变、哪些元素要保留、哪些场地要被裁剪。

第二步是「视觉渲染」,把语义泛动成高质料视频。
拿到语义蓄意后,DiT-based renderer会认真生成最终画面,关于视频裁剪任务,它还会团结源视频的VAE features,尽量保留原视频里的细节和非裁剪区域,幸免一改就把整段画面带跑。
还有一个关节点,是「多参考输入」怎么处理。
当多个参考图、源视频、目标视频被串进归并个序列里时,不同素材可能会出现有计划的时间和空间坐标,模子容易认混。
是以Bernini引入了Segment-Aware 3D Rotary Positional Embedding,也即是SA-3D RoPE。
它会给不同视觉片断加上各自的segment标识,让模子分清:哪个是参考图,哪个是源视频,哪个是目标输出;同期还能保留时间和空间位置相关。
值得一提的是,在字节生意化技巧团队自建的Arena扫尾里,Bernini的位置也很有看头——
靠近几款国表里主流闭源模子,这个开源框架莫得被拉开差距,反辛劳经站进了第一梯队:

说到底,Bernini最让创作家有实感的场地,不仅仅画面更雅瞻念,而是它让AIGC创作少了少许「玄学」。
以前咱们写了一大段prompt,AI随机懂;想改一个小场地,它可能整条视频皆重来;给了参考图,它也可能只学到少许外相,终末主体、材质、作风透顶跑偏。
而Bernini处治的,即是这种创作里的失控感。
它先齐集用户想要什么,齐集原视频里哪些内容要保留,也齐集参考图片、参考视频到底提供了什么视觉信息。
大阳城app注册下载(SuncityGroup)然后,再把这种齐集转成不错生成、不错裁剪、不错通晓落地的视频扫尾。
少少许反复碰气运,多少许委果可控的创作空间,这亦然Bernini最有价值的场地——
让全球用我方的素材、我方的想法,去探索AI视频创作还能怎么变得更好用、更听话、更接近真实创作经过。
对了,需要一提的是,当今率先开源的Bernini-R,对应Bernini三阶段老到经过中的第二阶段模子。
而包含MLLM Planner的好意思满版块也在代码整理中,瞻望近期将进一步怒放,全球不错小小期待一下子!
(非论咋说,Bernini-R不错先狠狠安排上了~)
Bernini一箩筐参考相接:
[1]GitHub:https://github.com/bytedance/Bernini
[2]Hugging Face:https://huggingface.co/ByteDance/Bernini
[3]Project Page:https://bernini-ai.github.ioAG真人国际厅