AG真人国际厅字节开源搭伙框架Bernini: AI视频裁剪先齐集再首先

发布日期：2026-06-05 03:10 来源：未知作者：admin 浏览次数：

梦瑶发自凹非寺

全球皆懂，视频生成这件事，最让创作家头疼的，不一定是画面不够清晰。

而是模子时常听不懂东谈主话！！！（扎心.jpg)

想把好天改成雪天，它可能只会往画面上撒雪花；想把一段动画植入市集LED大屏，它可能边界乱飘、透视不稳。

于是乎，问题来了：AI视频生成，能不成先齐集创作家到底想改什么，再首先生成？

就在刚刚，字节生意化技巧团队反手给出一个行业新解法——

开源面向视频生成与视频裁剪的搭伙框架：Bernini。

主打一个先齐集再生成～

Bernini的想路很径直，让多模态大模子先认真语义齐集与蓄意，再交给diffusion模子完成高质料视觉渲染。

在才调上，Bernini笼罩了参考生成、视频裁剪等多种任务，重点体现的即是两个字：「可控」。

比如改变举座视觉作风时，不仅仅把单帧画得雅瞻念，还能稳住前后帧的一致性，主打一个成果超等稳：

这下好了，AI视频生成也能从听prompt干活，往先齐集、再首先再进一步了～

对了，当今，Bernini的推理代码和权重也曾怒放！！（快乐.jpg)

一条指示改视频，Bernini轻松拿抓「可控裁剪」！

若是说往日许多视频生成模子更像按辅导词出片，那Bernini想处治的，是另一个更实质的问题——

生成之后，怎么不息改？

咱们精深碰到的大无数更正需求听起来皆很easy，但对视频模子来说并不节略！！！

因为视频裁剪不是改一张图，而是在一段连气儿画面里，既要听懂指示，又要保住主体、结构、镜头和通顺相关。

略微处理不好，就会出现主体变形、布景漂移、动作断裂、帧间闪耀等问题。

而Bernini的中枢想路，恰是把这个过程拆得更清晰。

△AI生成

咱们不错把Bernini齐集成一个AI视频片场里的「导演+后期团队」。

前边认真导演的，是一个叫MLLM-based planner的多模态大模子蓄意器。

它会先看懂你的文本指示，也会统统齐集源视频、参考图片、参考视频这些素材，判断目标画面应该形成什么样。

等这一步想清晰后，再交给diffusion模子DiT-based renderer来完成视觉渲染，把前边蓄意好的语义目标，委果形成连气儿、通晓、高质料的视频画面。

是以Bernini框架的妙处，就在于单干饱和清晰：

多模态大模子认真想显著，Diffusion Transformer认真生成出来。

从文本到视频生成，到视频裁剪，再到基于图像和视频参考的复杂扫尾生成皆全部梭哈！

△Bernini在搭伙框架内复旧多种视频生成任务

这套奥妙单干，也让Bernini在视频可控裁剪上，展现出了一批额外直不雅的视频裁剪才调。

最基础的，是一条指示改变天气、季节、材质和作风的才调。

比如归并段城市航拍视频，输入指示后，不错从好天切到雾天、雨天、雪天。

最关节是，它处理的并不仅仅天上多几片雪、画面加一层滤镜，而是会连带更正太空、光照、路面、配置名义和举座环境氛围，让这场天气变化看起来像确切发生在原场景里：

更进一步，Bernini的语义裁剪也曾开动参加「镜头话语」。

领先即是能扫尾画面情绪区域的视角、焦点和动作。

在视角裁剪上，Bernini能进一步齐集场景里的三维相关，让部分视角更正扫尾更稳当透视、结构和空间逻辑：

在焦点裁剪才调上，Bernini还概况凭据指示更正画面的情绪区域，让视频叙事重点随之改变。

比如一个画面里有多个物体，咱们不错让镜头更情绪桌上的收音机，也不错让焦点从出路转到布景，so easy～

虽然，视频创作里最容易卡bug的，还有动作。（doge）

毕竟许多AI视频静止看还行，一动起来就裸露：主体变形、动作断裂、布景漂移，镜头也随着不稳！！

值得一提的是，Bernini在保留主体身份和场景结构的前提下，不错高精确度地改变主体动作活动。

咱们来看底下这段棕熊视频，哪怕从等闲景色改成起身舞蹈、怒吼，环境、光照和镜头相关依然能保持通晓～

这就意味着，Bernini改视频不仅仅让主体「动起来」，还要让动作变化「当然嵌进」原来的画面里。

从反复抽卡到那边辞别改那边，AI视频终于开动有点后期软件的味儿了？？？

参考素材上场，视频创作更可控、更一致

友友们精深作念AIGC内容创作时，还会遭遇一个问题，那即是——

咱们确切很难用一句prompt，精确形容想要的视觉成果……

尤其是碰到具体材质、某个商品、某种电影颜色，或者一段需要植入到屏幕里的视频素材，就更容易翻车…..

好巧不巧， Bernini除了裁剪的才调很强外，还有一个贼实用的才调：复旧图片和视频算作裁剪参考。

不仅如斯，它还能基于参考输入径直生成新视频，把物体、扮装和场景的一致性问题狠狠拿抓！！

不单靠prompt：用图片和视频算作裁剪参考

领先来看Bernini参考生成的第一个才调——裁剪参考。

具体来说，Bernini不错让创作家径直用视觉样例扫尾扫尾，告白创意、电商展示、影视预演、二次创作友友狂喜！！

比如底下这个增多指定主体的案例，只需要放入一张狗狗参考图，视频里就能当然出现同款狗狗。

再输入一张雪东谈主图片，雪东谈主也能顺滑融进当前视频里，光照、透视、边际相关皆处理得相等当然：

除了参考主体，Bernini还能参考材质。

比如给它布料、朱砂壶、大理石、金属等不同材质参考，原视频里的盘子就不错被改成对应纹理视觉质感～

而况最紧要的是，这种材质变化会随着目标物体通晓存在，而不是播放几帧就漂移、错位或失真：

作风参考也不在话下！

哪怕参考图横跨卡通、写实、水墨、赛博一又克等完全不同的视觉作风，Bernini也能索取作风特征并转移到视频里。

值得一提的是，原视频里的主体和通顺相关也会高度保留，作风变化也会随着时间轴通晓延续：

此外皮裁剪参选取，Bernini还有一类很实用的才调，那即是：图像与视频植入。

全球皆知谈，街头灯箱、市集LED大屏、地铁电视，致使镜头里任何一块屏幕，AG真人国际厅(中国)官网皆不错形成展示位。

而Bernini能作念的，即是把一张海报、一段视频精确填进目标区域里，还能随着原片镜头统统转移，作念到边界不破、透视不乱、时序不抖。

举例给一段街头实拍再提供一张油绘制片，Bernini就能把油画当然贴进牌号里，画面会通度也相等强：

告白预览、影视预演、臆造拍摄里，许多蓝本要反复抠帧、追踪、校透视的使命，这下也能被收进了一次推理里了～

顺带提一嘴，除了裁剪已有视频，Bernini还复旧基于参考图径直生成「新视频」。

咱们先来看全球精深需求相比多的单图参考生成。

比如只给一张香水产物图，再输入「生成一段产物展示视频」的辅导词，模子就能生成真东谈主手持香水动掸的画面。

瓶身详尽、金色液体、玄色标贴这些关节细节，皆能和原图保持很高的一致性。

更有兴趣兴趣的是，换成一条通顺头带，再让模子目田阐扬，它还能生成一只羊驼戴着头带站在沙漠的画面：

归并个才调，既能作念谨慎产物片，也能搞脑洞创意短片，属实有点666了啊？？

再进一步，Bernini还能完了多元素组合参考生成。

在此我需要要大大点赞的少许是，咱们喂进去的参考图不一定需要来自归并个物体！！！

比如一座大理石半身像、一副粉色猫耳耳机、一件的玄色T恤、一条热带印花短裤，再加一张落日海滩长椅。

几张图蓝本八竿子打不着，但Bernini却不错把它们组合成归并个视频扮装：

（谁成想呢，NanoBanana那时大热的ootd玩法也曾进阶到「视频」版块了！）

这类才调放到IP联名、臆造东谈主塑造、告白想法片里就很灵验，素材库里蓝本漫步的元素，不错被从头组合成一个全新的扮装和场景～

此外，Bernini还有一个更关节的才调，那即是归并物体的多角度参考。

全球皆知谈，商品和扮装很少惟有一面，包有背带，车有尾灯，雕镂有侧脸和后面，模子若是只看过正面，镜头一排，很容易开动目田阐扬。

而Bernini特别就特别在，它不错吃进归并物体的多张角度参考图——

比如喂给它大理石雕镂的五张多角度参考，再让它生成一段连气儿镜头，雕镂从不同角度出面前，五官、肌肉走向、衣袍褶皱皆能保持高度一致：

终末想说的才调，是场景关节帧到连气儿镜头。

给到归并办公区休息廊的几张关节帧，比如沙发、绿植、走廊至极的玻璃门，Bernini不错生成一段连气儿平移镜头：

说真话，这一步也曾开动接近更长线的宇宙模子才调了。

因为它锻真金不怕火的也曾不仅仅这一帧好不雅瞻念，还包括模子能不成齐集归并个场景在连气儿镜头里的空间相关。

臆造漫游、游戏关卡生成、影视预演，致使具身智能模拟，往后皆绕不开这种连气儿性。

从语义蓄意到视觉渲染，Bernini的关节是「先齐集，再生成」

是以问题来了，Bernini为什么能同期吃文本、视频、参考图，还能把扫尾作念得更稳？

就像前边提到的，其中枢原因在于它莫得让一个模子包办扫数事情，而是把任务拆成了两步。

第一步是「语义蓄意」，让模子先齐集目标。

具体来说，Bernini领先使用MLLM-based planner来齐集文本、视频和参考视觉输入，并径直在ViT embedding space中预测目标语义示意。

这个目标语义示意，不错齐集成生成前的一张「语义草图」。

它不径直规矩每个像素长什么样，而是先形容清晰：目标视频应该包含什么内容、结构怎么变、哪些元素要保留、哪些场地要被裁剪。

第二步是「视觉渲染」，把语义泛动成高质料视频。

拿到语义蓄意后，DiT-based renderer会认真生成最终画面，关于视频裁剪任务，它还会团结源视频的VAE features，尽量保留原视频里的细节和非裁剪区域，幸免一改就把整段画面带跑。

还有一个关节点，是「多参考输入」怎么处理。

当多个参考图、源视频、目标视频被串进归并个序列里时，不同素材可能会出现有计划的时间和空间坐标，模子容易认混。

是以Bernini引入了Segment-Aware 3D Rotary Positional Embedding，也即是SA-3D RoPE。

它会给不同视觉片断加上各自的segment标识，让模子分清：哪个是参考图，哪个是源视频，哪个是目标输出；同期还能保留时间和空间位置相关。

值得一提的是，在字节生意化技巧团队自建的Arena扫尾里，Bernini的位置也很有看头——

靠近几款国表里主流闭源模子，这个开源框架莫得被拉开差距，反辛劳经站进了第一梯队：

说到底，Bernini最让创作家有实感的场地，不仅仅画面更雅瞻念，而是它让AIGC创作少了少许「玄学」。

以前咱们写了一大段prompt，AI随机懂；想改一个小场地，它可能整条视频皆重来；给了参考图，它也可能只学到少许外相，终末主体、材质、作风透顶跑偏。

而Bernini处治的，即是这种创作里的失控感。

它先齐集用户想要什么，齐集原视频里哪些内容要保留，也齐集参考图片、参考视频到底提供了什么视觉信息。

大阳城app注册下载(SuncityGroup)

然后，再把这种齐集转成不错生成、不错裁剪、不错通晓落地的视频扫尾。

少少许反复碰气运，多少许委果可控的创作空间，这亦然Bernini最有价值的场地——

让全球用我方的素材、我方的想法，去探索AI视频创作还能怎么变得更好用、更听话、更接近真实创作经过。

对了，需要一提的是，当今率先开源的Bernini-R，对应Bernini三阶段老到经过中的第二阶段模子。

而包含MLLM Planner的好意思满版块也在代码整理中，瞻望近期将进一步怒放，全球不错小小期待一下子！

（非论咋说，Bernini-R不错先狠狠安排上了～）

Bernini一箩筐参考相接：

[1]GitHub：https://github.com/bytedance/Bernini

[2]Hugging Face：https://huggingface.co/ByteDance/Bernini

[3]Project Page：https://bernini-ai.github.ioAG真人国际厅

上一篇：上一篇：AG真人国际厅 2026运动后用的洗发水实测速洗控油款首选, 出汗不粘腻无异味

下一篇：下一篇：AG真人国际厅海外油价6月1日大幅高涨

AG真人国际厅中国官网

AG真人app

AG真人国际厅字节开源搭伙框架Bernini: AI视频裁剪先齐集再首先

AG真人app

AG真人国际厅 字节开源搭伙框架Bernini: AI视频裁剪先齐集再首先

AG真人国际厅字节开源搭伙框架Bernini: AI视频裁剪先齐集再首先