最近两周午夜电影网,"吉卜力画风"短暂就火了。
事情的初始是这么的,3 月 26 日,OpenAI 推出了基于 GPT-4o 多模态大模子的高精度图像生告捷能" 4o Image Generation ",按照他们的说法,当今用户只需一句浅易的笔墨描写,就能已毕风雅的告白或平面图的制作、诓骗界面的 UI 规画、LOGO 或图片立场的切换等等。
扫尾呢?统统互联网的东谈主,都在用它变身"赛博宫崎骏"。
不开打趣,小雷是真被这玩意给刷屏了,这两天一打开群聊,就能看到天高皇帝远的群友们在拿 GPT-4o 猖獗整活,有作念头像的,有作念神气包的,甚而还有把"黄 O 大路东"酿成吉卜力画风的,推特上的外洋网友玩得更是乐此不疲,看得我都有点心痒痒的。
(图源:X)
亏得,肖似的功能,国内大模子并不是莫得。
比如说字节逾越的 SeedEdit,不异可以已毕"天然语意修图",用户只需输入浅易的天然讲话,便可对图像进行万般化剪辑操作。
最蹙迫的是,这功能可不需要你想方设法翻出去用,在字节逾越的豆包官网就胜仗能用,并且当前豆包的"图像生成"功能是饱胀免费且不存在截止的,这一波甚而能把开会员的钱也给胜仗省下来。
话不说多,咱们这边胜仗开整!
想体验这个功能的话,其实还蛮浅易的即是了。
打开豆包网页版,在输入框底下就有「图片生成」,应该就能看到上传参考图的选项了,这里即是 SeedEdit 模子的进口。
要作念的事情很浅易,上传图片,然后输入咱们想要改换的施行。
(图源:雷科技)
话未几说,先来看图。
率先,小雷这边采用了一张来自知名音乐摄像带里的截图,让豆包和最近巨火的 GPT-4o 都试着"帮我换成吉卜力立场"。
这是原图:
(图源:Youtube)
这是豆包的制品:
(图源:豆包)
这是 GPT-4o 的制品:
(图源:GPT)
对比下来,GPT-4o 的衣着规复度更高,手部莫得变形,仅仅莫得守护原图比例;豆包天然举座构图、配色愈加濒临原图,但是衣着有些微变化,手部有些变形,甚而多了一只捏着麦克风的手。
接着试一下世界都热心的名东谈主午夜电影网,比如说马斯克:
譬如说乔布斯:
再给乔布斯换个迪士尼立场:
熟女控从扫尾来看,豆包的转机效率可以说强横常练习。
终末,咱们试一试影视剧集里的名时势,此次就拿《和平使臣》内部约翰 · 塞纳扮演的克里斯多福 · 史姑娘的名时势作念例子:
(原图,图源:HBO Max)
此次差距其实愈加显著一些,GPT-4o 甚而把金属头盔保留了下来,身边的两名脚色也作念到了精确的画风转制,但是图片比例有所修改,笔墨信息也莫得保留住来。
动作对比,豆包则是试图在整幅画面上进行对王人,但是东谈主数一多起来,脚色的服装和相貌就没若干能对上的。
但是,接着我就要说但是了,豆包的效率照旧比 Gemini 2.0 要强上一大截的,谷歌这玩意天然维持天然语意修图,但是既不懂吉卜力立场是啥意旨道理,也搞不了了如何修改图片比例。
(图源:Gemini 2.0)
可恶的谷歌,不要给我看这一堆不知所谓的东西!
其实把念念路反过来,把画改成真确立场,豆包搞得也可以,我上传了一张刻在不少东谈主基因里的 Meme 图片,让它以此为原型,生成一张真确相片。
嗯 ... 只可说像是挺像的,即是没了那种冲击感。
淌若再浅易调节一下的话,就能作念出底下这种效率:
虽说脸型有点不合,笑得亦然有点夸口,但是这种冲破次元壁的作念法,还真就惟有 AI 大模子能够已毕。
不外,东谈主东谈主都在用吉卜力画风,也带来了新一轮的版权问题。
毕竟早在 2016 年,宫崎骏评价 AI 动画时候时就直言:这是对人命自身的侮辱。
宫崎骏反对用时候代替手工创作,他合计 AI 生成图像穷乏对人命力的敬畏,而在 2025 年的今天,时候力的进步,反而让世界对这件事情变得更明火执械了起来,照实是有点讥刺的。
既然如斯,咱们不妨转机一下念念路,把它当成 PS 来用?
比如在规画行业里滚滚而至的梗,"让大象转个身"这种要求,咱们在豆包上能弗成已毕呢?
谜底是"饱胀可以,纯粹可以"。
可以看到,SeedEdit 生成的大象后头强横常合适逻辑的,耳朵的样式、脚部的位置、身体的神气都作念得相称可以,周围的环境也保持了高度的一致,很出丑出画面上有什么破绽。
不外肖似海报的效率,豆包就作念得不咋样了,和 GPT-4o 可以说一眼就能看出阔别了。
只可说,豆包在审好意思这块,还真有挺多要学的地方。
终末,我也试了一下豆包臆造进行"图片生成"的效率。
辅导词如下:
一位年青的印度女性,黑发扎着打开的马尾辫,身穿玄色夹克,站在大学校园里,直视着镜头。该图像具有 1990 年代立场的电影静态好意思学,在阳光明媚的日子里拍下的特写肖像。
对比豆包,GPT-4o 产出的图更有特写感;Midjourney V7 产出的图片光辉愈加天然,东谈主物脸部的肤色也相对愈加澄莹,细节愈加丰富,画面焦点愈加澄莹,但总的来说,三者都没啥肉眼可见的问题。
不可否定,如今 AI 大模子在"绘画"上足以自强门庭了。
但是在图像剪辑规模,AI 大模子依然是相对过期的,无法进行精确剪辑一直是行业的老浩劫问题。
前些年,这类需求一般可以通过 Stable Diffusion 的 ControlNet 插件来已毕。
它可以获得出奇的输入图像,通过不同的预贬责器转机为限度图,进而动作 Stable Diffusion 扩散的出奇条目,只需使用文本辅导词,就可以在保持图像主体特征的前提下轻易修改图像细节。
(图源:新浪微博,识别特征并进行再行绘图)
但是腹地部署 AI 诓骗这事,和大部分小白是基本无缘的。
是以在干预本年后,包括 GPT-4o、Gemini 2、Midjourney V7 等先后上线了通过天然语意修图的功能。
个东谈主合计,这种只需给定输入图像和告诉模子要作念什么的文本描写,然后模子就能效力描写指示来剪辑图像的功能,甚而可以被视为紧要突破,也曾被视为必备技巧的 PS,如今似乎堕入了"可学可不学"的机密处境。
天然了,当前这类模子在生成图少顷照旧有一些问题存在的。
直到今天,豆包 AI 修图依然穷乏东谈主像前后的一致性,也穷乏图片施行的场所性,只须触及到东谈主物面部的修图,那么最终出来的图像和原图的各异会很夸张,豆包自身也很难判断你要修改的是图片里的哪个元素。
倒是笔墨贬责智力,相较以往有了一定进步,当今 SeedEdit 在修图时还是不会缝隙编造笔墨施行,但是图片生成时的错字表象依然需要改善。
不管如何说,豆包 SeedEdit 算是弥补了国产大模子在语义 AI 修图诓骗这块的空缺。
可以预见的是,跟着 AI 图像剪辑时候的束缚发展,改日手机、电脑都可能会集成这项功能,就像 AI 打消、AI 扩图那样走进寻常匹夫家。不管是小白照旧大咖,每个东谈主都有契机减弱上手使用,让我方对好意思的清醒可以更直不雅地展现出来。
修图有手就行?大意确切不是梦午夜电影网。