prompt · 2025年2月3日 0

解决AI文生绘本多页图片风格不一致的问题

查看了大量资料和大量自媒体做的所谓的AI绘本视频/文章,发现他们也存在这个问题,比如一个讲述龟兔赛跑的绘本,每一页的乌龟、兔子等形象都不一致,更必要说背景了,因为背景有更多元素,需要保持大量元素的一致性更难。

经过思考,我总结了以下几种改进思路,并尝试去做了试验,具体结论如下:

打基础

这个是做AI生成绘本必要要做好的提示词

画面提示词中将各个事物的特征都描述清楚,例如第一页绘本中角色穿着红色的短裤,那么在第二页中也需要提及,否则可能生成的角色穿的是黄色的裤子。

不过经过多次试验,这个方法貌似也不太行,因为一个角色的细节很多,我们无法面面俱到描述清楚,其次就是一个相同的描述,生成的图片也不一样,例如同样是黄色T桖,有些图片会加上一些图案。

还有就是下页的画面描述要保留上页中不变的物体的描述。什么意思呢,就是上页的背景是森林,那么下一页的画面描述中也需要有森林的描述

已知形象法

既然AI生成的角色形象无法保持一致,那么为什么不让AI生成一些固定的、众所周知的角色形象呢?比如小猪佩奇、哆啦A梦等,这就是已知形象法。

但是经过试验,发相两个问题。

问题一:一般已知形象都是别人的 ip,即梦无法生成此类 ip 形象,不知道其他文生图AI是否也有类型问题

在即梦的《AI功能使用须知》中有如下表述:

您知悉并承诺,在使用即梦AI的过程中:您应尊重隐私和道德,并注意保护数据安全,不得输入、分享任何未经授权的个人信息、保密信息(包括但不限于商业秘密)及未经授权的其他类型的信息;您应尊重他人合法权益,确保您的输入内容均合法合规、为您本人所有或已获得合法授权,不得输入、分享任何未经授权的内容,不得侵害他人的著作权、专利权、商标权、肖像权、姓名权、声音权、名誉权、荣誉权等权益。您不得使用即梦AI进行非法活动或发布违法内容,不得利用基于深度学习、虚拟现实、生成式人工智能等新技术新应用制作、发布、传播虚假新闻资讯信息。您在发布或传播利用基于深度学习、虚拟现实、生成式人工智能等新技术新应用制作的非真实信息,或其他可能导致公众混淆或误认的信息内容时,应当以显著方式予以标识;同时,您不得以任何方式遮挡、涂抹或删除我们对内容标注的显著标识

我尝试了几遍,确实都提示无法生成相关形象

部分IP形象还可以生成,可能是系统还未将之过滤,例如哪吒

即使有时候绕过了系统,比如,我用小猪佩奇的英文来替代中文,Peppa Pig,但是生成的多张图片也无法始终保持一致,例如生成小猪佩奇为主角的画本,还是有部分细节差异,比如佩奇的鞋子,衣服颜色不一样

不过相比于生成虚构的角色形象,这种方式已经好很多了,也许我可以改进下,固定好风格。

改图法

所谓的改图法,顾名思义,就是在某一张图的基础上,通过提示词让AI去基于改图做改动,如下使用豆包在原图上新增一只小猪:

继续进行简单的修改:

角色形象还是会发生偏差,大家细看小狐狸和小猪就知道了,无法一致保持一致。

使用豆包进行更复杂的改图,发现效果不理想,感觉是重新生成了一张图片

若是更简单一些,那么画面的变化又不大,毕竟若是做绘本,那么画面需要变化大些,这样才能吸引婴幼儿的注意力。

接着我尝试使用即梦来改图,发现即梦的改图机制是删除某个区域,然后在这个区域内重新生成图像,这就导致要修改某个角色的动作时,也会导致角色形象重新生成。

目前的结论即使改图这条路都不通

视频法

生成连贯的视屏动画绘本,然后从中截图出来,做成一页页的绘本。

对于即梦来说生成视频和生成图片一样,无法生成他人版权的 ip 形象。

而最大的问题在于,视频长度 5 秒、10秒。生成的视频太短,并且视频只能在一个场景内做一些单一的变化,无法生成多变的剧情,具体大家看看即梦里面的别人的作品就知道了。

即使我让AI生成类似幻灯片效果的视频,即梦也无法生成。

使用专门的绘本工具

例如Story-Adapter,这块还在探索。

三十六计走为上计

放弃做连续故事绘本,而是做单张卡片的绘本,每一页都讲述独立的故事、场景。只要风格是一致的,主题是一致的就行。

比如认识农场动物系列、或者是佩奇在做蛋糕、读书、种花等互相之间不连贯的故事。

我的探索还在持续,先做个总结

已知形象法:需要绕开AI平台的过滤,另外画面元素上得继续控制,目前这个还是比较难的,无法枚举各个事物的特征

改图法:即梦不行,不知道其他AI行不行,这不是通过我自己的技巧能够解决的

视屏法:和改图法,目前的AI无法生成剧情多变的长视屏。

专门工具:这个需要进一步探索

走为上计:这个更多是侧重绘本的内容编排和整体风格的设定,实在不行只能如此了。