草履虫也能学会!家友带你玩转基于苹果芯片的“AI 绘图”
本文共 3000 字,预计阅读时间 10 分钟。本文所用模型下载:
-
iCloud 点此下载-
阿里云盘 点此下载有任何问题欢迎在评论区反馈!
今日凌晨,“苹果 AI 发布会” WWDC2024 正式开幕,众多AI 模型正式走进苹果设备。但也许很多家友不知道,早在 2022 年,知名“文生图”大模型 Stable Diffusion 已被苹果纳入 CoreML 框架中,因而可以在大部分搭载 NPU 的苹果芯片上运行(
见我上一篇文章 )。
- 智能消除、智能扩图等“AI 手机”常见宣传点
得益于苹果官方对 SD 的适配,以及开发者们的不懈努力,App Store 里的 AI 绘图软件已有不少。但目前只有一款 App 整合了 SD 的全部功能,并且操作逻辑简单明了,它就是“Draw Things”(真心安利)。这是一款苹果全平台通用软件,安装好后,你距离出图只剩一步之遥。
1. Draw Things 这个软件只是 SD 的“图形界面”。它就好比没装 App 的 iOS,本身并没有“绘画”能力;
3. “模型”有大、小两种类型,分别称为 Checkpoint 和 LoRA。本教程不深入探究 LoRA,因为在用法层面,两者区别不大;
用 SD 生图时,你既可以告诉“模型”画面中应该出现什么(正面提示词),也可以指出应该避免什么(负面提示词)。文字描述越具体,输出图片越漂亮。
首先,请在正面提示词的输入框中写上“一个正在湖边漫步的美丽女子”。然后,选中这段文字,点击弹出菜单中的“翻译”,进一步点击“使用译文替换”。
“RAW photo, dslr, high quality, 8k uhd”
上面这些词语是开发者提供的“万金油”提示词。你可以理解为给“模型”说些好话,让它更卖力的干活。
“(deformed iris, deformed pupils, semi-realistic, cgi, 3d, render, sketch, cartoon, drawing, anime), text, cropped, out of frame, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck”
这些词语是各种不好的形容词,相当于告诫“模型”不要犯了以上错误。
如果你严格按照上述教程设置参数,想必你得到的照片并不“美丽”:细节模糊、场景单调、人物背对镜头,等等。别着急,这是 AI 绘图的必要流程:先用低质量图片确定参数的可靠性,再一口气生成高质量图片。
“一个正在湖边漫步的美丽女性,欧洲人,20岁,金色长发,穿着白色连衣裙,看着照相机,山峦背景,肖像,特写,柔和光照,景深效果”
记得把上述文本翻译成英文哦。
上述流程虽然能输出“美图”,但我们真正需要的图片往往更复杂。比如,我希望照片中的人物能举起左手,但右手下垂,这种没有特定“名称”的姿势是很难通过“提示词”来生成的。如果“模型”能长眼睛,我亲自给它演示这个姿势,那该多方便!于是就有了 ControlNet。
1. 每个 ControlNet 能识别“图片”中的何种元素?
2. 在 Draw Things 软件中,“图片”应该如何发给 ControlNet?
- 名称:Inpainting (SD v1.x, ControlNet 1.1)
- 参考用途:AI 消除、AI 扩图、局部绘图
Inpainting 可谓最常用的 ControlNet。它能根据图片中的既有内容,推断出“相邻”内容。这么说有点抽象,但实践起来很简单。
- 正面提示词:“万金油”组合
- 负面提示词:无
- 尺寸:正常,1:1
- 步数、文字指导、采样器:同前
- 放大器:禁用
接着,点击 App 右下角的按钮,将“示例图片”导入画布中。将图片中的路人移动到画布的中央,再使用“橡皮”工具,擦除“示例图片”中的路人。
- 名称:QR Code (SD v1.x, ControlNet Monster 2.0)
- 参考用途:图片融合
所谓图片中的“图案”,你可以理解为“轮廓”或“剪影”。比如,本文开头展示的某明星的融合图片,“模型”保留了明星的背影,但不影响图片的真正主体。显然,这种抽象的需求即使用“图片”也很难让“模型”理解,因此,我们要用到名为“涂鸦”的衍生物。
- 正面提示词1:“万金油”组合
- 正面提示词2:绿色的山峦,蓝天白云
- 负面提示词:“万金油”组合
- 尺寸:大,1:1
- 步数、文字指导、采样器:同前
- 放大器:Real-ESRGAN X4+
此时生成的图片中,既有我们提示词中的景物,又能隐约看出“IT之家”四个字,是不是很奇妙?如果想让“图案”变得更加明显,我们可以提高 ControlNet 的权重至 120%。再次输出的图片中,“IT 之家”就很容易辨认了。
- 名称:IP Adapter Full Face (SD v1.x)
- 参考用途:AI 换脸
顾名思义,这个 ControlNet 能从“图片”中提取面部特征,进而让成片中的人物拥有你所需要的“脸”。事实上,IP Adapter 能识别的特征远不止“面部”,而是广泛的“材质”。本入门教程暂不讨论这些内容。
- 正面提示词1:“万金油”组合
- 正面提示词2:一个正在湖边漫步的美丽女性,亚洲人,穿着白色连衣裙,看着照相机,山峦背景,肖像,特写,柔和光照,景深效果
- 负面提示词:“万金油”组合
- 尺寸:大,3:4
- 步数、文字指导、采样器:同前
- 放大器:Real-ESRGAN X4+
在“生成”前,我们还需要调节一个特殊参数,即“创意板”中所示的“百分比”。百分比越高,面部特征就越还原,但也会导致成片不自然。我习惯从 50% 开始,慢慢向上尝试。
1. 导入“创意板”的图片,如果不使用菜单中的“删除创意板”是无法清除的;
2. 往“创意板”中导入多张图片并不能提供“更多特征”,而是会触发“特征融合”。
- 名称:Tile (SD v1.x, ControlNet 1.1)
- 参考用途:超清图片
严格来讲,Tile 并不是识别“图片”,而是把图片分割成小块后输入给“模型”。但为了方便理解,你可以把 Tile 看作提取了图片的“细节”,进而让生成的图片能在保持原图内容的基础上,重绘出了全新的细节。
其余参数请设置为:
- 正面提示词:“万金油”组合
- 负面提示词:无
- 尺寸:大,3:4 (即图片的比例)
- 步数、文字指导、采样器:同前
- 放大器:Real-ESRGAN X4+
点击“生成”,我们就可以得到一张较为清晰的新照片。
请将下列词语补充到“正面提示词”中:
“老人,带着帽子,穿着衬衫,肖像”
此时生成的图片是不是合理多了?
常有人说:AI 绘图毁灭了人类的创造力。然而 AI 并非“一站式”出图的傻瓜式工具,相反,Stable Diffusion 拥有大量可调参数,它的自由度并不比用笔作画低。通过奇思妙想的参数组合,SD 的实用性早已超越“文生图”的范畴。
比如,借助 AI 的力量,我们是否能将老式黑白照片变成“高清彩色照片”?
在“生成式 AI”的时代浪潮中,平心而论,唯一能抓住我内心的应用,只有 AI 绘图。以 chatGPT 为代表的语言模型虽然能像人一样“说话”,但其输出的“文字”终究不如“图片”那般鲜活、直观。
但“图片”的丰富性却很容易给 AI 招来麻烦。前不久的“华为 AI 涉黄门”就是很好的例子。