Stable Diffisionで使えるモデルデータはたくさんあって、それぞれ特徴ある画像を生成できて面白いです。
今回は私が今まで使ってきた中でお気に入りのものを紹介します。また、それぞれ推奨される設定等あるので、それをまとめておく備忘録のようなものでもあります。
共通設定(モデル)
このあと紹介するモデルのサンプル画像としているものはすべて同じプロンプトとシード値で生成してます。(png出力されたものをwebpに変換して掲載しています。)VAEも(本当はそれぞれに適したものを使うべきですが比較のため)kl-f8-anime2を使ってます。
プロンプト
masterpiece, best quality, ultra-detailed,illustration, (1 girl), 20 years old, black hair, short hair, spreading hair, voluminous hair, detailed light, looking viewer, cowboy shot,(mole under the eye:1.2), light smile,at shop, gray shirt, medium breasts, small leather shoulder bag, khaki jacket, brooch
ネガティブプロンプト
(((NSFW))),EasyNegative, badhandv4, extra fingers,fewer fingers,simple background
その他設定
Steps: 25, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 1118440606, Size: 600×400,
二次元系モデル
基本的には二次元イラストばかり生成してます。
7th_anime_v3_B
Negative prompt : (worst quality:1.4), (low quality:1.4) , (monochrome:1.1),
比較的線のはっきりした可愛い系のイラストを生成してくれます。ネガティブプロンプトはあまりたくさん書かないようにとのこと。
7th_anime_v3_C
7th_anime_v3の別バージョン。v3_AもあるけどBとCだけでいいかな?と思えたので。CはBよりもさらに線画はっきり太くなってます。上の画像だと背景も細かいけど、もっとシンプルな背景だと太い線のほうが良かったりもしますので。
Anything V3
非常によく使われてる美少女系モデル。ごく簡単にきれいな美少女画像ができる。絵柄的にはこのモデルがとてもよく使われるのでAIっぽいと思われがちかも。
同じページにVAEもあるのでそれを適用したほうがいい。
Anything V5
Anythig V3の後継。というかV3は作者的にも良いものとは思っておらず、それが思いの外評価されてしまったようで。V5はそこから要らないものを削ぎ落としたりしてより良くなった…らしい。
V3は少ないタグでシンプルに、V5は細かいタグをよりしっかり反映するそうな。またLoraの使用もV3よりV5が適してます。
Anything V4.5
Anythigという名前が付いてるけど、上2つのAnthing V3/V5とは違う作者のものです。ちょっとだけ年齢上がってNSFW向けになった印象。
VAEもあるのでそれを適用するといいでしょう。
SunshineMix&SunlightMix
二次元系に入れてしまいましたが、元々は2.5Dな画像を生成するモデルです。Sunshinemixがリアル寄りでSunlightmixがイラスト寄りとなっていますが、2つのモデル(ファイル)があるわけではありません。
写真よりにする場合でもreal
やphotorealistic
といったプロンプトは必要ないそうです。上の画像はillustration
をプロンプトに入れてるのでイラストよりになってる…のだと思います。
Corneo’s 7th Heaven Mix
比較的ラインのはっきりしたアニメ絵向けのモデルです。Anything V3に近いものを目指したそうで、VAEもAnything V3のものでいいようです。
Ligne Claire Anime
線が太く、グラデーションのないフラットな色合いの画像モデルです。プロンプトとしてligne claire
をいれると良し。以下のようなプロンプトも有効です。flat color, limited palette, low contrast, high contrast, chromatic aberration
ちなみに、Ligne claire はフランス語で「明確な線」という意味だそうです。
CarDos Anime
アニメ系のモデルですが、今までのものよりもちょっと濃い感じですね。なんか頬が赤くなりがち。
VAE:vae-ft-ema-560000-ema-pruned CLIP:1
Negative prompt: easynegative, bad-hands-5
ANIMKAWAMix
最近入れたものであまり把握していませんが、どうやらかわいい…幼い系を得意とするモデルのようです。VAEもあり。推奨設定は以下の通り。
Steps: 38, Sampler: DPM++ SDE Karras, CFG scale: 7, Size: 512×768, Denoising strength: 0.6, Clip skip: 2, Hires upscale: 2, Hires steps: 30, Hires upscaler: R-ESRGAN 4x+ Anime6B.
MeinaMix
なんというか、重厚な雰囲気のイラストを生成してくれます。背景含めて細かいです。ただ、そのまま出力するとよくわからないものになりがちで、hires.fixで高解像度化が必須です。
samplers : DPM++ 2M Karras, CFG scale : 5 – 9, Clip Skip : 2
upscaler : R-ESRGAN 4x + Anime6B, with 15 steps at 0.1 up to 0.3 denoising.
Counterfeit-V2.5
背景がかなり描き込まれた画像を出してくれます。人物主体のイラストと言うよりも、その人物がいる風景をを描いてくれて、生活の息吹を感じますね。背景が細かいこともあって小さい画像だと潰れがち。なのでこれもhires.fix使うほうがいいです。
Negative prompt : EasyNegative
blue_pencil
アニメ系のモデルをいくつかマージしたモデル。わりと線がはっきりしていていい感じです。推奨設定は以下の通り。
VAE : ClearVAE
Negative Prompt : EasyNegative
old fish
スケッチ風というか80年代を感じるというか、そういった雰囲気の画像を生成してくれます。いくつかのモデルをマージしていて偶然できたものとのこと。
Steps: 10, Sampler: DPM++ 2S a Karras, CFG scale: 7, Seed: 2316919499, Size: 512×640, Denoising strength: 0.5, Clip skip: 2, Hires upscale: 2, Hires steps: 10, Hires upscaler: R-ESRGAN 4x+
BreakDro
これも背景が描き込まれたモデルです。いい雰囲気のものが作れやすいですね。
VAE : vae-ft-mse-840000-ema-pruned.ckpt
AbyssOrangeMix3 (AOM3)
ちょっとNSFWなイラストが得意なモデルです。SFWもOKですけど。質感がリアルで雰囲気あります。
実写系
実写系…なのにプロンプトは二次元系と同じものを使ってしまったのでillustrationが入ってます。なので、それとは別にプロンプトを以下に変更したものも掲載します。
RAW photo,masterpiece, best quality, ultra-detailed,realistic, (1 girl), 20 years old, black hair, short hair, spreading hair, voluminous hair, detailed light, looking viewer, cowboy shot,(1 mole under the eye:1.2), light smile,at shop, gray shirt, medium breasts, small leather shoulder bag, khaki jacket, brooch,8k uhd, dslr, soft lighting, high quality, Fujifilm XT3,<lora:aiUehara_v10:1>
illustrationの代わりに実写向きなタグをいくつか加え、泣きぼくろ(mole under the eye)の先頭に1をつけてほくろは1つと指定しました。また、お遊び的に上原亜衣Loraも適用してます。
ChilloutMix
実写系では最も有名なのではないか、というChilloutMixです。東アジア系のかわいい女の子を出せます。
LOFI
こちらも非常にリアルな画像を出してくれます。肌のシワや質感がChilloutMixよりもリアル寄りですが、若干欧米人っぽくなります。hires.fixの仕様が強く推奨されてます。
Negative Prompt : DeepNegative
realistic
名前の通り非常にリアルなモデルです。ただやっぱり日本人顔よりも欧米っぽい顔のほうが得意。おっさんやおばあさんなどのシワがリアル。
Prompt : RAW photo, (high detailed skin:1.2), 8k uhd, dslr, soft lighting, high quality, film grain, Fujifilm XT3
Euler A or DPM++ 2M Karras with 25 steps
CFG Scale 3,5 – 7
BRA(Beautiful Realistic Asians)
その名の通り、美しいアジアの女性の6000枚以上の写真で訓練されたモデルです。アジアなので日本人顔というのともちょっと違いますが、欧米人モデルよりはかなり親しみやすい画像が出てきます。
お気に入りのLoRA
LoRAは特定のキャラクターや絵柄を生成させるための追加のファイルです。特定のキャラクターにするものはあまり興味ないのですが、絵柄や構図でお気に入りのものがあります。
Anime Lineart / Manga-like Style
線画や、色が一部分にだけ薄くついたような画像にしてくれます。線がよりはっきりするので、ちょっとした挿絵にも使えそう。あんまり美麗な画像や美少女美少女した画像は使いにくい時に便利です。
CFG scaleを小さくすると線も細くなります。またmonochrome
を入れると色がつきにくくなり漫画っぽくなります。
Anime Tarot Card Art Style LoRA
カード風の枠を付けてタロットカードのようにするLoRAです。カードの枠は正直大雑把なものが多いのですが、スマホゲームのカードのようにも見えて面白いです。
Minimalist Anime Style
フラットで枠線がなく顔も描かれないMinimalistというジャンルのイラストを生成してくれます。
Standing Full Body with Background Style LoRA
ちょっと立体的で切り取られたような背景の上にキャラがいる立ち絵を生成してくれるLoRA…なんですが、配布元ページのサンプルにあるようなものを出すのはなかなか難しいです…。
まとめ
アニメ系のモデルは(細かい違いはあるにせよ)わりと似通ったものになりがちです。ガラッと変わるモデルを見つけると嬉しくなりますね。LoRAも特徴あるものがあって、それとモデルをどう組み合わせるか考えるのも楽しいです。
今後もいろいろ試してみたいですね。