ArtiWaifu Diffusionで版権キャラを楽しむ
久しぶりにAi絵の話題。
ここ半年くらいはすっかりNovelAIに傾倒していたんだけど、その半年間の間にローカル生成も結構環境が変わっていたみたい。
つい先日Webui forge環境を作って、最近はPonyやArtiWaifuなどの新しいモデルで遊んでいました。
Sdの限界か手指などの精度はどれもそこまで変わらないんだけど、やっぱモデルごとに特色があって試しに数点生成するだけでも楽しいね。
ArtiWaifu Diffusion
ArtiWaifu Diffusionは一ヶ月前くらいにHugging faceにリリースされた新しいモデル。
概要に
とあるとおり、Stable DiffusionXLをベースに、6000種の画風と4000の版権キャラを学習させたモデル。
NovelAIのように、トリガーワードだけで版権キャラクターの再現が出来ることを特徴としています。
トリガーワード一覧はreferenceページにcsv形式で記載されており、正直眺めるだけで一時間かかりそうなくらい膨大。
学習の都合上、学習元が多いキャラほど精度が高く、少ないキャラは精度が下がるため、誰も彼も高い精度でバッチリ生成できるわけじゃないだろうけど。
csvにあるCountって項目が学習数だと思うんだけど、画像の枚数ではなさそうで、このカウントがどういう数値なのかはちょっとわからなかった。
ちなみに一番多い「初音ミク」で9835件、リストの一番下は25件のキャラが同率タイで並んでおり、ブラッククローバーのアスタやポケモンのエリートトレーナーでした。
正直学習数50未満のキャラはニュアンスレベルでも再現できていないことが多く、再現が出来ているとは言えない塩梅。
51~100未満くらいになると、あぁあのキャラだな、というのはわかるけど細部が甘い、という感じ。
生成例は追々。
このモデル、ちょっと生成のクセがあるのでそれを理解してからにしましょう。
プロンプトの書き方
基本的には上記リンクの「Prompting Strategies」にあるとおり。
キャラ→構図→画風→シチュエーション→衣装→品質タグの順で書きましょう。
ひとまず余計なことを指定せず、フラットに生成したらこんな感じ。
プロンプトは品質タグ(detailed, amazing quality, best quality,)以外は「1girl, white hair, school uniform, looking at viewer」だけ。
モデル自体が持つ画風がこんな感じ、ということですね。
で、それにupper bodyを付けてバストアップ絵にしようとしたんだけど、構図が代わりませんでした。
portraitにしても同じ。
「Prompting Strategies」を改めて見たら、構図の例として「composition (cowboy shot)」としているんですね。
ということで構図をcowboy shotにしたら一発でそれらしい構図になった。
私は普段full bodyとupper bodyで使い分けてるので、cowboy shotは使わないんだよなあ。
にしてもupper bodyもportraitも全く効かないのがなんか新鮮な体験だった。
なお、当たり前ですがcowboy shotを入れないと首から下が生成されない、ってわけではなくて
「1girl, white hair, school uniform, sitting, looking at viewer」としたらこうなります。
余計な指定がない場合は顔アップになる、という重み付けが強いって感じでしょうかね。
版権キャラを生成する
さてArtiwaifuの強みでもある版権キャラ生成です。
まず重要な要素として、ArtiWaifuではトリガーワード1つでキャラを再現できるものの、意図的に衣装の情報は紐づけしていないという点が上げられます。
キャラクターの柔軟な描画を実現するため、トリガーワード自体にはキャラの衣装が紐づいていません、とのこと。
つまり顔、髪型、大まかな体型くらいしか引っ張ってこないんですね。
もっとも、全く衣装が再現されないわけでもなく、特にイラストで使われる衣装が一種類しかないようなキャラは、トリガーワード単体でも十分に衣装を確定できます。
別衣装があるキャラなんかは、衣装を指定するタグをトリガーワードに併記しておくことで、ある程度誘導が可能になります。
その辺もこれから見ていきましょう。
ではreferenceにある1万行のchara.csvから好みのキャラを見つけましょう。
初代Stable Diffusionでもまぁまぁ生成できてた初音ミクはさすがに置いておいて、今どきのタイトルから生成してみよう。
蛍
原神の主人公(女)の蛍ちゃん。
細部の装飾などのディティールは少しぼやけていますが、一通りそのキャラと判別できるだけの情報は揃っています。
LoRAなしにこれが出せるのマジで凄いよ…。
甘雨
同じく原神から甘雨ちゃん。
大きく開いたセクシーな背中や柔らかい表情はもちろん、元素爆発で出す球体を風景に見立てて背景にする演出がクールすぎる。
普通のキャラが持っていない頭の角もしっかり再現。「似た雰囲気の別の形」になっていたりしませんね。AIってそういう置き換えみたいなこと起きやすいんだけど。
マシュ
普段着と戦闘時が混じったみたいになっちゃったけど、戦闘中の小休止にパーカー羽織ったみたいになってるのが最高に良い。
「hooded jacket, black dress, necktie,」を追加すると普段着に寄せることができます。
色味の指定がまだ足りてない感じあるかも。
ジャンヌオルタ
名前だけだとこんな感じ。
顔の再現度は高いけど、いくつか重要なパーツが抜けてますね。
「headpiece, armored dress, black cape, black dress, fur trim, fur-trimmed cape, holding flag」を追加してようやくこんな感じ。
頭のあれと、ボア付きマントと旗は欠かせないよね。
衣装もふんわり再現されるけど、きちんとプロンプトを併記すると確度が上がる、というのがよくわかる例でした。
アビー
すんごい良いアビーが出せたのでそれも見てくれ。
目つきがカルデアのアビーじゃなくてセイレムのアビーって感じちょっとある。
アビーは再臨ごとに装いが全く変わる都合上、トリガーワードも切り分けられており、結果他の再臨段階のアビーと混じりにくくなっています。
これは本当に助かる。
これは3臨のアビー。冷静に考えなくてもこの衣装ヤバすぎるな…。
それだけに飽き足らず…
なんと旅装まで学習していた。えらい手間を掛けて学習データをセットしてある…。
学習数25のキャラ
ここからは学習量の少ないキャラがどんな感じになるか、という話。
これ、だーれだ?
正解は咲-saki-の天江衣でした。どこがだ。
衣装のタグを追加してみると、ほんのわずか近付いた感じがする。
更に追加したらこうなった。これはもう星宮いちごだろ。
学習数67のキャラ
これ、だーれだ?と言いたいところだが大体わかるな。
水着ノッブでした。
ノッブも再臨段階でトリガーワードが別れており、再臨前を選ぶとジャケットやヘッドフォンを誘導できます。
「jacket, letterman jacket, oversized red shirt, swimsuit, headphone, headphones around neck」とタグを重ねましたが、結果十分にキャラを特定できる結果になりました。
同じくタグを重ねた結果でも、衣とは大違いです。
学習数110のキャラ
もうはっきり分かりますね。アルトリアリリィです。
タグ重ねなくても十分それっぽい。
本当に触りだけですが、このモデルの凄さである「版権キャラの学習能力の高さ」は伝わったかと。
今回は私の好きなタイトルということで、原神とFGOからのみでしたが、chara.csvにはもっと大量のタイトル、キャラが用意されているので、きっと好みのキャラを再現できるでしょう。
ちなみにこれはジャンヌオルタと初音ミクを混ぜたもの。
こんな遊びも可能です。