AI / ComfyUI / Image Gen
前回、Stability MatrixでComfyUIをインストールした。画像を出すことはできる。でも正直、ワークフローの意味がまだよくわかっていない。
KSampler、VAE Decode、CLIP Text Encode…… ノードが線でつながって、プロンプトを入れたら画像が出てくる。それはわかる。でも、このノードたちは実際に何をやっているのか。
せっかくインストールしたのだから、ちゃんと理解してから使いたい。というわけで今日のテーマは「ComfyUIの仕組みを理解しながら、現時点で自分に合うモデルを見極める」こと。用途ごとにモデルを実際に動かして比較し、手を動かして出てきた結果で判断する。とはいえモデル勢力図は月単位で塗り替わるので、今日の結論は「2026年4月時点のスナップショット」として残しておく。
まずAnimaモデルのサンプルプロンプトをひとつずつ分解してみた。すると、どれも同じ構造で書かれていることに気づく。
品質タグ → キャラクター描写 → 構図 → マテリアル感 → ライティング → ネガティブ
この順番で書くと、Animaがどう応答するかが安定する。全身・ニーショットで生成したほうが背景も含めてクオリティが出ることも確認できた。バストアップより情報量が増えるぶん、Animaの得意なライティングや衣装表現がよく活きる。
この発見をもとに自分用のプロンプトテンプレートを作った。
ファンタジー系のキャラを幅広く試していくうちに、「複数人を同時に生成したらどうなるか」が気になってきた。
結論からいうと、3人同時生成に成功した。構図がぐちゃぐちゃになることを想定していたが、three characters, clearly separated を意識したプロンプトで思ったより安定した結果が出た。3人の関係性が画面から伝わる構図まで作れた。
試しにEdenCodeのキャラクター——クラリス・クロコ・エデニーの3人でも生成してみた。あくまで実験として遊んでみただけだが、クラリスは参謀・知性型、クロコは職人・実装型、エデニーは旅人・主人公型という役割がなんとなくビジュアルに出てきたのが面白かった。
ComfyUIのワークフローを眺めながら疑問が積み重なってきた。「KSamplerって何をしているのか」「VAEって何のためにあるのか」——これを理解しないまま使い続けるのは気持ちが悪い。
クロコと話しながら掘り下げていくと、Diffusionモデルの仕組みが少しずつわかってきた。
一言でいうと、こういうことだ。
学習のときに何をやっているかというと、きれいな画像に少しずつノイズ(テレビの砂嵐のようなランダムなザラザラ)を加えて、完全な砂嵐になるまで崩していく過程を何百万枚もの画像で学習する。「特定の画像を記憶する」のではなく、「画像の崩れ方のパターンを覚える」のがポイントだ。これを forward diffusion(正方向拡散) と呼ぶ。
生成のときは、その逆をやるだけ。ランダムな砂嵐からスタートして、プロンプトで「この方向に削って」と指示しながら少しずつノイズを除去していく(reverse diffusion)。このノイズ除去を数十〜数百回繰り返す作業が、ComfyUIの KSampler がやっていることで、中身は U-Net というニューラルネットが毎ステップ「残りノイズの見積もり」を出力している。
VAE(Variational Autoencoder)は、元の300万ピクセル級の画像を数千次元の潜在空間(latent space)に圧縮し、最後にまた画像に戻す翻訳者だ。KSamplerはこの軽量な潜在空間の中でノイズ除去を繰り返すから、処理が速い(これが Stable Diffusion 以降のLatent Diffusionの核)。VAEの精度が低いと、復元した画像の色がくすんだりぼやけたりする。
CLIP Text Encode(プロンプト入力ノード)は、テキストを「砂嵐をどの方向に削るか」の指示ベクトルに変換する翻訳者だ。プロンプトを詳しく書くほどイメージに近づくのはこのためで、逆に曖昧な指示だとAIが勝手に補完する余地が増えてランダム性が上がる。ComfyUI の CFG(Classifier-Free Guidance)というパラメータは、この「プロンプト方向にどれだけ強く引っ張るか」の強度調整で、数値を上げるほどプロンプト忠実になり、下げるほど自由に膨らむ。
「選定結果」というより「今日までに触って、今手に馴染んでいるもの」のスナップショット。画像生成モデルの世界は1〜2ヶ月で勢力図が動くので、これで確定というつもりはない。来月には違うモデルが前に出てくる前提で、比較の軸だけ残しておく。
動画生成:LTX Video 2.3
リアル系・アニメ系どちらとも良好。日本語発音に多少の難はあるが、動きのクオリティと処理速度のバランスが優秀。軽くて速いのが特にいい。現時点の動画生成は当面これで回す。Wan 系・HunyuanVideo 系も追って検証予定。
実写・フォトリアル:z_image_turbo
快適で絵も美しい。実写プロンプトを試したいときは今はこれ。Anima系では出ないリアリティが出せる。SDXL 系の写実派(Realistic Vision 系、FLUX.1 系)との住み分けは継続テーマ。
アニメ・イラスト:SD系複数 + Anima注目中
SD系のモデルをいくつか比較しながら使っている段階。その中で Anima(Illustrious XL 系)が本命候補に浮上している。今日のプロンプト研究はほぼAnima中心で回しており、キャラクターのビジュアル表現力はSD系の中でも頭ひとつ抜けている印象。正式版リリースと後継モデルを注視中。
チェックしていきたい次の候補も並べておく(備忘):
複数キャラ生成で一番よく起きた問題が、キャラクターの融合だ。敵キャラの特徴がヒーロー側に混入したり、2人のキャラが途中で溶け合ったりする。
対処法として有効だったのが「縛りプロンプト」。clearly separated(明確に分離している)や、[キャラ名] NOT [別キャラの特徴] という書き方でキャラクターの境界を明示すると、かなり改善された。「AIに指示する」というより「AIが迷わないように言語で壁を立てる」感覚が近い。
「ComfyUIのノードが何をしているのか」という疑問から始まり、Diffusionモデルの仕組み(forward / reverse diffusion、U-Net、潜在空間、CFG)まで掘り下げた。AIは画像を記憶しているのではなく、崩れ方のパターンを覚えている——この理解が得られてから、ワークフローの見え方が変わった。
モデル評価では動画・実写・アニメの3ジャンルで実際に動かして比較し、2026年4月時点では LTX Video 2.3・z_image_turbo・Anima に手が馴染んでいる。ただしこれは現時点のスナップショットで、FLUX.1 系・Pony V7・SDXL Lightning などまだ触っていない有望株も多く、これからもいろんなモデルを試しながら更新していく。「動かして試す」を繰り返した一日だった。