Stability Matrix Local AI AI / ローカル生成 / ComfyUI
← Back to Blog

Stability Matrixで
ローカル生成AI環境を整えた日
画像・動画・編集・音楽まで、ローカルでひと通り制覇した記録

PROLOGUE

「ComfyUIの環境構築が超楽だった。こっちを先に知りたかった」

前日にComfyUI(AIで画像を生成するツール)のポータブル版(インストール不要の版)で環境を作ったが、今日は Stability Matrix に乗り換えることにした。

Stability Matrixとは、ComfyUIをはじめとする複数の生成AIツールを一元管理できるランチャー(起動・管理アプリ)のこと。モデルの追加・更新・削除がGUI(グラフィカルな操作画面)で完結するので、コマンド操作なしで管理できる。

目標は「画像・動画・編集・音楽」をひと通りローカルで試すこと。壁打ちしながらアイデアを試すには、課金を気にせず使えるローカル環境が最高だ。

BUILD

Phase 1:環境を移行して画像生成をいろいろ試す

ポータブル版からの移行では、モデルの保存フォルダの名前がStability Matrixと違っていたため対応付けが必要だった。YAML設定ファイル(ソフトウェアの設定を書いたテキストファイル)を確認しながら各フォルダを対応づけていった。

ひとつだけ存在しないフォルダがあったため手動で作成してYAMLに追記。これで全モデルフォルダが揃った。

画像生成の実験では、都会の背景を生成しようとすると意味不明な文字(AIが崩したテキスト)が混入する問題があった。プロンプト(生成指示)を調整して改善。

また、Google Translate Text Node(日本語プロンプトを自動で英語に翻訳してAIに渡すカスタムノード)を導入した。英語で考えるより日本語で書いた方がニュアンスを伝えやすいと感じていたので、これは便利だった。

さらに インペインティング(画像の一部だけを書き換える技術)を検証。人物の衣装替えをテキストで指示するだけで変えられる。思ったよりスムーズに動いてテンションが上がった。

DISCOVERY

Phase 2 & 3:動画・編集・音楽まで

動画生成 — まず Wan2.2 14B I2V(I2V=Image to Video、画像から動画を生成)に挑戦したが公式のバグに遭遇。GitHubにも同じ問題が報告されていたため修正待ちとして、LTX2.3 に切り替えた。

LTX2.3での検証では、元画像と同じ画角に設定すると出力品質が大きく変わることを発見。I2VとT2V(Text to Video、テキストから動画)では映像の傾向も違い、使い分けが必要だとわかった。2K×2Kでも問題なく動作することも確認。ローカルでこのクオリティが出せることに正直驚いた。

画像編集FireRed(テキストで画像を編集できるツール)を試した。「ここをこう変えて」とテキストで指示するだけで反映される。動作も軽めで使いやすい。

音楽生成ACE-Step で音楽生成を試した。日本語の歌詞を入力したら、特別な設定なしにそのまま日本語で歌ってくれた。ローカルで音楽まで作れるとは思っていなかった。

「Seedance 2.0レベルの高クオリティ動画がローカルで扱えるようになるのも時間の問題かもしれない。すごっ!」
TROUBLE

詰まったこと

TROUBLE 01
Wan2.2 14B I2V が公式バグで動作しなかった
GitHub に同じ問題のIssue(報告)が複数上がっていたため、現在は修正待ち。LTX2.3 で代替運用中。
TROUBLE 02
プロンプトに人物を書いても人物が出てこない
人物描写を書いてもキャラクターが出てこないケースがあった。人物描写をプロンプトの先頭に持ってくることで改善した。プロンプトの書く順序が生成結果に大きく影響するようだ。

SUMMARY

Stability Matrixの導入から始まり、画像生成・動画生成・画像編集・音楽生成とひと通り触ることができた。Wan2.2のバグに当たったり、フォルダ設定でつまずいたりしながらも、各ツールの特性がなんとなく掴めてきた。

ランニングコストを気にせずアイデアを壁打ちできる環境が整った。次は目的を絞って、各ツールをもっと深く使いこなしていきたい。

ALL AI / Gen Tools Artwork UEFN × Verse