stable diffusionで画像生成していると、気に入った画像が生成されたにも関わらず余分なものが入ったり、手がおかしいとか顔が微妙に崩れていたりすることがあります。
stable diffusionのインペイントで修正も可能ですが、その手間を少しでも省くことができれば作業効率が上がります。
stable diffusionの拡張機能を使うことで画像修正の手間を省いたり、外部ツールを使用して画像の修正や余計な箇所を除去する方法があります。
今回はインストールしておくと便利なstable diffusionの拡張機能3つと、手軽に修正したり除去等の画像編集ができる外部ツールを紹介します。
それとその他の便利ツールも紹介しておきます。
stable diffusionの拡張機能
stable diffusionには様々な拡張機能があります。すべてを紹介することはできないので、自分が普段から使用している拡張機能を解説します。
AI任せでは好みの画像も運任せになってしまいます。自分が目指している画像を生成するために、これらの拡張機能を使いこなして下さい。
ControlNet(コントロールネット)
この拡張機能はStable Diffusionで画像生成しているほとんどのユーザーがインストールしているとは思いますが、改めて解説します。
コントロールネットは画像の構図やキャラクターのポーズなどを細かく指定することができる機能です。
事前に別の画像や深度情報を読み込んで、その内容を指示として生成する画像をコントロールできます。例えば参考写真と同じポーズを取らせたり、棒人間や線画でポーズを指示したりすることができます。
GitHubにはコントロールネットのソースコードやインストール方法、使い方などが公開されています。
*下記はhuggingfaceのURLになります。
コントロールネットにはいくつかの種類がありますが全部は紹介しきれないので、ここでは代表的なものを紹介します。
- canny(キャニー):この種類は画像の輪郭を検出して、その輪郭に沿って画像を生成する機能です。例えば、写真やイラストなどの画像を参照して、同じポーズや表情のキャラクターを生成したり、手書きの線画から色付きのイラストを生成したりすることができます。
- openpose(オープンポーズ):この種類は画像から人物のポーズを検出して、そのポーズに合わせて画像を生成する機能です。例えば、写真や動画などの画像を参照して、同じポーズのキャラクターを生成したり、棒人間やデッサン用の人形などでポーズを指示したりすることができます。
- hed(ヘッド):この種類はcannyに似た機能ですが、より直線的な輪郭を検出します。例えば、建物や乗り物などの画像を参照して、同じ形状のオブジェクトを生成したりすることができます。
- mlsd(エムエルエスディー):この種類はhedに似た機能ですが、より細かい輪郭を検出します。例えば、花や葉などの画像を参照して、同じ模様のオブジェクトを生成したりすることができます。
- depth(デプス):この種類は画像の深度情報を元に画像を生成する機能です。例えば、立体的な画像や景色などの画像を参照して、同じ空間的な配置のオブジェクトを生成したりすることができます。
- normal(ノーマル):この種類は画像の法線情報を元に画像を生成する機能です。例えば、光や影などの効果を加えたい場合に使えます。
- scribble(スクリブル):この種類は落書きやスケッチなどの画像からリアルな画像を生成する機能です。例えば、自分で描いたキャラクターや風景などの画像から本物そっくりの画像を生成したりすることができます。
他にも多くの種類(モデル)がありますが、とりあえずコントロールネットの主な種類について説明しました。
自分が特に使用しているのは「openpose」と「canny」で、他の機能は使ったことがありません。というかこのコントロールネットの全ての機能(モデル)をインストールするととんでもなくファイルが大きくなってしまうので、使用頻度が高いcannyとオープンポーズだけにしてます。
もし他の機能も試してみたいなら他のモデルもインストールしてみて下さい。
趣味や仕事などの用途によっては他の機能も必要になるかもしれません。もし容量に余裕があるなら機能を追加するのをオススメします。
adetailer(アフターディテーラー)
「adetailer」は、顔や手足を自動認識して崩れを補正してくれる拡張機能です。
画像生成時に顔や手足の範囲をマスキングして、その部分だけ再生成することで細部の描写を向上させます。
例えば「full body」や「multiple girls」などのプロンプトを使うと顔の描写範囲が小さくなって崩れてしまうことがありますが、「adetailer」を使えば綺麗に修正できます。
GitHubで一番最初に出てくるadetailerのURLを貼っておきます。
また「adetailer」では、顔や手足に対して独自のプロンプトを設定することもできます。例えば「smile」や「angry」などの表情を指定したり「holding a sword」や「pointing a gun」などのポーズを指定したりすることができます。
この拡張機能は特定の部位にもプロンプトを反映させることができるので、画像生成の品質や表現力を高めることが可能です。
この「adetailer」は画像生成する前に予めEnableをオンにしてます。画像生成中に顔や手を再認識しているのがわかります。
モデルは1stと2ndと2つ選択できるので、用途に応じてモデルに適応して下さい。
それでも手や指などの細かい部分で崩れることはあります。しかし大幅に修正する必要がないので、インストールしておけば後の修復がラクになります。stable diffusionのインペイントでも顔や手の修復が可能です。
ちなみにADetailerとHIRES.FIXを同時に使用すると、かなりの高画質で綺麗に仕上げることが可能になります。ただしこの機能を使うと画像生成に時間が掛かります。
*色々調べた結果、モデルの選択はイラスト系の顔には 「face_yolov8n.pt」もしくは「face_yolov8s.pt」を選択し、実写系の顔には「mediapipe_face_○○○」を使用します。手(hand)は、イラスト系、実写系どちらにも使用できます。
●体全体の修正に使用する(person_yolov8n-seg.pt)と(person_yolov8s-seg.pt) というモデルは、イラスト系の画像に対して学習されているので実写系の画像には対応できていないようです。実写系に対して使用するとうまく修正できないことがあります。
実写系の体全体の修正をする場合は「mediapipe_face_○○○」のどれかを使用して下さい。顔を修正するためのものですが、顔以外の部分も一部修正してくれる事があります。
もしくはアフターディテーラーを使わずにプロンプトだけで修正するのも良いかもしれません。
CloneCleaner(クローンクリーナー)
「CloneCleaner」は、同じような顔を生成しないための拡張機能です。
機能を有効にしてチェック項目に人物の特徴を指定すると、髪型や髪色、国籍などをランダムに変化させて多様な人物を生成します。
例えば「1girl,school uniform」と指定すれば、髪の長さや色、制服の種類などが異なる女子生徒の画像を生成できます。
この拡張機能は画像生成のマンネリ化を防ぐことや、自分が思いつかなかった人物を発見することができます。
モデルにもよりますが、プロンプトの内容を変更しない限りは大抵同じような顔の画像が生成されやすい印象です。
違うキャラクターや違う人物を生成したいときにこのクローンクリーナーが役に立ちます。この設定を有効にしておくと、生成した人物の名前、国籍、髪の長さ、髪型、髪の色までがランダムで生成できます。
ちょっと違う人物も生成したいときには使ってみると意外に面白いかもしれません。
*上記の拡張機能も次々に新しいバージョンがリリースされてますから、その度に機能やUIが変更される可能性があります。
外部ツールで画像編集・ファイル変換
ブラウザ上で手軽に画像編集できるツールは多くなっていますが、どれを使えばいいか迷ってしまいます。
下記に無料で手軽に使える外部ツールを紹介します。もっと機能を使いたい場合は有料になりますが、無料の範囲内でも十分に使えると思います。
ClipDrop(画像編集ツール)
この画像編集ツールはかなり使えるので特にオススメです!
クリップドロップはAIを使って画像を簡単に編集できるツールになります。画像のクリーンアップや光源を付け加えたり、画像の拡大、テキストの除去も行える優秀なツールです。
ClipDropは、もともとフランスのパリに拠点を置くInit ML社という会社が開発した画像編集AIツールです。
Init ML社は2020年に設立された新しい会社でしたが、2023年3月7日にStable Diffusionを開発したStability AI社が買収したことを発表しました。
その後ClipDropにもStable Diffusionの機能が追加されました。Stability AI社はClipDropの開発を継続しています。
ClipDropのサイトによると以下のような機能があります。
- Stable Diffusion XL:AIが高解像度でリアルな画像を生成します。
- Uncrop:写真を任意の画像形式に切り抜きます。
- Reimagine XL:Stable Diffusionで画像の複数のバリエーションを作成します。
- Stable Doodle:落書きをリアルな画像に変換します。
- Cleanup:画像からオブジェクト、人物、テキスト、欠陥などを自動的に除去します。
- Remove background:画像から主要な被写体を驚くほど正確に抽出します。
- Relight:画像に美しい光を加えます。
- Image upscaler:画像を2倍または4倍に拡大します。ノイズを除去したり、美しい細部を回復したりすることもできます。
- Replace background:AIで何でもどこでもテレポートできます。
- Text remover:画像からテキストを除去します。
- Clipdrop API:最先端のAIを自分のアプリに簡単に統合できます。
クリップドロップは、ウェブサイトやスマートフォンアプリで利用できます。
無料で使用出来ますが回数制限があり、一部の機能に制限がかけられます。必要であれば有料プランを購入することをオススメします。
- 月額1281円(税込)または年額8988円(税込)で利用できます。年額プランの場合は、月額あたり749円(税込)とお得になります。
- 無料プランでは利用できない機能が使えるようになります。例えば、Replace Background(背景を変える)、Stable Diffusion XL(オリジナル画像の生成)、Reimagine XL(類似画像の生成)などです。
- 画像のサイズや解像度、生成枚数などに制限がなくなります。例えば、Remove Background(背景を削除)やRelight(照明を調整)などの機能では、最大画像サイズが4096×4096ピクセルになります。
- 画像を保存する際に、透過PNGや高品質JPEGなどのフォーマットを選択できます。また動画を保存する際にも、高品質MP4やGIFなどのフォーマットを選択できます。
- ClipDrop APIを使って自分のアプリやウェブサイトにClipDropの機能を組み込むことができます。APIキーはProプランに登録すると発行されます。
以上がClipDropの有料プランについての説明です。ClipDropの有料プランは画像編集や生成に高度な機能や品質を求める方におすすめです。
このサイトは今のところ無料で利用してます。特にこのサイトでは画像の余分な箇所を除去したり、サンプル画像の余分なテキスト(看板などの文字)を消去できるし、シミやほくろを消すのに重宝します。
ちょっとした修正が手軽にできるところが非常に便利です!
他にも画像のアップスケールも手軽にできるので、大抵の編集ならこのサイトで間に合います。
*2024年に「Jasper」がStability AI社から画像編集プラットフォームのClipdropを買収したとのことです。現在、Clipdropホームページには「Clipdrop by Jasper」となっています。
これに伴い、月額料金も変更されていますので、気になる方はホームページを確認してください。
Convertio(ファイル変換ツール)
ConvertioはWEBPをPNGに変換するだけでなく、さまざまなファイル形式の変換が可能なオンラインツールです。Convertioのサイトによると、以下のような特徴があります。
- 300以上のファイル形式をサポートし、25600以上の様々な変換を行えます。
- クラウド上で変換を行うので、コンピューターの容量に影響しません。
- 変換後のファイルはすぐに削除されるので、プライバシーは完全に保護されます。
- ウェブブラウザやスマートフォンアプリで利用できます。
- 動画や画像などのファイルに対して、品質やアスペクト比、コーデックなどの設定をカスタマイズしたり、回転や反転などの編集を行うことができます。
Convertioは、文書、画像、スプレッドシート、電子書籍、アーカイブ、プレゼンテーション、音声及び動画のフォーマットをサポートしています。例えば、PDFをWordやExcelに変換したり、JPGをPNGやGIFに変換したり、MP3をWAVやM4Aに変換したりすることができます。
またテキストから音声に変換したり、画像からテキストに変換したりすることも可能です。さらにConvertioはAPIも提供しており、自分のアプリに最先端のAIを簡単に統合することができます。
Convertioはインストール不要で使える便利なツールですが、一部の機能は有料プランでしか利用できません。また無料プランではファイルサイズや変換回数に制限があります。そのため大量や高品質のファイル変換を行いたい場合は有料プランにアップグレードする必要があります。
ちなみにConvertioの有料プランはProプランと呼ばれるもので、以下のような特徴があります。
- 月額1281円(税込)または年額8988円(税込)で利用できます。年額プランの場合は、月額あたり749円(税込)とお得になります。
- 無料プランでは利用できない機能が使えるようになります。例えばテキストから音声に変換したり、画像からテキストに変換したりすることができます。
- 画像のサイズや解像度、変換回数などに制限がなくなります。例えばRemove Background(背景を削除)やRelight(照明を調整)などの機能では、最大画像サイズが4096×4096ピクセルになります。
- 画像を保存する際に、透過PNGや高品質JPEGなどのフォーマットを選択できます。また動画を保存する際にも高品質MP4やGIFなどのフォーマットを選択できます。
- Convertio APIを使って自分のアプリやウェブサイトにConvertioの機能を組み込むことができます。APIキーはProプランに登録すると発行されます。
このサイトも有効に使っています。
ウェブサイトで参考になりそうな画像を保存したりすることがありますが、画像サイズを変更するのにファイル形式が違うとサイズ変更出来ない場合があります。そんな時にこのツールを使えば手軽に変換可能です。
PoseMy.Art(ポーズ作成ツール)
PoseMy.Artは無料で使える3Dモデルを使ってポーズを作るツールです。以下のような特徴があります。
- 2400以上のアニメーションやポーズから選ぶことができます。
- マウスやタッチ操作で簡単にモデルの姿勢や角度を調整できます。
- 生成したポーズを画像や動画として保存できます。
- Stable Diffusionに対応したフォーマット(Open Pose, Depth, Canny, Normalsなど)で出力できます。
- リアルなモデルやアニメ風のモデル、さまざまな小道具などが豊富に用意されています1。
- ウェブブラウザやスマートフォンアプリで利用できます。
このサイトは自分の描きたいポーズやシーンを作るのに便利なツールです。Stable Diffusionのコントロールネットと連携することで、より自由に画像生成を制御することができます。
例えばPoseMy.Artで作ったポーズを画像として保存し、それをコントロールネットの「openpose」や「canny」などの種類に読み込ませることで、同じポーズのキャラクターを生成することができます。この方法はプロンプトだけでは表現しきれない細かいポーズや構図を指定するのに役立ちます。
ちなみにこのサイトでポーズを作ってみたんですが、使い方を熟知していないと上手くいきませんw ポーズを自由に作成するには慣れが必要です。
しかし指先の細かい部分まで指定出来る点はスゴイです。細部までこだわる人なら使ってみてはいかがでしょうか。
このサイトはすべて英語表記ですから日本語翻訳して使って下さい。ポーズ作成は慣れないと使いにくいと感じますが、使いこなすと画像生成の幅が拡がると思います。
ただ無料だと一日に作成出来るポーズや小道具に制限があります。
有料にするとポーズや小道具、作成できるポーズは無制限になります。(有料プランは月額980円です)もちろんアカウントを作成する必要があります。
*尚、今回紹介したサイトの料金は2023年9月のものです。有料プランは為替相場や運営側の都合で変更する場合があります。
まとめ
上記に挙げた拡張機能や外部ツールは、自分自身が使用していて非常に便利なものを紹介しました。
生成された画像も細かい修正や余分な箇所の除去が必要なケースがありますから、ちょっとした手直しをしたい時に活用して下さい。
まだこの他にも外部ツールはありますし、今後はもっと便利なツールもリリースされると思います。
便利な拡張機能やツールを使って今後の画像生成に生かして下さい。