初めての画像生成AI

Napple
2024年3月28日
読了時間: 3分

更新日：2024年5月24日

2024/3/28

　Stable Diffusionという生成エンジンを使ったWeb版画像生成サイトMage.spaceを使ってみた。

　「ゴジラ」をプロンプトに初めて生成した画像がこれだ。なんだかゴジラらしくない。四足歩行のゴジラだ。でも雰囲気は面白い。

　そこで参照画像を用いてゴジラ画像を生成させた第二弾がこれだ。一挙にすごい画像が出てきた。面白い。たかだか二度指示しただけで、こんな画像が見れるのはすごいけど、イメージした絵を描かせるにはどうすればいいかわからない。

　試行錯誤するのだが、どんどん絵がかけ離れていく。2枚目はまぐれだったようだ。あまり思うようにいかないから面白く無くなって。先日見た夢で浮かんだ言葉をそのまま放り込んだ。

　「この世には全てがある。善も悪も区別はない。全てがあるということは何もないということである」というプロンプトで生成した絵がこれだ！！。こんな言葉で生成することがまず驚きだ。でもなんでこんな絵になったのだろう。ぱっと見可愛いのだけど、よくみると指の数がおかしい。目もなんだかおかしい。背後霊のようなものはなんだろう？

　そこでプロンプトを英訳して放り込んだ。

「There is everything in this world.

　There is no distinction between good and bad.

　That there is everything

　It means that there is nothing」

するとどうだろう。なんだかそれらしい絵が出てきた。すごい。おもしろい。

　この4枚は作風が異なっている。ところが、どこか共通する雰囲気も感じる。それはAIの個性なのか、プロンプトを投げた者の何かが反映されるのか。ありうるのは同一のAIが描くからだろうけれど、プロンプトの投げ方で個性を抽出できるなら、絵を描くに近いものがそこにあるかもしれない。

Stable Diffusion

　Stable Diffusionは、イギリスのスタートアップ企業Stability AIが開発した画像生成AI。潜在拡散モデルというアルゴリズムが使われており、オープンソースAIとして公開されている。ユーザーが入力したテキストをもとに画像生成するので、テキストや単語が多ければ多いほど、ユーザーのイメージと近い画像を生成しやすくなる。Stable Diffusionは無料で使用できる上、作成枚数に制限がない。

　Stable Diffusionを使うには、Web版を使う方法とローカル版を使う方法の2種類がある。

Web上でStable Diffusionを使う場合、「Mage.space」「Dreamstudio」「Hugging Face」のサイトがある。ローカル版はPCに「Stable Diffusion web UI」というツールをインストールし、Stable Diffusionを使用できる環境を構築し、自分の好きなようにカスタマイズできる。ただしWindows版のみ。

Mage.space

　Mage.spaceは、Stable Diffusionを活用した画像生成サービスであり、誰でも簡単に高品質な画像を生成することができる。Mage.spaceはAIによる画像修正機能や多様なオプションが用意されている。

追記

　画像生成AIを使ってみたいと思っていた。使い慣れたChatGPTベースがいいのだが、良さそうなものに出会わない。たくさん出回ってきたが、セキュリティなど心配事は増やしたくないという気持ちもあり手が出なかった。Geminiも画像生成機能を試そうとしたときには画像生成機能を停止していた。結局登録段階でちゅうちょして放置したのがいくつもあった。とどのつまりは気力がなければ取り組めない。どういうわけか今日は突然気力が湧いてきた。結構な枚数出力したが、どうすれば思う絵が描けるかはまだわからない。また気力が湧いてきたらチャレンジ。とりあえずこれが画像生成AI初体験の記録。

AIとプログラムその2　｜　初めてのスマートプラグ　｜　プロンプト

1件のコメント

Napple

2024年3月31日

2024/3/31c

　4枚目の絵には言葉が書かれている。しかしなんと書かれているかわからなかった。そこでGeminiに画像を見せ、なんと書かれているか調べさせた。

Gemini：

左側

N は、おそらく 「IN」 の誤りと思われます。
VENTHING は、おそらく 「EVERYTHING」 の誤りと思われます。
WORLLD は、おそらく 「WORLD」 の誤りと思われます。
HIGAE は、おそらく 「WE」 の誤りと思われます。
DO は、おそらく 「DO」 のままと思われます。
WOULD. は、おそらく 「WOULD」 のままと思われます。
EVYERY/HHIN は、おそらく 「EVERYTHING」 の誤りと思われます。
IS は、おそらく 「IS」 のままと思われます。
THIRE IS は、おそらく 「THERE IS」 の誤りと思われます。
DISTUETHIS は、おそらく 「DISTURB THIS」 の誤りと思われます。

右側

Tarotting は、おそらく 「TAROT」 の誤りと思われます。
Rowe wiseta ore vide は、意味不明です。

翻訳

IN EVERYTHING WORLD は、「世界のすべてにおいて」 と訳せます。
WE DO WOULD EVERYTHING は、「私たちはすべてを知るためにタロットカードを使う」 と訳せます。
IS THERE IS DISTURB THIS は、「タロットカードは未来を予知したり、問題を解決したりする力を持つ」 と訳せます。

TAROT は、タロットカードを表していると考えられます。
Rowe wiseta ore vide は、タロットカードの作者や意味を表していると考えられますが、意味不明です。

結論

　この画像は、タロットカードの絵柄の一部と思われるが、意味は不明です。

補足

画像の文字は、おそらく手書きで書かれています。
画像の背景は、暗く、何が描かれているのかはよくわかりません。

　素晴らしい。絵に描かれたあやふやな文字を読み解くことができる。これは、すごいことかもしれない。意味不明な古文書を読み解いてくれるかもしれないのだ。