# 画像生成アプリケーションの構築

LLMはテキスト生成だけではありません。テキストの説明から画像を生成することも可能です。画像というモダリティを活用することで、MedTech、建築、観光、ゲーム開発など、さまざまな分野で非常に役立ちます。この章では、最も人気のある画像生成モデルであるDALL-EとMidjourneyについて見ていきます。

## はじめに

このレッスンでは、以下の内容を扱います：

- 画像生成とは何か、なぜ役立つのか
- DALL-EとMidjourneyとは何か、それらがどのように動作するのか
- 画像生成アプリをどのように作るか

## 学習目標

このレッスンを終えた後、あなたは以下ができるようになります：

- 画像生成アプリケーションを構築する
- メタプロンプトを使ってアプリケーションの範囲を定義する
- DALL-EとMidjourneyを使いこなす

## なぜ画像生成アプリケーションを作るのか？

画像生成アプリケーションは、生成AIの可能性を探る素晴らしい方法です。例えば、以下のような用途で活用できます：

- **画像編集や合成**  
  画像編集や画像合成など、さまざまな用途のために画像を生成できます。

- **多様な業界での応用**  
  MedTech、観光、ゲーム開発など、さまざまな業界向けの画像生成にも利用できます。

## シナリオ：Edu4All

このレッスンでは、引き続きスタートアップのEdu4Allを題材に進めます。生徒たちは自分たちの課題のために画像を作成します。どんな画像を作るかは生徒次第ですが、自分の童話のイラストを描いたり、新しいキャラクターを作ったり、アイデアやコンセプトを視覚化するのに役立てたりできます。

例えば、Edu4Allの生徒が授業で記念碑について学んでいる場合、次のような画像を生成できます：

![Edu4All startup, class on monuments, Eifel Tower](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.ja.png)

このようなプロンプトを使って

> 「朝日が差し込むエッフェル塔のそばにいる犬」

## DALL-EとMidjourneyとは？

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst)と[Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst)は、最も人気のある画像生成モデルの2つで、プロンプトを使って画像を生成できます。

### DALL-E

まずはDALL-Eから見ていきましょう。DALL-Eは、テキストの説明から画像を生成する生成AIモデルです。

> [DALL-Eは、CLIPとdiffused attentionという2つのモデルを組み合わせたものです](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst)。

- **CLIP**は、画像やテキストから数値的な表現（埋め込み）を生成するモデルです。

- **Diffused attention**は、埋め込みから画像を生成するモデルです。DALL-Eは画像とテキストのデータセットで学習されており、テキストの説明から画像を生成できます。例えば、DALL-Eを使えば「帽子をかぶった猫」や「モヒカンの犬」の画像を作ることができます。

### Midjourney

MidjourneyもDALL-Eと同様に、テキストプロンプトから画像を生成します。Midjourneyでも「帽子をかぶった猫」や「モヒカンの犬」といったプロンプトで画像を作成できます。

![Image generated by Midjourney, mechanical pigeon](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*画像提供：Wikipedia、Midjourneyによる生成画像*

## DALL-EとMidjourneyはどのように動作するのか

まず[DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst)について。DALL-Eは、*オートレグレッシブトランスフォーマー*を用いたトランスフォーマーアーキテクチャに基づく生成AIモデルです。

*オートレグレッシブトランスフォーマー*は、テキストの説明から画像を生成する際の仕組みを定義しています。1ピクセルずつ生成し、生成したピクセルを使って次のピクセルを作り出します。ニューラルネットワークの複数の層を通過しながら、画像が完成するまでこのプロセスを繰り返します。

このプロセスによって、DALL-Eは生成する画像の属性やオブジェクト、特徴などをコントロールできます。ただし、DALL-E 2や3では、さらに細かく生成画像を制御できるようになっています。


## 初めての画像生成アプリケーションを作成する

画像生成アプリケーションを作るには何が必要でしょうか？以下のライブラリが必要です。

- **python-dotenv**：このライブラリを使うことで、シークレット情報をコードから分離して*.env*ファイルに保存できます。利用を強くおすすめします。
- **openai**：OpenAI APIとやり取りするために使うライブラリです。
- **pillow**：Pythonで画像を扱うためのライブラリです。
- **requests**：HTTPリクエストを送るのに役立ちます。

1. *.env*ファイルを作成し、次の内容を記述します。

    ```text
    OPENAI_API_KEY='<add your OpenAI key here>'
    ```


1. 上記のライブラリを *requirements.txt* というファイルにまとめてください。例：

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```

1. 次に、仮想環境を作成し、ライブラリをインストールします。


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Windowsの場合、仮想環境を作成して有効化するには、以下のコマンドを使用してください。

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. *app.py*というファイルに、次のコードを追加します。

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv

    # import dotenv
    dotenv.load_dotenv()

    # Create OpenAI object
    client = OpenAI()


    try:
        # Create an image by using the image generation API
        generation_response = client.images.generate(
            model="dall-e-3",
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=1
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')

        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)

        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')

        # Retrieve the generated image
        print(generation_response)

        image_url = generation_response.data[0].url # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)

        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()

    # catch exceptions
    except client.error.InvalidRequestError as err:
        print(err)

    ```

このコードについて説明します。

- まず、必要なライブラリをインポートします。OpenAIライブラリ、dotenvライブラリ、requestsライブラリ、Pillowライブラリなどです。

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv 
    ```

- 次に、APIキーを``.env``から取得するオブジェクトを作成します。

    ```python
        # Create OpenAI object
        client = OpenAI()
    ```

- 続いて、画像を生成します。

    ```python
    # Create an image by using the image generation API
    generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
    ```

    上記のコードは、生成された画像のURLを含むJSONオブジェクトを返します。このURLを使って画像をダウンロードし、ファイルとして保存できます。

- 最後に、画像を開いて標準の画像ビューアで表示します。

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### 画像生成の詳細

画像を生成するコードをもう少し詳しく見てみましょう。

```python
generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
```

- **prompt**は、画像を生成するためのテキストプロンプトです。この例では「Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils」というプロンプトを使っています。
- **size**は、生成される画像のサイズです。この場合、1024x1024ピクセルの画像を生成しています。
- **n**は、生成する画像の枚数です。この例では2枚の画像を生成しています。

画像に関しては、他にもできることがあり、次のセクションで紹介します。

## 画像生成の追加機能

ここまでで、Pythonの数行のコードで画像を生成できることが分かりました。しかし、画像に対してできることは他にもあります。

例えば、次のようなことも可能です。

- **編集を行う**  
  既存の画像、マスク、プロンプトを指定することで、画像を編集できます。例えば、画像の一部に何かを追加することができます。ウサギの画像を例にすると、ウサギに帽子をかぶせることができます。やり方は、画像、マスク（変更したい部分を指定）、そして何をしたいかを説明するテキストプロンプトを用意します。

    ```python
    response = openai.images.edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```

    元の画像にはウサギだけが写っていますが、最終的な画像にはウサギに帽子が追加されます。

- **バリエーションを作成する**  
  既存の画像をもとに、バリエーションを作成することもできます。バリエーションを作るには、画像とテキストプロンプトを指定し、次のようなコードを書きます。

    ```python
    response = openai.images.create_variation(
      image=open("bunny-lollipop.png", "rb"),
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```



---

**免責事項**:  
本書類はAI翻訳サービス [Co-op Translator](https://github.com/Azure/co-op-translator) を使用して翻訳されています。正確性には努めておりますが、自動翻訳には誤りや不正確な表現が含まれる場合があります。原文（原言語の文書）が正式な情報源と見なされるべきです。重要な情報については、専門の人間による翻訳を推奨します。本翻訳の利用により生じたいかなる誤解や誤訳についても、当方は一切の責任を負いかねます。
