# 建立圖像生成應用程式

大型語言模型（LLM）不只可以產生文字，也能根據文字描述生成圖像。圖像作為一種表現形式，在醫療科技、建築、旅遊、遊戲開發等多個領域都非常有用。本章將介紹目前最受歡迎的兩個圖像生成模型：DALL-E 和 Midjourney。

## 前言

在這一課中，我們會學到：

- 圖像生成是什麼，以及它的實用性。
- 什麼是 DALL-E 和 Midjourney，以及它們的運作方式。
- 如何打造一個圖像生成應用程式。

## 學習目標

完成本課後，你將能夠：

- 建立一個圖像生成應用程式。
- 透過 meta prompts 為你的應用程式設定界線。
- 使用 DALL-E 和 Midjourney。

## 為什麼要建立圖像生成應用程式？

圖像生成應用程式是探索生成式 AI 能力的好方法。它們可以應用在多種情境，例如：

- **圖像編輯與合成**。你可以針對不同需求產生圖像，例如圖像編輯或圖像合成。

- **應用於多元產業**。這些工具也能為醫療科技、旅遊、遊戲開發等產業產生所需的圖像。

## 情境範例：Edu4All

在這一課中，我們會繼續以新創團隊 Edu4All 為例。學生們可以為他們的作業創作圖像，圖像內容由學生自行決定，可能是童話故事的插圖、故事角色設計，或是幫助他們將想法和概念具象化。

舉例來說，當 Edu4All 的學生在課堂上學習世界地標時，他們可以產生像這樣的圖像：

![Edu4All startup, class on monuments, Eifel Tower](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.mo.png)

使用像這樣的提示詞

> 「狗狗在清晨陽光下站在艾菲爾鐵塔旁」

## 什麼是 DALL-E 和 Midjourney？

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) 和 [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) 是目前最受歡迎的兩個圖像生成模型，讓你可以透過提示詞來產生圖像。

### DALL-E

我們先從 DALL-E 開始介紹。DALL-E 是一個生成式 AI 模型，可以根據文字描述產生圖像。

> [DALL-E 是由兩個模型組成，CLIP 和 diffused attention](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst)。

- **CLIP** 是一個模型，能將圖像和文字轉換成數值向量（embeddings），也就是資料的數值化表示。

- **Diffused attention** 則是根據這些向量來生成圖像的模型。DALL-E 是在大量圖像和文字資料集上訓練而成，可以根據文字描述產生圖像。例如，DALL-E 可以生成戴帽子的貓，或是有莫霍克頭的狗。

### Midjourney

Midjourney 的運作方式和 DALL-E 類似，也是根據文字提示產生圖像。你可以用像「戴帽子的貓」或「有莫霍克頭的狗」這樣的提示詞來生成圖像。

![Image generated by Midjourney, mechanical pigeon](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*圖片來源：Wikipedia，圖像由 Midjourney 生成*

## DALL-E 和 Midjourney 的運作原理

首先來看 [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst)。DALL-E 是一個基於 transformer 架構的生成式 AI 模型，採用 *自回歸 transformer*。

*自回歸 transformer* 決定模型如何根據文字描述生成圖像：它會一次產生一個像素，然後利用已產生的像素來生成下一個像素。這個過程會經過神經網路的多層處理，直到整張圖像完成。

透過這個流程，DALL-E 可以控制圖像中出現的屬性、物件、特徵等。不過，DALL-E 2 和 3 在圖像細節的控制上又更進一步，


## 建立你的第一個圖像生成應用程式

那麼，要建立一個圖像生成應用程式需要什麼呢？你需要以下這些函式庫：

- **python-dotenv**，強烈建議你使用這個函式庫，將你的機密資訊存放在 *.env* 檔案中，避免直接寫在程式碼裡。
- **openai**，這個函式庫讓你可以和 OpenAI API 互動。
- **pillow**，用來在 Python 裡處理圖片。
- **requests**，協助你發送 HTTP 請求。

1. 建立一個 *.env* 檔案，內容如下：

    ```text
    OPENAI_API_KEY='<add your OpenAI key here>'
    ```


1. 把上面提到的函式庫收集到一個叫做 *requirements.txt* 的檔案裡，像這樣：

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```

1. 接著，建立虛擬環境並安裝這些函式庫：


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> 在 Windows 上，請使用以下指令來建立並啟動你的虛擬環境：

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. 在名為 *app.py* 的檔案中加入以下程式碼：

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv

    # import dotenv
    dotenv.load_dotenv()

    # Create OpenAI object
    client = OpenAI()


    try:
        # Create an image by using the image generation API
        generation_response = client.images.generate(
            model="dall-e-3",
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=1
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')

        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)

        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')

        # Retrieve the generated image
        print(generation_response)

        image_url = generation_response.data[0].url # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)

        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()

    # catch exceptions
    except client.error.InvalidRequestError as err:
        print(err)

    ```

我們來說明一下這段程式碼：

- 首先，我們匯入所需的函式庫，包括 OpenAI 函式庫、dotenv 函式庫、requests 函式庫，以及 Pillow 函式庫。

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv 
    ```

- 接著，我們建立物件，這個物件會從你的 ``.env`` 檔案中取得 API 金鑰。

    ```python
        # Create OpenAI object
        client = OpenAI()
    ```

- 然後，我們產生圖片：

    ```python
    # Create an image by using the image generation API
    generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
    ```

    上面的程式碼會回傳一個包含產生圖片網址的 JSON 物件。我們可以利用這個網址下載圖片並儲存到檔案中。

- 最後，我們開啟圖片，並用預設的圖片檢視器來顯示它：

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### 產生圖片的更多細節

我們來更詳細看看產生圖片的程式碼：

```python
generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
```

- **prompt**，是用來產生圖片的文字提示。在這個例子中，我們用的提示是「Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils」。
- **size**，是產生圖片的尺寸。這裡我們產生的是 1024x1024 像素的圖片。
- **n**，是產生圖片的數量。這裡我們產生兩張圖片。

關於圖片，你還可以做更多事情，我們會在下一節介紹。

## 產生圖片的進階功能

到目前為止，你已經看到我們只用幾行 Python 程式就能產生圖片。不過，其實你還可以對圖片做更多操作。

你還可以這樣做：

- **進行編輯**。你可以提供一張現有的圖片、一個遮罩和一個提示，來修改圖片。例如，你可以在圖片的某個部分加上東西。以我們的兔子圖片為例，你可以幫兔子加上一頂帽子。做法就是提供圖片、遮罩（標示要更改的區域），再加上一個文字提示說明要做什麼。

    ```python
    response = openai.images.edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```

    原始圖片只有兔子，但最後產生的圖片會有兔子戴著帽子。
    
- **產生變化版本**。這個功能是讓你用一張現有的圖片，請系統產生不同的變化版本。要產生變化，只要提供一張圖片和一個文字提示，然後用類似下面的程式碼：

    ```python
    response = openai.images.create_variation(
      image=open("bunny-lollipop.png", "rb"),
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```



---

**免責聲明**：  
本文件係使用 AI 翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 翻譯。雖然我們力求準確，但請注意，自動翻譯可能包含錯誤或不準確之處。原始語言之文件應視為具權威性的來源。對於重要資訊，建議尋求專業人工翻譯。我們對因使用本翻譯而產生的任何誤解或誤釋不承擔任何責任。
