# 建立影像生成應用程式

大型語言模型（LLM）不僅僅能產生文字，也能根據文字描述生成圖片。將圖片作為一種表現形式，在醫療科技、建築、旅遊、遊戲開發等多個領域都非常有用。本章將介紹目前最受歡迎的兩個影像生成模型：DALL-E 和 Midjourney。

## 介紹

在本課程中，我們將會學到：

- 影像生成及其用途。
- DALL-E 和 Midjourney 是什麼，以及它們的運作方式。
- 如何打造一個影像生成應用程式。

## 學習目標

完成本課程後，你將能夠：

- 建立一個影像生成應用程式。
- 透過 meta prompts 為你的應用程式設定界限。
- 使用 DALL-E 和 Midjourney。

## 為什麼要建立影像生成應用程式？

影像生成應用程式是探索生成式 AI 能力的絕佳方式。舉例來說，它們可以用於：

- **影像編輯與合成**。你可以針對各種情境產生圖片，例如影像編輯或影像合成。

- **應用於多元產業**。這些工具也能為醫療科技、旅遊、遊戲開發等多個產業產生所需的圖片。

## 情境範例：Edu4All

在本課程中，我們會繼續以新創公司 Edu4All 為例。學生們可以為他們的作業創作圖片，具體要產生什麼圖片由學生自行決定，像是為自己的童話故事畫插圖、創造新角色，或是幫助他們將想法和概念具象化。

舉例來說，當 Edu4All 的學生在課堂上學習世界地標時，他們可以產生如下的圖片：

![Edu4All startup, class on monuments, Eifel Tower](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.tw.png)

使用像這樣的提示詞：

> 「狗狗在清晨陽光下站在艾菲爾鐵塔旁」

## 什麼是 DALL-E 和 Midjourney？

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) 和 [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) 是目前最受歡迎的兩個影像生成模型，讓你可以透過提示詞來產生圖片。

### DALL-E

我們先從 DALL-E 開始介紹。DALL-E 是一個生成式 AI 模型，能根據文字描述產生圖片。

> [DALL-E 是由兩個模型組成，CLIP 和 diffused attention](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst)。

- **CLIP** 是一個能從圖片和文字中產生嵌入向量（數值化資料表示）的模型。

- **Diffused attention** 則是根據嵌入向量產生圖片的模型。DALL-E 是在大量圖片和文字的資料集上訓練而成，可以根據文字描述產生圖片。例如，DALL-E 可以生成戴帽子的貓，或是有莫霍克頭的狗。

### Midjourney

Midjourney 的運作方式和 DALL-E 類似，都是根據文字提示產生圖片。Midjourney 也能用像「戴帽子的貓」或「有莫霍克頭的狗」這樣的提示詞來生成圖片。

![Image generated by Midjourney, mechanical pigeon](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*圖片來源：Wikipedia，圖片由 Midjourney 生成*

## DALL-E 和 Midjourney 的運作原理

首先來看 [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst)。DALL-E 是一個基於 transformer 架構的生成式 AI 模型，採用 *自回歸 transformer*。

*自回歸 transformer* 決定模型如何根據文字描述生成圖片：它會一次產生一個像素，然後利用已產生的像素來生成下一個像素。這個過程會經過神經網路的多層處理，直到整張圖片完成。

透過這個流程，DALL-E 可以控制生成圖片中的屬性、物件、特徵等。不過，DALL-E 2 和 3 在圖片細節的控制上更為精細，


## 建立你的第一個影像生成應用程式

那麼，要建立一個影像生成應用程式需要什麼呢？你需要以下這些函式庫：

- **python-dotenv**，強烈建議你使用這個函式庫，將你的機密資訊存放在 *.env* 檔案中，避免直接寫在程式碼裡。
- **openai**，這個函式庫用來與 OpenAI API 互動。
- **pillow**，用來在 Python 中處理影像。
- **requests**，協助你發送 HTTP 請求。

1. 建立一個 *.env* 檔案，內容如下：

    ```text
    AZURE_OPENAI_ENDPOINT=<your endpoint>
    AZURE_OPENAI_API_KEY=<your key>
    ```

    你可以在 Azure Portal 的「金鑰與端點」區段找到這些資訊。


1. 將上述的函式庫收集到一個名為 *requirements.txt* 的檔案中，如下所示：

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```

1. 接下來，建立虛擬環境並安裝這些函式庫：


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> 對於 Windows，請使用以下指令來建立並啟用你的虛擬環境：

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. 在名為 *app.py* 的檔案中加入以下程式碼：

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    
    # import dotenv
    dotenv.load_dotenv()
    
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY']     
    
    # Assign the API version (DALL-E is currently supported for the 2023-06-01-preview API version only)
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    
    
    try:
        # Create an image by using the image generation API
        generation_response = openai.Image.create(
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=2,
            temperature=0,
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')
    
        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)
    
        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')
    
        # Retrieve the generated image
        image_url = generation_response["data"][0]["url"]  # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)
    
        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()
    
    # catch exceptions
    except openai.InvalidRequestError as err:
        print(err)

    ```

讓我們來說明這段程式碼：

- 首先，我們匯入所需的函式庫，包括 OpenAI 函式庫、dotenv 函式庫、requests 函式庫，以及 Pillow 函式庫。

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    ```

- 接著，我們從 *.env* 檔案載入環境變數。

    ```python
    # import dotenv
    dotenv.load_dotenv()
    ```

- 然後，設定 OpenAI API 的 endpoint、金鑰、版本和型別。

    ```python
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY'] 

    # add version and type, Azure specific
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    ```

- 接下來，我們產生圖片：

    ```python
    # Create an image by using the image generation API
    generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
    ```

    上述程式碼會回傳一個包含產生圖片網址的 JSON 物件。我們可以利用這個網址下載圖片並儲存到檔案中。

- 最後，我們開啟圖片並用預設的圖片檢視器顯示它：

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### 產生圖片的更多細節

讓我們更詳細地看看產生圖片的程式碼：

```python
generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
```

- **prompt**，是用來產生圖片的文字提示。在這個例子中，我們使用的提示是「Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils」（兔子騎在馬上，手拿棒棒糖，站在長滿水仙花的霧氣草原上）。
- **size**，是產生圖片的尺寸。在這裡，我們產生的是 1024x1024 像素的圖片。
- **n**，是產生圖片的數量。在這裡，我們產生兩張圖片。
- **temperature**，是控制生成式 AI 模型輸出隨機性的參數。temperature 的值介於 0 到 1 之間，0 代表輸出是確定性的，1 則代表輸出是隨機的。預設值為 0.7。

關於圖片，你還可以做更多事情，我們會在下一節介紹。

## 影像生成的進階功能

到目前為止，你已經看到我們只用幾行 Python 程式碼就能產生圖片。不過，其實你還可以對圖片做更多操作。

你還可以做到以下幾點：

- **進行編輯**。只要提供一張現有的圖片、一個遮罩和一個提示詞，你就能修改圖片。例如，你可以在圖片的某個區域加上東西。以我們的兔子圖片為例，你可以幫兔子加上一頂帽子。做法是提供圖片、遮罩（標示要變更的區域），以及描述要做什麼的文字提示。

    ```python
    response = openai.Image.create_edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response['data'][0]['url']
    ```

    原始圖片只有兔子，但最後產生的圖片會有兔子戴著帽子。
    
- **產生變化版本**。
    想了解更多，請參考我們的 [OpenAI 筆記本](./oai-assignment.ipynb?WT.mc_id=academic-105485-koreyst)。



---

**免責聲明**：  
本文件係使用 AI 翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 翻譯而成。雖然我們致力於確保翻譯的準確性，但請注意，自動翻譯可能包含錯誤或不準確之處。原始語言的文件應視為具權威性的來源。對於重要資訊，建議尋求專業人工翻譯。我們對因使用本翻譯而產生的任何誤解或誤釋不承擔任何責任。
