# 이미지 생성 애플리케이션 만들기

LLM은 텍스트 생성만 할 수 있는 것이 아닙니다. 텍스트 설명을 바탕으로 이미지를 생성하는 것도 가능합니다. 이미지는 다양한 분야, 예를 들어 의료 기술, 건축, 관광, 게임 개발 등에서 매우 유용하게 활용될 수 있습니다. 이번 장에서는 가장 인기 있는 이미지 생성 모델인 DALL-E와 Midjourney에 대해 알아보겠습니다.

## 소개

이 강의에서는 다음 내용을 다룹니다:

- 이미지 생성이 무엇이고, 왜 유용한지
- DALL-E와 Midjourney가 무엇이며, 어떻게 동작하는지
- 이미지 생성 앱을 어떻게 만들 수 있는지

## 학습 목표

이 강의를 마치면 다음을 할 수 있습니다:

- 이미지 생성 애플리케이션을 만들 수 있다.
- 메타 프롬프트로 애플리케이션의 범위를 정의할 수 있다.
- DALL-E와 Midjourney를 활용할 수 있다.

## 왜 이미지 생성 애플리케이션을 만들어야 할까요?

이미지 생성 애플리케이션은 생성형 AI의 가능성을 탐구하는 훌륭한 방법입니다. 예를 들어 다음과 같은 용도로 사용할 수 있습니다:

- **이미지 편집 및 합성**. 다양한 용도의 이미지를 생성할 수 있습니다. 예를 들어 이미지 편집이나 이미지 합성 등에 활용할 수 있습니다.

- **다양한 산업에 적용**. 의료 기술, 관광, 게임 개발 등 여러 산업에서 이미지를 생성하는 데 사용할 수 있습니다.

## 시나리오: Edu4All

이번 강의에서는 스타트업 Edu4All과 함께 계속 작업할 예정입니다. 학생들은 평가 과제를 위해 이미지를 만들게 되며, 어떤 이미지를 만들지는 학생들이 직접 정할 수 있습니다. 예를 들어 자신만의 동화책에 들어갈 삽화를 만들거나, 새로운 캐릭터를 창조하거나, 자신의 아이디어와 개념을 시각화하는 데 이미지를 활용할 수 있습니다.

예를 들어, Edu4All의 학생들이 수업 시간에 기념물에 대해 공부한다면 다음과 같은 이미지를 생성할 수 있습니다:

![Edu4All 스타트업, 기념물 수업, 에펠탑](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.ko.png)

아래와 같은 프롬프트를 사용해서요.

> "이른 아침 햇살 아래 에펠탑 옆에 있는 강아지"

## DALL-E와 Midjourney란?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst)와 [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst)는 가장 인기 있는 이미지 생성 모델 중 두 가지로, 프롬프트를 이용해 이미지를 생성할 수 있습니다.

### DALL-E

먼저 DALL-E부터 살펴보겠습니다. DALL-E는 텍스트 설명을 바탕으로 이미지를 생성하는 생성형 AI 모델입니다.

> [DALL-E는 CLIP과 diffused attention이라는 두 가지 모델의 조합입니다](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP**은 이미지와 텍스트로부터 임베딩(데이터의 수치적 표현)을 생성하는 모델입니다.

- **Diffused attention**은 임베딩을 바탕으로 이미지를 생성하는 모델입니다. DALL-E는 이미지와 텍스트로 이루어진 데이터셋으로 학습되어, 텍스트 설명을 바탕으로 이미지를 생성할 수 있습니다. 예를 들어, 모자를 쓴 고양이나, 모히칸 머리를 한 강아지 이미지를 만들 수 있습니다.

### Midjourney

Midjourney도 DALL-E와 비슷하게 텍스트 프롬프트로 이미지를 생성합니다. Midjourney 역시 “모자를 쓴 고양이”나 “모히칸 머리를 한 강아지”와 같은 프롬프트로 이미지를 만들 수 있습니다.

![Midjourney로 생성된 이미지, 기계 비둘기](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*이미지 출처: 위키피디아, Midjourney로 생성된 이미지*

## DALL-E와 Midjourney는 어떻게 동작할까

먼저 [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst)를 살펴보면, DALL-E는 *오토리그레시브 트랜스포머* 기반의 트랜스포머 아키텍처를 사용하는 생성형 AI 모델입니다.

*오토리그레시브 트랜스포머*는 모델이 텍스트 설명으로부터 이미지를 생성하는 방식을 정의합니다. 이미지를 한 픽셀씩 생성하고, 생성된 픽셀을 바탕으로 다음 픽셀을 만들어냅니다. 이 과정이 신경망의 여러 층을 거치면서 이미지가 완성됩니다.

이 과정을 통해 DALL-E는 생성되는 이미지의 속성, 객체, 특징 등을 제어할 수 있습니다. 하지만 DALL-E 2와 3는 생성된 이미지를 더 세밀하게 제어할 수 있습니다.


## 첫 번째 이미지 생성 애플리케이션 만들기

이미지 생성 애플리케이션을 만들려면 무엇이 필요할까요? 다음과 같은 라이브러리들이 필요합니다:

- **python-dotenv**: 비밀 정보를 코드와 분리된 *.env* 파일에 보관하기 위해 이 라이브러리 사용을 강력히 추천합니다.
- **openai**: OpenAI API와 상호작용할 때 사용할 라이브러리입니다.
- **pillow**: 파이썬에서 이미지를 다루기 위해 필요합니다.
- **requests**: HTTP 요청을 보낼 때 유용하게 사용할 수 있습니다.

1. 다음 내용을 가진 *.env* 파일을 만드세요:

    ```text
    OPENAI_API_KEY='<add your OpenAI key here>'
    ```


1. 위의 라이브러리들을 *requirements.txt*라는 파일에 다음과 같이 모아주세요:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. 다음으로, 가상 환경을 만들고 라이브러리들을 설치하세요:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Windows에서는 다음 명령어로 가상 환경을 만들고 활성화할 수 있습니다:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. *app.py*라는 파일에 다음 코드를 추가하세요:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv

    # import dotenv
    dotenv.load_dotenv()

    # Create OpenAI object
    client = OpenAI()


    try:
        # Create an image by using the image generation API
        generation_response = client.images.generate(
            model="dall-e-3",
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=1
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')

        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)

        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')

        # Retrieve the generated image
        print(generation_response)

        image_url = generation_response.data[0].url # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)

        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()

    # catch exceptions
    except client.error.InvalidRequestError as err:
        print(err)

    ```

이 코드에 대해 설명해보겠습니다:

- 먼저, 필요한 라이브러리들을 임포트합니다. 여기에는 OpenAI 라이브러리, dotenv 라이브러리, requests 라이브러리, 그리고 Pillow 라이브러리가 포함됩니다.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv 
    ```

- 그 다음, 객체를 생성해서 ``.env`` 파일에서 API 키를 가져옵니다.

    ```python
        # Create OpenAI object
        client = OpenAI()
    ```

- 이제 이미지를 생성합니다:

    ```python
    # Create an image by using the image generation API
    generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
    ```

    위 코드는 생성된 이미지의 URL이 담긴 JSON 객체를 반환합니다. 이 URL을 사용해서 이미지를 다운로드하고 파일로 저장할 수 있습니다.

- 마지막으로, 이미지를 열어서 기본 이미지 뷰어로 표시합니다:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### 이미지 생성에 대한 자세한 설명

이미지를 생성하는 코드를 좀 더 자세히 살펴보겠습니다:

```python
generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
```

- **prompt**는 이미지를 생성할 때 사용되는 텍스트 프롬프트입니다. 여기서는 "Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils"라는 프롬프트를 사용하고 있습니다.
- **size**는 생성되는 이미지의 크기입니다. 여기서는 1024x1024 픽셀 크기의 이미지를 생성합니다.
- **n**은 생성할 이미지의 개수입니다. 여기서는 두 개의 이미지를 생성합니다.

이미지로 할 수 있는 더 많은 기능들이 있으며, 다음 섹션에서 다룰 예정입니다.

## 이미지 생성의 추가 기능

지금까지 파이썬의 몇 줄만으로 이미지를 생성하는 방법을 살펴보았습니다. 하지만 이미지로 할 수 있는 일은 더 많습니다.

다음과 같은 작업도 할 수 있습니다:

- **이미지 편집**. 기존 이미지를 마스크와 프롬프트와 함께 제공하면 이미지를 수정할 수 있습니다. 예를 들어, 이미지의 일부에 무언가를 추가할 수 있습니다. 토끼 이미지에 모자를 씌우고 싶다면, 이미지를 제공하고, 변경할 부분을 지정하는 마스크와, 어떤 작업을 할지 설명하는 텍스트 프롬프트를 함께 전달하면 됩니다.

    ```python
    response = openai.images.edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```

    기본 이미지는 토끼만 있지만, 최종 이미지는 토끼가 모자를 쓰고 있게 됩니다.
    
- **변형 생성**. 기존 이미지를 바탕으로 다양한 변형 이미지를 만들 수 있습니다. 변형을 만들려면 이미지를 제공하고, 텍스트 프롬프트와 함께 다음과 같이 코드를 작성하면 됩니다:

    ```python
    response = openai.images.create_variation(
      image=open("bunny-lollipop.png", "rb"),
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```



---

**면책 조항**:  
이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있으나, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서(원어)가 공식적인 기준임을 유의해 주시기 바랍니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 본 번역 사용으로 인해 발생하는 오해나 오역에 대해 당사는 책임을 지지 않습니다.
