# Створення застосунку для генерації зображень

Можливості LLM не обмежуються лише генерацією тексту. Також можна створювати зображення на основі текстових описів. Використання зображень як ще одного виду даних може бути дуже корисним у багатьох сферах: від медичних технологій, архітектури, туризму, розробки ігор тощо. У цьому розділі ми розглянемо дві найпопулярніші моделі для генерації зображень — DALL-E та Midjourney.

## Вступ

У цьому уроці ми розглянемо:

- Генерацію зображень і чому це корисно.
- DALL-E та Midjourney: що це таке і як вони працюють.
- Як створити власний застосунок для генерації зображень.

## Навчальні цілі

Після проходження цього уроку ви зможете:

- Створити застосунок для генерації зображень.
- Визначати межі вашого застосунку за допомогою мета-промптів.
- Працювати з DALL-E та Midjourney.

## Навіщо створювати застосунок для генерації зображень?

Застосунки для генерації зображень — чудовий спосіб дослідити можливості генеративного ШІ. Їх можна використовувати, наприклад, для:

- **Редагування та синтезу зображень**. Можна створювати зображення для різних задач, таких як редагування чи синтез зображень.

- **Використання у різних галузях**. Також їх можна застосовувати для створення зображень у різних сферах: медтех, туризм, розробка ігор тощо.

## Сценарій: Edu4All

У цьому уроці ми продовжимо працювати з нашим стартапом Edu4All. Учні створюватимуть зображення для своїх завдань — які саме зображення, вирішують самі учні: це можуть бути ілюстрації до власної казки, новий персонаж для історії або візуалізація ідей та концепцій.

Ось приклад, що можуть створити учні Edu4All, якщо вони працюють на уроці над темою пам’яток:

![Стартап Edu4All, урок про пам’ятки, Ейфелева вежа](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.uk.png)

використовуючи такий промпт:

> "Собака біля Ейфелевої вежі на ранковому сонці"

## Що таке DALL-E та Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) та [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) — це дві найпопулярніші моделі для генерації зображень, які дозволяють створювати зображення за допомогою промптів.

### DALL-E

Почнемо з DALL-E — це генеративна модель ШІ, яка створює зображення на основі текстових описів.

> [DALL-E — це поєднання двох моделей: CLIP та diffused attention](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** — це модель, яка створює ембедінги, тобто числові представлення даних, зображень і тексту.

- **Diffused attention** — це модель, яка генерує зображення з ембедінгів. DALL-E навчена на великій кількості зображень і текстів, і може створювати зображення за текстовими описами. Наприклад, DALL-E може створити зображення кота в капелюсі або собаки з ірокезом.

### Midjourney

Midjourney працює схожим чином до DALL-E: генерує зображення за текстовими промптами. Midjourney також можна використовувати для створення зображень за запитами на кшталт “кіт у капелюсі” або “собака з ірокезом”.

![Зображення, створене Midjourney, механічний голуб](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Джерело: Wikipedia, зображення створене Midjourney*

## Як працюють DALL-E та Midjourney

Почнемо з [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E — це генеративна модель ШІ, побудована на архітектурі трансформерів з *авторегресивним трансформером*.

*Авторегресивний трансформер* визначає, як модель створює зображення з текстових описів: вона генерує по одному пікселю за раз, використовуючи вже створені пікселі для наступних, проходячи через кілька шарів нейронної мережі, поки зображення не буде завершене.

Завдяки цьому процесу DALL-E може контролювати атрибути, об’єкти, характеристики та інші деталі на створюваному зображенні. Проте DALL-E 2 та 3 дають ще більше контролю над результатом,


## Створення вашого першого застосунку для генерації зображень

Що потрібно для створення застосунку для генерації зображень? Вам знадобляться такі бібліотеки:

- **python-dotenv** — дуже рекомендується використовувати цю бібліотеку, щоб зберігати ваші секрети у файлі *.env* окремо від коду.
- **openai** — ця бібліотека потрібна для взаємодії з OpenAI API.
- **pillow** — для роботи із зображеннями у Python.
- **requests** — допоможе робити HTTP-запити.

1. Створіть файл *.env* з таким вмістом:

    ```text
    AZURE_OPENAI_ENDPOINT=<your endpoint>
    AZURE_OPENAI_API_KEY=<your key>
    ```

    Знайдіть цю інформацію в Azure Portal для вашого ресурсу у розділі "Keys and Endpoint".


1. Зберіть вищезазначені бібліотеки у файл під назвою *requirements.txt* ось так:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```

1. Далі створіть віртуальне середовище та встановіть бібліотеки:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Для Windows використовуйте наступні команди, щоб створити та активувати віртуальне середовище:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Додайте наступний код у файл з назвою *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    
    # import dotenv
    dotenv.load_dotenv()
    
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY']     
    
    # Assign the API version (DALL-E is currently supported for the 2023-06-01-preview API version only)
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    
    
    try:
        # Create an image by using the image generation API
        generation_response = openai.Image.create(
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=2,
            temperature=0,
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')
    
        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)
    
        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')
    
        # Retrieve the generated image
        image_url = generation_response["data"][0]["url"]  # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)
    
        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()
    
    # catch exceptions
    except openai.InvalidRequestError as err:
        print(err)

    ```

Пояснимо цей код:

- Спочатку імпортуємо необхідні бібліотеки, зокрема бібліотеку OpenAI, dotenv, requests та Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    ```

- Далі завантажуємо змінні середовища з файлу *.env*.

    ```python
    # import dotenv
    dotenv.load_dotenv()
    ```

- Після цього задаємо endpoint, ключ для OpenAI API, версію та тип.

    ```python
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY'] 

    # add version and type, Azure specific
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    ```

- Далі генеруємо зображення:

    ```python
    # Create an image by using the image generation API
    generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
    ```

    Наведений вище код повертає JSON-об'єкт, який містить URL згенерованого зображення. Ми можемо використати цей URL, щоб завантажити зображення та зберегти його у файл.

- Нарешті, відкриваємо зображення та використовуємо стандартний переглядач зображень, щоб його показати:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### Детальніше про генерацію зображення

Розглянемо детальніше код, який генерує зображення:

```python
generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
```

- **prompt** — це текстовий запит, який використовується для генерації зображення. У цьому випадку ми використовуємо запит "Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils".
- **size** — це розмір згенерованого зображення. У цьому прикладі ми створюємо зображення розміром 1024x1024 пікселів.
- **n** — це кількість згенерованих зображень. У цьому випадку ми генеруємо два зображення.
- **temperature** — це параметр, який визначає ступінь випадковості результату генеративної AI-моделі. Temperature — це значення від 0 до 1, де 0 означає детермінований результат, а 1 — повністю випадковий. Значення за замовчуванням — 0.7.

Є ще багато можливостей роботи із зображеннями, які ми розглянемо у наступному розділі.

## Додаткові можливості генерації зображень

Ви вже побачили, як можна згенерувати зображення за допомогою кількох рядків коду на Python. Проте, з зображеннями можна робити ще більше.

Ви також можете:

- **Редагувати зображення**. Якщо надати існуюче зображення, маску та текстовий запит, можна змінити зображення. Наприклад, можна додати щось до певної частини зображення. Уявіть наше зображення з кроликом — ви можете додати кролику капелюха. Для цього потрібно надати саме зображення, маску (яка визначає область для змін) і текстовий запит, що описує, що потрібно зробити.

    ```python
    response = openai.Image.create_edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response['data'][0]['url']
    ```

    Базове зображення міститиме лише кролика, а фінальне — вже з капелюхом на кролику.

- **Створювати варіації**.
    Дивіться наш [OpenAI notebook для додаткової інформації](./oai-assignment.ipynb?WT.mc_id=academic-105485-koreyst).



---

**Відмова від відповідальності**:  
Цей документ було перекладено за допомогою сервісу автоматичного перекладу [Co-op Translator](https://github.com/Azure/co-op-translator). Хоча ми прагнемо до точності, звертаємо вашу увагу, що автоматичний переклад може містити помилки або неточності. Оригінальний документ рідною мовою слід вважати авторитетним джерелом. Для отримання критично важливої інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильне тлумачення, що виникли внаслідок використання цього перекладу.
