# Создание приложения для генерации изображений

LLM могут делать гораздо больше, чем просто генерировать текст. С их помощью также можно создавать изображения по текстовым описаниям. Использование изображений как отдельной модальности может быть очень полезно в самых разных сферах — от медицины и архитектуры до туризма и разработки игр. В этой главе мы рассмотрим две самые популярные модели генерации изображений: DALL-E и Midjourney.

## Введение

В этом уроке мы разберём:

- Генерацию изображений и её преимущества.
- DALL-E и Midjourney: что это такое и как они работают.
- Как создать собственное приложение для генерации изображений.

## Цели обучения

После прохождения этого урока вы сможете:

- Создать приложение для генерации изображений.
- Определять рамки вашего приложения с помощью мета-промптов.
- Работать с DALL-E и Midjourney.

## Зачем создавать приложение для генерации изображений?

Приложения для генерации изображений — отличный способ познакомиться с возможностями генеративного ИИ. Их можно использовать, например, для:

- **Редактирования и синтеза изображений**. Можно создавать изображения для самых разных задач, например, для редактирования или синтеза новых изображений.

- **Применения в различных отраслях**. Такие приложения находят применение в медицине, туризме, игровой индустрии и других сферах.

## Сценарий: Edu4All

В рамках этого урока мы продолжим работать с нашим стартапом Edu4All. Студенты будут создавать изображения для своих заданий — какие именно, решают они сами: это могут быть иллюстрации к собственной сказке, новый персонаж для истории или визуализация идей и концепций.

Вот пример того, что могут создать студенты Edu4All, если на уроке они изучают памятники:

![Стартап Edu4All, урок о памятниках, Эйфелева башня](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.ru.png)

используя такой промпт, как

> "Собака рядом с Эйфелевой башней на рассвете"

## Что такое DALL-E и Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) и [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) — две самые популярные модели генерации изображений, которые позволяют создавать изображения по текстовым запросам.

### DALL-E

Начнём с DALL-E — это генеративная модель ИИ, которая создаёт изображения по текстовым описаниям.

> [DALL-E — это комбинация двух моделей: CLIP и diffused attention](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** — модель, которая создаёт эмбеддинги (числовые представления данных) для изображений и текста.

- **Diffused attention** — модель, которая генерирует изображения на основе эмбеддингов. DALL-E обучена на большом наборе изображений и текстов и может создавать изображения по текстовым описаниям. Например, с помощью DALL-E можно получить изображение кота в шляпе или собаки с ирокезом.

### Midjourney

Midjourney работает похожим образом: она также создаёт изображения по текстовым промптам. С помощью Midjourney можно, например, сгенерировать изображение “кота в шляпе” или “собаки с ирокезом”.

![Изображение, сгенерированное Midjourney, механический голубь](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Изображение сгенерировано Midjourney, источник — Wikipedia*

## Как работают DALL-E и Midjourney

Сначала рассмотрим [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E — это генеративная модель ИИ, основанная на архитектуре трансформеров с использованием *авторегрессионного трансформера*.

*Авторегрессионный трансформер* определяет, как модель создаёт изображения по текстовым описаниям: изображение генерируется по одному пикселю за раз, и уже созданные пиксели используются для генерации следующих. Этот процесс проходит через несколько слоёв нейронной сети, пока изображение не будет полностью готово.

Благодаря такому подходу DALL-E может управлять атрибутами, объектами, характеристиками и другими деталями создаваемого изображения. Однако DALL-E 2 и 3 дают ещё больше контроля над результатом,


## Создание вашего первого приложения для генерации изображений

Что нужно для создания приложения для генерации изображений? Вам понадобятся следующие библиотеки:

- **python-dotenv** — настоятельно рекомендуется использовать эту библиотеку, чтобы хранить секретные данные в файле *.env* отдельно от кода.
- **openai** — с помощью этой библиотеки вы будете взаимодействовать с OpenAI API.
- **pillow** — для работы с изображениями в Python.
- **requests** — чтобы выполнять HTTP-запросы.

1. Создайте файл *.env* со следующим содержимым:

    ```text
    AZURE_OPENAI_ENDPOINT=<your endpoint>
    AZURE_OPENAI_API_KEY=<your key>
    ```

    Найдите эту информацию в Azure Portal для вашего ресурса в разделе "Ключи и конечная точка".


1. Соберите перечисленные выше библиотеки в файл *requirements.txt* следующим образом:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```

1. Затем создайте виртуальное окружение и установите библиотеки:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Для Windows используйте следующие команды для создания и активации виртуального окружения:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Добавьте следующий код в файл с именем *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    
    # import dotenv
    dotenv.load_dotenv()
    
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY']     
    
    # Assign the API version (DALL-E is currently supported for the 2023-06-01-preview API version only)
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    
    
    try:
        # Create an image by using the image generation API
        generation_response = openai.Image.create(
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=2,
            temperature=0,
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')
    
        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)
    
        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')
    
        # Retrieve the generated image
        image_url = generation_response["data"][0]["url"]  # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)
    
        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()
    
    # catch exceptions
    except openai.InvalidRequestError as err:
        print(err)

    ```

Давайте разберём этот код:

- Сначала мы импортируем необходимые библиотеки, включая библиотеку OpenAI, dotenv, requests и Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    ```

- Затем мы загружаем переменные окружения из файла *.env*.

    ```python
    # import dotenv
    dotenv.load_dotenv()
    ```

- После этого мы указываем endpoint, ключ для OpenAI API, версию и тип.

    ```python
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY'] 

    # add version and type, Azure specific
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    ```

- Далее мы генерируем изображение:

    ```python
    # Create an image by using the image generation API
    generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
    ```

    Приведённый выше код возвращает JSON-объект, который содержит ссылку на сгенерированное изображение. Мы можем использовать эту ссылку, чтобы скачать изображение и сохранить его в файл.

- В конце мы открываем изображение и используем стандартную программу просмотра изображений для его отображения:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### Подробнее о генерации изображения

Давайте подробнее рассмотрим код, который отвечает за генерацию изображения:

```python
generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
```

- **prompt** — это текстовый запрос, который используется для генерации изображения. В данном случае мы используем запрос: "Кролик на лошади, держит леденец, на туманном лугу, где растут нарциссы".
- **size** — размер генерируемого изображения. В этом примере мы создаём изображение размером 1024x1024 пикселей.
- **n** — количество генерируемых изображений. В данном случае мы создаём два изображения.
- **temperature** — параметр, который определяет степень случайности результата генеративной модели ИИ. Значение температуры находится в диапазоне от 0 до 1: 0 означает полностью детерминированный результат, а 1 — максимально случайный. Значение по умолчанию — 0.7.

С изображениями можно делать и другие вещи, о которых мы расскажем в следующем разделе.

## Дополнительные возможности генерации изображений

Вы уже увидели, как можно сгенерировать изображение с помощью нескольких строк кода на Python. Однако с изображениями можно делать гораздо больше.

Вы также можете:

- **Редактировать изображения**. Предоставив существующее изображение, маску и текстовый запрос, вы можете изменить изображение. Например, можно добавить что-то на определённую часть изображения. Представьте наше изображение с кроликом — вы можете добавить кролику шляпу. Для этого нужно передать само изображение, маску (обозначающую область для изменения) и текстовый запрос, описывающий, что нужно сделать.

    ```python
    response = openai.Image.create_edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response['data'][0]['url']
    ```

    Базовое изображение будет содержать только кролика, а итоговое — кролика в шляпе.

- **Создавать вариации**.
    Подробнее смотрите в нашем [блокноте OpenAI](./oai-assignment.ipynb?WT.mc_id=academic-105485-koreyst).



---

**Отказ от ответственности**:  
Этот документ был переведен с помощью сервиса автоматического перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Несмотря на наши усилия обеспечить точность, автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.
