# Създаване на приложение за генериране на изображения

Големите езикови модели не се ограничават само до генериране на текст. Възможно е също така да се създават изображения на база текстови описания. Изображенията като модалност могат да бъдат изключително полезни в различни области като медицински технологии, архитектура, туризъм, разработка на игри и други. В тази глава ще разгледаме двата най-популярни модела за генериране на изображения – DALL-E и Midjourney.

## Въведение

В този урок ще разгледаме:

- Генериране на изображения и защо е полезно.
- DALL-E и Midjourney – какво представляват и как работят.
- Как да създадете приложение за генериране на изображения.

## Учебни цели

След като завършите този урок, ще можете да:

- Създавате приложение за генериране на изображения.
- Определяте граници за вашето приложение с помощта на мета-подсказки.
- Работите с DALL-E и Midjourney.

## Защо да създадем приложение за генериране на изображения?

Приложенията за генериране на изображения са чудесен начин да изследвате възможностите на генеративния изкуствен интелект. Те могат да се използват например за:

- **Редактиране и синтез на изображения**. Можете да създавате изображения за различни цели, като редактиране или синтез на изображения.

- **Приложение в различни индустрии**. Могат да се използват за създаване на изображения в различни сфери като медицински технологии, туризъм, разработка на игри и други.

## Сценарий: Edu4All

В този урок ще продължим да работим със стартиращата компания Edu4All. Учениците ще създават изображения за своите задачи – какви точно ще бъдат изображенията зависи от тях, но могат да бъдат илюстрации към собствена приказка, нов герой за тяхната история или визуализация на идеи и концепции.

Ето какво биха могли да създадат учениците на Edu4All, ако работят в час по паметници:

![Edu4All startup, class on monuments, Eifel Tower](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.bg.png)

с помощта на подсказка като

> "Куче до Айфеловата кула на сутрешна слънчева светлина"

## Какво представляват DALL-E и Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) и [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) са два от най-популярните модела за генериране на изображения, които ви позволяват да използвате подсказки за създаване на изображения.

### DALL-E

Да започнем с DALL-E – това е генеративен AI модел, който създава изображения на база текстови описания.

> [DALL-E е комбинация от два модела – CLIP и дифузно внимание](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** е модел, който създава векторни представяния (ембединг) на данни от изображения и текст.

- **Дифузно внимание** е модел, който създава изображения на база ембедингите. DALL-E е обучен върху голям набор от изображения и текст и може да генерира изображения по текстово описание. Например, DALL-E може да създаде изображение на котка с шапка или куче с ирокез.

### Midjourney

Midjourney работи по подобен начин на DALL-E – създава изображения по текстови подсказки. С Midjourney също може да се генерират изображения с подсказки като „котка с шапка“ или „куче с ирокез“.


![Image generated by Midjourney, mechanical pigeon](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Източник: Wikipedia, изображение, генерирано с Midjourney*

## Как работят DALL-E и Midjourney

Първо, [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E е генеративен AI модел, базиран на трансформър архитектура с *авторегресивен трансформър*.

*Авторегресивният трансформър* определя как моделът създава изображения от текстови описания – генерира по един пиксел наведнъж, като използва вече създадените пиксели, за да създаде следващия. Това се случва през множество слоеве на невронна мрежа, докато изображението стане завършено.

Чрез този процес DALL-E контролира атрибути, обекти, характеристики и други елементи в създаваното изображение. DALL-E 2 и 3 обаче предоставят още по-голям контрол върху генерираното изображение,


## Създаване на първото ви приложение за генериране на изображения

Какво е необходимо, за да създадете приложение за генериране на изображения? Ще ви трябват следните библиотеки:

- **python-dotenv** – силно се препоръчва да използвате тази библиотека, за да държите своите тайни в *.env* файл, отделно от кода.
- **openai** – тази библиотека ще използвате, за да работите с OpenAI API.
- **pillow** – за работа с изображения в Python.
- **requests** – за да правите HTTP заявки.

1. Създайте файл *.env* със следното съдържание:

    ```text
    OPENAI_API_KEY='<add your OpenAI key here>'
    ```


1. Съберете горните библиотеки във файл, наречен *requirements.txt*, по следния начин:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. След това създайте виртуална среда и инсталирайте библиотеките:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> За Windows използвайте следните команди, за да създадете и активирате вашата виртуална среда:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Добавете следния код във файл с име *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv

    # import dotenv
    dotenv.load_dotenv()

    # Create OpenAI object
    client = OpenAI()


    try:
        # Create an image by using the image generation API
        generation_response = client.images.generate(
            model="dall-e-3",
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=1
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')

        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)

        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')

        # Retrieve the generated image
        print(generation_response)

        image_url = generation_response.data[0].url # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)

        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()

    # catch exceptions
    except client.error.InvalidRequestError as err:
        print(err)

    ```

Нека обясним този код:

- Първо, импортираме необходимите библиотеки, включително OpenAI библиотеката, dotenv, requests и Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv 
    ```

- След това създаваме обект, който ще вземе API ключа от вашия ``.env``.

    ```python
        # Create OpenAI object
        client = OpenAI()
    ```

- После генерираме изображението:

    ```python
    # Create an image by using the image generation API
    generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
    ```

    Горният код връща JSON обект, който съдържа URL адреса на генерираното изображение. Можем да използваме този URL, за да изтеглим изображението и да го запазим във файл.

- Накрая отваряме изображението и използваме стандартния преглед на изображения, за да го покажем:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### Повече подробности за генерирането на изображението

Нека разгледаме по-подробно кода, който генерира изображението:

```python
generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
```

- **prompt** е текстовият подканващ текст, който се използва за генериране на изображението. В този случай използваме подканата "Зайче на кон, държащо близалка, на мъглива поляна, където растат нарциси".
- **size** е размерът на генерираното изображение. В този случай генерираме изображение с размер 1024x1024 пиксела.
- **n** е броят на генерираните изображения. В този случай генерираме две изображения.

Има още неща, които можете да правите с изображения, които ще разгледаме в следващата секция.

## Допълнителни възможности за генериране на изображения

Досега видяхте как можем да генерираме изображение само с няколко реда код на Python. Но има и още възможности, които можете да използвате с изображенията.

Можете също така да правите следното:

- **Редактиране**. Като предоставите съществуващо изображение, маска и подканващ текст, можете да променяте изображение. Например, можете да добавите нещо към определена част от изображението. Представете си нашето изображение със зайчето – можете да добавите шапка на зайчето. Това става като подадете изображението, маска (която определя зоната за промяна) и текстова подканва, която описва какво да се направи.

    ```python
    response = openai.images.edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```

    Основното изображение ще съдържа само заека, но крайното изображение ще има шапка върху заека.

- **Създаване на вариации**. Идеята е да вземете съществуващо изображение и да поискате да се създадат негови варианти. За да създадете вариация, предоставяте изображение и текстова подканва, а кодът изглежда така:

    ```python
    response = openai.images.create_variation(
      image=open("bunny-lollipop.png", "rb"),
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```



---

**Отказ от отговорност**:  
Този документ е преведен с помощта на AI услуга за превод [Co-op Translator](https://github.com/Azure/co-op-translator). Въпреки че се стремим към точност, имайте предвид, че автоматизираните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия изходен език следва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Не носим отговорност за недоразумения или погрешни тълкувания, произтичащи от използването на този превод.
