# Изградња апликације за генерисање слика

Постоји много више у LLM-овима од самог генерисања текста. Могуће је и генерисати слике на основу текстуалних описа. Слике као модалитет могу бити изузетно корисне у бројним областима као што су медициска технологија, архитектура, туризам, развој игара и још много тога. У овом поглављу ћемо се упознати са два најпопуларнија модела за генерисање слика, DALL-E и Midjourney.

## Увод

У овој лекцији ћемо обрадити:

- Генерисање слика и зашто је то корисно.
- DALL-E и Midjourney, шта су и како функционишу.
- Како можете направити апликацију за генерисање слика.

## Циљеви учења

Након завршене лекције, моћи ћете да:

- Направите апликацију за генерисање слика.
- Дефинишете границе ваше апликације помоћу мета промптова.
- Радите са DALL-E и Midjourney.

## Зашто правити апликацију за генерисање слика?

Апликације за генерисање слика су одличан начин да истражите могућности генеративне вештачке интелигенције. Могу се користити, на пример, за:

- **Уређивање и синтезу слика**. Можете генерисати слике за разне намене, као што су уређивање и синтеза слика.

- **Примена у различитим индустријама**. Такође се могу користити за генерисање слика у различитим индустријама као што су медтек, туризам, развој игара и друго.

## Сценарио: Edu4All

У оквиру ове лекције настављамо рад са нашим стартапом, Edu4All. Ученици ће креирати слике за своје задатке, а које ће то слике бити зависи од њих самих – могу бити илустрације за њихову бајку, нови лик за причу или им помоћи да визуализују своје идеје и концепте.

Ево шта би, на пример, ученици Edu4All-а могли да направе ако на часу раде о споменицима:

![Edu4All стартап, час о споменицима, Ајфелова кула](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.sr.png)

користећи промпт као што је

> "Пас поред Ајфелове куле на раном јутарњем сунцу"

## Шта су DALL-E и Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) и [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) су два најпопуларнија модела за генерисање слика, који вам омогућавају да користите промптове за креирање слика.

### DALL-E

Почнимо са DALL-E, који је генеративни AI модел који ствара слике на основу текстуалних описа.

> [DALL-E је комбинација два модела, CLIP и дифузне пажње](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** је модел који генерише ембедингсе, односно нумеричке представе података, из слика и текста.

- **Дифузна пажња** је модел који ствара слике из ембединга. DALL-E је трениран на скупу података слика и текста и може се користити за генерисање слика на основу текстуалних описа. На пример, DALL-E може да направи слику мачке са шеширом или пса са ирокез фризуром.

### Midjourney

Midjourney ради на сличан начин као DALL-E, генерише слике на основу текстуалних промптова. Midjourney се такође може користити за креирање слика помоћу промптова као што су „мачка са шеширом“ или „пас са ирокез фризуром“.

![Слика коју је генерисао Midjourney, механички голуб](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Извор: Википедија, слику је генерисао Midjourney*

## Како функционишу DALL-E и Midjourney

Прво, [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E је генеративни AI модел заснован на архитектури трансформера са *ауторегресивним трансформером*.

*Ауторегресивни трансформер* одређује како модел генерише слике из текстуалних описа – генерише један по један пиксел, а затим користи већ генерисане пикселе да направи следећи. Овај процес пролази кроз више слојева неуронске мреже, све док слика не буде комплетна.

Овим поступком DALL-E контролише атрибуте, објекте, карактеристике и још много тога на слици коју ствара. Међутим, DALL-E 2 и 3 имају још већу контролу над генерисаном сликом,


## Прављење ваше прве апликације за генерисање слика

Шта је све потребно да бисте направили апликацију за генерисање слика? Потребне су вам следеће библиотеке:

- **python-dotenv**, препоручује се да користите ову библиотеку како бисте чували своје поверљиве податке у *.env* фајлу, одвојено од кода.
- **openai**, ову библиотеку ћете користити за комуникацију са OpenAI API-јем.
- **pillow**, за рад са сликама у Python-у.
- **requests**, за лакше слање HTTP захтева.

1. Направите фајл *.env* са следећим садржајем:

    ```text
    OPENAI_API_KEY='<add your OpenAI key here>'
    ```


1. Sakupite gore navedene biblioteke u fajl pod nazivom *requirements.txt* na sledeći način:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. Zatim, napravite virtuelno okruženje i instalirajte biblioteke:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> За Windows, користите следеће команде да направите и активирате своје виртуелно окружење:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Додајте следећи код у фајл који се зове *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv

    # import dotenv
    dotenv.load_dotenv()

    # Create OpenAI object
    client = OpenAI()


    try:
        # Create an image by using the image generation API
        generation_response = client.images.generate(
            model="dall-e-3",
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=1
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')

        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)

        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')

        # Retrieve the generated image
        print(generation_response)

        image_url = generation_response.data[0].url # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)

        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()

    # catch exceptions
    except client.error.InvalidRequestError as err:
        print(err)

    ```

Хајде да објаснимо овај код:

- Прво увозимо потребне библиотеке, укључујући OpenAI библиотеку, dotenv библиотеку, requests библиотеку и Pillow библиотеку.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv 
    ```

- Затим креирамо објекат који ће преузети API кључ из вашег ``.env`` фајла.

    ```python
        # Create OpenAI object
        client = OpenAI()
    ```

- Следеће, генеришемо слику:

    ```python
    # Create an image by using the image generation API
    generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
    ```

    Код изнад враћа JSON објекат који садржи URL генерисане слике. Можемо да искористимо тај URL да преузмемо слику и сачувамо је у фајл.

- На крају, отварамо слику и користимо стандардни прегледач слика да је прикажемо:

    ```python
    image = Image.open(image_path)
    image.show()
    ```
    
### Детаљније о генерисању слике

Погледајмо детаљније код који генерише слику:

```python
generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
```

- **prompt** је текстуални упит који се користи за генерисање слике. У овом случају, користимо упит "Зека на коњу, држи лизалицу, на магловитој ливади где расту нарциси".
- **size** је величина слике која се генерише. Овде генеришемо слику димензија 1024x1024 пиксела.
- **n** је број слика које се генеришу. У овом примеру, генеришемо две слике.

Постоји још могућности које можете да радите са сликама, а о томе ћемо причати у наредном делу.

## Додатне могућности генерисања слика

Видели сте до сада како смо могли да генеришемо слику са неколико линија кода у Python-у. Међутим, постоје и друге ствари које можете да радите са сликама.

Такође можете да урадите следеће:

- **Измене слика**. Ако дате постојећу слику, маску и упит, можете да измените слику. На пример, можете да додате нешто на део слике. Замислите нашу слику зеке – можете да додате шешир зеки. То се ради тако што дате слику, маску (која означава део који треба да се промени) и текстуални упит шта треба да се уради.

    ```python
    response = openai.images.edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```

    Основна слика би садржала само зеку, али коначна слика би имала шешир на зеки.
    
- **Прављење варијација**. Идеја је да узмете постојећу слику и затражите да се направе њене варијације. Да бисте направили варијацију, дате слику и текстуални упит и код изгледа овако:

    ```python
    response = openai.images.create_variation(
      image=open("bunny-lollipop.png", "rb"),
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```



---

**Одрицање од одговорности**:  
Овај документ је преведен коришћењем AI услуге за превођење [Co-op Translator](https://github.com/Azure/co-op-translator). Иако настојимо да обезбедимо тачност, имајте у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на изворном језику треба сматрати меродавним извором. За критичне информације препоручујемо професионални људски превод. Не сносимо одговорност за било каква неспоразума или погрешна тумачења настала коришћењем овог превода.
