# Tvorba aplikácie na generovanie obrázkov

LLM-ky nie sú len o generovaní textu. Je možné generovať aj obrázky na základe textových popisov. Obrázky ako ďalšia modalita môžu byť veľmi užitočné v rôznych oblastiach, od medicíny, architektúry, turizmu, vývoja hier a ďalších. V tejto kapitole sa pozrieme na dva najpopulárnejšie modely na generovanie obrázkov, DALL-E a Midjourney.

## Úvod

V tejto lekcii sa budeme venovať:

- Generovaniu obrázkov a jeho využitiu.
- DALL-E a Midjourney, čo sú zač a ako fungujú.
- Ako by ste mohli vytvoriť aplikáciu na generovanie obrázkov.

## Ciele učenia

Po absolvovaní tejto lekcie budete vedieť:

- Vytvoriť aplikáciu na generovanie obrázkov.
- Nastaviť hranice pre vašu aplikáciu pomocou meta promptov.
- Pracovať s DALL-E a Midjourney.

## Prečo vytvárať aplikáciu na generovanie obrázkov?

Aplikácie na generovanie obrázkov sú skvelým spôsobom, ako preskúmať možnosti generatívnej AI. Môžu sa využiť napríklad na:

- **Úpravu a syntézu obrázkov**. Môžete generovať obrázky pre rôzne účely, napríklad na úpravu alebo syntézu obrázkov.

- **Využitie v rôznych odvetviach**. Dajú sa použiť na generovanie obrázkov pre rôzne odvetvia ako medicína, turizmus, vývoj hier a ďalšie.

## Scenár: Edu4All

V rámci tejto lekcie budeme pokračovať v práci s naším startupom Edu4All. Študenti budú vytvárať obrázky pre svoje zadania, aké obrázky si zvolia, je na nich – môžu to byť ilustrácie k vlastnej rozprávke, nový hrdina do príbehu alebo vizualizácia ich nápadov a konceptov.

Napríklad, ak študenti v triede pracujú na téme pamiatok, môžu vygenerovať niečo takéto:

![Edu4All startup, hodina o pamiatkach, Eiffelova veža](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.sk.png)

pomocou promptu ako

> "Pes vedľa Eiffelovej veže za ranného slnečného svetla"

## Čo je DALL-E a Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) a [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) sú dva z najpopulárnejších modelov na generovanie obrázkov, ktoré umožňujú vytvárať obrázky na základe promptov.

### DALL-E

Začnime s DALL-E, čo je generatívny AI model, ktorý vytvára obrázky z textových popisov.

> [DALL-E je kombináciou dvoch modelov, CLIP a diffused attention](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** je model, ktorý vytvára embeddingy, teda číselné reprezentácie údajov, z obrázkov a textu.

- **Diffused attention** je model, ktorý generuje obrázky z embeddingov. DALL-E je trénovaný na množstve obrázkov a textov a dokáže generovať obrázky podľa textových popisov. Napríklad, DALL-E vie vytvoriť obrázok mačky s klobúkom alebo psa s čírom.

### Midjourney

Midjourney funguje podobne ako DALL-E, generuje obrázky na základe textových promptov. Aj Midjourney môžete použiť na generovanie obrázkov pomocou promptov ako „mačka s klobúkom“ alebo „pes s čírom“.

![Obrázok vygenerovaný Midjourney, mechanický holub](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Obrázok: Wikipedia, vygenerované pomocou Midjourney*

## Ako fungujú DALL-E a Midjourney

Najprv [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E je generatívny AI model založený na architektúre transformerov s *autoregresívnym transformerom*.

*Autoregresívny transformer* určuje, ako model generuje obrázky z textových popisov – generuje jeden pixel za druhým a už vygenerované pixely používa na vytvorenie ďalšieho. Tento proces prebieha cez viacero vrstiev neurónovej siete, až kým nie je obrázok hotový.

Vďaka tomuto procesu DALL-E ovláda vlastnosti, objekty, charakteristiky a ďalšie prvky v generovanom obrázku. Novšie verzie DALL-E 2 a 3 však poskytujú ešte väčšiu kontrolu nad výsledným obrázkom,


## Vytvorenie vašej prvej aplikácie na generovanie obrázkov

Čo všetko potrebujete na vytvorenie aplikácie na generovanie obrázkov? Budete potrebovať tieto knižnice:

- **python-dotenv** – veľmi odporúčame použiť túto knižnicu na uchovávanie vašich citlivých údajov v súbore *.env* mimo zdrojového kódu.
- **openai** – túto knižnicu použijete na komunikáciu s OpenAI API.
- **pillow** – na prácu s obrázkami v Pythone.
- **requests** – uľahčí vám posielanie HTTP požiadaviek.

1. Vytvorte súbor *.env* s nasledujúcim obsahom:

    ```text
    AZURE_OPENAI_ENDPOINT=<your endpoint>
    AZURE_OPENAI_API_KEY=<your key>
    ```

    Tieto informácie nájdete v Azure Portáli pre váš zdroj v sekcii „Kľúče a koncový bod“.


1. Zhromaždite vyššie uvedené knižnice do súboru s názvom *requirements.txt* nasledovne:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```

1. Ďalej vytvorte virtuálne prostredie a nainštalujte knižnice:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Pre Windows použite nasledujúce príkazy na vytvorenie a aktiváciu virtuálneho prostredia:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Pridajte nasledujúci kód do súboru s názvom *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    
    # import dotenv
    dotenv.load_dotenv()
    
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY']     
    
    # Assign the API version (DALL-E is currently supported for the 2023-06-01-preview API version only)
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    
    
    try:
        # Create an image by using the image generation API
        generation_response = openai.Image.create(
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=2,
            temperature=0,
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')
    
        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)
    
        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')
    
        # Retrieve the generated image
        image_url = generation_response["data"][0]["url"]  # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)
    
        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()
    
    # catch exceptions
    except openai.InvalidRequestError as err:
        print(err)

    ```

Poďme si tento kód vysvetliť:

- Najskôr importujeme potrebné knižnice, vrátane knižnice OpenAI, dotenv, requests a Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    ```

- Ďalej načítame environmentálne premenné zo súboru *.env*.

    ```python
    # import dotenv
    dotenv.load_dotenv()
    ```

- Potom nastavíme endpoint, kľúč pre OpenAI API, verziu a typ.

    ```python
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY'] 

    # add version and type, Azure specific
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    ```

- Následne vygenerujeme obrázok:

    ```python
    # Create an image by using the image generation API
    generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
    ```

    Vyššie uvedený kód odpovedá JSON objektom, ktorý obsahuje URL vygenerovaného obrázka. Túto URL môžeme použiť na stiahnutie obrázka a uloženie do súboru.

- Nakoniec otvoríme obrázok a použijeme štandardný prehliadač obrázkov na jeho zobrazenie:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### Podrobnejšie o generovaní obrázka

Pozrime sa podrobnejšie na kód, ktorý generuje obrázok:

```python
generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
```

- **prompt** je textový podnet, ktorý sa použije na vygenerovanie obrázka. V tomto prípade používame prompt „Zajac na koni, držiaci lízanku, na zahmlenej lúke, kde rastú narcisy“.
- **size** je veľkosť vygenerovaného obrázka. V tomto prípade generujeme obrázok s rozmermi 1024x1024 pixelov.
- **n** je počet vygenerovaných obrázkov. V tomto prípade generujeme dva obrázky.
- **temperature** je parameter, ktorý ovplyvňuje mieru náhodnosti výstupu generatívneho AI modelu. Hodnota temperature je medzi 0 a 1, kde 0 znamená, že výstup je deterministický a 1 znamená, že výstup je náhodný. Predvolená hodnota je 0,7.

S obrázkami sa dá robiť ešte viac, čomu sa budeme venovať v ďalšej časti.

## Ďalšie možnosti generovania obrázkov

Doteraz ste videli, ako sme dokázali vygenerovať obrázok pomocou niekoľkých riadkov v Pythone. S obrázkami sa však dá robiť ešte viac.

Môžete tiež:

- **Upravovať obrázky**. Ak poskytnete existujúci obrázok, masku a prompt, môžete obrázok zmeniť. Napríklad môžete do časti obrázka niečo pridať. Predstavte si náš obrázok so zajačikom – môžete mu pridať klobúk. Urobíte to tak, že zadáte obrázok, masku (ktorá určí časť obrázka na zmenu) a textový prompt, ktorý popíše, čo sa má urobiť.

    ```python
    response = openai.Image.create_edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response['data'][0]['url']
    ```

    Pôvodný obrázok by obsahoval iba zajačika, ale výsledný obrázok by mal zajačika s klobúkom.
    
- **Vytvárať variácie**.
    Pozrite si náš [OpenAI notebook pre viac informácií](./oai-assignment.ipynb?WT.mc_id=academic-105485-koreyst).



---

**Vyhlásenie o vylúčení zodpovednosti**:  
Tento dokument bol preložený pomocou AI prekladateľskej služby [Co-op Translator](https://github.com/Azure/co-op-translator). Hoci sa snažíme o presnosť, upozorňujeme, že automatizované preklady môžu obsahovať chyby alebo nepresnosti. Za autoritatívny zdroj by sa mal považovať pôvodný dokument v jeho natívnom jazyku. Pre kritické informácie odporúčame profesionálny ľudský preklad. Nezodpovedáme za žiadne nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.
