# Tvorba aplikácie na generovanie obrázkov

LLM-ky nie sú len o generovaní textu. Je možné generovať aj obrázky na základe textových popisov. Mať obrázky ako ďalšiu modalitu je veľmi užitočné v mnohých oblastiach, od medicíny, architektúry, turizmu, vývoja hier a ďalších. V tejto kapitole sa pozrieme na dva najpopulárnejšie modely na generovanie obrázkov, DALL-E a Midjourney.

## Úvod

V tejto lekcii sa budeme venovať:

- Generovaniu obrázkov a prečo je to užitočné.
- DALL-E a Midjourney, čo sú zač a ako fungujú.
- Ako by ste mohli postaviť aplikáciu na generovanie obrázkov.

## Ciele učenia

Po absolvovaní tejto lekcie budete vedieť:

- Vytvoriť aplikáciu na generovanie obrázkov.
- Nastaviť hranice pre vašu aplikáciu pomocou meta promptov.
- Pracovať s DALL-E a Midjourney.

## Prečo vytvárať aplikáciu na generovanie obrázkov?

Aplikácie na generovanie obrázkov sú skvelým spôsobom, ako preskúmať možnosti generatívnej AI. Môžu sa využiť napríklad na:

- **Úpravu a syntézu obrázkov**. Môžete generovať obrázky pre rôzne použitia, napríklad na úpravu alebo syntézu obrázkov.

- **Využitie v rôznych odvetviach**. Dajú sa použiť na generovanie obrázkov pre rôzne odvetvia ako medicína, turizmus, vývoj hier a ďalšie.

## Scenár: Edu4All

V rámci tejto lekcie budeme pokračovať v práci s naším startupom Edu4All. Študenti budú vytvárať obrázky pre svoje zadania, aké obrázky si zvolia, je na nich – môžu to byť ilustrácie k vlastnej rozprávke, nový hrdina do príbehu alebo vizualizácia ich nápadov a konceptov.

Napríklad, ak v triede pracujú na téme pamiatok, študenti Edu4All môžu vygenerovať toto:

![Edu4All startup, hodina o pamiatkach, Eiffelova veža](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.sk.png)

pomocou promptu ako

> "Pes vedľa Eiffelovej veže v rannom slnečnom svetle"

## Čo je DALL-E a Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) a [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) sú dva z najpopulárnejších modelov na generovanie obrázkov, ktoré umožňujú vytvárať obrázky na základe promptov.

### DALL-E

Začnime s DALL-E, čo je generatívny AI model, ktorý vytvára obrázky z textových popisov.

> [DALL-E je kombináciou dvoch modelov, CLIP a diffused attention](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** je model, ktorý vytvára embeddingy, teda číselné reprezentácie dát, z obrázkov a textu.

- **Diffused attention** je model, ktorý generuje obrázky z embeddingov. DALL-E je trénovaný na datasete obrázkov a textov a dokáže generovať obrázky na základe textových popisov. Napríklad, DALL-E vie vygenerovať obrázok mačky s klobúkom alebo psa s čírom.

### Midjourney

Midjourney funguje podobne ako DALL-E, generuje obrázky na základe textových promptov. Midjourney môžete použiť na generovanie obrázkov pomocou promptov ako „mačka s klobúkom“ alebo „pes s čírom“.


![Obrázok vygenerovaný Midjourney, mechanický holub](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Zdroj obrázka Wikipedia, obrázok vygenerovaný Midjourney*

## Ako fungujú DALL-E a Midjourney

Najprv [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E je generatívny AI model založený na transformer architektúre s *autoregresívnym transformerom*.

*Autoregresívny transformer* určuje, ako model generuje obrázky z textových popisov – generuje jeden pixel po druhom a využíva už vygenerované pixely na vytvorenie ďalšieho. Tento proces prebieha cez viacero vrstiev neurónovej siete, až kým nie je obrázok hotový.

Vďaka tomuto procesu DALL-E ovláda vlastnosti, objekty, charakteristiky a ďalšie detaily v generovanom obrázku. Novšie verzie DALL-E 2 a 3 poskytujú ešte väčšiu kontrolu nad výsledným obrázkom,


## Vytvorenie vašej prvej aplikácie na generovanie obrázkov

Čo všetko potrebujete na vytvorenie aplikácie na generovanie obrázkov? Budete potrebovať tieto knižnice:

- **python-dotenv** – veľmi odporúčame použiť túto knižnicu na uchovávanie vašich citlivých údajov v súbore *.env* mimo zdrojového kódu.
- **openai** – túto knižnicu použijete na komunikáciu s OpenAI API.
- **pillow** – na prácu s obrázkami v Pythone.
- **requests** – na jednoduché vykonávanie HTTP požiadaviek.

1. Vytvorte súbor *.env* s nasledujúcim obsahom:

    ```text
    OPENAI_API_KEY='<add your OpenAI key here>'
    ```


1. Vyššie uvedené knižnice si uložte do súboru *requirements.txt* nasledovne:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. Ďalej vytvorte virtuálne prostredie a nainštalujte knižnice:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Pre Windows použite nasledujúce príkazy na vytvorenie a aktiváciu virtuálneho prostredia:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Pridajte nasledujúci kód do súboru s názvom *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv

    # import dotenv
    dotenv.load_dotenv()

    # Create OpenAI object
    client = OpenAI()


    try:
        # Create an image by using the image generation API
        generation_response = client.images.generate(
            model="dall-e-3",
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=1
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')

        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)

        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')

        # Retrieve the generated image
        print(generation_response)

        image_url = generation_response.data[0].url # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)

        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()

    # catch exceptions
    except client.error.InvalidRequestError as err:
        print(err)

    ```

Poďme si tento kód vysvetliť:

- Najskôr importujeme potrebné knižnice, vrátane knižnice OpenAI, dotenv, requests a Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv 
    ```

- Potom vytvoríme objekt, ktorý získa API kľúč z vášho súboru ``.env``.

    ```python
        # Create OpenAI object
        client = OpenAI()
    ```

- Následne vygenerujeme obrázok:

    ```python
    # Create an image by using the image generation API
    generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
    ```

    Vyššie uvedený kód odpovedá JSON objektom, ktorý obsahuje URL vygenerovaného obrázka. Túto URL môžeme použiť na stiahnutie obrázka a uloženie do súboru.

- Nakoniec otvoríme obrázok a použijeme štandardný prehliadač obrázkov na jeho zobrazenie:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### Podrobnejšie o generovaní obrázka

Pozrime sa podrobnejšie na kód, ktorý generuje obrázok:

```python
generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
```

- **prompt** je textový podnet, ktorý sa použije na vygenerovanie obrázka. V tomto prípade používame podnet „Zajac na koni, držiaci lízanku, na zahmlenej lúke, kde rastú narcisy“.
- **size** je veľkosť vygenerovaného obrázka. V tomto prípade generujeme obrázok s rozmermi 1024x1024 pixelov.
- **n** je počet obrázkov, ktoré sa vygenerujú. V tomto prípade generujeme dva obrázky.

S obrázkami sa dá robiť ešte viac, čomu sa budeme venovať v ďalšej časti.

## Ďalšie možnosti generovania obrázkov

Doteraz ste videli, ako sme dokázali vygenerovať obrázok pomocou niekoľkých riadkov v Pythone. S obrázkami sa však dá robiť ešte viac.

Môžete tiež:

- **Upravovať obrázky**. Ak poskytnete existujúci obrázok, masku a podnet, môžete obrázok zmeniť. Napríklad môžete do časti obrázka niečo pridať. Predstavte si náš obrázok so zajačikom – môžete mu pridať klobúk. Urobíte to tak, že zadáte obrázok, masku (ktorá určí časť obrázka na zmenu) a textový podnet, ktorý popíše, čo sa má urobiť.

    ```python
    response = openai.images.edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```

    Pôvodný obrázok by obsahoval iba zajačika, ale výsledný obrázok by mal na zajačikovi klobúk.

- **Vytvárať variácie**. Myšlienka je, že vezmete existujúci obrázok a požiadate o vytvorenie jeho variácií. Na vytvorenie variácie zadáte obrázok, textový podnet a kód podobne ako tu:

    ```python
    response = openai.images.create_variation(
      image=open("bunny-lollipop.png", "rb"),
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```



---

**Vyhlásenie o vylúčení zodpovednosti**:  
Tento dokument bol preložený pomocou AI prekladateľskej služby [Co-op Translator](https://github.com/Azure/co-op-translator). Hoci sa snažíme o presnosť, upozorňujeme, že automatizované preklady môžu obsahovať chyby alebo nepresnosti. Za autoritatívny zdroj sa považuje pôvodný dokument v jeho natívnom jazyku. Pre kritické informácie odporúčame profesionálny ľudský preklad. Nezodpovedáme za žiadne nedorozumenia alebo nesprávne interpretácie vzniknuté použitím tohto prekladu.
