# Vytvoření aplikace pro generování obrázků

LLM nejsou jen o generování textu. Je také možné generovat obrázky na základě textových popisů. Obrázky jako další modalita mohou být velmi užitečné v mnoha oblastech, například v medicíně, architektuře, cestovním ruchu, vývoji her a dalších. V této kapitole se podíváme na dva nejpopulárnější modely pro generování obrázků: DALL-E a Midjourney.

## Úvod

V této lekci se budeme věnovat:

- Generování obrázků a proč je užitečné.
- DALL-E a Midjourney, co to je a jak fungují.
- Jak byste mohli vytvořit aplikaci pro generování obrázků.

## Cíle učení

Po dokončení této lekce budete schopni:

- Vytvořit aplikaci pro generování obrázků.
- Nastavit hranice pro vaši aplikaci pomocí meta promptů.
- Pracovat s DALL-E a Midjourney.

## Proč vytvářet aplikaci pro generování obrázků?

Aplikace pro generování obrázků jsou skvělým způsobem, jak prozkoumat možnosti generativní AI. Mohou být využity například pro:

- **Úpravu a syntézu obrázků**. Můžete generovat obrázky pro různé účely, například pro úpravu nebo syntézu obrázků.

- **Využití v různých odvětvích**. Mohou být také použity k vytváření obrázků pro různá odvětví, jako je medicína, cestovní ruch, vývoj her a další.

## Scénář: Edu4All

V rámci této lekce budeme pokračovat v práci s naším startupem Edu4All. Studenti budou vytvářet obrázky pro své úkoly – jaké obrázky to budou, záleží na nich. Mohou to být ilustrace k jejich vlastní pohádce, vytvoření nové postavy do příběhu nebo vizualizace jejich nápadů a konceptů.

Například, pokud studenti v hodině pracují na tématu památek, mohou vygenerovat toto:

![Edu4All startup, hodina o památkách, Eiffelova věž](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.cs.png)

pomocí promptu jako

> "Pes vedle Eiffelovy věže za ranního slunečního svitu"

## Co je DALL-E a Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) a [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) jsou dva z nejpopulárnějších modelů pro generování obrázků, které umožňují vytvářet obrázky na základě zadaných promptů.

### DALL-E

Začněme s DALL-E, což je generativní AI model, který vytváří obrázky z textových popisů.

> [DALL-E je kombinací dvou modelů, CLIP a diffused attention](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** je model, který vytváří embeddingy, tedy číselné reprezentace dat, z obrázků a textu.

- **Diffused attention** je model, který generuje obrázky z embeddingů. DALL-E je natrénován na datasetu obrázků a textů a lze jej použít k vytváření obrázků na základě textových popisů. Například DALL-E může vygenerovat obrázek kočky v klobouku nebo psa s čírem.

### Midjourney

Midjourney funguje podobně jako DALL-E, generuje obrázky na základě textových promptů. Midjourney lze také použít k vytváření obrázků pomocí promptů jako „kočka v klobouku“ nebo „pes s čírem“.


![Obrázek vygenerovaný Midjourney, mechanický holub](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)


*Zdroj obrázku Wikipedia, obrázek vygenerovaný Midjourney*

## Jak fungují DALL-E a Midjourney

Nejprve [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E je generativní AI model založený na architektuře transformerů s *autoregresivním transformerem*.

*Autoregresivní transformer* určuje, jak model generuje obrázky z textových popisů – generuje jeden pixel po druhém a využívá již vygenerované pixely k vytvoření dalšího. Prochází několika vrstvami neuronové sítě, dokud není obrázek hotový.

Díky tomuto procesu může DALL-E ovládat atributy, objekty, vlastnosti a další prvky v generovaném obrázku. DALL-E 2 a 3 však mají nad výsledným obrázkem ještě větší kontrolu,


## Vytvoření vaší první aplikace pro generování obrázků

Co je potřeba k vytvoření aplikace pro generování obrázků? Budete potřebovat následující knihovny:

- **python-dotenv**, doporučujeme použít tuto knihovnu pro uchovávání citlivých údajů v souboru *.env* mimo samotný kód.
- **openai**, tuto knihovnu použijete pro komunikaci s OpenAI API.
- **pillow**, pro práci s obrázky v Pythonu.
- **requests**, pro snadné odesílání HTTP požadavků.

1. Vytvořte soubor *.env* s následujícím obsahem:

    ```text
    OPENAI_API_KEY='<add your OpenAI key here>'
    ```


1. Shromážděte výše uvedené knihovny do souboru s názvem *requirements.txt* takto:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```

1. Dále vytvořte virtuální prostředí a nainstalujte knihovny:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Pro Windows použijte následující příkazy pro vytvoření a aktivaci virtuálního prostředí:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Přidejte následující kód do souboru *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv

    # import dotenv
    dotenv.load_dotenv()

    # Create OpenAI object
    client = OpenAI()


    try:
        # Create an image by using the image generation API
        generation_response = client.images.generate(
            model="dall-e-3",
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=1
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')

        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)

        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')

        # Retrieve the generated image
        print(generation_response)

        image_url = generation_response.data[0].url # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)

        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()

    # catch exceptions
    except client.error.InvalidRequestError as err:
        print(err)

    ```

Pojďme si tento kód vysvětlit:

- Nejprve importujeme potřebné knihovny, včetně knihovny OpenAI, dotenv, requests a Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv 
    ```

- Poté vytvoříme objekt, který získá API klíč z vašeho ``.env``.

    ```python
        # Create OpenAI object
        client = OpenAI()
    ```

- Dále vygenerujeme obrázek:

    ```python
    # Create an image by using the image generation API
    generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
    ```

    Výše uvedený kód vrací JSON objekt, který obsahuje URL vygenerovaného obrázku. Tuto URL můžeme použít ke stažení obrázku a jeho uložení do souboru.

- Nakonec obrázek otevřeme a zobrazíme ho pomocí standardního prohlížeče obrázků:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### Podrobnější informace o generování obrázku

Podívejme se podrobněji na kód, který generuje obrázek:

```python
generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
```

- **prompt** je textový popis, který se použije pro vygenerování obrázku. V tomto případě používáme prompt "Králíček na koni, držící lízátko, na mlhavé louce, kde rostou narcisy".
- **size** je velikost vygenerovaného obrázku. V tomto případě generujeme obrázek o rozměrech 1024x1024 pixelů.
- **n** je počet vygenerovaných obrázků. V tomto případě generujeme dva obrázky.

S obrázky můžete dělat ještě více věcí, které si ukážeme v další části.

## Další možnosti generování obrázků

Zatím jste viděli, jak lze vygenerovat obrázek pomocí několika řádků v Pythonu. S obrázky ale můžete dělat ještě další věci.

Můžete například:

- **Provádět úpravy**. Pokud zadáte existující obrázek, masku a prompt, můžete obrázek upravit. Například můžete do části obrázku něco přidat. Představte si náš obrázek s králíčkem – můžete mu přidat klobouk. Uděláte to tak, že zadáte obrázek, masku (která určí oblast pro změnu) a textový prompt, co se má provést.

    ```python
    response = openai.images.edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```

    Základní obrázek by obsahoval pouze králíčka, ale výsledný obrázek by měl králíčka s kloboukem.

- **Vytvářet varianty**. Princip je v tom, že vezmete existující obrázek a necháte si vygenerovat jeho varianty. Pro vytvoření varianty zadáte obrázek a textový prompt a použijete kód podobně jako zde:

    ```python
    response = openai.images.create_variation(
      image=open("bunny-lollipop.png", "rb"),
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```



---

**Prohlášení**:  
Tento dokument byl přeložen pomocí AI překladatelské služby [Co-op Translator](https://github.com/Azure/co-op-translator). Přestože se snažíme o přesnost, mějte prosím na paměti, že automatizované překlady mohou obsahovat chyby nebo nepřesnosti. Za autoritativní zdroj by měl být považován původní dokument v jeho rodném jazyce. Pro kritické informace doporučujeme profesionální lidský překlad. Neodpovídáme za jakékoli nedorozumění nebo nesprávné výklady vzniklé v důsledku použití tohoto překladu.
