# Képgeneráló alkalmazás készítése

Az LLM-ek nem csak szöveg generálására alkalmasak. Lehetőség van képek előállítására is szöveges leírások alapján. A képek, mint modalitás, rendkívül hasznosak lehetnek számos területen, például az egészségügyben, építészetben, turizmusban, játékfejlesztésben és még sok másban. Ebben a fejezetben a két legnépszerűbb képgeneráló modellt, a DALL-E-t és a Midjourney-t vizsgáljuk meg.

## Bevezetés

Ebben a leckében szó lesz:

- A képgenerálásról és arról, hogy miért hasznos.
- A DALL-E-ról és a Midjourney-ről, hogy mik ezek, és hogyan működnek.
- Hogyan lehet képgeneráló alkalmazást készíteni.

## Tanulási célok

A lecke elvégzése után képes leszel:

- Képgeneráló alkalmazást készíteni.
- Meghatározni az alkalmazásod határait meta promptokkal.
- Dolgozni a DALL-E-val és a Midjourney-vel.

## Miért érdemes képgeneráló alkalmazást készíteni?

A képgeneráló alkalmazások kiváló lehetőséget nyújtanak a Generatív MI képességeinek felfedezésére. Például a következőkre használhatók:

- **Képszerkesztés és szintézis**. Különféle felhasználási esetekhez generálhatsz képeket, például képszerkesztéshez vagy képszintézishez.

- **Számos iparágban alkalmazható**. Képek generálására használhatók különböző iparágakban, mint például az egészségügy, turizmus, játékfejlesztés és még sok más.

## Példa: Edu4All

Ebben a leckében továbbra is az Edu4All nevű startupunkkal dolgozunk. A diákok képeket készítenek a feladataikhoz, hogy pontosan milyen képeket, azt ők döntik el: lehetnek például illusztrációk a saját meséjükhöz, új karakterek a történetükhöz, vagy segíthetnek elképzeléseik, ötleteik vizualizálásában.

Például, ha az Edu4All diákjai az órán műemlékekkel foglalkoznak, ilyen képet generálhatnak:

![Edu4All startup, óra a műemlékekről, Eiffel-torony](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.hu.png)

egy ilyen prompttal:

> „Kutya az Eiffel-torony mellett, kora reggeli napfényben”

## Mi az a DALL-E és a Midjourney?

A [DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) és a [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) a két legnépszerűbb képgeneráló modell, amelyek lehetővé teszik, hogy promptok segítségével képeket hozzunk létre.

### DALL-E

Kezdjük a DALL-E-val, amely egy generatív MI modell, amely képeket hoz létre szöveges leírásokból.

> [A DALL-E két modell, a CLIP és a diffúz figyelem kombinációja](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP**: Ez egy olyan modell, amely beágyazásokat (számokkal leírt adat-reprezentációkat) generál képekből és szövegekből.

- **Diffúz figyelem**: Ez a modell a beágyazásokból képeket generál. A DALL-E-t képekből és szövegekből álló adathalmazon tanították, így képes szöveges leírásokból képeket előállítani. Például a DALL-E képes egy kalapos macskát vagy egy tarajos kutyát ábrázoló képet generálni.

### Midjourney

A Midjourney hasonlóan működik, mint a DALL-E: szöveges promptokból generál képeket. A Midjourney-vel is lehet például „kalapos macskát” vagy „tarajos kutyát” ábrázoló képet készíteni.

![Midjourney által generált kép, mechanikus galamb](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Kép forrása: Wikipedia, a képet a Midjourney generálta*

## Hogyan működik a DALL-E és a Midjourney

Először is, [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). A DALL-E egy generatív MI modell, amely a transformer architektúrán alapul, *autoregresszív transformerrel*.

Az *autoregresszív transformer* meghatározza, hogyan generál a modell képeket szöveges leírásokból: egyszerre egy pixelt hoz létre, majd a már elkészült pixeleket felhasználva generálja a következőt. Ez a folyamat többrétegű neurális hálón keresztül zajlik, amíg a kép el nem készül.

Ezzel a folyamattal a DALL-E képes irányítani a generált képen megjelenő tulajdonságokat, tárgyakat, jellemzőket és még sok mást. A DALL-E 2 és 3 verziói még nagyobb kontrollt biztosítanak a generált kép felett,


## Az első képgeneráló alkalmazásod elkészítése

Mit is jelent egy képgeneráló alkalmazás létrehozása? A következő könyvtárakra lesz szükséged:

- **python-dotenv** – erősen ajánlott ezt a könyvtárat használni, hogy a titkos adataidat egy *.env* fájlban tartsd, távol a kódtól.
- **openai** – ezzel a könyvtárral fogsz kommunikálni az OpenAI API-val.
- **pillow** – képek kezeléséhez Pythonban.
- **requests** – HTTP kérések küldéséhez.

1. Hozz létre egy *.env* fájlt a következő tartalommal:

    ```text
    OPENAI_API_KEY='<add your OpenAI key here>'
    ```


1. Gyűjtsd össze a fenti könyvtárakat egy *requirements.txt* nevű fájlba, így:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. Ezután hozz létre egy virtuális környezetet, és telepítsd a könyvtárakat:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Windows esetén a következő parancsokat használd a virtuális környezet létrehozásához és aktiválásához:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Add hozzá a következő kódot egy *app.py* nevű fájlba:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv

    # import dotenv
    dotenv.load_dotenv()

    # Create OpenAI object
    client = OpenAI()


    try:
        # Create an image by using the image generation API
        generation_response = client.images.generate(
            model="dall-e-3",
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=1
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')

        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)

        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')

        # Retrieve the generated image
        print(generation_response)

        image_url = generation_response.data[0].url # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)

        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()

    # catch exceptions
    except client.error.InvalidRequestError as err:
        print(err)

    ```

Nézzük meg, mit csinál ez a kód:

- Először importáljuk a szükséges könyvtárakat, köztük az OpenAI-t, a dotenv-et, a requests-et és a Pillow-t.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv 
    ```

- Ezután létrehozzuk az objektumot, amely a ``.env`` fájlból szerzi meg az API kulcsot.

    ```python
        # Create OpenAI object
        client = OpenAI()
    ```

- Következő lépésként generáljuk a képet:

    ```python
    # Create an image by using the image generation API
    generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
    ```

    A fenti kód egy JSON objektummal válaszol, amely tartalmazza a generált kép URL-jét. Ezt az URL-t felhasználhatjuk a kép letöltésére és fájlba mentésére.

- Végül megnyitjuk a képet, és a szokásos képnézegetővel megjelenítjük:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### További részletek a kép generálásáról

Nézzük meg részletesebben a képgeneráló kódot:

```python
generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
```

- **prompt**: Ez az a szöveges utasítás, amely alapján a kép készül. Ebben a példában a következő promptot használjuk: "Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils".
- **size**: Ez a generált kép mérete. Jelen esetben egy 1024x1024 pixeles képet készítünk.
- **n**: Ez a generált képek száma. Most két képet generálunk.

A képekkel még sok mindent lehet csinálni, ezekről a következő részben lesz szó.

## A képgenerálás további lehetőségei

Eddig láthattad, hogy néhány Python sorral képet tudtunk generálni. Azonban a képekkel ennél többet is lehet kezdeni.

A következőket is megteheted:

- **Szerkesztés**. Ha megadsz egy meglévő képet, egy maszkot és egy promptot, módosíthatod a képet. Például hozzáadhatsz valamit a kép egy részéhez. Képzeld el a nyuszis képet: rátehetsz egy kalapot a nyuszira. Ehhez meg kell adnod a képet, egy maszkot (ami kijelöli a módosítandó területet), és egy szöveges promptot, hogy mit szeretnél.

    ```python
    response = openai.images.edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```

    Az alap kép csak a nyuszit tartalmazná, de a végső képen már rajta lenne a kalap is.

- **Variációk készítése**. Itt arról van szó, hogy egy meglévő képből különböző változatokat készítesz. Ehhez megadsz egy képet, egy szöveges promptot, és a következőhöz hasonló kódot írsz:

    ```python
    response = openai.images.create_variation(
      image=open("bunny-lollipop.png", "rb"),
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```



---

**Jogi nyilatkozat**:  
Ez a dokumentum AI fordítási szolgáltatás, a [Co-op Translator](https://github.com/Azure/co-op-translator) segítségével készült. Bár törekszünk a pontosságra, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti, eredeti nyelvű dokumentum tekintendő hiteles forrásnak. Kritikus információk esetén javasoljuk a professzionális, emberi fordítást. Nem vállalunk felelősséget a fordítás használatából eredő félreértésekért vagy téves értelmezésekért.
