# Izrada aplikacije za generiranje slika

LLM-ovi nisu ograničeni samo na generiranje teksta. Također je moguće generirati slike na temelju tekstualnih opisa. Imati slike kao modalitet može biti izuzetno korisno u raznim područjima poput medicinske tehnologije, arhitekture, turizma, razvoja igara i još mnogo toga. U ovom poglavlju ćemo se upoznati s dva najpopularnija modela za generiranje slika, DALL-E i Midjourney.

## Uvod

U ovoj lekciji obradit ćemo:

- Generiranje slika i zašto je korisno.
- DALL-E i Midjourney, što su i kako rade.
- Kako izraditi aplikaciju za generiranje slika.

## Ciljevi učenja

Nakon što završite ovu lekciju, moći ćete:

- Izraditi aplikaciju za generiranje slika.
- Definirati granice za svoju aplikaciju pomoću meta promptova.
- Raditi s DALL-E i Midjourney.

## Zašto izraditi aplikaciju za generiranje slika?

Aplikacije za generiranje slika odličan su način za istraživanje mogućnosti generativne umjetne inteligencije. Mogu se koristiti, na primjer, za:

- **Uređivanje i sintezu slika**. Možete generirati slike za razne svrhe, poput uređivanja ili sinteze slika.

- **Primjena u raznim industrijama**. Također se mogu koristiti za generiranje slika u raznim industrijama poput medicinske tehnologije, turizma, razvoja igara i drugih.

## Scenarij: Edu4All

Kroz ovu lekciju nastavljamo raditi s našim startupom Edu4All. Učenici će izrađivati slike za svoje zadatke, a koje će to slike biti, ovisi o njima – mogu biti ilustracije za vlastitu bajku, novi lik za njihovu priču ili im pomoći da vizualiziraju svoje ideje i koncepte.

Primjerice, evo što bi učenici Edu4All-a mogli generirati ako na satu obrađuju spomenike:

![Edu4All startup, sat o spomenicima, Eiffelov toranj](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.hr.png)

koristeći prompt poput

> "Pas pored Eiffelovog tornja u ranim jutarnjim zrakama sunca"

## Što su DALL-E i Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) i [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) su dva najpopularnija modela za generiranje slika, koji omogućuju korištenje promptova za izradu slika.

### DALL-E

Krenimo s DALL-E, koji je generativni AI model za generiranje slika na temelju tekstualnih opisa.

> [DALL-E je kombinacija dva modela, CLIP i difuzne pažnje](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** je model koji generira ugradnje, odnosno numeričke prikaze podataka, iz slika i teksta.

- **Difuzna pažnja** je model koji generira slike iz tih ugradnji. DALL-E je treniran na skupu podataka slika i teksta te se može koristiti za generiranje slika na temelju tekstualnih opisa. Na primjer, DALL-E može generirati sliku mačke s šeširom ili psa s irokezom.

### Midjourney

Midjourney radi na sličan način kao DALL-E, generira slike na temelju tekstualnih promptova. Midjourney se također može koristiti za generiranje slika pomoću promptova poput “mačka s šeširom” ili “pas s irokezom”.

![Slika generirana u Midjourney, mehanički golub](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Izvor slike Wikipedia, sliku generirao Midjourney*

## Kako rade DALL-E i Midjourney

Prvo, [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E je generativni AI model temeljen na arhitekturi transformera s *autoregresivnim transformerom*.

*Autoregresivni transformer* određuje kako model generira slike iz tekstualnih opisa – generira jedan po jedan piksel, a zatim koristi već generirane piksele za generiranje sljedećeg piksela. Prolazi kroz više slojeva neuronske mreže dok slika ne bude dovršena.

Ovim postupkom DALL-E kontrolira atribute, objekte, karakteristike i još mnogo toga na slici koju generira. Međutim, DALL-E 2 i 3 omogućuju još veću kontrolu nad generiranom slikom,


## Izrada vaše prve aplikacije za generiranje slika

Što je potrebno za izradu aplikacije za generiranje slika? Trebat će vam sljedeće biblioteke:

- **python-dotenv**, preporučuje se koristiti ovu biblioteku kako biste svoje tajne podatke držali u *.env* datoteci, odvojeno od koda.
- **openai**, ovu biblioteku koristit ćete za komunikaciju s OpenAI API-jem.
- **pillow**, za rad sa slikama u Pythonu.
- **requests**, olakšava slanje HTTP zahtjeva.


1. Napravite datoteku *.env* sa sljedećim sadržajem:

    ```text
    OPENAI_API_KEY='<add your OpenAI key here>'
    ```


1. Skupite gore navedene biblioteke u datoteku pod nazivom *requirements.txt* na sljedeći način:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```

1. Zatim kreirajte virtualno okruženje i instalirajte biblioteke:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Za Windows koristite sljedeće naredbe za kreiranje i aktivaciju virtualnog okruženja:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Dodajte sljedeći kod u datoteku pod nazivom *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv

    # import dotenv
    dotenv.load_dotenv()

    # Create OpenAI object
    client = OpenAI()


    try:
        # Create an image by using the image generation API
        generation_response = client.images.generate(
            model="dall-e-3",
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=1
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')

        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)

        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')

        # Retrieve the generated image
        print(generation_response)

        image_url = generation_response.data[0].url # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)

        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()

    # catch exceptions
    except client.error.InvalidRequestError as err:
        print(err)

    ```

Objasnimo ovaj kod:

- Prvo uvozimo potrebne biblioteke, uključujući OpenAI biblioteku, dotenv, requests i Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv 
    ```

- Nakon toga kreiramo objekt koji će dohvatiti API ključ iz vaše ``.env`` datoteke.

    ```python
        # Create OpenAI object
        client = OpenAI()
    ```

- Zatim generiramo sliku:

    ```python
    # Create an image by using the image generation API
    generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
    ```

    Gornji kod vraća JSON objekt koji sadrži URL generirane slike. Taj URL možemo iskoristiti za preuzimanje slike i spremanje u datoteku.

- Na kraju otvaramo sliku i prikazujemo je pomoću standardnog preglednika slika:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### Više detalja o generiranju slike

Pogledajmo detaljnije kod koji generira sliku:

```python
generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
```

- **prompt** je tekstualni upit koji se koristi za generiranje slike. U ovom slučaju koristimo upit "Zec na konju, drži lizalicu, na maglovitoj livadi na kojoj rastu narcisi".
- **size** je veličina slike koja se generira. Ovdje generiramo sliku veličine 1024x1024 piksela.
- **n** je broj slika koje se generiraju. U ovom primjeru generiramo dvije slike.

Postoji još mogućnosti koje možete koristiti sa slikama, a o njima ćemo govoriti u sljedećem dijelu.

## Dodatne mogućnosti generiranja slika

Do sada ste vidjeli kako možemo generirati sliku pomoću nekoliko linija koda u Pythonu. No, sa slikama možete napraviti još više.

Također možete:

- **Raditi izmjene**. Ako priložite postojeću sliku, masku i upit, možete izmijeniti sliku. Na primjer, možete dodati nešto na određeni dio slike. Zamislite našu sliku zeca – možete mu dodati šešir. To biste napravili tako da priložite sliku, masku (koja označava dio slike koji želite promijeniti) i tekstualni upit što želite napraviti.

    ```python
    response = openai.images.edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```

    Osnovna slika bi sadržavala samo zeca, a konačna slika bi imala šešir na zecu.

- **Kreirati varijacije**. Ideja je da uzmete postojeću sliku i zatražite da se naprave varijacije. Za izradu varijacije, priložite sliku i tekstualni upit te koristite kod poput ovog:

    ```python
    response = openai.images.create_variation(
      image=open("bunny-lollipop.png", "rb"),
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```



---

**Odricanje od odgovornosti**:  
Ovaj dokument je preveden pomoću AI usluge prevođenja [Co-op Translator](https://github.com/Azure/co-op-translator). Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati mjerodavnim izvorom. Za ključne informacije preporučuje se profesionalni ljudski prijevod. Ne snosimo odgovornost za bilo kakva nesporazume ili pogrešna tumačenja koja proizlaze iz korištenja ovog prijevoda.
