# Gradnja aplikacije za generiranje slik

LLM-ji niso uporabni le za generiranje besedila. Iz besedilnih opisov je mogoče ustvariti tudi slike. Slike kot modaliteta so lahko izjemno koristne na številnih področjih, kot so medicinska tehnologija, arhitektura, turizem, razvoj iger in še več. V tem poglavju si bomo ogledali dva najbolj priljubljena modela za generiranje slik: DALL-E in Midjourney.

## Uvod

V tej lekciji bomo obravnavali:

- Generiranje slik in zakaj je to uporabno.
- DALL-E in Midjourney, kaj sta in kako delujeta.
- Kako bi zgradili aplikacijo za generiranje slik.

## Cilji učenja

Po zaključku te lekcije boste znali:

- Zgraditi aplikacijo za generiranje slik.
- Določiti meje za svojo aplikacijo z meta pozivi.
- Delati z DALL-E in Midjourney.

## Zakaj zgraditi aplikacijo za generiranje slik?

Aplikacije za generiranje slik so odličen način za raziskovanje zmogljivosti generativne umetne inteligence. Uporabne so na primer za:

- **Urejanje in sintezo slik**. Lahko ustvarjate slike za različne namene, kot sta urejanje ali sinteza slik.

- **Uporaba v različnih panogah**. Uporabljajo se lahko za generiranje slik za različne industrije, kot so medicinska tehnologija, turizem, razvoj iger in še več.

## Scenarij: Edu4All

V tej lekciji bomo nadaljevali delo z našim startupom Edu4All. Dijaki bodo ustvarjali slike za svoje naloge; kakšne slike bodo izbrali, je odvisno od njih samih – lahko so ilustracije za njihovo pravljico, nov lik za njihovo zgodbo ali pa jim slike pomagajo pri vizualizaciji idej in konceptov.

Tukaj je primer, kaj bi lahko dijaki Edu4All ustvarili, če pri pouku obravnavajo znamenitosti:

![Startup Edu4All, pouk o znamenitostih, Eifflov stolp](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.sl.png)

z uporabo poziva, kot je

> "Pes poleg Eifflovega stolpa v jutranji sončni svetlobi"

## Kaj sta DALL-E in Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) in [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) sta dva najbolj priljubljena modela za generiranje slik, ki omogočata ustvarjanje slik s pomočjo pozivov.

### DALL-E

Začnimo z DALL-E, ki je generativni AI model za ustvarjanje slik iz besedilnih opisov.

> [DALL-E je kombinacija dveh modelov, CLIP in razpršene pozornosti](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** je model, ki iz slik in besedila ustvari vdelave, to so številčne predstavitve podatkov.

- **Razpršena pozornost** je model, ki iz vdelav ustvari slike. DALL-E je treniran na zbirki slik in besedil ter omogoča generiranje slik iz besedilnih opisov. Na primer, DALL-E lahko ustvari sliko mačke s klobukom ali psa z irokezo.

### Midjourney

Midjourney deluje podobno kot DALL-E, saj iz besedilnih pozivov generira slike. Midjourney lahko prav tako ustvari slike na podlagi pozivov, kot sta “mačka s klobukom” ali “pes z irokezo”.

![Slika, ustvarjena z Midjourney, mehanski golob](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Vir slike: Wikipedia, slika ustvarjena z Midjourney*

## Kako delujeta DALL-E in Midjourney

Najprej [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E je generativni AI model, ki temelji na arhitekturi transformatorja z *avtoregresivnim transformatorjem*.

*Avtoregresivni transformator* določa, kako model iz besedilnih opisov ustvari slike – generira eno piko naenkrat in nato uporabi že ustvarjene pike za generiranje naslednje. Slika nastaja skozi več plasti nevronske mreže, dokler ni dokončana.

S tem postopkom DALL-E nadzoruje lastnosti, objekte, značilnosti in še več v ustvarjeni sliki. DALL-E 2 in 3 pa omogočata še več nadzora nad končno sliko,


## Ustvarjanje vaše prve aplikacije za generiranje slik

Kaj potrebujete za izdelavo aplikacije za generiranje slik? Potrebovali boste naslednje knjižnice:

- **python-dotenv**, zelo priporočljivo je, da uporabite to knjižnico, saj omogoča, da svoje skrivnosti hranite v datoteki *.env*, ločeno od kode.
- **openai**, to knjižnico boste uporabili za interakcijo z OpenAI API-jem.
- **pillow**, za delo s slikami v Pythonu.
- **requests**, ki vam pomaga pri pošiljanju HTTP zahtevkov.

1. Ustvarite datoteko *.env* z naslednjo vsebino:

    ```text
    AZURE_OPENAI_ENDPOINT=<your endpoint>
    AZURE_OPENAI_API_KEY=<your key>
    ```

    Te podatke najdete v Azure Portalu za vaš vir v razdelku "Ključi in končna točka".


1. Zberite zgoraj navedene knjižnice v datoteko z imenom *requirements.txt* na naslednji način:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. Nato ustvarite virtualno okolje in namestite knjižnice:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Za Windows uporabite naslednje ukaze za ustvarjanje in aktivacijo virtualnega okolja:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Dodajte naslednjo kodo v datoteko z imenom *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    
    # import dotenv
    dotenv.load_dotenv()
    
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY']     
    
    # Assign the API version (DALL-E is currently supported for the 2023-06-01-preview API version only)
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    
    
    try:
        # Create an image by using the image generation API
        generation_response = openai.Image.create(
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=2,
            temperature=0,
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')
    
        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)
    
        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')
    
        # Retrieve the generated image
        image_url = generation_response["data"][0]["url"]  # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)
    
        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()
    
    # catch exceptions
    except openai.InvalidRequestError as err:
        print(err)

    ```

Pojasnimo to kodo:

- Najprej uvozimo potrebne knjižnice, vključno z OpenAI knjižnico, dotenv knjižnico, requests knjižnico in Pillow knjižnico.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    ```

- Nato naložimo okoljske spremenljivke iz datoteke *.env*.

    ```python
    # import dotenv
    dotenv.load_dotenv()
    ```

- Nato nastavimo endpoint, ključ za OpenAI API, verzijo in tip.

    ```python
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY'] 

    # add version and type, Azure specific
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    ```

- Nato ustvarimo sliko:

    ```python
    # Create an image by using the image generation API
    generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
    ```

    Zgornja koda vrne JSON objekt, ki vsebuje URL ustvarjene slike. Ta URL lahko uporabimo za prenos slike in jo shranimo v datoteko.

- Na koncu odpremo sliko in jo prikažemo s privzetim pregledovalnikom slik:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### Več podrobnosti o ustvarjanju slike

Podrobneje si oglejmo kodo, ki ustvari sliko:

```python
generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
```

- **prompt** je besedilni poziv, ki se uporabi za ustvarjanje slike. V tem primeru uporabimo poziv "Zajček na konju, drži liziko, na megleni jasi, kjer rastejo narcise".
- **size** je velikost ustvarjene slike. V tem primeru ustvarimo sliko velikosti 1024x1024 pikslov.
- **n** je število ustvarjenih slik. V tem primeru ustvarimo dve sliki.
- **temperature** je parameter, ki določa naključnost izhoda generativnega AI modela. Temperatura je vrednost med 0 in 1, kjer 0 pomeni, da je izhod determinističen, 1 pa pomeni, da je izhod naključen. Privzeta vrednost je 0,7.

Obstaja še več možnosti, ki jih lahko počnete s slikami, o katerih bomo govorili v naslednjem poglavju.

## Dodatne zmožnosti ustvarjanja slik

Do sedaj ste videli, kako lahko ustvarite sliko z nekaj vrsticami kode v Pythonu. Vendar pa lahko s slikami naredite še več.

Lahko tudi:

- **Urejate slike**. Če podate obstoječo sliko, masko in poziv, lahko sliko spremenite. Na primer, lahko nečemu na sliki nekaj dodate. Predstavljajte si našo sliko zajčka – lahko mu dodate klobuk. To naredite tako, da podate sliko, masko (ki določa del slike za spremembo) in besedilni poziv, ki pove, kaj naj se naredi.

    ```python
    response = openai.Image.create_edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response['data'][0]['url']
    ```

    Osnovna slika bi vsebovala le zajčka, končna slika pa bi imela na zajčku še klobuk.

- **Ustvarjate različice**.
    Več informacij najdete v našem [OpenAI zvezku](./oai-assignment.ipynb?WT.mc_id=academic-105485-koreyst).



---

**Omejitev odgovornosti**:  
Ta dokument je bil preveden z uporabo storitve za strojno prevajanje [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, vas prosimo, da se zavedate, da lahko samodejni prevodi vsebujejo napake ali netočnosti. Izvirni dokument v svojem maternem jeziku naj velja za avtoritativni vir. Za ključne informacije priporočamo strokovni človeški prevod. Ne prevzemamo odgovornosti za morebitna nesporazume ali napačne razlage, ki bi nastale zaradi uporabe tega prevoda.
