# Kaip sukurti vaizdų generavimo programą

LLM galimybės neapsiriboja tik tekstų generavimu. Taip pat galima generuoti vaizdus iš tekstinių aprašymų. Vaizdai kaip modalumas gali būti itin naudingi įvairiose srityse – nuo medicinos technologijų, architektūros, turizmo, žaidimų kūrimo ir kt. Šiame skyriuje susipažinsime su dviem populiariausiais vaizdų generavimo modeliais: DALL-E ir Midjourney.

## Įvadas

Šioje pamokoje aptarsime:

- Vaizdų generavimą ir jo naudą.
- DALL-E ir Midjourney: kas tai yra ir kaip jie veikia.
- Kaip sukurti vaizdų generavimo programą.

## Mokymosi tikslai

Baigę šią pamoką, galėsite:

- Sukurti vaizdų generavimo programą.
- Apibrėžti savo programos ribas naudojant meta užklausas.
- Dirbti su DALL-E ir Midjourney.

## Kodėl verta kurti vaizdų generavimo programą?

Vaizdų generavimo programos – puikus būdas tyrinėti generatyvaus DI galimybes. Jos gali būti naudojamos, pavyzdžiui:

- **Vaizdų redagavimui ir sintezei.** Galite generuoti vaizdus įvairiems poreikiams, pavyzdžiui, vaizdų redagavimui ar sintezei.

- **Pritaikomos įvairiose industrijose.** Tokios programos gali būti naudojamos vaizdams generuoti įvairiose srityse, tokiose kaip medicinos technologijos, turizmas, žaidimų kūrimas ir kt.

## Scenarijus: Edu4All

Šioje pamokoje toliau dirbsime su mūsų startuoliu Edu4All. Mokiniai kurs vaizdus savo užduotims – kokius vaizdus jie kurs, priklauso nuo jų pačių: tai gali būti iliustracijos jų pasakai, naujo personažo sukūrimas istorijai ar idėjų ir sąvokų vizualizavimas.

Pavyzdžiui, jei Edu4All mokiniai klasėje nagrinėja paminklus, jie galėtų sugeneruoti tokį vaizdą:

![Edu4All startuolis, pamoka apie paminklus, Eifelio bokštas](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.lt.png)

naudodami tokią užklausą:

> „Šuo šalia Eifelio bokšto ankstyvo ryto saulėje“

## Kas yra DALL-E ir Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) ir [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) – du populiariausi vaizdų generavimo modeliai, leidžiantys generuoti vaizdus pagal užklausas.

### DALL-E

Pradėkime nuo DALL-E – tai generatyvaus DI modelis, kuris kuria vaizdus pagal tekstinius aprašymus.

> [DALL-E sudarytas iš dviejų modelių: CLIP ir difuzinės dėmesio sistemos](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** – modelis, kuris kuria įterpinius (skaitmeninius duomenų atvaizdus) iš vaizdų ir teksto.

- **Difuzinė dėmesio sistema** – modelis, kuris generuoja vaizdus iš įterpinių. DALL-E apmokytas su vaizdų ir tekstų duomenų rinkiniu ir gali generuoti vaizdus pagal tekstinius aprašymus. Pavyzdžiui, DALL-E gali sugeneruoti katę su skrybėle ar šunį su mohawk šukuosena.

### Midjourney

Midjourney veikia panašiai kaip DALL-E – generuoja vaizdus pagal tekstines užklausas. Midjourney taip pat galima naudoti vaizdams generuoti pagal užklausas, tokias kaip „katė su skrybėle“ ar „šuo su mohawk šukuosena“.

![Vaizdas, sugeneruotas Midjourney, mechaninis balandis](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Vaizdo šaltinis: Wikipedia, vaizdas sugeneruotas Midjourney*

## Kaip veikia DALL-E ir Midjourney

Pirmiausia, [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E – generatyvaus DI modelis, paremtas transformerių architektūra su *autoregresiniu transformeriu*.

*Autoregresinis transformeris* apibrėžia, kaip modelis generuoja vaizdus iš tekstinių aprašymų: jis generuoja po vieną pikselį, naudodamas jau sugeneruotus pikselius kito pikselio generavimui. Taip vaizdas kuriamas sluoksnis po sluoksnio neuroniniame tinkle, kol jis pilnai sugeneruojamas.

Tokiu būdu DALL-E gali valdyti vaizde generuojamus atributus, objektus, savybes ir kt. Tačiau DALL-E 2 ir 3 versijos leidžia dar labiau kontroliuoti sugeneruotą vaizdą,


## Kaip sukurti savo pirmąją vaizdų generavimo programą

Taigi, ko reikia norint sukurti vaizdų generavimo programą? Tau prireiks šių bibliotekų:

- **python-dotenv** – labai rekomenduojama naudoti šią biblioteką, kad slaptažodžius laikytum *.env* faile, atskirai nuo kodo.
- **openai** – ši biblioteka bus naudojama sąveikai su OpenAI API.
- **pillow** – darbui su vaizdais Python aplinkoje.
- **requests** – padės atlikti HTTP užklausas.

1. Sukurk *.env* failą su šiuo turiniu:

    ```text
    AZURE_OPENAI_ENDPOINT=<your endpoint>
    AZURE_OPENAI_API_KEY=<your key>
    ```

    Šią informaciją rasi Azure portale savo ištekliaus „Keys and Endpoint“ skiltyje.


1. Surinkite aukščiau nurodytas bibliotekas į failą, pavadintą *requirements.txt*, taip:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. Toliau sukurkite virtualią aplinką ir įdiekite bibliotekas:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Windows naudotojams, naudokite šias komandas, kad sukurtumėte ir aktyvuotumėte virtualią aplinką:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Į failą *app.py* įdėkite šį kodą:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    
    # import dotenv
    dotenv.load_dotenv()
    
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY']     
    
    # Assign the API version (DALL-E is currently supported for the 2023-06-01-preview API version only)
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    
    
    try:
        # Create an image by using the image generation API
        generation_response = openai.Image.create(
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=2,
            temperature=0,
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')
    
        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)
    
        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')
    
        # Retrieve the generated image
        image_url = generation_response["data"][0]["url"]  # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)
    
        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()
    
    # catch exceptions
    except openai.InvalidRequestError as err:
        print(err)

    ```

Paaiškinkime šį kodą:

- Pirmiausia importuojame reikalingas bibliotekas: OpenAI, dotenv, requests ir Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    ```

- Toliau įkeliame aplinkos kintamuosius iš *.env* failo.

    ```python
    # import dotenv
    dotenv.load_dotenv()
    ```

- Po to nustatome OpenAI API galinį tašką, raktą, versiją ir tipą.

    ```python
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY'] 

    # add version and type, Azure specific
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    ```

- Toliau generuojame paveikslėlį:

    ```python
    # Create an image by using the image generation API
    generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
    ```

    Aukščiau pateiktas kodas grąžina JSON objektą, kuriame yra sugeneruoto paveikslėlio URL. Šį URL galime panaudoti paveikslėliui atsisiųsti ir išsaugoti faile.

- Galiausiai atidarome paveikslėlį ir naudojame standartinę paveikslėlių peržiūros programą jam parodyti:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### Daugiau informacijos apie paveikslėlio generavimą

Pažvelkime detaliau į kodą, kuris generuoja paveikslėlį:

```python
generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
```

- **prompt** – tai tekstinė užklausa, pagal kurią generuojamas paveikslėlis. Šiuo atveju naudojame užklausą „Triušis ant arklio, laikantis saldainį, rūke apgaubtoje pievoje, kur auga narcizai“.
- **size** – tai sugeneruoto paveikslėlio dydis. Šiuo atveju generuojame 1024x1024 pikselių paveikslėlį.
- **n** – tai sugeneruojamų paveikslėlių skaičius. Šiuo atveju generuojame du paveikslėlius.
- **temperature** – tai parametras, kuris reguliuoja generatyvaus AI modelio atsakymo atsitiktinumą. Temperatūra yra reikšmė nuo 0 iki 1, kur 0 reiškia, kad atsakymas bus nuspėjamas, o 1 – visiškai atsitiktinis. Numatytasis nustatymas yra 0,7.

Yra ir daugiau galimybių, ką galima daryti su paveikslėliais – apie tai kalbėsime kitoje dalyje.

## Papildomos paveikslėlių generavimo galimybės

Jau matėte, kaip galima sugeneruoti paveikslėlį naudojant vos kelias Python eilutes. Tačiau su paveikslėliais galima nuveikti ir daugiau.

Taip pat galite:

- **Redaguoti paveikslėlius**. Pateikdami esamą paveikslėlį, kaukę ir užklausą, galite pakeisti paveikslėlį. Pavyzdžiui, galite pridėti kažką prie tam tikros paveikslėlio dalies. Įsivaizduokite mūsų triušio paveikslėlį – galite uždėti triušiui kepurę. Tai padarytumėte pateikdami paveikslėlį, kaukę (nurodančią, kurią vietą keisti) ir tekstinę užklausą, ką reikia padaryti.

    ```python
    response = openai.Image.create_edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response['data'][0]['url']
    ```

    Pradiniame paveikslėlyje būtų tik triušis, o galutiniame – triušis su kepure.

- **Kurti variacijas**.
    Daugiau informacijos rasite mūsų [OpenAI užrašinėje](./oai-assignment.ipynb?WT.mc_id=academic-105485-koreyst).



---

**Atsakomybės atsisakymas**:  
Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Svarbiai informacijai rekomenduojame profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už bet kokius nesusipratimus ar neteisingą interpretavimą, kilusį naudojantis šiuo vertimu.
