# Kuvageneraattorisovelluksen rakentaminen

LLM-malleilla voi tehdä paljon muutakin kuin tuottaa tekstiä. Niiden avulla voidaan myös luoda kuvia tekstikuvausten perusteella. Kuvien hyödyntäminen on erittäin hyödyllistä monilla aloilla, kuten terveysteknologiassa, arkkitehtuurissa, matkailussa, pelikehityksessä ja monessa muussa. Tässä luvussa tutustumme kahteen suosituimpaan kuvageneraattorimalliin: DALL-E ja Midjourney.

## Johdanto

Tässä osiossa käsittelemme:

- Kuvagenerointia ja sen hyötyjä.
- DALL-E ja Midjourney: mitä ne ovat ja miten ne toimivat.
- Miten rakennetaan oma kuvageneraattorisovellus.

## Oppimistavoitteet

Tämän osion jälkeen osaat:

- Rakentaa kuvageneraattorisovelluksen.
- Määritellä sovelluksesi rajat metapromptien avulla.
- Työskennellä DALL-E:n ja Midjourneyn kanssa.

## Miksi rakentaa kuvageneraattorisovellus?

Kuvageneraattorisovellukset ovat erinomainen tapa tutkia generatiivisen tekoälyn mahdollisuuksia. Niitä voi käyttää esimerkiksi:

- **Kuvien muokkaus ja synteesi**. Voit luoda kuvia monenlaisiin käyttötarkoituksiin, kuten kuvien muokkaukseen ja synteesiin.

- **Sovellettavissa monille toimialoille**. Niiden avulla voidaan tuottaa kuvia monille eri aloille, kuten terveysteknologiaan, matkailuun, pelikehitykseen ja muualle.

## Esimerkki: Edu4All

Tässä osiossa jatkamme työskentelyä startupin, Edu4Allin, kanssa. Oppilaat voivat luoda kuvia arviointejaan varten – millaisia kuvia he tekevät, on heidän päätettävissään. He voivat esimerkiksi tehdä kuvituksia omaan satuunsa, luoda uuden hahmon tarinaansa tai havainnollistaa ideoitaan ja käsitteitään.

Tässä esimerkki siitä, mitä Edu4Allin oppilaat voisivat tuottaa, jos he työskentelevät luokassa muistomerkkien parissa:

![Edu4All startup, luokka muistomerkeistä, Eiffelin torni](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.fi.png)

käyttäen esimerkiksi tällaista promptia

> "Koira Eiffelin tornin vieressä aikaisen aamun auringonvalossa"

## Mitä ovat DALL-E ja Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) ja [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) ovat kaksi suosittua kuvageneraattorimallia, joiden avulla voit luoda kuvia syöttämällä niille tekstipromptin.

### DALL-E

Aloitetaan DALL-E:sta, joka on generatiivinen tekoälymalli, joka tuottaa kuvia tekstikuvauksista.

> [DALL-E yhdistää kaksi mallia, CLIPin ja diffused attentionin](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** on malli, joka tuottaa upotuksia eli numeerisia esityksiä datasta, sekä kuvista että tekstistä.

- **Diffused attention** on malli, joka tuottaa kuvia upotuksista. DALL-E on opetettu kuvien ja tekstin yhdistelmillä, ja sitä voidaan käyttää kuvien luomiseen tekstikuvauksista. Esimerkiksi DALL-E:lla voi luoda kuvan kissasta hattu päässä tai koirasta, jolla on irokeesi.

### Midjourney

Midjourney toimii samalla periaatteella kuin DALL-E: se tuottaa kuvia tekstipromptien perusteella. Midjourneyllä voi myös luoda kuvia esimerkiksi pyynnöillä kuten “kissa hattu päässä” tai “koira, jolla on irokeesi”.

![Midjourneyn tuottama kuva, mekaaninen kyyhkynen](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Kuvan lähde Wikipedia, kuva luotu Midjourneyllä*

## Miten DALL-E ja Midjourney toimivat

Aloitetaan [DALL-E:lla](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E on generatiivinen tekoälymalli, joka perustuu transformer-arkkitehtuuriin ja käyttää *autoregressiivista transformer-mallia*.

*Autoregressiivinen transformer* määrittää, miten malli tuottaa kuvia tekstikuvauksista: se luo kuvan yhden pikselin kerrallaan ja käyttää jo luotuja pikseleitä seuraavan pikselin tuottamiseen. Prosessi kulkee useiden neuroverkon kerrosten läpi, kunnes kuva on valmis.

Tämän prosessin avulla DALL-E hallitsee kuvan ominaisuuksia, esineitä, piirteitä ja paljon muuta. DALL-E 2 ja 3 tarjoavat vielä enemmän kontrollia luotuun kuvaan,


## Ensimmäisen kuvageneraattorisovelluksen rakentaminen

Mitä tarvitaan kuvageneraattorisovelluksen rakentamiseen? Tarvitset seuraavat kirjastot:

- **python-dotenv**, tämän kirjaston käyttöä suositellaan vahvasti, jotta voit säilyttää salaisuudet *.env*-tiedostossa erillään koodista.
- **openai**, tämän kirjaston avulla voit käyttää OpenAI API:a.
- **pillow**, kuvien käsittelyyn Pythonissa.
- **requests**, HTTP-pyyntöjen tekemiseen.

1. Luo *.env*-tiedosto, jossa on seuraava sisältö:

    ```text
    AZURE_OPENAI_ENDPOINT=<your endpoint>
    AZURE_OPENAI_API_KEY=<your key>
    ```

    Löydät nämä tiedot Azure Portaalista resurssisi "Avaimet ja päätepiste" -osiosta.


1. Kerää yllä mainitut kirjastot tiedostoon nimeltä *requirements.txt* seuraavasti:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. Seuraavaksi luo virtuaaliympäristö ja asenna kirjastot:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Windowsissa käytä seuraavia komentoja virtuaaliympäristön luomiseen ja aktivoimiseen:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Lisää seuraava koodi tiedostoon nimeltä *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    
    # import dotenv
    dotenv.load_dotenv()
    
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY']     
    
    # Assign the API version (DALL-E is currently supported for the 2023-06-01-preview API version only)
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    
    
    try:
        # Create an image by using the image generation API
        generation_response = openai.Image.create(
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=2,
            temperature=0,
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')
    
        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)
    
        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')
    
        # Retrieve the generated image
        image_url = generation_response["data"][0]["url"]  # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)
    
        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()
    
    # catch exceptions
    except openai.InvalidRequestError as err:
        print(err)

    ```

Selitetään tämä koodi:

- Ensiksi tuodaan tarvittavat kirjastot, mukaan lukien OpenAI-kirjasto, dotenv-kirjasto, requests-kirjasto ja Pillow-kirjasto.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    ```

- Seuraavaksi ladataan ympäristömuuttujat *.env*-tiedostosta.

    ```python
    # import dotenv
    dotenv.load_dotenv()
    ```

- Tämän jälkeen asetetaan OpenAI API:n päätepiste, avain, versio ja tyyppi.

    ```python
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY'] 

    # add version and type, Azure specific
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    ```

- Sitten generoidaan kuva:

    ```python
    # Create an image by using the image generation API
    generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
    ```

    Yllä oleva koodi palauttaa JSON-objektin, joka sisältää generoidun kuvan URL-osoitteen. Voimme käyttää tätä URL-osoitetta kuvan lataamiseen ja tallentamiseen tiedostoon.

- Lopuksi avataan kuva ja käytetään tavallista kuvien katseluohjelmaa sen näyttämiseen:

    ```python
    image = Image.open(image_path)
    image.show()
    ```
    
### Lisätietoja kuvan generoinnista

Katsotaan tarkemmin koodia, joka generoi kuvan:

```python
generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
```

- **prompt** on tekstikehote, jota käytetään kuvan luomiseen. Tässä tapauksessa käytämme kehote "Pupu hevosen selässä, pitää tikkaria, sumuisella niityllä jossa kasvaa narsisseja".
- **size** on generoidun kuvan koko. Tässä luodaan kuva, jonka koko on 1024x1024 pikseliä.
- **n** on generoitavien kuvien määrä. Tässä luodaan kaksi kuvaa.
- **temperature** on parametri, joka säätelee generatiivisen tekoälyn tuottaman sisällön satunnaisuutta. Temperature-arvo on välillä 0 ja 1, missä 0 tarkoittaa determinististä ja 1 satunnaista tulosta. Oletusarvo on 0.7.

Kuvien kanssa voi tehdä paljon muutakin, joista kerromme seuraavassa osiossa.

## Kuvan generoinnin lisäominaisuudet

Olet nähnyt, miten kuvan voi luoda muutamalla Python-rivillä. Kuvien kanssa voi kuitenkin tehdä paljon muutakin.

Voit esimerkiksi:

- **Muokata kuvia**. Antamalla olemassa olevan kuvan, maskin ja kehoteen, voit muuttaa kuvaa. Voit esimerkiksi lisätä jotakin kuvan osaan. Kuvittele pupukuva, voit lisätä pupulle hatun. Tämä onnistuu antamalla kuva, maski (joka määrittää muokattavan alueen) ja tekstikehote, joka kertoo mitä halutaan tehdä.

    ```python
    response = openai.Image.create_edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response['data'][0]['url']
    ```

    Pohjakuva sisältäisi vain pupun, mutta lopullisessa kuvassa pupulla olisi hattu.
    
- **Luoda variaatioita**. 
    Katso lisää tietoa [OpenAI-muistiostamme](./oai-assignment.ipynb?WT.mc_id=academic-105485-koreyst).



---

**Vastuuvapauslauseke**:  
Tämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua [Co-op Translator](https://github.com/Azure/co-op-translator). Pyrimme tarkkuuteen, mutta huomioithan, että automaattiset käännökset saattavat sisältää virheitä tai epätarkkuuksia. Alkuperäistä asiakirjaa sen alkuperäisellä kielellä tulee pitää ensisijaisena lähteenä. Kriittisissä tapauksissa suosittelemme ammattimaisen ihmiskääntäjän käyttöä. Emme ole vastuussa tämän käännöksen käytöstä mahdollisesti aiheutuvista väärinkäsityksistä tai tulkinnoista.
