# Bygge en applikasjon for bildegenerering

LLMer handler om mer enn bare tekstgenerering. Det er også mulig å generere bilder fra tekstbeskrivelser. Å ha bilder som en modalitet kan være svært nyttig innen alt fra MedTech, arkitektur, turisme, spillutvikling og mye mer. I dette kapittelet skal vi se nærmere på de to mest populære modellene for bildegenerering, DALL-E og Midjourney.

## Introduksjon

I denne leksjonen skal vi gå gjennom:

- Bildegenerering og hvorfor det er nyttig.
- DALL-E og Midjourney, hva de er og hvordan de fungerer.
- Hvordan du kan bygge en applikasjon for bildegenerering.

## Læringsmål

Etter å ha fullført denne leksjonen skal du kunne:

- Lage en applikasjon for bildegenerering.
- Sette rammer for applikasjonen din med metaprompt.
- Jobbe med DALL-E og Midjourney.

## Hvorfor lage en applikasjon for bildegenerering?

Applikasjoner for bildegenerering er en flott måte å utforske mulighetene med Generativ AI. De kan brukes til for eksempel:

- **Bildebehandling og syntese**. Du kan generere bilder til ulike formål, som bildebehandling og bildesyntese.

- **Brukes i mange bransjer**. De kan også brukes til å generere bilder for ulike bransjer som MedTech, turisme, spillutvikling og mer.

## Scenario: Edu4All

I denne leksjonen fortsetter vi å jobbe med vår startup, Edu4All. Studentene skal lage bilder til sine oppgaver, akkurat hvilke bilder de lager er opp til dem, men det kan være illustrasjoner til eventyret sitt, lage en ny karakter til historien sin, eller hjelpe dem med å visualisere ideer og konsepter.

Her er et eksempel på hva Edu4Alls elever kan generere hvis de jobber med monumenter i klassen:

![Edu4All startup, klasse om monumenter, Eiffeltårnet](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.no.png)

ved å bruke en prompt som

> "Hund ved Eiffeltårnet i tidlig morgensol"

## Hva er DALL-E og Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) og [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) er to av de mest populære modellene for bildegenerering, og lar deg bruke prompts for å lage bilder.

### DALL-E

La oss starte med DALL-E, som er en generativ AI-modell som lager bilder fra tekstbeskrivelser.

> [DALL-E er en kombinasjon av to modeller, CLIP og diffused attention](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** er en modell som lager embeddings, altså numeriske representasjoner av data, fra bilder og tekst.

- **Diffused attention** er en modell som lager bilder fra embeddings. DALL-E er trent på et datasett med bilder og tekst, og kan brukes til å generere bilder fra tekstbeskrivelser. For eksempel kan DALL-E lage bilder av en katt med hatt, eller en hund med mohawk.

### Midjourney

Midjourney fungerer på lignende måte som DALL-E, og lager bilder fra tekstprompter. Midjourney kan også brukes til å generere bilder med prompts som “en katt med hatt” eller “en hund med mohawk”.

![Bilde generert av Midjourney, mekanisk due](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Bildekilde Wikipedia, bilde generert av Midjourney*

## Hvordan fungerer DALL-E og Midjourney

Først, [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E er en generativ AI-modell basert på transformer-arkitektur med en *autoregressiv transformer*.

En *autoregressiv transformer* definerer hvordan en modell lager bilder fra tekstbeskrivelser, den genererer én piksel om gangen, og bruker de genererte pikslene til å lage neste piksel. Dette skjer gjennom flere lag i et nevralt nettverk, helt til bildet er ferdig.

Med denne prosessen kan DALL-E kontrollere attributter, objekter, egenskaper og mer i bildet den lager. DALL-E 2 og 3 har enda mer kontroll over det genererte bildet,


## Bygg din første bildegenereringsapplikasjon

Hva trenger du for å lage en applikasjon som genererer bilder? Du trenger følgende biblioteker:

- **python-dotenv**, det anbefales sterkt å bruke dette biblioteket for å holde hemmeligheter i en *.env*-fil, adskilt fra koden.
- **openai**, dette biblioteket bruker du for å kommunisere med OpenAI API.
- **pillow**, for å jobbe med bilder i Python.
- **requests**, for å gjøre HTTP-forespørsler.

1. Lag en fil som heter *.env* med følgende innhold:

    ```text
    AZURE_OPENAI_ENDPOINT=<your endpoint>
    AZURE_OPENAI_API_KEY=<your key>
    ```

    Du finner denne informasjonen i Azure Portal for ressursen din under "Keys and Endpoint"-seksjonen.


1. Samle bibliotekene ovenfor i en fil kalt *requirements.txt* slik:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. Opprett deretter et virtuelt miljø og installer bibliotekene:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> For Windows, bruk følgende kommandoer for å opprette og aktivere ditt virtuelle miljø:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Legg til følgende kode i en fil kalt *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    
    # import dotenv
    dotenv.load_dotenv()
    
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY']     
    
    # Assign the API version (DALL-E is currently supported for the 2023-06-01-preview API version only)
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    
    
    try:
        # Create an image by using the image generation API
        generation_response = openai.Image.create(
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=2,
            temperature=0,
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')
    
        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)
    
        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')
    
        # Retrieve the generated image
        image_url = generation_response["data"][0]["url"]  # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)
    
        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()
    
    # catch exceptions
    except openai.InvalidRequestError as err:
        print(err)

    ```

La oss forklare denne koden:

- Først importerer vi bibliotekene vi trenger, inkludert OpenAI-biblioteket, dotenv-biblioteket, requests-biblioteket og Pillow-biblioteket.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    ```

- Deretter laster vi inn miljøvariablene fra *.env*-filen.

    ```python
    # import dotenv
    dotenv.load_dotenv()
    ```

- Etter det setter vi endepunktet, nøkkelen for OpenAI API, versjon og type.

    ```python
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY'] 

    # add version and type, Azure specific
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    ```

- Så genererer vi bildet:

    ```python
    # Create an image by using the image generation API
    generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
    ```

    Koden over svarer med et JSON-objekt som inneholder URL-en til det genererte bildet. Vi kan bruke URL-en til å laste ned bildet og lagre det til en fil.

- Til slutt åpner vi bildet og bruker standard bildeviser for å vise det:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### Mer om hvordan bildet genereres

La oss se nærmere på koden som genererer bildet:

```python
generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
```

- **prompt** er tekstbeskrivelsen som brukes for å generere bildet. I dette tilfellet bruker vi prompten "Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils".
- **size** er størrelsen på bildet som genereres. Her lager vi et bilde som er 1024x1024 piksler.
- **n** er antall bilder som genereres. I dette eksempelet lager vi to bilder.
- **temperature** er en parameter som styrer hvor tilfeldig resultatet fra en generativ AI-modell blir. Verdien er mellom 0 og 1, der 0 betyr at resultatet er deterministisk og 1 betyr at det er helt tilfeldig. Standardverdien er 0,7.

Det finnes flere ting du kan gjøre med bilder, som vi skal se på i neste del.

## Flere muligheter med bildegenerering

Du har nå sett hvordan vi kan generere et bilde med noen få linjer Python-kode. Men det finnes flere ting du kan gjøre med bilder.

Du kan også gjøre følgende:

- **Redigere bilder**. Ved å gi et eksisterende bilde, en maske og en prompt, kan du endre et bilde. For eksempel kan du legge til noe på en del av bildet. Tenk deg vårt kaninbilde – du kan legge til en hatt på kaninen. Dette gjør du ved å gi bildet, en maske (som markerer området som skal endres) og en tekstprompt som sier hva som skal gjøres.

    ```python
    response = openai.Image.create_edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response['data'][0]['url']
    ```

    Grunnbildet vil bare inneholde kaninen, men det endelige bildet vil ha en hatt på kaninen.

- **Lage variasjoner**.
    Se vår [OpenAI-notatbok for mer informasjon](./oai-assignment.ipynb?WT.mc_id=academic-105485-koreyst).



---

**Ansvarsfraskrivelse**:  
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selv om vi tilstreber nøyaktighet, vær oppmerksom på at automatiske oversettelser kan inneholde feil eller unøyaktigheter. Det opprinnelige dokumentet på sitt originale språk skal anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell, menneskelig oversettelse. Vi er ikke ansvarlige for eventuelle misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.
