# Byg en billedgenereringsapplikation

LLM’er kan mere end bare tekstgenerering. Det er også muligt at generere billeder ud fra tekstbeskrivelser. At have billeder som en modalitet kan være utroligt nyttigt inden for mange områder som MedTech, arkitektur, turisme, spiludvikling og meget mere. I dette kapitel kigger vi nærmere på de to mest populære billedgenereringsmodeller, DALL-E og Midjourney.

## Introduktion

I denne lektion kommer vi ind på:

- Billedgenerering og hvorfor det er nyttigt.
- DALL-E og Midjourney, hvad de er, og hvordan de fungerer.
- Hvordan du kan bygge en billedgenereringsapp.

## Læringsmål

Når du har gennemført denne lektion, vil du kunne:

- Bygge en billedgenereringsapplikation.
- Sætte rammer for din applikation med metaprompter.
- Arbejde med DALL-E og Midjourney.

## Hvorfor bygge en billedgenereringsapplikation?

Billedgenereringsapplikationer er en god måde at udforske mulighederne med Generativ AI. De kan for eksempel bruges til:

- **Billedredigering og syntese**. Du kan generere billeder til mange forskellige formål, som fx billedredigering og syntese.

- **Anvendelse på tværs af brancher**. De kan også bruges til at generere billeder til forskellige brancher som MedTech, turisme, spiludvikling og meget mere.

## Scenario: Edu4All

I denne lektion fortsætter vi med at arbejde med vores startup, Edu4All. Eleverne skal lave billeder til deres opgaver – præcis hvilke billeder, bestemmer de selv, men det kan fx være illustrationer til deres egen eventyrfortælling, skabe en ny karakter til deres historie eller hjælpe dem med at visualisere deres idéer og koncepter.

Her er et eksempel på, hvad Edu4All’s elever kunne generere, hvis de arbejder med monumenter i undervisningen:

![Edu4All startup, klasse om monumenter, Eiffeltårnet](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.da.png)

med en prompt som

> "Hund ved siden af Eiffeltårnet i tidligt morgensollys"

## Hvad er DALL-E og Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) og [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) er to af de mest populære billedgenereringsmodeller, som gør det muligt at bruge prompts til at generere billeder.

### DALL-E

Lad os starte med DALL-E, som er en generativ AI-model, der laver billeder ud fra tekstbeskrivelser.

> [DALL-E er en kombination af to modeller, CLIP og diffused attention](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** er en model, der laver embeddings, altså numeriske repræsentationer af data, ud fra billeder og tekst.

- **Diffused attention** er en model, der genererer billeder ud fra embeddings. DALL-E er trænet på et datasæt med billeder og tekst og kan bruges til at generere billeder ud fra tekstbeskrivelser. For eksempel kan DALL-E bruges til at lave billeder af en kat med hat eller en hund med mohawk.

### Midjourney

Midjourney fungerer på samme måde som DALL-E – den genererer billeder ud fra tekstprompter. Midjourney kan også bruges til at lave billeder med prompts som “en kat med hat” eller “en hund med mohawk”.

![Billede genereret af Midjourney, mekanisk due](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Billedkilde Wikipedia, billede genereret af Midjourney*

## Hvordan fungerer DALL-E og Midjourney

Først [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E er en generativ AI-model baseret på transformer-arkitekturen med en *autoregressiv transformer*.

En *autoregressiv transformer* definerer, hvordan en model genererer billeder ud fra tekstbeskrivelser – den laver ét pixel ad gangen og bruger de genererede pixels til at lave den næste pixel. Den passerer gennem flere lag i et neuralt netværk, indtil billedet er færdigt.

Med denne proces kan DALL-E styre attributter, objekter, karakteristika og meget mere i det billede, der genereres. DALL-E 2 og 3 har dog endnu mere kontrol over det færdige billede,


## Byg din første billedgenereringsapplikation

Hvad skal der egentlig til for at bygge en billedgenereringsapplikation? Du skal bruge følgende biblioteker:

- **python-dotenv**, det anbefales kraftigt at bruge dette bibliotek til at holde dine hemmeligheder i en *.env*-fil væk fra koden.
- **openai**, dette bibliotek bruger du til at interagere med OpenAI API'et.
- **pillow**, til at arbejde med billeder i Python.
- **requests**, som hjælper dig med at lave HTTP-forespørgsler.


1. Opret en fil *.env* med følgende indhold:

    ```text
    AZURE_OPENAI_ENDPOINT=<your endpoint>
    AZURE_OPENAI_API_KEY=<your key>
    ```

    Find disse oplysninger i Azure Portal for din ressource under sektionen "Nøgler og endpoint".


1. Saml ovenstående biblioteker i en fil kaldet *requirements.txt* sådan her:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. Opret derefter et virtuelt miljø og installer bibliotekerne:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> For Windows, brug følgende kommandoer for at oprette og aktivere dit virtuelle miljø:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Tilføj følgende kode i en fil kaldet *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    
    # import dotenv
    dotenv.load_dotenv()
    
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY']     
    
    # Assign the API version (DALL-E is currently supported for the 2023-06-01-preview API version only)
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    
    
    try:
        # Create an image by using the image generation API
        generation_response = openai.Image.create(
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=2,
            temperature=0,
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')
    
        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)
    
        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')
    
        # Retrieve the generated image
        image_url = generation_response["data"][0]["url"]  # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)
    
        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()
    
    # catch exceptions
    except openai.InvalidRequestError as err:
        print(err)

    ```

Lad os gennemgå koden:

- Først importerer vi de nødvendige biblioteker, herunder OpenAI-biblioteket, dotenv-biblioteket, requests-biblioteket og Pillow-biblioteket.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    ```

- Dernæst indlæser vi miljøvariablerne fra *.env*-filen.

    ```python
    # import dotenv
    dotenv.load_dotenv()
    ```

- Herefter sætter vi endpoint, nøgle til OpenAI API, version og type.

    ```python
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY'] 

    # add version and type, Azure specific
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    ```

- Nu genererer vi billedet:

    ```python
    # Create an image by using the image generation API
    generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
    ```

    Koden ovenfor svarer med et JSON-objekt, der indeholder URL'en til det genererede billede. Vi kan bruge URL'en til at hente billedet og gemme det i en fil.

- Til sidst åbner vi billedet og bruger standard billedfremviser til at vise det:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### Flere detaljer om billedgenerering

Lad os se nærmere på koden, der genererer billedet:

```python
generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
```

- **prompt** er tekstprompten, der bruges til at generere billedet. I dette tilfælde bruger vi prompten "Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils".
- **size** er størrelsen på det billede, der genereres. Her genererer vi et billede, der er 1024x1024 pixels.
- **n** er antallet af billeder, der genereres. I dette tilfælde genererer vi to billeder.
- **temperature** er en parameter, der styrer tilfældigheden i outputtet fra en Generativ AI-model. Temperature er en værdi mellem 0 og 1, hvor 0 betyder, at outputtet er deterministisk, og 1 betyder, at outputtet er tilfældigt. Standardværdien er 0,7.

Der er flere ting, du kan gøre med billeder, som vi gennemgår i næste afsnit.

## Yderligere muligheder for billedgenerering

Indtil nu har du set, hvordan vi kunne generere et billede med få linjer Python. Men der er flere ting, du kan gøre med billeder.

Du kan også gøre følgende:

- **Foretage redigeringer**. Ved at give et eksisterende billede, en maske og en prompt kan du ændre et billede. For eksempel kan du tilføje noget til en del af et billede. Forestil dig vores kaninbillede – du kan tilføje en hat til kaninen. Det gør du ved at give billedet, en maske (der identificerer det område, der skal ændres) og en tekstprompt, der beskriver, hvad der skal gøres.

    ```python
    response = openai.Image.create_edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response['data'][0]['url']
    ```

    Grundbilledet vil kun indeholde kaninen, men det endelige billede vil have hatten på kaninen.

- **Oprette variationer**.
    Se vores [OpenAI-notesbog for mere information](./oai-assignment.ipynb?WT.mc_id=academic-105485-koreyst).



---

**Ansvarsfraskrivelse**:  
Dette dokument er blevet oversat ved hjælp af AI-oversættelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestræber os på nøjagtighed, skal du være opmærksom på, at automatiske oversættelser kan indeholde fejl eller unøjagtigheder. Det originale dokument på dets oprindelige sprog bør betragtes som den autoritative kilde. For kritisk information anbefales professionel, menneskelig oversættelse. Vi påtager os intet ansvar for misforståelser eller fejltolkninger, der måtte opstå ved brug af denne oversættelse.
