# Bygga en applikation för bildgenerering

LLM:er handlar om mer än bara textgenerering. Det är också möjligt att skapa bilder utifrån textbeskrivningar. Att ha bilder som en modalitet kan vara väldigt användbart inom många områden, som MedTech, arkitektur, turism, spelutveckling och mycket mer. I det här kapitlet tittar vi närmare på de två mest populära modellerna för bildgenerering, DALL-E och Midjourney.

## Introduktion

I den här lektionen går vi igenom:

- Bildgenerering och varför det är användbart.
- DALL-E och Midjourney, vad de är och hur de fungerar.
- Hur du kan bygga en app för bildgenerering.

## Lärandemål

När du har gått igenom den här lektionen kommer du kunna:

- Bygga en applikation för bildgenerering.
- Sätta gränser för din applikation med metaprompter.
- Arbeta med DALL-E och Midjourney.

## Varför bygga en applikation för bildgenerering?

Applikationer för bildgenerering är ett utmärkt sätt att utforska vad Generativ AI kan göra. De kan användas till exempel för:

- **Bildredigering och syntes**. Du kan skapa bilder för olika användningsområden, som bildredigering och bildsyntes.

- **Användbart inom många branscher**. De kan också användas för att generera bilder till olika branscher som Medtech, turism, spelutveckling och mycket mer.

## Scenario: Edu4All

I den här lektionen fortsätter vi att arbeta med vår startup, Edu4All. Eleverna kommer att skapa bilder till sina uppgifter, exakt vilka bilder de väljer är upp till dem, men det kan till exempel vara illustrationer till deras egen saga, skapa en ny karaktär till sin berättelse eller hjälpa dem att visualisera sina idéer och koncept.

Här är ett exempel på vad Edu4Alls elever kan skapa om de jobbar med monument i klassrummet:

![Edu4All startup, klass om monument, Eiffeltornet](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.sv.png)

med en prompt som

> "Hund bredvid Eiffeltornet i tidigt morgonljus"

## Vad är DALL-E och Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) och [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) är två av de mest populära modellerna för bildgenerering, där du kan använda prompts för att skapa bilder.

### DALL-E

Vi börjar med DALL-E, som är en generativ AI-modell som skapar bilder utifrån textbeskrivningar.

> [DALL-E är en kombination av två modeller, CLIP och diffused attention](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** är en modell som skapar embeddingar, alltså numeriska representationer av data, från bilder och text.

- **Diffused attention** är en modell som genererar bilder utifrån embeddingar. DALL-E tränas på en datamängd med bilder och text och kan användas för att skapa bilder utifrån textbeskrivningar. Till exempel kan DALL-E användas för att skapa en bild av en katt med hatt, eller en hund med mohawk.

### Midjourney

Midjourney fungerar på liknande sätt som DALL-E, och skapar bilder utifrån textprompter. Midjourney kan också användas för att generera bilder med prompts som “en katt med hatt” eller “en hund med mohawk”.

![Bild genererad av Midjourney, mekanisk duva](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Bildkälla Wikipedia, bild genererad av Midjourney*

## Hur fungerar DALL-E och Midjourney

Först [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E är en generativ AI-modell som bygger på transformer-arkitekturen med en *autoregressiv transformer*.

En *autoregressiv transformer* beskriver hur en modell skapar bilder utifrån textbeskrivningar, den genererar en pixel i taget och använder de genererade pixlarna för att skapa nästa pixel. Bilden går igenom flera lager i ett neuralt nätverk tills den är färdig.

Med den här processen kan DALL-E styra attribut, objekt, egenskaper och mycket mer i bilden den skapar. DALL-E 2 och 3 har dock ännu mer kontroll över den genererade bilden,


## Bygg din första applikation för bildgenerering

Vad krävs egentligen för att bygga en applikation som genererar bilder? Du behöver följande bibliotek:

- **python-dotenv**, det rekommenderas starkt att använda detta bibliotek för att hålla dina hemligheter i en *.env*-fil, separat från koden.
- **openai**, detta bibliotek använder du för att kommunicera med OpenAI:s API.
- **pillow**, för att arbeta med bilder i Python.
- **requests**, för att göra HTTP-förfrågningar.

1. Skapa en fil som heter *.env* med följande innehåll:

    ```text
    OPENAI_API_KEY='<add your OpenAI key here>'
    ```


1. Samla ovanstående bibliotek i en fil som heter *requirements.txt* så här:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. Skapa sedan en virtuell miljö och installera biblioteken:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> För Windows, använd följande kommandon för att skapa och aktivera din virtuella miljö:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Lägg till följande kod i en fil som heter *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv

    # import dotenv
    dotenv.load_dotenv()

    # Create OpenAI object
    client = OpenAI()


    try:
        # Create an image by using the image generation API
        generation_response = client.images.generate(
            model="dall-e-3",
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=1
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')

        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)

        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')

        # Retrieve the generated image
        print(generation_response)

        image_url = generation_response.data[0].url # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)

        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()

    # catch exceptions
    except client.error.InvalidRequestError as err:
        print(err)

    ```

Låt oss förklara denna kod:

- Först importerar vi de bibliotek vi behöver, inklusive OpenAI-biblioteket, dotenv-biblioteket, requests-biblioteket och Pillow-biblioteket.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv 
    ```

- Därefter skapar vi objektet, som hämtar API-nyckeln från din ``.env``.

    ```python
        # Create OpenAI object
        client = OpenAI()
    ```

- Sedan genererar vi bilden:

    ```python
    # Create an image by using the image generation API
    generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
    ```

    Koden ovan svarar med ett JSON-objekt som innehåller URL:en till den genererade bilden. Vi kan använda URL:en för att ladda ner bilden och spara den till en fil.

- Slutligen öppnar vi bilden och använder standardbildvisaren för att visa den:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### Mer om att generera bilden

Låt oss titta närmare på koden som genererar bilden:

```python
generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
```

- **prompt** är textprompten som används för att generera bilden. I det här fallet använder vi prompten "Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils".
- **size** är storleken på bilden som genereras. I det här fallet genererar vi en bild som är 1024x1024 pixlar.
- **n** är antalet bilder som genereras. I det här fallet genererar vi två bilder.

Det finns fler saker du kan göra med bilder som vi kommer att ta upp i nästa avsnitt.

## Ytterligare möjligheter med bildgenerering

Du har hittills sett hur vi kunde generera en bild med några rader kod i Python. Men det finns fler saker du kan göra med bilder.

Du kan också göra följande:

- **Göra ändringar**. Genom att tillhandahålla en befintlig bild, en mask och en prompt kan du ändra en bild. Till exempel kan du lägga till något på en del av en bild. Tänk dig vår kaninbild, du kan lägga till en hatt på kaninen. Hur du gör det är genom att ange bilden, en mask (som identifierar området som ska ändras) och en textprompt som beskriver vad som ska göras.

    ```python
    response = openai.images.edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```

    Grundbilden skulle bara innehålla kaninen men slutbilden skulle ha hatten på kaninen.

- **Skapa varianter**. Tanken är att du tar en befintlig bild och ber om att varianter skapas. För att skapa en variant tillhandahåller du en bild och en textprompt och kodar så här:

    ```python
    response = openai.images.create_variation(
      image=open("bunny-lollipop.png", "rb"),
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```



---

**Ansvarsfriskrivning**:  
Detta dokument har översatts med hjälp av AI-översättningstjänsten [Co-op Translator](https://github.com/Azure/co-op-translator). Vi strävar efter noggrannhet, men var medveten om att automatiska översättningar kan innehålla fel eller brister. Det ursprungliga dokumentet på dess originalspråk ska betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi tar inget ansvar för eventuella missförstånd eller feltolkningar som uppstår vid användning av denna översättning.
