# Een Applicatie voor Beeldgeneratie Bouwen

Er is meer mogelijk met LLM’s dan alleen tekstgeneratie. Het is ook mogelijk om afbeeldingen te genereren op basis van tekstbeschrijvingen. Beelden als modaliteit kunnen erg nuttig zijn in verschillende sectoren, zoals MedTech, architectuur, toerisme, gameontwikkeling en meer. In dit hoofdstuk bekijken we de twee populairste modellen voor beeldgeneratie: DALL-E en Midjourney.

## Introductie

In deze les behandelen we:

- Beeldgeneratie en waarom het nuttig is.
- DALL-E en Midjourney: wat ze zijn en hoe ze werken.
- Hoe je een applicatie voor beeldgeneratie bouwt.

## Leerdoelen

Na het voltooien van deze les kun je:

- Een applicatie voor beeldgeneratie bouwen.
- Grenzen stellen voor je applicatie met meta-prompts.
- Werken met DALL-E en Midjourney.

## Waarom een applicatie voor beeldgeneratie bouwen?

Beeldgeneratie-applicaties zijn een geweldige manier om de mogelijkheden van Generatieve AI te verkennen. Ze kunnen bijvoorbeeld gebruikt worden voor:

- **Afbeeldingen bewerken en samenstellen**. Je kunt beelden genereren voor allerlei toepassingen, zoals beeldbewerking en beeldsynthese.

- **Toepasbaar in verschillende sectoren**. Ze kunnen ook gebruikt worden om beelden te genereren voor sectoren als MedTech, toerisme, gameontwikkeling en meer.

## Scenario: Edu4All

In deze les werken we verder met onze startup, Edu4All. De leerlingen maken afbeeldingen voor hun opdrachten; welke afbeeldingen dat zijn, mogen ze zelf bepalen. Ze kunnen bijvoorbeeld illustraties maken voor hun eigen sprookje, een nieuw personage creëren voor hun verhaal, of hun ideeën en concepten visualiseren.

Dit is een voorbeeld van wat leerlingen van Edu4All kunnen genereren als ze in de klas werken aan monumenten:

![Edu4All startup, les over monumenten, Eiffeltoren](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.nl.png)

met een prompt als

> "Hond naast de Eiffeltoren in het vroege ochtendlicht"

## Wat zijn DALL-E en Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) en [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) zijn twee van de populairste modellen voor beeldgeneratie. Ze stellen je in staat om met prompts afbeeldingen te genereren.

### DALL-E

Laten we beginnen met DALL-E, een Generatief AI-model dat afbeeldingen maakt op basis van tekstbeschrijvingen.

> [DALL-E is een combinatie van twee modellen, CLIP en diffused attention](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** is een model dat embeddings genereert, oftewel numerieke representaties van data, uit afbeeldingen en tekst.

- **Diffused attention** is een model dat afbeeldingen maakt op basis van embeddings. DALL-E is getraind op een dataset van afbeeldingen en tekst, en kan gebruikt worden om beelden te genereren op basis van tekstbeschrijvingen. Zo kan DALL-E bijvoorbeeld een afbeelding maken van een kat met een hoed, of een hond met een hanenkam.

### Midjourney

Midjourney werkt op een vergelijkbare manier als DALL-E: het genereert afbeeldingen op basis van tekstprompts. Ook met Midjourney kun je beelden maken met prompts als “een kat met een hoed” of “een hond met een hanenkam”.

![Afbeelding gegenereerd door Midjourney, mechanische duif](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Afbeelding: Wikipedia, gegenereerd door Midjourney*

## Hoe werken DALL-E en Midjourney

Allereerst [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E is een Generatief AI-model gebaseerd op de transformer-architectuur met een *autoregressieve transformer*.

Een *autoregressieve transformer* bepaalt hoe een model afbeeldingen maakt op basis van tekstbeschrijvingen: het genereert één pixel tegelijk en gebruikt de reeds gemaakte pixels om de volgende te genereren. Dit proces gaat door verschillende lagen van een neuraal netwerk, totdat de afbeelding compleet is.

Met deze aanpak kan DALL-E eigenschappen, objecten, kenmerken en meer in de afbeelding aansturen. DALL-E 2 en 3 bieden nog meer controle over het gegenereerde beeld,


## Je eerste applicatie voor beeldgeneratie bouwen

Wat heb je nodig om een applicatie voor beeldgeneratie te bouwen? Je hebt de volgende libraries nodig:

- **python-dotenv**, het is sterk aan te raden om deze library te gebruiken zodat je je geheimen in een *.env*-bestand buiten je code kunt bewaren.
- **openai**, deze library gebruik je om te communiceren met de OpenAI API.
- **pillow**, om met afbeeldingen te werken in Python.
- **requests**, om je te helpen HTTP-verzoeken te doen.


1. Maak een bestand *.env* aan met de volgende inhoud:

    ```text
    OPENAI_API_KEY='<add your OpenAI key here>'
    ```


1. Verzamel de bovenstaande libraries in een bestand genaamd *requirements.txt* als volgt:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. Maak vervolgens een virtuele omgeving aan en installeer de libraries:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Voor Windows gebruik je de volgende commando's om je virtuele omgeving aan te maken en te activeren:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Voeg de volgende code toe in een bestand genaamd *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv

    # import dotenv
    dotenv.load_dotenv()

    # Create OpenAI object
    client = OpenAI()


    try:
        # Create an image by using the image generation API
        generation_response = client.images.generate(
            model="dall-e-3",
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=1
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')

        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)

        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')

        # Retrieve the generated image
        print(generation_response)

        image_url = generation_response.data[0].url # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)

        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()

    # catch exceptions
    except client.error.InvalidRequestError as err:
        print(err)

    ```

Laten we deze code uitleggen:

- Eerst importeren we de benodigde bibliotheken, waaronder de OpenAI-bibliotheek, de dotenv-bibliotheek, de requests-bibliotheek en de Pillow-bibliotheek.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv 
    ```

- Daarna maken we het object aan, dat de API-sleutel uit je ``.env`` haalt.

    ```python
        # Create OpenAI object
        client = OpenAI()
    ```

- Vervolgens genereren we de afbeelding:

    ```python
    # Create an image by using the image generation API
    generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
    ```

    De bovenstaande code geeft een JSON-object terug dat de URL van de gegenereerde afbeelding bevat. We kunnen deze URL gebruiken om de afbeelding te downloaden en op te slaan in een bestand.

- Tot slot openen we de afbeelding en gebruiken we de standaard afbeeldingsviewer om deze te tonen:

    ```python
    image = Image.open(image_path)
    image.show()
    ```
    
### Meer details over het genereren van de afbeelding

Laten we de code die de afbeelding genereert wat uitgebreider bekijken:

```python
generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
```

- **prompt** is de tekstprompt die gebruikt wordt om de afbeelding te genereren. In dit geval gebruiken we de prompt "Konijn op paard, met een lolly, op een mistige weide waar narcissen groeien".
- **size** is het formaat van de afbeelding die wordt gegenereerd. In dit geval maken we een afbeelding van 1024x1024 pixels.
- **n** is het aantal afbeeldingen dat wordt gegenereerd. In dit geval maken we twee afbeeldingen.

Er zijn nog meer mogelijkheden met afbeeldingen die we in het volgende deel zullen behandelen.

## Extra mogelijkheden voor het genereren van afbeeldingen

Je hebt tot nu toe gezien hoe we een afbeelding konden genereren met een paar regels Python. Maar er zijn nog meer dingen die je met afbeeldingen kunt doen.

Je kunt bijvoorbeeld ook het volgende doen:

- **Bewerkingen uitvoeren**. Door een bestaande afbeelding, een masker en een prompt te geven, kun je een afbeelding aanpassen. Je kunt bijvoorbeeld iets toevoegen aan een deel van een afbeelding. Stel je onze konijnenafbeelding voor, je kunt een hoed toevoegen aan het konijn. Hoe je dat doet is door de afbeelding, een masker (dat het deel aangeeft dat moet veranderen) en een tekstprompt te geven die beschrijft wat er moet gebeuren.

    ```python
    response = openai.images.edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```

    De basisafbeelding bevat alleen het konijn, maar de uiteindelijke afbeelding heeft een hoed op het konijn.
    
- **Variaties maken**. Het idee is dat je een bestaande afbeelding neemt en vraagt om variaties te maken. Om een variatie te maken geef je een afbeelding en een tekstprompt en gebruik je code zoals hieronder:

    ```python
    response = openai.images.create_variation(
      image=open("bunny-lollipop.png", "rb"),
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```



---

**Disclaimer**:  
Dit document is vertaald met behulp van de AI-vertalingsdienst [Co-op Translator](https://github.com/Azure/co-op-translator). Hoewel we streven naar nauwkeurigheid, dient u er rekening mee te houden dat geautomatiseerde vertalingen fouten of onnauwkeurigheden kunnen bevatten. Het originele document in de oorspronkelijke taal moet als de gezaghebbende bron worden beschouwd. Voor kritische informatie wordt professionele menselijke vertaling aanbevolen. Wij zijn niet aansprakelijk voor misverstanden of verkeerde interpretaties die voortvloeien uit het gebruik van deze vertaling.
