# Entwicklung einer Anwendung zur Bildgenerierung

LLMs können mehr als nur Texte generieren. Es ist auch möglich, Bilder aus Textbeschreibungen zu erstellen. Bilder als zusätzliche Modalität sind in vielen Bereichen äußerst nützlich, zum Beispiel in der Medizintechnik, Architektur, im Tourismus, in der Spieleentwicklung und mehr. In diesem Kapitel schauen wir uns die zwei bekanntesten Bildgenerierungsmodelle an: DALL-E und Midjourney.

## Einführung

In dieser Lektion behandeln wir:

- Bildgenerierung und warum sie nützlich ist.
- DALL-E und Midjourney: Was sind sie und wie funktionieren sie?
- Wie man eine Anwendung zur Bildgenerierung entwickelt.

## Lernziele

Nach Abschluss dieser Lektion kannst du:

- Eine Anwendung zur Bildgenerierung erstellen.
- Grenzen für deine Anwendung mit Meta-Prompts festlegen.
- Mit DALL-E und Midjourney arbeiten.

## Warum eine Anwendung zur Bildgenerierung entwickeln?

Bildgenerierungsanwendungen sind eine tolle Möglichkeit, die Fähigkeiten von Generativer KI zu erkunden. Sie können zum Beispiel verwendet werden für:

- **Bildbearbeitung und -synthese**. Du kannst Bilder für verschiedene Anwendungsfälle generieren, etwa zur Bildbearbeitung oder zur Bildsynthese.

- **Einsatz in verschiedenen Branchen**. Sie können auch genutzt werden, um Bilder für unterschiedliche Branchen zu erstellen, wie Medizintechnik, Tourismus, Spieleentwicklung und mehr.

## Szenario: Edu4All

Im Rahmen dieser Lektion arbeiten wir weiterhin mit unserem Startup Edu4All. Die Schüler erstellen Bilder für ihre Aufgaben – welche Bilder sie wählen, bleibt ihnen überlassen. Sie könnten zum Beispiel Illustrationen für ihr eigenes Märchen gestalten, einen neuen Charakter für ihre Geschichte erschaffen oder ihre Ideen und Konzepte visualisieren.

Hier ein Beispiel, was die Schüler von Edu4All generieren könnten, wenn sie im Unterricht an Monumenten arbeiten:

![Edu4All Startup, Unterricht zu Monumenten, Eiffelturm](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.de.png)

mit einem Prompt wie

> „Hund neben dem Eiffelturm im frühen Morgenlicht“

## Was sind DALL-E und Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) und [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) sind zwei der bekanntesten Bildgenerierungsmodelle. Sie ermöglichen es, mit Prompts Bilder zu erzeugen.

### DALL-E

Beginnen wir mit DALL-E, einem Generativen KI-Modell, das Bilder aus Textbeschreibungen erstellt.

> [DALL-E ist eine Kombination aus zwei Modellen, CLIP und diffused attention](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** ist ein Modell, das sogenannte Embeddings erzeugt – numerische Darstellungen von Daten – aus Bildern und Text.

- **Diffused attention** ist ein Modell, das aus diesen Embeddings Bilder generiert. DALL-E wurde mit einem Datensatz aus Bildern und Texten trainiert und kann Bilder aus Textbeschreibungen erstellen. Zum Beispiel kann DALL-E ein Bild von einer Katze mit Hut oder einem Hund mit Irokesenschnitt generieren.

### Midjourney

Midjourney funktioniert ähnlich wie DALL-E und erstellt Bilder aus Text-Prompts. Auch mit Midjourney kann man Bilder mit Prompts wie „Katze mit Hut“ oder „Hund mit Irokesenschnitt“ generieren.

![Von Midjourney generiertes Bild, mechanische Taube](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Bildquelle Wikipedia, Bild generiert mit Midjourney*

## Wie funktionieren DALL-E und Midjourney?

Zunächst [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E ist ein Generatives KI-Modell, das auf der Transformer-Architektur mit einem *autoregressiven Transformer* basiert.

Ein *autoregressiver Transformer* beschreibt, wie ein Modell Bilder aus Textbeschreibungen generiert: Es erzeugt ein Pixel nach dem anderen und nutzt die bereits generierten Pixel, um das nächste zu erstellen. Das geschieht über mehrere Schichten eines neuronalen Netzwerks, bis das Bild fertig ist.

Mit diesem Prozess steuert DALL-E die Attribute, Objekte, Eigenschaften und mehr im generierten Bild. DALL-E 2 und 3 bieten dabei noch mehr Kontrolle über das erzeugte Bild,


## Erstellen Ihrer ersten Bildgenerierungsanwendung

Was braucht man also, um eine Bildgenerierungsanwendung zu erstellen? Sie benötigen die folgenden Bibliotheken:

- **python-dotenv**: Es wird dringend empfohlen, diese Bibliothek zu verwenden, um Ihre Zugangsdaten in einer *.env*-Datei getrennt vom Code zu speichern.
- **openai**: Mit dieser Bibliothek interagieren Sie mit der OpenAI API.
- **pillow**: Um mit Bildern in Python zu arbeiten.
- **requests**: Diese Bibliothek hilft Ihnen, HTTP-Anfragen zu stellen.

1. Erstellen Sie eine Datei *.env* mit folgendem Inhalt:

    ```text
    AZURE_OPENAI_ENDPOINT=<your endpoint>
    AZURE_OPENAI_API_KEY=<your key>
    ```

    Diese Informationen finden Sie im Azure-Portal für Ihre Ressource im Abschnitt „Schlüssel und Endpunkt“.


1. Sammle die oben genannten Bibliotheken in einer Datei namens *requirements.txt*, zum Beispiel so:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```

1. Erstelle als Nächstes eine virtuelle Umgebung und installiere die Bibliotheken:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Für Windows verwende die folgenden Befehle, um deine virtuelle Umgebung zu erstellen und zu aktivieren:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Füge den folgenden Code in eine Datei namens *app.py* ein:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    
    # import dotenv
    dotenv.load_dotenv()
    
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY']     
    
    # Assign the API version (DALL-E is currently supported for the 2023-06-01-preview API version only)
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    
    
    try:
        # Create an image by using the image generation API
        generation_response = openai.Image.create(
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=2,
            temperature=0,
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')
    
        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)
    
        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')
    
        # Retrieve the generated image
        image_url = generation_response["data"][0]["url"]  # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)
    
        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()
    
    # catch exceptions
    except openai.InvalidRequestError as err:
        print(err)

    ```

Lass uns diesen Code erklären:

- Zuerst importieren wir die benötigten Bibliotheken, darunter die OpenAI-Bibliothek, die dotenv-Bibliothek, die requests-Bibliothek und die Pillow-Bibliothek.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    ```

- Als Nächstes laden wir die Umgebungsvariablen aus der *.env*-Datei.

    ```python
    # import dotenv
    dotenv.load_dotenv()
    ```

- Danach legen wir den Endpunkt, den Schlüssel für die OpenAI API, die Version und den Typ fest.

    ```python
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY'] 

    # add version and type, Azure specific
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    ```

- Anschließend generieren wir das Bild:

    ```python
    # Create an image by using the image generation API
    generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
    ```

    Der obige Code gibt ein JSON-Objekt zurück, das die URL des generierten Bildes enthält. Wir können die URL verwenden, um das Bild herunterzuladen und in einer Datei zu speichern.

- Zum Schluss öffnen wir das Bild und zeigen es mit dem Standard-Bildbetrachter an:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### Weitere Details zur Bildgenerierung

Schauen wir uns den Code zur Bildgenerierung genauer an:

```python
generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
```

- **prompt** ist der Text, der zur Generierung des Bildes verwendet wird. In diesem Fall nutzen wir den Prompt „Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils“.
- **size** ist die Größe des generierten Bildes. In diesem Beispiel erzeugen wir ein Bild mit 1024x1024 Pixeln.
- **n** ist die Anzahl der generierten Bilder. Hier werden zwei Bilder erzeugt.
- **temperature** ist ein Parameter, der die Zufälligkeit der Ausgabe eines generativen KI-Modells steuert. Der Wert liegt zwischen 0 und 1, wobei 0 bedeutet, dass die Ausgabe deterministisch ist, und 1, dass sie zufällig ist. Der Standardwert ist 0,7.

Es gibt noch weitere Möglichkeiten mit Bildern, auf die wir im nächsten Abschnitt eingehen.

## Zusätzliche Möglichkeiten der Bildgenerierung

Du hast bisher gesehen, wie wir mit wenigen Zeilen Python-Code ein Bild generieren konnten. Es gibt jedoch noch mehr, was du mit Bildern machen kannst.

Du kannst außerdem Folgendes tun:

- **Bearbeitungen durchführen**. Indem du ein bestehendes Bild, eine Maske und einen Prompt angibst, kannst du ein Bild verändern. Zum Beispiel kannst du einem Teil eines Bildes etwas hinzufügen. Stell dir unser Hasenbild vor – du könntest dem Hasen einen Hut aufsetzen. Dazu gibst du das Bild, eine Maske (die den zu ändernden Bereich markiert) und einen Textprompt an, der beschreibt, was gemacht werden soll.

    ```python
    response = openai.Image.create_edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response['data'][0]['url']
    ```

    Das Ausgangsbild würde nur den Hasen enthalten, aber das Endbild hätte den Hut auf dem Hasen.

- **Variationen erstellen**.
    Sieh dir unser [OpenAI-Notebook für weitere Informationen an](./oai-assignment.ipynb?WT.mc_id=academic-105485-koreyst).



---

**Haftungsausschluss**:  
Dieses Dokument wurde mit dem KI-Übersetzungsdienst [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir uns um Genauigkeit bemühen, beachten Sie bitte, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner Ausgangssprache gilt als maßgebliche Quelle. Für wichtige Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die sich aus der Nutzung dieser Übersetzung ergeben.
