# Arbeitspaket (AP) 3: Multimodal Interactions - Images

### Persönliche Angaben (bitte ergänzen)

<table>
  <tr>
    <td>Vorname:</td>
    <td>Dario</td>
  </tr>
  <tr>
    <td>Nachname:</td>
    <td>Bless</td>
  </tr>
  <tr>
    <td>Immatrikulationsnummer:</td>
    <td>1613555</td>
  </tr>
  <tr>
    <td>Modul:</td>
    <td>Data Science</td>
  </tr>
  <tr>
    <td>Prüfungsdatum / Raum / Zeit:</td>
    <td>15.12.2025 / Raum: MU O2.001 / 8:00 – 11:45</td>
  </tr>
  <tr>
    <td>Erlaubte Hilfsmittel:</td>
    <td>w.MA.XX.DS.24HS (Data Science)<br>Open Book, Eigener Computer, Internet-Zugang</td>
  </tr>
  <tr>
  <td>Nicht erlaubt:</td>
  <td>Nicht erlaubt ist der Einsatz beliebiger Formen von generativer KI (z.B. Copilot, ChatGPT) <br> sowie beliebige Formen von Kommunikation oder Kollaboration mit anderen Menschen.</td>
</tr>
</table>

## Bewertungskriterien

| **Kategorie**                       | **Beschreibung**                                                                                                                                          | **Punkteverteilung**                |
|-------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------------------|
| **Code nicht lauffähig oder Ergebnisse nicht relevant** | Der Code läuft nicht oder erfüllt nicht die Anforderungen des Aspekts (z. B. Bilder werden nicht geladen, die Textausgabe der Extraktion fehlt, Bounding Boxes werden nicht angezeigt). | **0 Punkte**                       |
| **Code lauffähig, aber mit gravierenden Mängeln**       | Der Code läuft, jedoch fehlen zentrale Teile der Funktionalität eines Aspekts (z. B. unvollständige Extraktion von Bildinformationen oder Fehler bei der Definition eines Schemas). | **25% der max. erreichbaren Punkte** |
| **Code lauffähig, aber mit mittleren Mängeln**          | Der Code läuft und liefert teilweise korrekte Ergebnisse für einen Aspekt, aber wichtige Details fehlen (z. B. ungenaue Bounding Boxes, unvollständige Integration der extrahierten Daten). | **50% der max. erreichbaren Punkte** |
| **Code lauffähig, aber mit minimalen Mängeln**          | Der Code erfüllt die Anforderungen eines Aspekts weitgehend, aber kleinere Fehler oder Abweichungen (z. B. nicht robust Extraktionsdaten, kleinere Schemaabweichungen, Prompt zu wenig stringent formuliert -> teilweise unstabile Output)sind vorhanden. | **75% der max. erreichbaren Punkte** |
| **Code lauffähig und korrekt**                         | Der Code erfüllt die Anforderungen des Aspekts vollständig und liefert die erwarteten Ergebnisse ohne Fehler (z. B. korrekte Extraktion, vollständige Bounding Boxes, saubere Integration). | **100% der max. erreichbaren Punkte** |

---


## <b>Vorbereitung (Dieser Teil wird <u>nicht</u> bewertet!)</b>

#### <b>1.) Starten Sie eine GitHub Codespaces Instanz auf Basis Ihres Forks des folgenden GitHub Repositories:</b>

##### GitHub-Repository: https://github.com/zhaw-iwi/MultimodalInteraction_ObjDet

#### <b> 2.) Erstellen Sie eine neue  Datei .env in Ihrem Codespace, die die API-Keys als ENV-Variabel enthält, und laden Sie diese in Ihrem Code mithilfe der dotenv Library.

## <b>Aufgaben (Dieser Teil wird bewertet!)</b>


### **Hinweise zum folgenden Arbeitspaket:**

Im Rahmen dieses Arbeitspakets sollen Sie eine kombinierte Text- und Objekterkennung durchführen, um mithilfe von Textinformationen Inhalte aus Bildern zu extrahieren. Ihnen stehen dabei eine schriftliche Rezeptbeschreibung sowie zwei Bilder zur Verfügung:  
**`pizza_recipe.txt`**, **`home_ingredients_list.png`** und **`supermarket_shelf.png`**.

- **`pizza_recipe.txt`** enthält ein schriftliches Rezept für eine Pizza mit einer Liste aller benötigten Zutaten.
- **`home_ingredients_list.png`** zeigt eine handgeschriebene Notiz mit den Zutaten, die bereits zu Hause vorhanden sind.
- **`supermarket_shelf.png`** zeigt ein Regal in einem Supermarkt mit verschiedenen Lebensmitteln.

Stellen Sie sich vor, Sie entwickeln nun ein Programm für einen Einkaufs- bzw. Küchenassistenz-Roboter, der hypothetisch automatisch erkennt, welche Zutaten für das Rezept noch fehlen und diese im Supermarktregal lokalisieren kann. Verwenden Sie die bereitgestellten Dateien als Informationsquelle.


**Erwartetes Ergebnis:**  
Das Programm sollte zunächst den Text aus **`home_ingredients_list.png`** in strukturierter Form extrahieren und mit den im Rezept **`pizza_recipe.txt`** aufgeführten Zutaten vergleichen. Daraus sollen die fehlenden Zutaten identifiziert werden. Anschliessend soll das Programm im Bild **`supermarket_shelf.png`** die fehlenden Zutaten lokalisieren und die Koordinaten der entsprechenden Begrenzungsrahmen (Bounding Boxes) ausgeben.  
Zeichnen Sie für jede fehlende, im Regal vorhandene Zutat eine Bounding Box direkt in **`supermarket_shelf.png`** ein und visualisieren Sie das Bild.



**Einreichungsdokumente:**  
Die Einreichung dieser Aufgabe sollte Folgendes umfassen:  
- Das von Ihnen bearbeitete Notebook (dieses File).  

<b>Generelle Hinweise:</b>
<ul>
  <li>Beachten Sie auch die zu jeder Aufgabenstellung zugehörenden Details zur Aufgabenstellung.</li>
  <li>Lösen Sie jede Aufgabe mit Hilfe von Python Code. Integrieren Sie den Python Code in die Code-Zellen der jeweiligen Aufgabe.</li>
  <li>Stellen Sie sämtliche von Ihnen erstellte Ergebnisse inklusive Grafiken im Jupyter Notebook dar.</li>
</ul>


## Utils (Hilfsfunktionen):

Hier finden Sie einige vorgefertigte Funktionen, die Ihnen helfen, Bounding Boxes zu visualisieren und zu plotten sowie verschiedene Arten von Output zu parsen. Sie könnten Diese benutzen oder neue Funktionen selbst erstellen, falls notwendig.

In [1]:

import json
import re
from PIL import Image, ImageDraw
from PIL import ImageColor

additional_colors = [colorname for (colorname, colorcode) in ImageColor.colormap.items()]

#this function is needed to plot bounding boxes on images 
def plot_bounding_boxes(im, positions):
    """
    Plots bounding boxes on an image with markers for each noun phrase, using PIL, normalized coordinates, and different colors.

    Args:
        img_path: The path to the image file.
        noun_phrases_and_positions: A list of tuples containing the noun phrases
         and their positions in normalized [y1 x1 y2 x2] format.
    """

    # Load the image
    img = im
    width, height = img.size
    print(img.size)
    # Create a drawing object
    draw = ImageDraw.Draw(img)

    # Define a list of colors
    colors = [
    'red',
    'green',
    'blue',
    'yellow',
    'orange',
    ] + additional_colors

    # Iterate over the noun phrases and their positions
    for i, ((y1, x1, y2, x2)) in enumerate(positions):
        # Select a color from the list
        color = colors[i % len(colors)]

        # Convert normalized coordinates to absolute coordinates
        abs_x1 = int(x1/1000 * width)
        abs_y1 = int(y1/1000 * height)
        abs_x2 = int(x2/1000 * width)
        abs_y2 = int(y2/1000 * height)

        # Draw the bounding box
        draw.rectangle(
            ((abs_x1, abs_y1), (abs_x2, abs_y2)), outline=color, width=4
        )

        # Draw the text
        #draw.text((abs_x1 + 8, abs_y1 + 6), noun_phrase, fill=color)

    # Display the image
    img.show()

# if the boxes coordinates are output not as json but as text, should be parsed first
def parse_list_boxes(text):
  result = []
  for line in text.strip().splitlines():
    # Extract the numbers from the line, remove brackets and split by comma
    try:
      numbers = line.split('[')[1].split(']')[0].split(',')
    except:
      numbers =  line.split('- ')[1].split(',')

    # Convert the numbers to integers and append to the result
    result.append([int(num.strip()) for num in numbers])

  return result

def parse_json_in_output(output):
    """
    Extracts and converts JSON-like data from the given text output to a Python dictionary.
    
    Args:
        output (str): The text output containing the JSON data.
    
    Returns:
        dict: The parsed JSON data as a Python dictionary.
    """
    # Regex to extract JSON-like portion
    json_match = re.search(r"\{.*?\}", output, re.DOTALL)
    if json_match:
        json_str = json_match.group(0)
        # Fix single quotes and ensure proper JSON formatting
        json_str = json_str.replace("'", '"')  # Replace single quotes with double quotes
        try:
            # Convert the fixed JSON string into a dictionary
            json_data = json.loads(json_str)
            return json_data
        except json.JSONDecodeError:
            return "The extracted JSON is still not valid after formatting."
    else:
        return "No JSON data found in the given output."


### <b>Aufgabe (1): Laden von Daten / Import der notwendigen Libraries</b>

**Details zur Aufgabenstellung:**  
- Importieren Sie hier alle notwendigen Python-Libraries, die Sie für die späteren Aufgaben benötigen.
- Initialisieren Sie die benötigten Clients für die verwendeten VLM-Modelle.  
- Definieren Sie für die Bilder **`home_ingredients_list.png`** und **`supermarket_shelf.png`** (z.B. im Ordner `Data/`) jeweils eine Variable, die den Pfad zur Datei enthält.  
- Laden Sie ausserdem den Inhalt der Textdatei **`pizza_recipe.txt`** (z.B. aus dem Ordner `Data/`) in eine String-Variable, damit das Rezept in späteren Aufgaben weiterverwendet werden kann (s. Hinweis)

<b style="color: gray;">(max. erreichbare Punkte: 6)</b>


In [None]:
import openai
from dotenv import load_dotenv  
import base64
import json
import textwrap

# Function to encode the image
def encode_image(image_path):
  with open(image_path, "rb") as image_file:
    return base64.b64encode(image_file.read()).decode('utf-8')


load_dotenv()
openAIclient = openai.OpenAI()


# Path to your images
img = "Data/home_ingredients_list.png"
img2 = "Data/supermarket_shelf.png" 

# Hinweis: Um ein .txt file in einer string variable zu laden benutzen Sie diese Syntax - PATH_TO_YOUR_TXT_FILE anpassen

def encode_txt(PATH_TO_YOUR_TXT_FILE):
 with open("PATH_TO_YOUR_TXT_FILE", "r", encoding="utf-8") as f:
    pizza_recipe_text = f.read("Data/pizza_recipe.txt")


### <b>Aufgabe (2): Definition eines strukturierten Schemas für die Extraktion von Informationen</b>
Details zur Aufgabenstellung:
- Definierien Sie ein strukturiertes Schema (z. B. ein JSON-Schema), um die Informationen aus dem Bild `home_ingredients_list.png` zu organisieren. Das Schema sollte die Felder und die Struktur klar definieren, die für die Darstellung der extrahierten Daten erforderlich sind.

<b style="color: gray;">(max. erreichbare Punkte: 6)</b>



In [None]:

completion = openAIclient.chat.completions.create(
    model="gpt-4.1-mini",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Detect if there is a cup in the image and reutrn its coordinates as a list in the format [ymin,xmin, ymax, xmax], normalize the coordinate to 0-1000. Just output the list in json."},
                {
                    "type": "image_url",
                    "image_url": {
                        "url": f"data:image/jpeg;base64,{encode_image(img)}",
                    }
                },
            ],
        }
    ],
    response_format={"type": "json_object"},
)

# Wrap the text to a specified width
response = str(completion.choices[0].message.content)

### <b>Aufgabe (3): Extraktion von visuellen Informationen mittels Prompting</b>

**Details zur Aufgabenstellung:**  
- Extrahieren Sie strukturierte visuelle Informationen aus dem Bild **`home_ingredients_list.png`** mithilfe von textualem Prompting unter Verwendung des Modells **GPT-4.1-mini**.  
- Die Extraktion soll dem zuvor definierten **JSON-Schema** für Zutatenlisten folgen.  
- Laden Sie anschlieend die vom Modell ausgegebene JSON-Struktur in ein entsprechendes **Python Dictionary**, um sie für die weiteren Arbeitsschritte weiterzuverarbeiten. 
- Ziel ist es, alle im Bild enthaltenen Zutaten vollständig und strukturiert auszulesen, sodass diese später mit dem Rezept verglichen werden können.


<b style="color: gray;">(max. erreichbare Punkte: 12)</b>


In [16]:
completion = openAIclient.chat.completions.create(
    model="gpt-4.1-mini",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Lese alle im Bild enthaltenen Zutaten vollständig und strukturiert aus, sodass diese später mit dem Rezept verglichen werden können."},
                {
                    "type": "image_url",
                    "image_url": {
                        "url": f"data:img/jpeg;base64,{encode_image(img)}",
                    }
                },
            ],
        }
    ],
    response_format={"type": "json_object"},
)

# Wrap the text to a specified width
response = str(completion.choices[0].message.content)

BadRequestError: Error code: 400 - {'error': {'message': 'Invalid MIME type. Only image types are supported.', 'type': 'invalid_request_error', 'param': None, 'code': 'invalid_image_format'}}

### <b>Aufgabe (4): Integration der extrahierten Daten in neuem Prompt für die Identifizierung fehlender Zutaten</b>


**Details zur Aufgabenstellung:**  
- Verwenden Sie **GPT-4.1-mini**, um anhand eines Prompts, der den Rezepttext aus **`pizza_recipe.txt`** (als String) sowie die zuvor extrahierte JSON-Struktur aus Aufgabe 3 **direkt aus den entsprechenden Python-Variablen** enthält, zu bestimmen, welche Zutaten für das Rezept noch fehlen.  
- Die Informationen sollen **nicht manuell übertragen oder abgeschrieben**, sondern programmgesteuert in den Prompt integriert werden.  
- Das Modell soll ausschließlich die Zutaten identifizieren, die nicht in der Haushaltsliste enthalten sind, und diese eindeutig benennen.  
- Die Ausgabe soll eine klar strukturierte, weiterverarbeitbare Form besitzen (mind. "json_object" in response_format).



<b style="color: gray;">(max. erreichbare Punkte: 12)</b>


### <b>Aufgabe (5): Lokalisierung der fehlenden Zutaten im Supermarktregal</b>


**Details zur Aufgabenstellung:**  
- Verwenden Sie das Modell **Gemini-2.5-Flash**, um die in Aufgabe 4 ermittelte Liste der fehlenden Zutaten im Bild **`supermarket_shelf.png`** zu lokalisieren.  
- Die Liste der fehlenden Zutaten soll **automatisch aus der entsprechenden Python-Variable** in den Prompt eingebunden werden; sie darf nicht manuell in den Prompt kopiert werden.  
- Das Modell soll für jede im Regal vorhandene fehlende Zutat die **Bounding-Box-Koordinaten** extrahieren.  
  

<b style="color: gray;">(max. erreichbare Punkte: 12)</b>


### <b>Aufgabe (6): Visualisierung von Bounding Boxes</b>

**Details zur Aufgabenstellung:**  
- Verwenden Sie die in Aufgabe 5 berechneten Bounding-Box-Koordinaten, um die fehlenden Zutaten im Bild **`supermarket_shelf.png`** grafisch zu markieren.  
- Plotten Sie alle Bounding Boxes auf das Bild und überprüfen Sie, ob die Lokalisierung der fehlenden Zutaten im Supermarktregal plausibel ist.  

*Hinweis: In den Utils befinden sich Hilfsfunktionen, die Sie für das Zeichnen der Bounding Boxes verwenden können.*


<b style="color: gray;">(max. erreichbare Punkte: 12)</b>


Ist die Visualisierung korrekt? Sonst überprüfen Sie die Outputs vorher. 

### Jupyter notebook --footer info-- (please always provide this at the end of each notebook)

In [None]:
import os
import platform
import socket
from platform import python_version
from datetime import datetime

print('-----------------------------------')
print(os.name.upper())
print(platform.system(), '|', platform.release())
print('Datetime:', datetime.now().strftime("%Y-%m-%d %H:%M:%S"))
print('Python Version:', python_version())
print('IP Address:', socket.gethostbyname(socket.gethostname()))
print('-----------------------------------')