# Gemma 2 Evaluation - 03 -

In diesem notebook wird untersucht wie gut Gemma 2 die gewünschten Entitäten (EVENT, TOPIC, DATE, TIME, LOC) erkennt.

Es wird folgendes Model genutzt: **"gemma-2-2b-it"**   
kleinstes Modell der Gemma2 Modelle  
(2B model was trained with 2 trillion tokens)

Die Performance von Gemma 2 wird auf dem Ground Truth untersucht.

**erste Quantitative Analyse - Berechnung von Precision, Recall und F1-Score - nur als erster Vergleich zw den unterschiedlichen Prompts**



Bei den ersten Ausgaben (siehe [notebook 01_gemma2_prompt_test1](01_gemma2_prompt_test1.ipynb) und [notebook 02_gemma2_prompt_test2](02_gemma2_prompt_test2.ipynb)) zeigte sich , dass nicht für jeden Text Entitäten extrahiert wurden.   
Es wurden Fehler angezeigt, die die Ausgabe als Json betreffen. Zudem halluzinoerte das Modell, bzw nutze die Beispiel im Prompt um Entitäten zu annotieren.  
Der Output wird nun nicht im Jsonformat gespeichert, sondern als String in einer csv Datei.    
Der Prompt wird dementsprechend etwas modifiziert. 


----

**Prompt:**

prompt = f"""
            Der folgende Text stammt von einem Veranstaltungsplakat. Extrahiere, wenn möglich, die folgenden Informationen:

            - **Ort** (z. B. Straßen mit Hausnummern, Plätze, Gebäude, Stadtteile, Städte)
            - **Datum** (z. B. "21.12.", "Dienstag", "9. November", "8.8.2021")
            - **Zeit** (z. B. "19 Uhr", "18:00 Uhr")
            - **Veranstaltungsart** (z. B. "Kundgebung", "Demonstration", "Feier")
            - **Thema**

            Regeln:
            - Gib nur Informationen an, bei denen du dir sicher bist.
            - Verwende **ausschließlich Wörter aus dem Originaltext**.
            - Nicht alle Felder müssen vorhanden sein.
            - Mehrfache Einträge pro Feld sind möglich.

            Gib das Ergebnis exakt im folgenden Format zurück:

            Entitäten: Ort(...), Datum(...), Zeit(...), Kategorie(...), Thema(...)

            Hier ist der Text:
            {text}
            """

---

In [1]:
from huggingface_hub import login
import os

login(token=os.getenv("HUGGINGFACE_TOKEN"))


VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [16]:
!pip install transformers torch accelerate



In [1]:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_name = "google/gemma-2b-it"
tokenizer = AutoTokenizer.from_pretrained(model_name)
#model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="cpu") #habe kein gpu, deshab cpu
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="cpu")

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

---

### Auf Datensatz iterieren und Output im CSV-Format speichern

In [6]:
# Funktion extract_entities
import csv
import json
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

# Model und Pipeline
model_name = "google/gemma-2b-it"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device=-1)

def extract_entities(data_path, output):
    with open(data_path, "r", encoding="utf-8") as f:
        data = json.load(f)
    
    with open(output, mode="w", encoding="utf-8", newline="") as f:
        writer = csv.DictWriter(f, fieldnames=["file_name", "output"])
        writer.writeheader()

        for eintrag in data:
            file_name = eintrag["file_name"]
            text = eintrag["text"]

            prompt = f"""
            Der folgende Text stammt von einem Veranstaltungsplakat. Extrahiere, wenn möglich, die folgenden Informationen:

            - **Ort** (z. B. Straßen mit Hausnummern, Plätze, Gebäude, Stadtteile, Städte)
            - **Datum** (z. B. "21.12.", "Dienstag", "9. November", "8.8.2021")
            - **Zeit** (z. B. "19 Uhr", "18:00 Uhr")
            - **Veranstaltungsart** (z. B. "Kundgebung", "Demonstration", "Feier")
            - **Thema**

            Regeln:
            - Gib nur Informationen an, bei denen du dir sicher bist.
            - Verwende **ausschließlich Wörter aus dem Originaltext**.
            - Nicht alle Felder müssen vorhanden sein.
            - Mehrfache Einträge pro Feld sind möglich.

            Gib das Ergebnis exakt im folgenden Format zurück:

            Entitäten: Ort(...), Datum(...), Zeit(...), Kategorie(...), Thema(...)

            Hier ist der Text:
            {text}
            """

            try:
                output = generator(prompt, max_new_tokens=400)[0]["generated_text"]
                writer.writerow({
                    "file_name": file_name,
                    "output": output.strip()
                })

            except Exception as e:
                print(f"Fehler bei {file_name}: {e}")
                writer.writerow({
                    "file_name": file_name,
                    "output": f"Fehler: {str(e)}"
                })





Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Device set to use cpu


In [7]:

data = "../../data/data_annotated.json"
output = "../../data/NER/gemma2/prompt3/gemma2_entity_output_prompt3_1.csv"

extract_entities(data, output)



In [10]:
import pandas as pd

df = pd.read_csv("../../data/NER/gemma2/prompt3/gemma2_entity_output_prompt3_1.csv")
df.head()

Unnamed: 0,file_name,output
0,0001.jpg,Der folgende Text stammt von einem Veranstaltu...
1,0002.jpg,Der folgende Text stammt von einem Veranstaltu...
2,0003.jpg,Der folgende Text stammt von einem Veranstaltu...
3,0004.jpg,Der folgende Text stammt von einem Veranstaltu...
4,0006.jpg,Der folgende Text stammt von einem Veranstaltu...


### CSV-Datei bereinigen

In [None]:
# Prompt in Ausgabetext entfernen
import csv

PROMPT_START = "Der folgende Text stammt von einem Veranstaltungsplakat."
TEXT_MARKER = "Hier ist der Text:"

def clean_csv(input_path, output_path):
    with open(input_path, newline='', encoding='utf-8') as infile, \
         open(output_path, 'w', newline='', encoding='utf-8') as outfile:
        
        reader = csv.DictReader(infile)
        fieldnames = reader.fieldnames
        writer = csv.DictWriter(outfile, fieldnames=fieldnames)
        writer.writeheader()

        for row in reader:
            original_output = row["output"]
            if PROMPT_START in original_output and TEXT_MARKER in original_output:
                # alles nach "Hier ist der Text:" behalten
                cleaned = original_output.split(TEXT_MARKER, 1)[-1].strip()
                row["output"] = cleaned
            writer.writerow(row)


zusätzliches manuelles bearbeiten direkt in der Datei

In [None]:
clean_csv("../../data/NER/gemma2/prompt3/gemma2_entity_output_prompt3_1.csv", "../../data/NER/gemma2/prompt3/gemma2_entity_output_prompt3_1_cleaned.csv")

In [23]:
import pandas as pd
df_clean = pd.read_csv("../../data/NER/gemma2/prompt3/gemma2_entity_output_prompt3_1_cleaned.csv", na_values=[""])
df_clean.head()

Unnamed: 0,file_name,output
0,0001.jpg,
1,0002.jpg,"Entitäten: Ort (Großer Garten), Datum (8.8.202..."
2,0003.jpg,"Entitäten: Ort: Mahnmal Levetzowstraße, Berlin..."
3,0004.jpg,"**Ort:** Grundschule Islandstraße, Islandstraß..."
4,0006.jpg,"Entitäten: Ort (Gestohlene Straße), Datum (21...."


In [24]:
# auf "leere"/ ungültige Einträge prüfen
gesamt = len(df_clean)
no_entities = df_clean["output"].isna().sum()
entities = df_clean["output"].notna().sum()

print(f"Gesamtanzahl Dateien: {gesamt}")
print(f"Ungültige Einträge (keine Entities): {no_entities}")
print(f"Gültige Einträge (Entities vorhanden): {entities}")



Gesamtanzahl Dateien: 200
Ungültige Einträge (keine Entities): 24
Gültige Einträge (Entities vorhanden): 176


In [27]:
format_ok = df_clean[df_clean["output"].str.startswith("Entitäten:", na=False)]
anzahl = len(format_ok)
print("gewünschtes Format eingehalten:", anzahl)


gewünschtes Format eingehalten: 18


In [31]:
datum = df_clean["output"].str.contains("21.12", na=False) 
anzahl = datum.sum()
print(anzahl)


47


In [32]:
thema = df["output"].str.contains("Kundgebung", na=False)
anzahl = thema.sum()
print(anzahl)

200


---> bei 200 Einträgen wurde jedes mal "Kundgebung" als Veranstaltungsart angegeben. Das Modell hat sich sehr an den Beispielen, die im Prompt angegeben waren orientiert.

**---> Der Output wird nicht weiter im notebook analysiert**  
Bei Durchsicht des Dokuments ergab sich, dass das Modell überproportional häufig Beispiele des Prompts für die eigene Ausgabe verwendet hat. 
Durch das nicht einheitliche Ausgabeformat ist eine systematische Analyse im notebook zu aufwändig und wird deshalb verworfen.