## SpaCy Evaluation - 02 -

In diesem notebook wird untersucht wie gut SpaCy die gewünschten Entitäten (EVENT, TOPIC, DATE, TIME, LOC) erkennt.

Es wird folgendes Model genutzt: **"de_core_news_lg"**   
size: 541 MB  
optimiert für CPU  
F1-Score: 00,85   
kann vier Entitäten erkennen:  
PER, LOC, ORG, MISC  

Es wird nur untersucht wie gut LOC im Datensatz erkannt wird.  


Die Performance von SpaCy wird auf dem ground truth untersucht.

---

In [2]:
#download model
!python -m spacy download de_core_news_lg

Collecting de-core-news-lg==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/de_core_news_lg-3.8.0/de_core_news_lg-3.8.0-py3-none-any.whl (567.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m567.8/567.8 MB[0m [31m31.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: de-core-news-lg
Successfully installed de-core-news-lg-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('de_core_news_lg')


In [3]:
import spacy

# Modell laden 
nlp = spacy.load("de_core_news_lg") 

# Alle Entity-Labels ausgeben
print(nlp.get_pipe("ner").labels)

('LOC', 'MISC', 'ORG', 'PER')


---
### 1. Test auf einem Text

In [5]:
import spacy

nlp = spacy.load("de_core_news_lg")
doc = nlp("SPRACHCAFE WEIHNACHTSFEIER DIENSTAG 21.12. OLOF-PALME ZENTRUM 19 UHR WIR FREUEN UNS AUF EUCH!")
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

SPRACHCAFE 0 10 ORG
DIENSTAG 27 35 ORG
OLOF-PALME 43 53 MISC
ZENTRUM 54 61 ORG
WIR FREUEN UNS 69 83 ORG


---
### 2. Evaluation auf gesamtem Datensatz 

Es wird nicht auf Token-Ebene (einzelne Wörter), sondern auf Span-Ebene untersucht, also auf zusammenhängende Entitäten mit ihrer jeweiligen Start und End Position im Text.  
Es wird nur LOC betrachtet.

In [6]:
import json
with open("../../data/data_annotated.json", encoding="utf-8") as f:
    all_data = json.load(f)

In [7]:
from collections import Counter, defaultdict
import spacy
nlp = spacy.load("de_core_news_lg")

tp, fp, fn = 0, 0, 0
label_stats = defaultdict(lambda: [0, 0, 0])  # TP, FP, FN pro Label
relevant_labels = {"LOC"}


for eintrag in all_data:
    text = eintrag["text"]
    gold = eintrag.get("entities", [])
    doc = nlp(text)

    # Gold-Entitäten vorbereiten
    gold_ent = {
        (e["start"], e["end"], e["label"])
        for e in gold
        if e["label"] in relevant_labels
    }

    # Vorhersagen von spaCy
    pred_ent = {
        (ent.start_char, ent.end_char, ent.label_)
        for ent in doc.ents
        if ent.label_ in relevant_labels
    } 
    
    # Gesamtmetriken
    tp += len(gold_ent & pred_ent)
    fp += len(pred_ent - gold_ent)
    fn += len(gold_ent - pred_ent)

    
    for label in relevant_labels:
        g = {s for s in gold_ent if s[2] == label}
        p = {s for s in pred_ent if s[2] == label}
        label_stats[label][0] += len(g & p)      # TP
        label_stats[label][1] += len(p - g)      # FP
        label_stats[label][2] += len(g - p)      # FN


# -------------------------
# 5. Gesamtergebnisse
# -------------------------

precision = tp / (tp + fp) if (tp + fp) > 0 else 0
recall = tp / (tp + fn) if (tp + fn) > 0 else 0
f1 = 2 * precision * recall / (precision + recall) if (precision + recall) > 0 else 0

print("\n=== Gesamtbewertung ===")
print(f"Precision: {precision:.2f}")
print(f"Recall   : {recall:.2f}")
print(f"F1-Score : {f1:.2f}")

# -------------------------
# 6. Bewertung pro Label
# -------------------------

print("\n=== Bewertung pro Label ===")
for label, (tp_l, fp_l, fn_l) in label_stats.items():
    p = tp_l / (tp_l + fp_l) if (tp_l + fp_l) > 0 else 0
    r = tp_l / (tp_l + fn_l) if (tp_l + fn_l) > 0 else 0
    f = 2 * p * r / (p + r) if (p + r) > 0 else 0
    print(f"{label:<10} P: {p:.2f}  R: {r:.2f}  F1: {f:.2f}")


=== Gesamtbewertung ===
Precision: 0.34
Recall   : 0.23
F1-Score : 0.27

=== Bewertung pro Label ===
LOC        P: 0.34  R: 0.23  F1: 0.27


---

In [8]:
from collections import Counter, defaultdict
import spacy
nlp = spacy.load("de_core_news_lg")


# gibt text von bestimmter start bis endposition zurück
def span_text(span, text):
        return text[span[0]:span[1]]


# prüft ob start, ende und label gleich sind mit einer erlaubten Abweichung von 2 Zeichen
def fuzzy_match(gold_span, pred_span, tolerance=2): 
    return (
        gold_span[2] == pred_span[2] and
        abs(gold_span[0] - pred_span[0]) <= tolerance and
        abs(gold_span[1] - pred_span[1]) <= tolerance
    )


tp, fp, fn = 0, 0, 0
label_stats = defaultdict(lambda: [0, 0, 0])  # TP, FP, FN pro Label
relevant_labels = {"LOC"}
fuzzy_matches = 0 
overlap_matches = 0

for eintrag in all_data:
    text = eintrag["text"]
    gold = eintrag.get("entities", [])
    doc = nlp(text)

    # Gold-Entitäten vorbereiten
    gold_spans = {
        (e["start"], e["end"], e["label"])
        for e in gold
        if e["label"] in relevant_labels
    }

    # Vorhersagen von spaCy
    pred_spans = {
        (ent.start_char, ent.end_char, ent.label_)
        for ent in doc.ents
        if ent.label_ in relevant_labels
    } 

    # Gesamtmetriken
    tp += len(gold_spans & pred_spans)
    fp += len(pred_spans - gold_spans)
    fn += len(gold_spans - pred_spans)

    for label in relevant_labels:
        g = {s for s in gold_spans if s[2] == label}
        p = {s for s in pred_spans if s[2] == label}
        label_stats[label][0] += len(g & p)      # TP
        label_stats[label][1] += len(p - g)      # FP
        label_stats[label][2] += len(g - p)      # FN
    

    # Umwandeln in Listen weil sonst fuzzy und overlap funktionen nicht optimal - enumerate funktioniert besser mit indizes
    gold_spans_list = list(gold_spans)
    pred_spans_list = list(pred_spans)


    # prüft ob und label und text gleich sind, doppelte zählung ausgeschlossen
    matched_pred_indices = set()
    for g in gold_spans:
        for i, p in enumerate(pred_spans_list):
            if i in matched_pred_indices:
                continue
            if g[2] == p[2] and span_text(g, text) == span_text(p, text):
                overlap_matches += 1
                matched_pred_indices.add(i)
                break  # gehe zum nächsten g, sobald ein Match gefunden wurde

    # fuzzy matches könne auch overlaps sein, doppelte fuzzy matches sind ausgeschlossen
    matched_pred_indices_fuzzy = set()
    for g in gold_spans_list:
        for i, p in enumerate(pred_spans_list):
            if i in matched_pred_indices_fuzzy:
                continue
            if fuzzy_match(g, p):
                fuzzy_matches += 1
                matched_pred_indices_fuzzy.add(i)
                break


print(f"Matches mit gleichem Text und Label: {overlap_matches}")
print(f"Fuzzy Matches (±2 Zeichen): {fuzzy_matches}")
print(f"Fuzzy Matches ohne overlaps: {fuzzy_matches - overlap_matches}")


# -------------------------
# 5. Gesamtergebnisse
# -------------------------

precision = tp / (tp + fp) if (tp + fp) > 0 else 0
recall = tp / (tp + fn) if (tp + fn) > 0 else 0
f1 = 2 * precision * recall / (precision + recall) if (precision + recall) > 0 else 0



print("\n=== Gesamtbewertung ===")
print(f"Precision: {precision:.2f}")
print(f"Recall   : {recall:.2f}")
print(f"F1-Score : {f1:.2f}")

# -------------------------
# 6. Bewertung pro Label
# -------------------------

print("\n=== Bewertung pro Label ===")
for label, (tp_l, fp_l, fn_l) in label_stats.items():
    p = tp_l / (tp_l + fp_l) if (tp_l + fp_l) > 0 else 0
    r = tp_l / (tp_l + fn_l) if (tp_l + fn_l) > 0 else 0
    f = 2 * p * r / (p + r) if (p + r) > 0 else 0
    print(f"{label:<10} P: {p:.2f}  R: {r:.2f}  F1: {f:.2f}")

Matches mit gleichem Text und Label: 94
Fuzzy Matches (±2 Zeichen): 97
Fuzzy Matches ohne overlaps: 3

=== Gesamtbewertung ===
Precision: 0.34
Recall   : 0.23
F1-Score : 0.27

=== Bewertung pro Label ===
LOC        P: 0.34  R: 0.23  F1: 0.27


---> 94 von 413 LOC-Entitäten im ground truth wurden richtig erkannt