# SpaCy Evaluation - 01 -

In diesem notebook wird untersucht wie gut SpaCy die gewünschten Entitäten (EVENT, TOPIC, DATE, TIME, LOC) erkennt.

Es wird folgendes Model genutzt: **"de_core_news_md"**   
realtiv leichtgewichtig ( 42 MB)  
optimiert für CPU  
F1-Score: 00,84   
kann vier Entitäten erkennen:  
PER, LOC, ORG, MISC  

Es wird nur untersucht wie gut LOC im Datensatz rkannt wird.  


Die Performance von SpaCy wird auf dem ground truth untersucht.

---

In [3]:
#download model
!python -m spacy download de_core_news_md


Collecting de-core-news-md==3.8.0
  Using cached https://github.com/explosion/spacy-models/releases/download/de_core_news_md-3.8.0/de_core_news_md-3.8.0-py3-none-any.whl (44.4 MB)
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('de_core_news_md')


In [1]:
import spacy

# Modell laden 
nlp = spacy.load("de_core_news_md") 

# Alle Entity-Labels ausgeben
print(nlp.get_pipe("ner").labels)

('LOC', 'MISC', 'ORG', 'PER')


---
### 1. Test auf einem Text

In [2]:
import spacy

nlp = spacy.load("de_core_news_md")
doc = nlp("SPRACHCAFE WEIHNACHTSFEIER DIENSTAG 21.12. OLOF-PALME ZENTRUM 19 UHR WIR FREUEN UNS AUF EUCH!")
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)


SPRACHCAFE 0 10 ORG
WIR FREUEN 69 79 ORG


---
### 2. Evaluation auf gesamtem Datensatz 

Es wird nicht auf Token-Ebene (einzelne Wörter), sondern auf Span-Ebene untersucht, also auf zusammenhängende Entitäten mit ihrer jeweiligen Start und End Position im Text.  
Es wird nur LOC betrachtet.

Das Ergebnis wird pro Eintrag in einer Json-Datei gespeichert

In [11]:
import json
with open("../../data/data_annotated.json", encoding="utf-8") as f:
    all_data = json.load(f)

In [12]:
from collections import Counter, defaultdict
import spacy
nlp = spacy.load("de_core_news_md")

tp, fp, fn = 0, 0, 0
label_stats = defaultdict(lambda: [0, 0, 0])  # TP, FP, FN pro Label
relevant_labels = {"LOC"}
all_results = []

# Funktion zur erstellung des dictionary
def span_to_dict(span, text):
    return {
        "text": text[span[0]:span[1]],
        "start": span[0],
        "end": span[1],
        "label": span[2]
    }

for eintrag in all_data:
    file_name = eintrag.get("file_name", None)
    text = eintrag["text"]
    gold = eintrag.get("entities", [])
    doc = nlp(text)

    # Gold-Entitäten vorbereiten
    gold_ent = {
        (e["start"], e["end"], e["label"])
        for e in gold
        if e["label"] in relevant_labels
    }

    # Vorhersagen von spaCy
    pred_ent = {
        (ent.start_char, ent.end_char, ent.label_)
        for ent in doc.ents
        if ent.label_ in relevant_labels
    } 
    
    # Gesamtmetriken
    tp += len(gold_ent & pred_ent)
    fp += len(pred_ent - gold_ent)
    fn += len(gold_ent - pred_ent)

    gold_spans = gold_ent
    pred_spans = pred_ent


    # für Berechnung pro Eintrag
    tp_spans = gold_spans & pred_spans
    fp_spans = pred_spans - gold_spans
    fn_spans = gold_spans - pred_spans
    
    tp_count = len(tp_spans)
    fp_count = len(fp_spans)
    fn_count = len(fn_spans)
    
    # lokale Metriken für dieses Dokument berechnen
    precision_local = tp_count / (tp_count + fp_count) if (tp_count + fp_count) > 0 else 0
    recall_local = tp_count / (tp_count + fn_count) if (tp_count + fn_count) > 0 else 0
    f1_local = 2 * precision_local * recall_local / (precision_local + recall_local) if (precision_local + recall_local) > 0 else 0


    # Pro Label
    #for label in set([e["label"] for e in gold + doc]):
    for label in relevant_labels:
        if label not in relevant_labels:
            continue 
    
        g = {s for s in gold_spans if s[2] == label}
        p = {s for s in pred_spans if s[2] == label}
        label_stats[label][0] += len(g & p)      # TP
        label_stats[label][1] += len(p - g)      # FP
        label_stats[label][2] += len(g - p)      # FN

    result = {
    "file_name": file_name,
    "text": text,
    "precision": precision_local,
    "recall": recall_local,
    "f1": f1_local,
    "true_positives": [span_to_dict(s, text) for s in tp_spans],
    "false_positives": [span_to_dict(s, text) for s in fp_spans],
    "false_negatives": [span_to_dict(s, text) for s in fn_spans],

    }


    all_results.append(result)

# Speichern der results / Ergebnis pro Eintrag
with open("../../data/NER/spacy/results_de_core_news_md.json", "w", encoding="utf-8") as f:
    json.dump(all_results, f, ensure_ascii=False, indent=2)


# -------------------------
# 5. Gesamtergebnisse
# -------------------------

precision = tp / (tp + fp) if (tp + fp) > 0 else 0
recall = tp / (tp + fn) if (tp + fn) > 0 else 0
f1 = 2 * precision * recall / (precision + recall) if (precision + recall) > 0 else 0

print("\n=== Gesamtbewertung ===")
print(f"Precision: {precision:.2f}")
print(f"Recall   : {recall:.2f}")
print(f"F1-Score : {f1:.2f}")

# -------------------------
# 6. Bewertung pro Label
# -------------------------

print("\n=== Bewertung pro Label ===")
for label, (tp_l, fp_l, fn_l) in label_stats.items():
    p = tp_l / (tp_l + fp_l) if (tp_l + fp_l) > 0 else 0
    r = tp_l / (tp_l + fn_l) if (tp_l + fn_l) > 0 else 0
    f = 2 * p * r / (p + r) if (p + r) > 0 else 0
    print(f"{label:<10} P: {p:.2f}  R: {r:.2f}  F1: {f:.2f}")


=== Gesamtbewertung ===
Precision: 0.36
Recall   : 0.20
F1-Score : 0.26

=== Bewertung pro Label ===
LOC        P: 0.36  R: 0.20  F1: 0.26


---

#### Untersuchung, ob unterschiedliche Start- und Endpositionen bei predicted und gold standard Ursache für schlechten Wert sind

In [13]:
from collections import defaultdict
import json

with open("../../data/NER/spacy/results_de_core_news_md.json", encoding="utf-8") as f:
    pred_data = json.load(f)

with open("../../data/data_annotated.json", encoding="utf-8") as f:
    gold_data = json.load(f)

def span_text(span, text):
    return text[span[0]:span[1]]

def fuzzy_match(gold_span, pred_span, tolerance=2):
    return (
        gold_span[2] == pred_span[2] and
        abs(gold_span[0] - pred_span[0]) <= tolerance and
        abs(gold_span[1] - pred_span[1]) <= tolerance
    )

# Index predicted nach file_name
pred_index = {entry["file_name"]: entry for entry in pred_data}


tp = 0
overlap_matches = 0  # nur text und label sind gleich
fuzzy_matches = 0    # text und label sind gleich und position weicht um maximal 2 Zeichen ab

for eintrag in gold_data:
    file_name = eintrag.get("file_name")
    text = eintrag["text"]
    gold = [e for e in eintrag.get("entities", []) if e["label"] == "LOC"]

    pred_entry = pred_index.get(file_name, {})
    # Kombiniere TP und FP, FN interessieren hier nicht
    predicted = pred_entry.get("true_positives", []) + pred_entry.get("false_positives", [])
    predicted = [e for e in predicted if e["label"] == "LOC"]

    # Erstelle Sets für TP-Zählung
    gold_spans = {(e["start"], e["end"], e["label"]) for e in gold}
    pred_spans = {(e["start"], e["end"], e["label"]) for e in predicted}

    tp += len(gold_spans & pred_spans)

    gold_spans_list = list(gold_spans)
    pred_spans_list = list(pred_spans)

    # Overlap: label und Text gleich
    matched_pred_indices = set()
    for g in gold_spans:
        for i, p in enumerate(pred_spans_list):
            if i in matched_pred_indices:
                continue
            if g[2] == p[2] and span_text(g, text) == span_text(p, text):
                overlap_matches += 1
                matched_pred_indices.add(i)
                break

    # Fuzzy Match: ±2 Zeichen Toleranz bei Start/Ende
    matched_pred_indices_fuzzy = set()
    for g in gold_spans_list:
        for i, p in enumerate(pred_spans_list):
            if i in matched_pred_indices_fuzzy:
                continue
            if fuzzy_match(g, p):
                fuzzy_matches += 1
                matched_pred_indices_fuzzy.add(i)
                break

print(f"\n=== LOC-Ergebnisse ===")
print(f"True Positives (genau): {tp}")
print(f"Overlap Matches (Text & Label gleich): {overlap_matches}")
print(f"Fuzzy Matches (±2 Zeichen): {fuzzy_matches}")
print(f"Fuzzy Matches ohne Overlaps: {fuzzy_matches - overlap_matches}")


=== LOC-Ergebnisse ===
True Positives (genau): 83
Overlap Matches (Text & Label gleich): 86
Fuzzy Matches (±2 Zeichen): 87
Fuzzy Matches ohne Overlaps: 1


##### ---> es wurden 83 Matches gefunden, die genau dieselbe Start und Endposition haben. 4 Matches weichen in Start- und Endposition um maximal zwei Zeichen ab.  
##### ---> Die schlechte Vorhersage von LOC liegt nicht primär in den unterschiedlichen Positionen von Goldstandard und prediction begründet.