## Vorbereiten der Json-Datei für die Evaluation

Hinzufügen weiterer Felder ins Json:

**"standardized_text" - Eintragung des standardisierten Textes**  
Wenn LLM Output inhaltich korrekt war, aber nicht dem Goldstandard enstprach, erfolgte Anpassung an Goldstandard, z.B.: 19 Uhr -> 19:00 Uhr

**"aligned_to_gold" - Markierung bei Anpassung**   
Wenn Textanpassungen vorgenommen wurden: true, wenn nicht: false

**"no_extraction" - Markierung wenn keine Entitätenextraktion**   
Bei Labels, wo statt Entitätenextraktion der Text komplett oder zu großen Teilen aus dem Originaltext vewendet wurde, wird "no_extraction" auf "true" gesetzt

Die Eintragungen bei "standardized_text" werden manuell im Json vorgenommen, als Vorlage dienen die annotierten Daten in der data_annotated.json Datei. 

Setzen der "true" Werte bei "aligned_to_gold" und "no_extraction" efolgte ebenfalls manuell.


In [4]:
import json

with open("../../data/NER/gemma2/prompt5/gemma2_prompt5_2_as_goldstructure.json", "r", encoding="utf-8") as f:
    data = json.load(f)


for item in data:
    for entity in item["entities"]:
        entity["standardized_text"] = ""
        entity["aligned_to_gold"] = False
        entity["no_extraction"] = False
        


#with open("../../data/NER/gemma2_goldstandard_adjusted.json", "w", encoding="utf-8") as f:
    json.dump(data, f, ensure_ascii=False, indent=2)



In [4]:
# Bei Entitäten ohne vorgenommene Textanpassungen, die leeren Werte bei "standardized_text" mit den Werten des originalen LLM-Outputs befüllen
import json
with open("../../data/NER/gemma2/gemma2_goldstandard_adjusted.json", "r", encoding="utf-8") as f:
    data = json.load(f)

for item in data:
    for entity in item["entities"]:
        if entity.get("standardized_text", "") == "":
            entity["standardized_text"] = entity["text"]

with open("../../data/NER/gemma2_goldstandard_adjusted.json", "w", encoding="utf-8") as f:
    json.dump(data, f, ensure_ascii=False, indent=2)

---
#### Analyse der vorgenommen Änderungen

In [10]:
with open("../../data/NER/gemma2/gemma2_goldstandard_adjusted.json", "r", encoding="utf-8") as f:
    data = json.load(f)

from collections import defaultdict # defaultdict, setzt automatisch standardwert, wen noch keien rda ist (int) - Intwert 0 gesetzt


counts = defaultdict(int)

for item in data:
    for entity in item.get("entities", []):
        if entity.get("aligned_to_gold") == True:
            label = entity.get("label")
            counts[label] += 1

print("Anzahl der nachträglich dem Goldstandard angepasste Entitäten:")
for label in ["EVENT", "TOPIC", "DATE", "TIME", "LOC"]:
    print(f"{label}: {counts[label]}")


Anzahl der nachträglich dem Goldstandard angepasste Entitäten:
EVENT: 53
TOPIC: 46
DATE: 15
TIME: 35
LOC: 100


In [12]:
count_no_extraction = 0
for item in data:
    for entity in item["entities"]:
        if entity.get("no_extraction") == True:
            count_no_extraction += 1

print(f"Keine richtige Entitätenerkennung stattgefunden, insgesamt:", count_no_extraction)



Keine richtige Entitätenerkennung stattgefunden, insgesamt: 48


In [11]:
from collections import defaultdict # defaultdict, setzt automatisch standardwert, wen noch keien rda ist (int) - Intwert 0 gesetzt


counts = defaultdict(int)

for item in data:
    for entity in item.get("entities", []):
         if entity.get("no_extraction") == True:
            label = entity.get("label")
            counts[label] += 1
             

print("keine richtige Entitätenextraktion nach Entität:")
for label in ["EVENT", "TOPIC", "DATE", "TIME", "LOC"]:
    print(f"{label}: {counts[label]}")

keine richtige Entitätenextraktion nach Entität:
EVENT: 21
TOPIC: 13
DATE: 1
TIME: 1
LOC: 12


In [20]:
# Zum Vergleich - Anzahl aller vorhandenen Entitäten im Datensatz
from collections import Counter #zählt automatisch wie oft ein Wert vorkommt

import json
with open("../../data/NER/gemma2/gemma2_goldstandard_adjusted.json", "r", encoding="utf-8") as f:
    data = json.load(f)

anz_label = Counter()                           # a new, empty counter
labels = ['EVENT', 'TOPIC', 'DATE', 'TIME', 'LOC']

for item in data:
    for entity in item.get("entities", []):
        label = entity.get("label")
        if label in labels:
            anz_label[label] += 1

print("Anzahl der vorhandenen Entitäten im Datensatz:")
for label in ["EVENT", "TOPIC", "DATE", "TIME", "LOC"]:
    print(f"{label}: {anz_label[label]}")


Anzahl der vorhandenen Entitäten im Datensatz:
EVENT: 228
TOPIC: 203
DATE: 198
TIME: 189
LOC: 280
