In [13]:
# Ziel: jiwer-Fehlerausgabe lesbarer formatieren

import re
from jiwer import process_words, collect_error_counts

# 1. Beispieltexte
ref = "Der Patient hat sein Bein gebrochen und sein Handgelenk verstaucht und noch 3 Aspirin genommen!"
hyp = "Der Patient hat  Bein gebrochen, sein Handgelenk verlohren, 3 Askorbin gewonnen"

# 2. Normalisierung
def normalize(text):
    text = text.lower()
    text = re.sub(r"[^\w\s]", " ", text)
    text = re.sub(r"\s+", " ", text).strip()
    return text

ref_norm = normalize(ref)
hyp_norm = normalize(hyp)

# 3. Alignment & Error-Counts erzeugen
word_output = process_words(ref_norm, hyp_norm)
subs_dict, ins_dict, del_dict = collect_error_counts(word_output)

# 4. Lesbare Ausgabe
print(f"WER gesamt: {word_output.wer:.3f}\n")

if subs_dict:
    print("Substitutionen:")
    for (ref_w, hyp_w), cnt in subs_dict.items():
        print(f"  {cnt}× '{ref_w}' → '{hyp_w}'")
else:
    print("Keine Substitutionen.")

if del_dict:
    print("\nDeletionen:")
    for ref_w, cnt in del_dict.items():
        print(f"  {cnt}× '{ref_w}'")
else:
    print("\nKeine Deletionen.")

if ins_dict:
    print("\nInsertionen:")
    for hyp_w, cnt in ins_dict.items():
        print(f"  {cnt}× '{hyp_w}'")
else:
    print("\nKeine Insertionen.")

# subs_dict aus collect_error_counts
flat_subs = []
for (ref_phrase, hyp_phrase), cnt in subs_dict.items():
    ref_words = ref_phrase.split()
    hyp_words = hyp_phrase.split()
    # Paarweise aufzählen (vorausgesetzt beide Phrasen gleich viele Tokens haben)
    for r, h in zip(ref_words, hyp_words):
        flat_subs.append((r, h, cnt))

print("Wortweise Substitutionen:")
for r, h, cnt in flat_subs:
    print(f"  {cnt}× '{r}' → '{h}'")

WER gesamt: 0.467

Substitutionen:
  1× 'verstaucht' → 'verlohren'
  1× 'aspirin genommen' → 'askorbin gewonnen'

Deletionen:
  1× 'sein'
  1× 'und'
  1× 'und noch'

Keine Insertionen.
Wortweise Substitutionen:
  1× 'verstaucht' → 'verlohren'
  1× 'aspirin' → 'askorbin'
  1× 'genommen' → 'gewonnen'


In [16]:
# Ziel: WER berechnen und alle Ref-Token in einem DataFrame speichern und anzeigen

import re
from jiwer import process_words, collect_error_counts
import pandas as pd

# 1. Beispieltexte
ref = "Der Patient hat sein Bein gebrochen und sein Handgelenk verstaucht und noch 3 Aspirin genommen!"
hyp = "Der Patient hat  Bein gebrochen, sein Handgelenk verlohren, 3 Askorbin gewonnen"

# 2. Normalisierung
def normalize(text: str) -> str:
    text = text.lower()
    text = re.sub(r"[^\w\s]", " ", text)        # Interpunktion entfernen
    text = re.sub(r"\d+(\.\d+)?", " ", text)    # Zahlen entfernen
    text = re.sub(r"\s+", " ", text).strip()    # Mehrfache Leer entfernen
    return text

ref_norm = normalize(ref)
hyp_norm = normalize(hyp)

# 3. Tokenisierung der Ref
ref_tokens = ref_norm.split()

# 4. Standard-WER mit jiwer berechnen
word_output = process_words(ref_norm, hyp_norm)
subs_dict, ins_dict, del_dict = collect_error_counts(word_output)

# 5. DataFrame mit Ref-Token erstellen und anzeigen
df_ref = pd.DataFrame({"ref_token": ref_tokens})
print(df_ref)

# 6. WER-Statistiken ausgeben
print(f"\nWER gesamt: {word_output.wer:.3f}")
print(f"Substitutions: {sum(subs_dict.values())}")
print(f"Deletions:     {sum(del_dict.values())}")
print(f"Insertions:    {sum(ins_dict.values())}")


     ref_token
0          der
1      patient
2          hat
3         sein
4         bein
5    gebrochen
6          und
7         sein
8   handgelenk
9   verstaucht
10         und
11        noch
12     aspirin
13    genommen

WER gesamt: 0.500
Substitutions: 1
Deletions:     3
Insertions:    0


In [17]:
# Ziel: Listen der Tokens für Substitutionen, Deletionen und Insertionen erstellen und ausgeben

import re
from jiwer import process_words, collect_error_counts

# 1. Beispieltexte
ref = "Der Patient hat sein Bein gebrochen und sein Handgelenk verstaucht und noch 3 Aspirin genommen!"
hyp = "Der Patient hat  Bein gebrochen, sein Handgelenk verlohren, 3 Askorbin gewonnen"

# 2. Normalisierung
def normalize(text: str) -> str:
    text = text.lower()
    text = re.sub(r"[^\w\s]", " ", text)        # Satzzeichen entfernen
    text = re.sub(r"\d+(\.\d+)?", " ", text)    # Zahlen entfernen
    text = re.sub(r"\s+", " ", text).strip()    # Mehrfache Leer entfernen
    return text

ref_norm = normalize(ref)
hyp_norm = normalize(hyp)

# 3. WER-Alignment und Fehlerzählungen mit jiwer
word_output = process_words(ref_norm, hyp_norm)
subs_dict, ins_dict, del_dict = collect_error_counts(word_output)

# 4. Listen der fehlerhaften Tokens
# Substitutionen: wir listen die Referenz-Tokens auf, je einmal pro Auftreten
subs_tokens = [ref_word for (ref_word, hyp_word), cnt in subs_dict.items() for _ in range(cnt)]
# Deletionen: Referenz-Tokens, die gelöscht wurden
del_tokens = [ref_word for ref_word, cnt in del_dict.items() for _ in range(cnt)]
# Insertionen: Hypothese-Tokens, die eingefügt wurden
ins_tokens = [hyp_word for hyp_word, cnt in ins_dict.items() for _ in range(cnt)]

# 5. Ausgabe
print(f"Substitution Tokens (Ref-Seite): {subs_tokens}")
print(f"Deletion Tokens (Ref-Seite):     {del_tokens}")
print(f"Insertion Tokens (Hyp-Seite):    {ins_tokens}")


Substitution Tokens (Ref-Seite): ['verstaucht und noch']
Deletion Tokens (Ref-Seite):     ['sein', 'und', 'aspirin genommen']
Insertion Tokens (Hyp-Seite):    []


In [18]:
# Ziel: Prüfen, welche Tokens aus S/D/I-Listen medizinisch sind, anhand der ED_deSynonyms-Collection

import re
from pymongo import MongoClient

# 1. Normalisierungsfunktion (wie zuvor)
def normalize(text: str) -> str:
    text = text.lower()
    text = re.sub(r"[^\w\s]", " ", text)        # Interpunktion entfernen
    text = re.sub(r"\d+(\.\d+)?", " ", text)    # Zahlen entfernen
    text = re.sub(r"\s+", " ", text).strip()    # Mehrfache Leer entfernen
    return text

# 2. Stopwort-Liste (Füllwörter, Artikel etc.)
STOPWORDS = {
    "und","der","die","das","ein","eine","einer","einem",
    "von","in","zu","auf","für","mit","ohne","ist","sind",
    "hat","haben","sein","noch","am","an","dem","den","des"
}

# 3. Aufbau des Sets aller medizinischen Wörter
client  = MongoClient("mongodb://localhost:27018/")
col_syn = client["En2DeSyn"]["ED_deSynonyms"]

med_words = set()
for doc in col_syn.find({}, {"de_synonyms": 1, "_id": 0}):
    for phrase in doc.get("de_synonyms", []):
        norm = normalize(phrase)
        for w in norm.split():
            if w not in STOPWORDS and w.isalpha():
                med_words.add(w)

# 4. Beispiel-Token-Listen (substitution & deletion)
subs_tokens = ['verstaucht', 'aspirin', 'genommen', 'handgelenk']   # z.B. aus jiwer subs
del_tokens  = ['sein', 'und', 'verstaucht']                        # z.B. aus jiwer dels
ins_tokens  = ['verlohren', 'askorbin', 'gewonnen']               # z.B. aus jiwer ins

# 5. Klassifizierung: nur Wörter, die in med_words enthalten sind
med_subs = [w for w in subs_tokens if w in med_words]
med_dels = [w for w in del_tokens  if w in med_words]
med_ins  = [w for w in ins_tokens  if w in med_words]

# 6. Ausgabe
print("Medizinische Substitutions-Tokens:", med_subs or "Keine")
print("Medizinische Deletions-Tokens:   ", med_dels or "Keine")
print("Medizinische Insertions-Tokens:  ", med_ins or "Keine")


Medizinische Substitutions-Tokens: ['aspirin', 'handgelenk']
Medizinische Deletions-Tokens:    Keine
Medizinische Insertions-Tokens:   Keine


In [21]:
# Ziel: DataFrame mit allen einzelnen de_synonyms pro ICD-Titel erstellen und anzeigen

from pymongo import MongoClient
import pandas as pd

# MongoDB-Verbindung
client = MongoClient("mongodb://localhost:27018/")
col_syn = client["En2DeSyn"]["ED_deSynonyms"]

# Daten laden: icd_title und Liste der de_synonyms
docs = list(col_syn.find({}, {"icd_title": 1, "de_synonyms": 1, "_id": 0}))

# DataFrame erstellen
df_syn = pd.DataFrame(docs)

# Explodiere die Liste der de_synonyms in einzelne Zeilen
df_exploded = df_syn.explode("de_synonyms").reset_index(drop=True)
df_exploded = df_exploded.rename(columns={"de_synonyms": "synonym"})

# DataFrame anzeigen
print(df_exploded)

# Zusammenfassung
print(f"\nTotal Zeilen (einzelne Synonyme): {len(df_exploded)}")



                                         icd_title  \
0                                  HYPOTENSION NOS   
1                                  HYPOTENSION NOS   
2                                  HYPOTENSION NOS   
3                                  HYPOTENSION NOS   
4                                  HYPOTENSION NOS   
...                                            ...   
18752           LONG-TERM (CURRENT) USE OF INSULIN   
18753           LONG-TERM (CURRENT) USE OF INSULIN   
18754  Other fall on same level, initial encounter   
18755  Other fall on same level, initial encounter   
18756  Other fall on same level, initial encounter   

                                                 synonym  
0                                  abfall des blutdrucks  
1                                   arterielle hypotonie  
2                       arterieller blutdruck erniedrigt  
3                   arterieller blutdruck nnb erniedrigt  
4                           arterienblutdruck erniedrigt

In [22]:
import re
from pymongo import MongoClient
import pandas as pd

# Verbindung zur MongoDB und DataFrame mit einzelnen Synonymen
client = MongoClient("mongodb://localhost:27018/")
col_syn = client["En2DeSyn"]["ED_deSynonyms"]

docs = list(col_syn.find({}, {"icd_title": 1, "de_synonyms": 1, "_id": 0}))
df_syn = pd.DataFrame(docs).explode("de_synonyms").rename(columns={"de_synonyms": "synonym"})

# Stopwort-Liste (kannst du nach Bedarf erweitern)
STOPWORDS = {
    "und","der","die","das","ein","eine","einer","einem","den","dem","des",
    "von","in","zu","auf","für","mit","ohne","ist","sind","hat","haben","sein",
    "noch","am","an","nach","über","unter","zwischen","bei","während","pro",
    "inkl","inklusive","o.ä.","etc","etc."
}

# Normalisierungsfunktion
def clean_synonym(text: str) -> str:
    text = text.lower()
    text = re.sub(r"[^\w\säöüß]", " ", text)       # Interpunktion/Sonderzeichen entfernen
    text = re.sub(r"\s+", " ", text).strip()      # Mehrfache Leer entfernen
    tokens = text.split()
    tokens = [t for t in tokens if t.isalpha() and t not in STOPWORDS]
    return " ".join(tokens)

# Auf das DataFrame anwenden
df_syn["clean_synonym"] = df_syn["synonym"].apply(clean_synonym)

# Erste Zeilen und Überblick ausgeben
print(df_syn.head(20))
print(f"\nTotal Synonyme nach Bereinigung: {len(df_syn)}")


         icd_title                               synonym  \
0  HYPOTENSION NOS                 abfall des blutdrucks   
0  HYPOTENSION NOS                  arterielle hypotonie   
0  HYPOTENSION NOS      arterieller blutdruck erniedrigt   
0  HYPOTENSION NOS  arterieller blutdruck nnb erniedrigt   
0  HYPOTENSION NOS          arterienblutdruck erniedrigt   
0  HYPOTENSION NOS                  blutdruck abgefallen   
0  HYPOTENSION NOS                  blutdruck erniedrigt   
0  HYPOTENSION NOS                    blutdruck gefallen   
0  HYPOTENSION NOS                     blutdruck niedrig   
0  HYPOTENSION NOS                  blutdruck verringert   
0  HYPOTENSION NOS                  blutdruck, niedriger   
0  HYPOTENSION NOS             blutdruckabfall arteriell   
0  HYPOTENSION NOS            druck arteriell vermindert   
0  HYPOTENSION NOS                   fall des blutdrucks   
0  HYPOTENSION NOS                           hypotension   
0  HYPOTENSION NOS                      

In [23]:
# Hinweis: Stelle sicher, dass pymongo installiert ist:
# !pip install pymongo

from pymongo import MongoClient
import re
import pandas as pd

# 1. Verbindung und DataFrame mit einzelnen Synonymen
client = MongoClient("mongodb://localhost:27018/")
col_syn = client["En2DeSyn"]["ED_deSynonyms"]

docs = list(col_syn.find({}, {"icd_title": 1, "de_synonyms": 1, "_id": 0}))
df_syn = pd.DataFrame(docs).explode("de_synonyms").rename(columns={"de_synonyms": "synonym"})

# 2. Stopwort-Liste
STOPWORDS = {
    "und","der","die","das","ein","eine","einer","einem","den","dem","des",
    "von","in","zu","auf","für","mit","ohne","ist","sind","hat","haben","sein",
    "noch","am","an","nach","über","unter","zwischen","bei","während","pro",
    "inkl","inklusive","o.ä.","etc","etc."
}

# 3. Normalisieren wie zuvor
def clean_synonym(text: str) -> str:
    text = text.lower()
    text = re.sub(r"[^\w\säöüß]", " ", text)
    text = re.sub(r"\s+", " ", text).strip()
    tokens = text.split()
    tokens = [t for t in tokens if t.isalpha() and t not in STOPWORDS]
    return " ".join(tokens)

# 4. Bereinigung anwenden
df_syn["clean_synonym"] = df_syn["synonym"].apply(clean_synonym)

# 5. Counts vor und nach Bereinigung
total_raw = len(df_syn)
total_clean_nonempty = df_syn["clean_synonym"].str.len().gt(0).sum()
total_clean_unique = df_syn["clean_synonym"].replace("", pd.NA).dropna().nunique()

print(f"Anzahl Roh-Synonyme (Zeilen): {total_raw}")
print(f"Anzahl nicht-leerer clean_synonym-Einträge: {total_clean_nonempty}")
print(f"Anzahl einzigartiger clean_synonym-Werte: {total_clean_unique}")

# 6. Dubletten entfernen (pro ICD-Titel + clean_synonym)
df_unique = df_syn.drop_duplicates(subset=["icd_title", "clean_synonym"]).reset_index(drop=True)
print(f"Anzahl Einträge nach Entfernen von Dubletten: {len(df_unique)}")

# 7. Anzeige der reduzierten Liste (erste 20)
print(df_unique.head(20))



Anzahl Roh-Synonyme (Zeilen): 18757
Anzahl nicht-leerer clean_synonym-Einträge: 18757
Anzahl einzigartiger clean_synonym-Werte: 14123
Anzahl Einträge nach Entfernen von Dubletten: 18515
          icd_title                               synonym  \
0   HYPOTENSION NOS                 abfall des blutdrucks   
1   HYPOTENSION NOS                  arterielle hypotonie   
2   HYPOTENSION NOS      arterieller blutdruck erniedrigt   
3   HYPOTENSION NOS  arterieller blutdruck nnb erniedrigt   
4   HYPOTENSION NOS          arterienblutdruck erniedrigt   
5   HYPOTENSION NOS                  blutdruck abgefallen   
6   HYPOTENSION NOS                  blutdruck erniedrigt   
7   HYPOTENSION NOS                    blutdruck gefallen   
8   HYPOTENSION NOS                     blutdruck niedrig   
9   HYPOTENSION NOS                  blutdruck verringert   
10  HYPOTENSION NOS                  blutdruck, niedriger   
11  HYPOTENSION NOS             blutdruckabfall arteriell   
12  HYPOTENSION NOS  

In [25]:
import re
import pandas as pd
import spacy
from pymongo import MongoClient

# 1. MongoDB-Verbindung und DataFrame erzeugen
client = MongoClient("mongodb://localhost:27018/")
col_syn = client["En2DeSyn"]["ED_deSynonyms"]

docs = list(col_syn.find({}, {"icd_title": 1, "de_synonyms": 1, "_id": 0}))
df_syn = pd.DataFrame(docs).explode("de_synonyms").rename(columns={"de_synonyms": "synonym"})

# 2. Grundreinigung (klein, keine Satzzeichen, keine mehrfachen Leer)
def basic_clean(text: str) -> str:
    text = text.lower()
    text = re.sub(r"[^\w\säöüß]", " ", text)
    text = re.sub(r"\s+", " ", text).strip()
    return text

df_syn["clean_synonym"] = df_syn["synonym"].apply(basic_clean)

# 3. spaCy-Modell laden
nlp = spacy.load("de_core_news_sm")

# 4. Funktion zur Trennung in Nomen und alle anderen Token
def split_nouns_and_others(phrase: str):
    doc = nlp(phrase)
    nouns = [token.text for token in doc if token.pos_ in ("NOUN", "PROPN")]
    others = [token.text for token in doc if token.pos_ not in ("NOUN", "PROPN")]
    return " ".join(nouns), " ".join(others)

# 5. Auf DataFrame anwenden
df_syn[["only_nouns", "non_nouns"]] = df_syn["clean_synonym"].apply(
    lambda x: pd.Series(split_nouns_and_others(x))
)

# 6. Ergebnis-Überblick
df_result = df_syn[["icd_title", "clean_synonym", "only_nouns", "non_nouns"]]
print(df_result.head(20))


         icd_title                         clean_synonym         only_nouns  \
0  HYPOTENSION NOS                 abfall des blutdrucks  abfall blutdrucks   
0  HYPOTENSION NOS                  arterielle hypotonie          hypotonie   
0  HYPOTENSION NOS      arterieller blutdruck erniedrigt          blutdruck   
0  HYPOTENSION NOS  arterieller blutdruck nnb erniedrigt      blutdruck nnb   
0  HYPOTENSION NOS          arterienblutdruck erniedrigt  arterienblutdruck   
0  HYPOTENSION NOS                  blutdruck abgefallen                      
0  HYPOTENSION NOS                  blutdruck erniedrigt          blutdruck   
0  HYPOTENSION NOS                    blutdruck gefallen          blutdruck   
0  HYPOTENSION NOS                     blutdruck niedrig                      
0  HYPOTENSION NOS                  blutdruck verringert          blutdruck   
0  HYPOTENSION NOS                   blutdruck niedriger          blutdruck   
0  HYPOTENSION NOS             blutdruckabfall arter

In [27]:
# Falls das Modell noch nicht installiert ist, führe zunächst diese beiden Befehle in deinem Notebook aus:
# !pip install spacy
# !python -m spacy download de_core_news_sm

import pandas as pd
import spacy

# 1. spaCy-Modell laden
nlp = spacy.load("de_core_news_sm")

# 2. Beispiel: df_result sollte bereits existieren. Wenn nicht, lade dein DataFrame:
# df_result = pd.read_csv("deine_df_result.csv")  

# 3. Funktion zum Extrahieren von Adjektiven aus non_nouns
def extract_adjectives(text: str) -> str:
    doc = nlp(text)
    adjs = [token.text for token in doc if token.pos_ == "ADJ"]
    return " ".join(adjs)

# 4. Neue Spalte 'adjectives' hinzufügen
df_result["adjectives"] = df_result["non_nouns"].apply(extract_adjectives)

# 5. Ergebnis ausgeben
print(df_result[["clean_synonym", "only_nouns", "non_nouns", "adjectives"]].head(30))



                                       clean_synonym  \
0                              abfall des blutdrucks   
0                               arterielle hypotonie   
0                   arterieller blutdruck erniedrigt   
0               arterieller blutdruck nnb erniedrigt   
0                       arterienblutdruck erniedrigt   
0                               blutdruck abgefallen   
0                               blutdruck erniedrigt   
0                                 blutdruck gefallen   
0                                  blutdruck niedrig   
0                               blutdruck verringert   
0                                blutdruck niedriger   
0                          blutdruckabfall arteriell   
0                         druck arteriell vermindert   
0                                fall des blutdrucks   
0                                        hypotension   
0                                          hypotonie   
0                                      hypotonie

In [28]:
# Stelle sicher, dass df_result bereits existiert (z. B. aus vorheriger Zelle)
# df_result = ...  

# 1. Speichere df_result in einer neuen Variable
cleaned_ger_synonyms = df_result.copy()

# 2. Exportiere als CSV
cleaned_ger_synonyms.to_csv("cleaned_ger_synonyms.csv", index=False)

# 3. Ausgabe zur Bestätigung
print("DataFrame ist nun als 'cleaned_ger_synonyms' verfügbar und wurde als 'cleaned_ger_synonyms.csv' gespeichert.")


DataFrame ist nun als 'cleaned_ger_synonyms' verfügbar und wurde als 'cleaned_ger_synonyms.csv' gespeichert.
