In [2]:
import os
import pandas as pd

# 1. Arbeitsverzeichnis ermitteln
base_dir = os.getcwd()

# 2. Pfad zur CSV
csv_path = os.path.join(base_dir, 'lexikon_deDE15LinguisticVariant_final.csv')

# 3. Einlesen
df = pd.read_csv(csv_path, encoding='utf-8')

# 4. Count vor dem Löschen
print(f"Zeilen vor Löschen von 'mueller': {len(df)}")

# 5. Alle Zeilen löschen, in denen in der Spalte COMPONENT_cleaned 'mueller' vorkommt
mask = df['COMPONENT_cleaned'].str.contains('mueller', case=False, na=False)
df_filtered = df.loc[~mask]

# 6. Count nach dem Löschen
print(f"Zeilen nach Löschen von 'mueller': {len(df_filtered)}")

# 7. Neues CSV speichern
out_path = os.path.join(base_dir, 'lexikon_deDE15LinguisticVariant_final_nomueller.csv')
df_filtered.to_csv(out_path, index=False, encoding='utf-8')
print(f"Gefiltertes CSV gespeichert als: {out_path}")



Zeilen vor Löschen von 'mueller': 6072
Zeilen nach Löschen von 'mueller': 6071
Gefiltertes CSV gespeichert als: /Users/mosimacnew/Code/speechbrain-fix/myNotebooks/2_STT-Metriken/mwer/lexikon_deDE15LinguisticVariant_final_nomueller.csv


In [11]:
import os
import pandas as pd
import re

# 1. Arbeitsverzeichnis ermitteln
base_dir = os.getcwd()

# 2. Pfad zur aktuellen CSV (passe ggf. den Dateinamen an)
csv_in  = os.path.join(base_dir, 'lexikon_deDE15LinguisticVariant_final.csv')
csv_out = os.path.join(base_dir, 'lexikon_deDE15LinguisticVariant_final_noarticles.csv')

# 3. Einlesen
df = pd.read_csv(csv_in, encoding='utf-8')

# 4. Liste der zu entfernenden Wörter (alles in Kleinbuchstaben)
articles = ['stunden', 'nach', 'und', 'die', 'der', 'das', 'in', 'mit', 'zu', 'auf', 'einer', 'ordnung', 'fuer', 'sie', 'normal', 'an', 'vor', 'auch']

# 5. Funktion, die die Artikel und überflüssige Leerzeichen löscht
def remove_articles(text):
    if pd.isna(text):
        return text
    text = text.lower()
    # Regex für ganze Wort-Matches der Artikel
    pattern = r'\b(?:' + '|'.join(articles) + r')\b'
    # Entfernen und mehrfach Leerzeichen auf ein reduzieren
    text = re.sub(pattern, ' ', text)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

# 6. Spalte aktualisieren
df['COMPONENT_cleaned'] = df['COMPONENT_cleaned'].apply(remove_articles)

# 7. Speichern
df.to_csv(csv_out, index=False, encoding='utf-8')
print(f"Alle Artikel entfernt – neues CSV: {csv_out}")


Alle Artikel entfernt – neues CSV: /Users/mosimacnew/Code/speechbrain-fix/myNotebooks/2_STT-Metriken/mwer/lexikon_deDE15LinguisticVariant_final_noarticles.csv


In [12]:
import os
import pandas as pd
import re

# 1. Arbeitsverzeichnis ermitteln
base_dir = os.getcwd()

# 2. Pfade für Eingabe- und Ausgabe-CSV
csv_in  = os.path.join(base_dir, 'lexikon_ATC-Bedeutung_final.csv')
csv_out = os.path.join(base_dir, 'lexikon_ATC-Bedeutung_final_noarticles.csv')

# 3. CSV einlesen
df = pd.read_csv(csv_in, encoding='utf-8')

# 4. Liste der zu entfernenden Wörter (alles in Kleinbuchstaben)
articles = ['stunden', 'nach', 'und', 'die', 'der', 'das', 'in', 'mit', 'zu', 'auf', 'einer', 'ordnung', 'fuer', 'sie', 'normal', 'an', 'vor', 'auch']

# 5. Funktion, die die Artikel und überflüssige Leerzeichen löscht
def remove_articles(text):
    if pd.isna(text):
        return text
    text = text.lower()
    pattern = r'\b(?:' + '|'.join(articles) + r')\b'
    text = re.sub(pattern, ' ', text)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

# 6. Spalte updaten
df['ATC-Bedeutung_cleaned'] = df['ATC-Bedeutung_cleaned'].apply(remove_articles)

# 7. Neues CSV speichern
df.to_csv(csv_out, index=False, encoding='utf-8')
print(f"Neues CSV ohne Artikel gespeichert: {csv_out}")


Neues CSV ohne Artikel gespeichert: /Users/mosimacnew/Code/speechbrain-fix/myNotebooks/2_STT-Metriken/mwer/lexikon_ATC-Bedeutung_final_noarticles.csv


In [13]:
import os
import pandas as pd
from stop_words import get_stop_words

# Arbeitsverzeichnis
base_dir = os.getcwd()
csv_in  = os.path.join(base_dir, 'lexikon_ATC-Bedeutung_final.csv')
csv_out = os.path.join(base_dir, 'lexikon_ATC-Bedeutung_final_noarticles.csv')

# CSV laden
df = pd.read_csv(csv_in, encoding='utf-8')

# Deutsche Stopwords holen und um eigene erweitern
stops = set(get_stop_words('german'))
stops.update(['stunden','nach','und','die','der','das','in','mit','zu','auf',
              'einer','ordnung','fuer','sie','normal','an','vor','auch'])

# Stopwords filtern
df['ATC-Bedeutung_cleaned'] = (
    df['ATC-Bedeutung_cleaned']
    .fillna('')
    .apply(lambda txt: ' '.join(w for w in txt.split() if w not in stops))
)

# Speichern
df.to_csv(csv_out, index=False, encoding='utf-8')
print("Fertig:", csv_out)


ModuleNotFoundError: No module named 'stop_words'

In [14]:
import nltk
nltk.download('stopwords')

ModuleNotFoundError: No module named 'nltk'