In [25]:
# 002_datenvorverarbeitung

# Standard- & Drittanbieter-Bibliotheken importieren
import re
import nltk
import pandas as pd
import spacy
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
#from tqdm import tqdm
#from tqdm.notebook import tqdm  # Fortschrittsanzeige

# Die folgenden Downloads sind nur beim ersten Ausführen nötig
# nltk.download("punkt")
# nltk.download("punkt_tab")
# nltk.download("stopwords")

# Initialisierung 
nlp = spacy.load("en_core_web_sm")
# Englischsprachige Stoppwörter
stop_words = set(stopwords.words("english"))
# tqdm aktivieren
#tqdm.pandas()

# Funktionen
# Tokenisierung und Entfernen von Stoppwörtern
def tokenize_and_filter(text):
    tokens = word_tokenize(text)
    filtered = [word for word in tokens if word not in stop_words]
    return filtered

# Anwendung direkt auf "clean_text"
def lemmatize_text(text):
    doc = nlp(text)
    return [token.lemma_ for token in doc if not token.is_stop and token.is_alpha]

# Check: Modell erfolgreich geladen?
#print("spaCy-Modell geladen:", nlp.meta["name"])


# CSV-Datei laden (Pfad anpassen bei Bedarf) / (r"C:\Users\h0\Documents\GitHub\nlp-themenanalyse\data\YelpRestaurantReviews.csv")
data = pd.read_csv("..\data\YelpRestaurantReviews.csv")

## Schritt 1: Grundlegende Textbereinigung

# 1.1 Arbeitskopie der Daten
data["clean_text"] = data["Review Text"].astype(str)

# 1.2 Kleinbuchstaben
data["clean_text"] = data["clean_text"].str.lower()

# 1.3 Sonderzeichen und Zahlen entfernen
data["clean_text"] = data["clean_text"].apply(lambda x: re.sub(r'[^a-z\s]', '', x))

# 1.4 Doppelte Leerzeichen reduzieren
data["clean_text"] = data["clean_text"].apply(lambda x: re.sub(r'\s+', ' ', x).strip())

# 1.5 Kontrollausgabe (Grundlegende Bereinigung) Review Text beginnend bei 1. Review (original vs. bereinigt)
print("Original:", data["Review Text"].iloc[0])
print("\nBereinigt (Schritt 1):", data["clean_text"].iloc[0])

## Schritt 2: Tokenisierung und Entfernen von Stoppwörtern

#custom_stopwords = stop_words.union({"ok", "yeah"})

# 2.1 Neue Spalte mit gefilterten Tokens
data["tokens"] = data["clean_text"].apply(tokenize_and_filter)

# 2.2 Kontrollausgabe (Tokenisierung/Stoppwörter) Review Text beginnend bei 1. Review
print("\nTokens:", data["tokens"].iloc[0])

## Schritt 3: Lemmatization

#doc = nlp("Des kleinen Mannes Sonnenschein ist f***** und besoffen sein")
#print([token.lemma_ for token in doc])

# 3.1 Neue Spalte mit Lemmas
data["lemmas"] = data["clean_text"].apply(lemmatize_text)
#data["lemmas"] = data["clean_text"].progress_apply(lemmatize_text)
#lemmas = []
#for text in tqdm(data["clean_text"], desc="Lemmatizing"):
#    lemmas.append(lemmatize_text(text))

# Test Notebook
#for text in tqdm(data["clean_text"].head(50), desc="Testlauf", leave=False):
#    lemmas.append(lemmatize_text(text))
#data["lemmas"] = lemmas

# 3.2 Kontrollausgabe (Lemmas) Review Text beginnend bei 1. Review
#print("\nBereinigt (Shcritt 3):", data["clean_text"].iloc[0])
print("\nLemmas:", data["lemmas"].iloc[0])


Original: All I can say is they have very good ice cream I would for sure recommend their cookies and creme ice cream it is very good

Bereinigt (Schritt 1): all i can say is they have very good ice cream i would for sure recommend their cookies and creme ice cream it is very good

Tokens: ['say', 'good', 'ice', 'cream', 'would', 'sure', 'recommend', 'cookies', 'creme', 'ice', 'cream', 'good']


KeyboardInterrupt: 