In [22]:
# 002_datenvorverarbeitung

# Bibliotheken importieren
import pandas as pd
import re
import nltk
# Die folgenden Downloads sind nur beim ersten Ausführen nötig
# nltk.download("punkt")
# nltk.download("punkt_tab")
# nltk.download("stopwords")
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# CSV-Datei laden (Pfad anpassen bei Bedarf)
data = pd.read_csv(r"C:\Users\h0\Documents\GitHub\nlp-themenanalyse\data\YelpRestaurantReviews.csv")

## Schritt 1: Grundlegende Textbereinigung

# 1.1 Arbeitskopie der Daten
data["clean_text"] = data["Review Text"].astype(str)

# 1.2 Kleinbuchstaben
data["clean_text"] = data["clean_text"].str.lower()

# 1.3 Sonderzeichen und Zahlen entfernen
data["clean_text"] = data["clean_text"].apply(lambda x: re.sub(r'[^a-z\s]', '', x))

# 1.4 Doppelte Leerzeichen reduzieren
data["clean_text"] = data["clean_text"].apply(lambda x: re.sub(r'\s+', ' ', x).strip())

# 1.5 Kontrollausgabe (Grundlegende Bereinigung) Review Text beginnend bei 1. Review (original vs. bereinigt)
print("Original:", data["Review Text"].iloc[0])
print("\nBereinigt:", data["clean_text"].iloc[0])

## Schritt 2: Tokenisierung und Entfernen von Stoppwörtern

# 2.1 Englischsprachige Stoppwörter
stop_words = set(stopwords.words("english"))

# 2.2 okenisierung + Entfernen von Stoppwörtern
def tokenize_and_filter(text):
    tokens = word_tokenize(text)
    filtered = [word for word in tokens if word not in stop_words]
    return filtered

# 2.3 Neue Spalte mit gefilterten Tokens
data["tokens"] = data["clean_text"].apply(tokenize_and_filter)

# 2.4 Kontrollausgabe (Tokenisierung/Stoppwörter) Review Text beginnend bei 1. Review
print("\nTokens:", data["tokens"].iloc[0])


Original: All I can say is they have very good ice cream I would for sure recommend their cookies and creme ice cream it is very good

Bereinigt: all i can say is they have very good ice cream i would for sure recommend their cookies and creme ice cream it is very good

Tokens: ['say', 'good', 'ice', 'cream', 'would', 'sure', 'recommend', 'cookies', 'creme', 'ice', 'cream', 'good']
