In [None]:
import pandas as pd

# Daten laden
df = pd.read_csv("../data/nyc_311.csv", low_memory=False)

print("Zeilen:", len(df))
print("Spalten (erste 10):", df.columns[:10].tolist())
df.head(3)


In [None]:
# gesuchte Spalte "Descriptor" finden ggf. Fallback auf "Complaint Type"

if "Descriptor" in df.columns:
    text_series = df["Descriptor"].fillna("").astype(str)
else:
    text_series = df["Complaint Type"].fillna("").astype(str)

# In ein kleines DataFrame packen

text_df = pd.DataFrame({"text": text_series})

print("Texteinträge:", len(text_df))
text_df.head(5)


In [None]:
# Vorbereitungen

import re
import nltk
from nltk.corpus import stopwords

nltk.download('stopwords')

stop_en = set(stopwords.words("english"))

# Funktion

def clean_simple(t):
    t = t.lower()                          # klein
    t = re.sub(r"http\S+|www\.\S+", " ", t)  # urls weg
    t = re.sub(r"[^a-z\s]", " ", t)        # nur buchstaben/leerzeichen
    t = " ".join(w for w in t.split() if w not in stop_en and len(w) > 2)  # stopwörter + sehr kurze wörter raus
    return t

text_df["text_clean"] = text_df["text"].apply(clean_simple)

text_df.head(10)


In [None]:
import os

# Speichern der Daten

output_path = r"C:\projct nlp 311\data\text_clean.csv"

# sicherstellen, dass der Ordner existiert
os.makedirs(os.path.dirname(output_path), exist_ok=True)


text_df[["text_clean"]].to_csv(output_path, index=False, encoding="utf-8")

print(f"✅ Datei erfolgreich gespeichert unter: {output_path}")
print("Anzahl Zeilen exportiert:", len(text_df))
