# Teil 2: TF-IDF-Vektorisierung und Vorbereitung für Klassifikation

In diesem Notebook wandeln wir die Anfragetexte in numerische Vektoren um, um sie später mit einem Machine-Learning-Modell zu klassifizieren.

In [1]:
# Daten laden
import pandas as pd

df = pd.read_csv("../data/raw/buergeranfragen_sample.csv", sep=";")

# Textspalte und Zielspalte vorbereiten
texts = df["anfrage"]
labels = df["kategorie"]

print("Beispiele:")
print(texts.head())
print(labels.head())

Beispiele:
0      Meine Mülltonne wurde heute nicht geleert.
1        Seit Tagen liegt Sperrmüll vor dem Haus.
2    Wann ist die nächste Abholung von Altpapier?
3               Die Wertstoffinsel ist überfüllt.
4      Warum wurde mein Bioabfall nicht abgeholt?
Name: anfrage, dtype: object
0    Abfall
1    Abfall
2    Abfall
3    Abfall
4    Abfall
Name: kategorie, dtype: object


In [None]:
# Preprocessing 
import re

def clean_text(text):
    text = text.lower()
    text = re.sub(r"[^\w\s]", "", text)
    return text

texts_clean = texts.apply(clean_text)

In [3]:
# TF-IDF-Vektorisierung
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(texts_clean)
y = labels

print(f"Feature-Matrix: {X.shape}")
print(f"Beispiel-Feature (erste Anfrage):\n{X[0]}")

Feature-Matrix: (60, 174)
Beispiel-Feature (erste Anfrage):
  (0, 100)	0.3743833211106889
  (0, 113)	0.40330024169735057
  (0, 167)	0.3743833211106889
  (0, 85)	0.44405635219078843
  (0, 118)	0.40330024169735057
  (0, 72)	0.44405635219078843


In [4]:
# Trainings-/Testdaten aufteilen
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Trainingsgröße:", X_train.shape)
print("Testgröße:", X_test.shape)

Trainingsgröße: (48, 174)
Testgröße: (12, 174)


Die Vektoren sind jetzt bereit für ein Machine-Learning-Modell.

Im nächsten Schritt wirst du ein Modell wie Naive Bayes oder Logistic Regression trainieren.