## 003 Vektorisierung

### TF-IDF
- Klassisch, auf Häufigkeiten basierend
- Maximale Anzahl an Features: 5000

### Sentence Embeddings
- Kontextbasiert mit "sentence-transformers"
- Modell: "all-MiniLM-L6-v2"

In [None]:
import pandas as pd
import ast
from sklearn.feature_extraction.text import TfidfVectorizer
from sentence_transformers import SentenceTransformer

# Neue CSV-Datei laden (cleaned_data.csv)
data = pd.read_csv("../data/cleaned_data.csv")

# "Lemmas" zurück in Listen
data["lemmas"] = data["lemmas"].apply(ast.literal_eval)

# Für TF-IDF-Analyse vorbereiten
data["lemmas_str"] = data["lemmas"].apply(lambda tokens: " ".join(tokens))


## Schritt 1: TF-IDF-Vektorisierer initialisieren
vectorizer = TfidfVectorizer(
    max_features=5000,        # Begrenzung auf häufigste (bspw.) 5000 Begriffe
    ngram_range=(1, 2),       # Unigramme und Bigramme
    stop_words="english"      # zusätzliche englische Stoppwörter entfernen
)


## Schritt 2: Vektoren erzeugen
tfidf_matrix = vectorizer.fit_transform(data["lemmas_str"])


## Schritt 3: Ausgabe (Größe der TF-IDF-Matrix)
print("TF-IDF-Matrix erzeugt.")
print("Matrixform:", tfidf_matrix.shape)

## Schritt 4: Sentence Embeddings erzeugen
# Hinweis: Beim ersten Ausführen wird das Modell automatisch heruntergeladen. 
# Dieser Schritt kann einige Sekunden dauern. Danach erfolgt die Nutzung lokal.

model = SentenceTransformer("all-MiniLM-L6-v2")
print("\nBerechne semantische Satz-Embeddings: Dies kann einen Moment dauern...")

embeddings = model.encode(
    data["lemmas_str"].tolist(),
    show_progress_bar=True,
    convert_to_numpy=True
)

print("Embeddings-Shape:", embeddings.shape)

### Vergleich der Vektorisierungsmethoden:

- **TF-IDF** ergibt eine hochdimensionale, spärlich besetzte Matrix mit 5000 "Features".
- **Sentence Embeddings** liefern dichte Vektoren mit 384 Dimensionen.
- TF-IDF ist interpretierbarer, aber semantisch schwächer.
- Embeddings sind semantisch reichhaltiger und besser für Clustering geeignet.