In [None]:
## 003_vektorisierung

import pandas as pd
import ast
from sklearn.feature_extraction.text import TfidfVectorizer
from sentence_transformers import SentenceTransformer

# CSV-Datei laden (cleaned_data.csv)
data = pd.read_csv("../data/cleaned_data.csv")

# Prüfen, ob "lemmas" vorhanden ist
#print(data.columns)
data["lemmas"] = data["lemmas"].apply(ast.literal_eval)

# Lemmas zu Text verbinden
data["lemmas_str"] = data["lemmas"].apply(lambda tokens: " ".join(tokens))

# Beispielausgabe
#print("Beispiel-Text (nach Lemmatization):")
#print(data["lemmas_str"].iloc[0])

## Schritt 1: TF-IDF-Vektorisierer initialisieren
vectorizer = TfidfVectorizer(
    max_features=1000,        # Begrenzung auf häufigste (bspw.) 1000 Begriffe
    ngram_range=(1, 2),       # Unigramme und Bigramme
    stop_words="english"      # zusätzliche englische Stoppwörter entfernen
)

## Schritt 2: Vektoren erzeugen
tfidf_matrix = vectorizer.fit_transform(data["lemmas_str"])

# Schritt 3: Ausgabe – Größe der TF-IDF-Matrix
print("TF-IDF-Matrix erzeugt.")
print("Matrixform:", tfidf_matrix.shape)

## Schritt 3

# Sentence Embeddings erzeugen
# Hinweis: Beim ersten Ausführen wird das Modell automatisch heruntergeladen.
# Dieser Schritt kann einige Sekunden dauern. Danach erfolgt die Nutzung lokal.

model = SentenceTransformer("all-MiniLM-L6-v2")

embeddings = model.encode(
    data["lemmas_str"].tolist(),
    show_progress_bar=True,
    convert_to_numpy=True
)

print("Embeddings-Shape:", embeddings.shape)