## 005 Themenextraktion mit BERTopic

In [None]:
# Standardbibliotheken
import ast

# Drittanbieter-Bibliotheken
import numpy as np
import pandas as pd
from bertopic import BERTopic
from sklearn.feature_extraction.text import CountVectorizer

# CSV-Datei laden (cleaned_data.csv)
data = pd.read_csv("../data/cleaned_data.csv")
data["lemmas_str"] = data["lemmas_str"].astype(str)

# Vortrainierte Embeddings laden (Erzeugt in Notebook 3: ../data/embeddings.npy)
embeddings = np.load("../data/embeddings.npy")

#print("Starte BERTopic-Modellierung: Dies kann einen Moment dauern ...")

# Vektorizer festlegen für bessere Kontrolle über Token
vectorizer_model = CountVectorizer(stop_words="english")

# BERTopic-Modell initialisieren
topic_model = BERTopic(
    vectorizer_model=vectorizer_model,
    language="english",
    calculate_probabilities=True,
    verbose=True
)

# Themen mit BERTopic modellieren
topics, probs = topic_model.fit_transform(data["lemmas_str"].tolist(), embeddings)

# Top-Themen anzeigen (10)
print("\nTop 10 Themen:")
print(topic_model.get_topic_info().head(10))

### Vergleich der Themenanalyse: LDA vs. BERTopic

In diesem Projekt wurden zwei verschiedene Verfahren zur Themenextraktion eingesetzt: LDA und BERTopic.

- **LDA** identifiziert Themen auf Basis statistischer Wortverteilungen im Korpus. Die Modellqualität wurde mithilfe der „Coherence Scores“ bewertet. Die resultierenden Themen sind gut interpretierbar, neigen jedoch zu Überschneidungen und zeigen geringere semantische Trennschärfe.

- **BERTopic** basiert auf kontextuellen Satz-Embeddings und gruppiert ähnliche Inhalte mithilfe von Clustering-Verfahren. Die Methode liefert thematisch präzisere und klar abgegrenzte Ergebnisse, besonders hilfreich bei komplexeren oder mehrdeutigen Texten.

Beide Ansätze ergänzen sich sinnvoll: LDA bietet interpretierbare thematische Grundstrukturen, während BERTopic tiefere semantische Zusammenhänge sichtbar macht.