### 005 Themenextraktion mit BERTopic

In [None]:
# Standardbibliotheken
import ast

# Drittanbieter-Bibliotheken
import numpy as np
import pandas as pd
from bertopic import BERTopic
from sklearn.feature_extraction.text import CountVectorizer

# Hinweistext Allgemein
print("Daten werden geladen...")

# CSV-Datei laden (cleaned_data.csv)
data = pd.read_csv("../data/cleaned_data.csv")
data["lemmas_str"] = data["lemmas_str"].astype(str)

# Vortrainierte Embeddings laden (Erzeugt in Notebook 3: ../data/embeddings.npy)
embeddings = np.load("../data/embeddings.npy")

# Vektorizer festlegen für bessere Kontrolle über Token
vectorizer_model = CountVectorizer(stop_words="english")

# BERTopic-Modell initialisieren
topic_model = BERTopic(
    vectorizer_model=vectorizer_model,
    language="english",
    calculate_probabilities=True,
    verbose=True
)

# Themen mit BERTopic modellieren
topics, probs = topic_model.fit_transform(data["lemmas_str"].tolist(), embeddings)

# Top-Themen anzeigen (10)
print("\nTop 10 Themen:")
print(topic_model.get_topic_info().head(10))

Vergleich der Themenanalyse: LDA und BERTopic

Zur thematischen Analyse wurden zwei unterschiedliche Verfahren eingesetzt:

- **LDA** ordnet Texte anhand statistischer Wortverteilungen bestimmten Themen zu.
Die Qualität der Modelle wurde mithilfe des Coherence Scores beurteilt. Die Ergebnisse sind gut nachvollziehbar, zeigen jedoch gelegentlich Überschneidungen zwischen den Themen.

- **BERTopic** nutzt Satz-Embeddings, um die Bedeutung von Texten kontextbezogen zu erfassen.
Durch ein anschließendes Clustering werden inhaltlich ähnliche Bewertungen gruppiert. Dadurch entstehen klarer abgegrenzte Themen, insbesondere bei komplexen oder mehrdeutigen Formulierungen.

Beide Verfahren ergänzen sich sinnvoll:
LDA gibt einen strukturierten Überblick über häufige Wortmuster, während BERTopic zusätzlich feine inhaltliche Unterschiede erkennt.

### Hinweis für die PDF-Version (Phase 3):

Eine Beschreibung zur Verwendung des Codes ist der Datei „README.md“ im GitHub-Repository zu entnehmen.  
Link zum Repository: https://github.com/h01349/nlp-themenanalyse.git