<a href="https://colab.research.google.com/github/merliou/term_paper_css/blob/main/bert_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [7]:
# Installiere die notwendigen Bibliotheken
!pip install bertopic
!pip install umap-learn
!pip install pandas
!pip install numpy

# Importiere die notwendigen Bibliotheken
import pandas as pd
import numpy as np
from bertopic import BERTopic
from umap import UMAP

# Lade die CSV-Datei
data = pd.read_csv("06_data_raw_no_doubles.csv")

# Zeige die ersten 3 Zeilen der Daten an
print(data.iloc[0:3])

# Bereite die Daten vor (falls nötig)
# In diesem Fall verwenden wir die Spalte 'rezension' für die Textanalyse
documents = data['rezension'].tolist()

# Erstelle das UMAP-Modell
umap_model = UMAP(random_state=1337)

# Erstelle das BERTopic-Modell
topic_model = BERTopic(umap_model=umap_model)

# Führe das Modell auf den Dokumenten aus
topics, probs = topic_model.fit_transform(documents)

# Zeige die häufigsten Themen an
topic_info = topic_model.get_topic_info()
print(topic_info)

                                                 ort                     name  \
0  DIAKO Krankenhaus gGmbH, Knuthstraße 1, Flensburg  DIAKO Krankenhaus gGmbH   
1  DIAKO Krankenhaus gGmbH, Knuthstraße 1, Flensburg  DIAKO Krankenhaus gGmbH   
2  DIAKO Krankenhaus gGmbH, Knuthstraße 1, Flensburg  DIAKO Krankenhaus gGmbH   

       strasze hausnr      stadt  bundesland                     place_id  \
0  Knuthstraße      1  Flensburg         1.0  ChIJU6MRELlCs0cRaU7ePDewy34   
1  Knuthstraße      1  Flensburg         1.0  ChIJU6MRELlCs0cRaU7ePDewy34   
2  Knuthstraße      1  Flensburg         1.0  ChIJU6MRELlCs0cRaU7ePDewy34   

   bewertung                                          rezension  \
0          5  Von A-Z positiv. Teil 1\nVom Reinigungspersona...   
1          5  Ich kann die vielen schlechten Rezensionen übe...   
2          5  Ich bin total begeistert von dem Personal  auf...   

              zeit  
0  vor einer Woche  
1     vor 3 Wochen  
2  vor einer Woche  


TypeError: 'float' object is not subscriptable

Data cleaning

In [18]:
# Überprüfe auf fehlende Werte in der Spalte 'rezension'
print(data['rezension'].isnull().sum())

# Entferne Zeilen mit fehlenden Werten
data = data.dropna(subset=['rezension'])

# Oder ersetze fehlende Werte durch einen leeren String
data['rezension'] = data['rezension'].fillna("")

# Extrahiere die Dokumente
documents = data['rezension'].tolist()

# Überprüfe die ersten 5 Dokumente
print(documents[:5])

# Überprüfe den Datentyp der Spalte 'rezension'
print(data['rezension'].dtype)

data['rezension'] = data['rezension'].astype(str)

object


Modell erneut ausführen

In [19]:
# Extrahiere die Dokumente
documents = data['rezension'].tolist()

# Erstelle das BERTopic-Modell
topic_model = BERTopic()

# Führe das Modell auf den Dokumenten aus
topics, probs = topic_model.fit_transform(documents)

# Zeige die Themeninformationen an
topic_info = topic_model.get_topic_info()
print(topic_info)

    Topic  Count                               Name  \
0      -1   6563                 -1_und_die_ich_der   
1       0    438                0_klinik_die_und_in   
2       1    373                  1_die_und_der_ich   
3       2    364          2_krankenhaus_und_das_ich   
4       3    304             3_station_auf_sehr_war   
..    ...    ...                                ...   
68     67     11     67_laden_letzte_ihm_beschwerde   
69     68     10         68_nicht_clean_werden_nach   
70     69     10  69_mutter_uns_krankenhaus_neuwied   
71     70     10        70_klinik_alle_pittlik_maul   
72     71     10        71_klinik_mic_karlsruhe_ich   

                                       Representation  \
0   [und, die, ich, der, das, in, war, sehr, nicht...   
1   [klinik, die, und, in, der, ich, ist, das, zu,...   
2   [die, und, der, ich, nicht, zu, in, mit, ist, ...   
3   [krankenhaus, und, das, ich, ein, sehr, dieses...   
4   [station, auf, sehr, war, und, gut, ich, rzte,... 

In [20]:
# Zeige die Dokumentinformationen an
document_info = topic_model.get_document_info(documents)
print(document_info)

# Visualisiere die Ergebnisse
# Themen-Distanz
topic_model.visualize_topics()

                                                Document  Topic  \
0      Von A-Z positiv. Teil 1\nVom Reinigungspersona...     -1   
1      Ich kann die vielen schlechten Rezensionen übe...     -1   
2      Ich bin total begeistert von dem Personal  auf...      3   
3      Enttäuschende Erfahrung in der Notaufnahme\n\n...     60   
4      Das Personal in der Aufnahme ist überfordert u...     11   
...                                                  ...    ...   
11627  Meine 81 Jährige Mutter wurde auf Station 24 b...     -1   
11628  Absolut zufrieden mit dem Service und vorallem...     -1   
11629  Ich kann jetzt nur für Kreißsaal sowie Station...     -1   
11630  Durch das schnelle und kompetente Handeln alle...      8   
11631  Vielen lieben Dank an das gesamte Team der Sta...     -1   

                                  Name  \
0                   -1_und_die_ich_der   
1                   -1_und_die_ich_der   
2               3_station_auf_sehr_war   
3           60_notaufnahme_

In [None]:
# Wort-Scores
topic_model.visualize_barchart()

In [None]:
# Themen-Similarität
topic_model.visualize_heatmap()

In [None]:

# Themen-Hierarchie
topic_model.visualize_hierarchy()

# Zeige spezifische Themen an (z.B. Thema 49)
specific_topic = topic_model.get_topic(49)
print(specific_topic)

# Zeige repräsentative Dokumente für spezifische Themen an (z.B. Thema 49 und 82)
representative_docs_49 = topic_model.get_representative_docs(topic=49)
representative_docs_82 = topic_model.get_representative_docs(topic=82)
print(representative_docs_49)
print(representative_docs_82)

# Benutzerdefinierte Themen-Labels setzen
topic_model.set_topic_labels({49: "Krankenhaus Erfahrungen", 82: "Psychiatrische Behandlung"})
print(topic_model.get_topic_info(49))
print(topic_model.get_topic_info(82))

# Themen pro Klasse (falls eine Klassenspalte vorhanden ist)
# In diesem Fall verwenden wir die Spalte 'bewertung' als Klasse
classes = data['bewertung']

topics_per_class = topic_model.topics_per_class(documents, classes=classes)
topic_model.visualize_topics_per_class(topics_per_class, top_n_topics=31)

# Ändere das Clustering-Modell zu KMeans
from sklearn.cluster import KMeans

cluster_model = KMeans(n_clusters=100)  # Verwende KMeans-Clustering mit 100 Themen
topic_model_kmeans = BERTopic(hdbscan_model=cluster_model)
topicsKmeans, probsKmeans = topic_model_kmeans.fit_transform(documents)

# Zeige die Themeninformationen für das KMeans-Modell an
topic_info_kmeans = topic_model_kmeans.get_topic_info()
print(topic_info_kmeans)

# Zeige die Dokumentinformationen für das KMeans-Modell an
document_info_kmeans = topic_model_kmeans.get_document_info(documents)
print(document_info_kmeans)

# Geführte Themenmodelle (Guided Topic Models)
seed_topic_list = [["krankenhaus", "arzt", "pflege"],
                   ["psychiatrie", "therapie", "depression"],
                   ["operation", "schmerz", "reha"],
                   ["notaufnahme", "wartezeit", "behandlung"]]

topic_model_guided = BERTopic(seed_topic_list=seed_topic_list)
topics_guided, probs_guided = topic_model_guided.fit_transform(documents)

# Zeige die Themeninformationen für das geführte Modell an
topic_info_guided = topic_model_guided.get_topic_info()
print(topic_info_guided)

# Visualisiere die Ergebnisse des geführten Modells
topic_model_guided.visualize_barchart(n_words=8, top_n_topics=12)

# Zeige die Dokumentinformationen für das geführte Modell an
document_info_guided = topic_model_guided.get_document_info(documents)
print(document_info_guided)

[('leider', np.float64(0.07549936136309979)), ('wir', np.float64(0.01994208869630371)), ('bauweise', np.float64(0.017715348402315312)), ('ist', np.float64(0.017458316938083175)), ('faden', np.float64(0.015908440684974542)), ('der', np.float64(0.014445241033167027)), ('sehr', np.float64(0.013822813159544534)), ('mal', np.float64(0.013768958548855573)), ('nicht', np.float64(0.012958368784570804)), ('liegt', np.float64(0.011912065392922206))]
['Dies ist ein großes Krankenhaus,  welches in stalinistischer Bauweise auf einem großen Gelände liegt.  Diese Bauweise ist in Eisenhüttenstadt sehr präsent . Leider sehr Energie-intensiv .\nRiesige Flure und Treppen lassen die Heizungszähler in Hochgeschwindigkeit laufen 🏃\u200d♂️ 🏃\u200d♂️  , was für den Geldbeutel  sehr schlecht ist  .\nDas Personal ist sehr freundlich und hilfsbereit.  Leider ist von Ihnen zu wenig vorhanden  , denn trotz Termin wartet man für manche Leistungen auch mal 2,5 - 3 Stunden .\nAnsonsten ist es sauber und ich habe mich