In [None]:
import pandas as pd

try:
    # Attempt to read with comma as delimiter
    df = pd.read_csv('/content/mergedmessagesInfluencerFinal.csv', encoding='latin1', delimiter=',')
    print("File read successfully with comma as delimiter!")
except Exception as e:
    print("Error with comma:", e)

try:
    # Attempt to read with semicolon as delimiter
    df = pd.read_csv('/content/mergedmessagesInfluencerFinal.csv', encoding='latin1', delimiter=';')
    print("File read successfully with semicolon as delimiter!")
except Exception as e:
    print("Error with semicolon:", e)

try:
    # Attempt to read with tab as delimiter
    df = pd.read_csv('/content/mergedmessagesInfluencerFinal.csv', encoding='latin1', delimiter='\t')
    print("File read successfully with tab as delimiter!")
except Exception as e:
    print("Error with tab:", e)


Error with comma: Error tokenizing data. C error: Expected 1 fields in line 3, saw 9

File read successfully with semicolon as delimiter!
File read successfully with tab as delimiter!


# Die Dateien sind zu groß und deshalb stürzt Bertopic ab. mergedmessages-Dateien werden in x Teile aufgesplittet und Topic Modeling  anschließend für jeden Part angewandt.

Datei in Teile aufteilen

In [None]:
import pandas as pd

# Pfad zur großen CSV-Datei
csv_file = '/content/mergedmessagesLokalFinal.csv'

# CSV-Datei in ein DataFrame einlesen
df = pd.read_csv(csv_file, encoding= 'latin1',sep=';', on_bad_lines='skip')

# Anzahl der Zeilen in der CSV-Datei
total_rows = len(df)

# Berechne die Größe jedes Teilstücks (ungefähr ein Zehntel der gesamten Zeilen)
chunk_size = total_rows // 10

# Aufteilen in 10 Teile
chunks = [df[i:i+chunk_size] for i in range(0, total_rows, chunk_size)]

# Sicherstellen, dass alle Zeilen verteilt sind, falls die Gesamtanzahl nicht genau durch 10 teilbar ist
if len(chunks) > 10:
    chunks[-2] = pd.concat([chunks[-2], chunks[-1]], ignore_index=True)
    chunks = chunks[:-1]

# Die Teilstücke in separate CSV-Dateien speichern
for i, chunk in enumerate(chunks):
    chunk.to_csv(f'messages_lokal_teil_{i+1}.csv', index=False)

print("Dateien erfolgreich aufgeteilt und gespeichert.")


Dateien erfolgreich aufgeteilt und gespeichert.


# Preprocessing jedes Parts

In [None]:
import pandas as pd
import numpy as np
import re
from bs4 import BeautifulSoup

from google.colab import drive
drive.mount('/content/drive')

# Funktion zur Textbereinigung
def clean_text(text):
    if isinstance(text, str):
        # Entferne HTML-Tags
        text = BeautifulSoup(text, "html.parser").get_text()

        # Entferne URLs
        text = re.sub(r'http\S+|www.\S+', '', text)

        # Entferne Sonderzeichen, Emoticons etc.
        text = re.sub(
            u"[" +
            u"\U0001F600-\U0001F64F"  # Emoticons
            u"\U0001F300-\U0001F5FF"  # Symbole & Piktogramme
            u"\U0001F680-\U0001F6FF"  # Transport & Karte
            u"\U0001F1E0-\U0001F1FF"  # Flaggen
            u"\U00002702-\U000027B0"  # Dingbats
            u"\U000024C2-\U0001F251"  # Verschiedene Symbole
            r"\|®"  # Entferne | und ®
            "]+", '', text)

        # Entferne führende und nachfolgende Leerzeichen
        text = text.strip()
        return text.lower()  # Konvertiere zu Kleinbuchstaben
    else:
        return ""  # Gib leere Zeichenkette zurück, falls kein Text

# Bereinigung und Verarbeitung für jeden Teil
for i in range(1, 11):
    try:
        # Lese den jeweiligen Teil der Datei ein
        df = pd.read_csv(f'/content/messages_lokal_teil_{i}.csv', encoding='utf-8', delimiter=',', on_bad_lines='skip', header=0)
        print(f"Teil {i} erfolgreich gelesen!")

        # Spaltennamen bereinigen
        df.columns = df.columns.str.strip()

        # Prüfen Sie die Namen der Spalten, um sicherzustellen, dass 'Forwarded Message Text' korrekt ist
        if 'Message Text' not in df.columns or 'Forwarded Message Text' not in df.columns:
            print(f"Fehler: Erwartete Spalten nicht gefunden in Teil {i}")
            continue

        # Wende die Reinigungsfunktion auf die Spalte 'Message Text' an
        df['Message Text'] = df['Message Text'].apply(clean_text)

        # Erstellen Sie eine neue Spalte 'Is_Forwarded', die 'Ja' enthält, wenn 'Forwarded Message Text' signifikanten Inhalt hat, sonst 'Nein'
        df['Is_Forwarded'] = np.where(df['Forwarded Message Text'].notna() & df['Forwarded Message Text'].str.strip().apply(bool), 'Ja', 'Nein')

        # Behalte nur die Spalten 'Message Text' und 'Is_Forwarded'
        final_df = df[['Message Text', 'Is_Forwarded']]

        # Entferne Zeilen, bei denen 'Message Text' NaN oder leer ist
        final_df.dropna(subset=['Message Text'], inplace=True)
        final_df = final_df[final_df['Message Text'].str.strip() != '']

        # Anzeigen der ersten Zeilen des neuen DataFrame zur Überprüfung
        print(f"Erste Zeilen des bereinigten DataFrame für Teil {i}:")
        print(final_df.head())

        # Speichern der bereinigten Teile für das Topic Modeling
        final_df.to_csv(f'/content/drive/My Drive/MasterArbeitDatenLokal/messages_lokal_teil_{i}_cleaned_forwarded.csv', index=False)
        print(f"Teil {i} erfolgreich bereinigt und gespeichert!")

    except Exception as e:
        print(f"Fehler beim Verarbeiten von Teil {i}: {e}")
        continue


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Teil 1 erfolgreich gelesen!


  text = BeautifulSoup(text, "html.parser").get_text()
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  final_df.dropna(subset=['Message Text'], inplace=True)


Erste Zeilen des bereinigten DataFrame für Teil 1:
                                        Message Text Is_Forwarded
0  astrazeneca-impfung kann allergien auslã¶senâ...         Nein
1                                             â¤ï¸         Nein
2  der bericht einer ãrztin. unbedingt anhã¶ren ...         Nein
3               20.03.21: captain future in potsdam!         Nein
4  hi und warum in potsdam und nicht in berlin......         Nein
Teil 1 erfolgreich bereinigt und gespeichert!
Teil 2 erfolgreich gelesen!


  text = BeautifulSoup(text, "html.parser").get_text()
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  final_df.dropna(subset=['Message Text'], inplace=True)


Erste Zeilen des bereinigten DataFrame für Teil 2:
                                        Message Text Is_Forwarded
0  ð¨ð­corona im altersheim in der schweiz - ...           Ja
1  #pdf merkel und spahn planen das grosse organh...           Ja
2                                        @unzensiert           Ja
3  keine panik die menschen werden es nicht mitbe...         Nein
4                                        @unzensiert           Ja
Teil 2 erfolgreich bereinigt und gespeichert!
Teil 3 erfolgreich gelesen!


  text = BeautifulSoup(text, "html.parser").get_text()
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  final_df.dropna(subset=['Message Text'], inplace=True)


Erste Zeilen des bereinigten DataFrame für Teil 3:
                                        Message Text Is_Forwarded
2  richtig und welche rã¼ckschlã¼sse ziehen wir d...         Nein
4     achtung zahlen sind nicht geprã¼ft meinerseits         Nein
5    handzettel dazu, zugeschnitten auf brandenburg.           Ja
6  verbrechen an unseren kindern ! aber die meist...           Ja
7  dieser brief ist an alle gerichtet! um zweifel...           Ja
Teil 3 erfolgreich bereinigt und gespeichert!
Teil 4 erfolgreich gelesen!


  text = BeautifulSoup(text, "html.parser").get_text()
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  final_df.dropna(subset=['Message Text'], inplace=True)


Erste Zeilen des bereinigten DataFrame für Teil 4:
                                        Message Text Is_Forwarded
0  montags 18 uhr ã¼berall, flã¤chendeckend.auãe...         Nein
1                                               ð         Nein
2  bin auch gerne bei jede aktion dabei. ich bin ...         Nein
3                           ðð»ðð»ðð»         Nein
4     hi janina....wunderbar herzlich willkommenð¤         Nein
Teil 4 erfolgreich bereinigt und gespeichert!
Teil 5 erfolgreich gelesen!


  text = BeautifulSoup(text, "html.parser").get_text()
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  final_df.dropna(subset=['Message Text'], inplace=True)


Erste Zeilen des bereinigten DataFrame für Teil 5:
                                        Message Text Is_Forwarded
0  âkann ja mal passieren an so einem unwichtig...         Nein
1  wer sich nicht impfen lã¤sst, fliegt rausðð...           Ja
3   general flynn wurde gerade auf twitter gesperrt.           Ja
4  sidney powell wurde auch gerade auf twitter ge...           Ja
5  jetzt lã¶scht twitter alle einflussreichen pro...           Ja
Teil 5 erfolgreich bereinigt und gespeichert!
Teil 6 erfolgreich gelesen!


  text = BeautifulSoup(text, "html.parser").get_text()
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  final_df.dropna(subset=['Message Text'], inplace=True)


Erste Zeilen des bereinigten DataFrame für Teil 6:
                                        Message Text Is_Forwarded
2                    ist das echt oder ne verarsche?         Nein
3                                               echt         Nein
4  das fragt man sich ja sowieso jetzt immer bei ...         Nein
5  erste gemeinsame d-day 2.0 aktion in eigeninit...         Nein
6  fã¼r mich max. eine empfehlung, es ist nicht d...         Nein
Teil 6 erfolgreich bereinigt und gespeichert!
Teil 7 erfolgreich gelesen!


  text = BeautifulSoup(text, "html.parser").get_text()
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  final_df.dropna(subset=['Message Text'], inplace=True)


Erste Zeilen des bereinigten DataFrame für Teil 7:
                                        Message Text Is_Forwarded
1                      ð³hast du das foto gemacht?         Nein
2  bild-artikel auseinandergenommen:1. damit der ...           Ja
5  ja, das ist hier am heerweg, wo frã¼her der ra...         Nein
6                               was fã¼r ein foto ??         Nein
7                                  ach da krass ð³         Nein
Teil 7 erfolgreich bereinigt und gespeichert!
Teil 8 erfolgreich gelesen!


  text = BeautifulSoup(text, "html.parser").get_text()
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  final_df.dropna(subset=['Message Text'], inplace=True)


Erste Zeilen des bereinigten DataFrame für Teil 8:
                                        Message Text Is_Forwarded
0  das gab es alles schon mal . die brd als recht...         Nein
2                                            a.c.a.b           Ja
3  du sagst es: "eher trã¤ge". dem regime rennt a...         Nein
4  ð³ny-post verwendet bilder einer gasleck-kat...           Ja
8  so sieht das aus. wir haben derzeit 7% geimpft...         Nein
Teil 8 erfolgreich bereinigt und gespeichert!
Teil 9 erfolgreich gelesen!


  text = BeautifulSoup(text, "html.parser").get_text()
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  final_df.dropna(subset=['Message Text'], inplace=True)


Erste Zeilen des bereinigten DataFrame für Teil 9:
                                        Message Text Is_Forwarded
0  autokorso berlin, wahnsinn. wir werden erfahre...         Nein
2  autokorso gegen #corona-maãnahmen fã¤hrt mit ...           Ja
3  bock auf ne bauernsolidaritã¤tsdemo heute auf ...           Ja
4  â ï¸berlinâ ï¸ angemeldete grossdemonstrat...           Ja
5  bock auf ne bauernsolidaritã¤tsdemo heute auf ...         Nein
Teil 9 erfolgreich bereinigt und gespeichert!
Teil 10 erfolgreich gelesen!


  text = BeautifulSoup(text, "html.parser").get_text()
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  final_df.dropna(subset=['Message Text'], inplace=True)


Erste Zeilen des bereinigten DataFrame für Teil 10:
                                        Message Text Is_Forwarded
0                                               ðª         Nein
1              sehr gut, hab mich gerade abgemeldet.         Nein
2  werner, vielen dank fã¼r deinen einsatz! ich w...         Nein
3                                               ð¢         Nein
4                     ich kann am 3.10. leider nicht         Nein
Teil 10 erfolgreich bereinigt und gespeichert!


In [None]:
import os
os.environ['JAX_NUM_THREADS'] = '1'

# Durchführen des Topic Modelings mit BERTopic

In [None]:
!pip install -q bertopic

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/143.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m143.7/143.7 kB[0m [31m12.8 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/4.2 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/4.2 MB[0m [31m107.4 MB/s[0m eta [36m0:00:01[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m4.2/4.2 MB[0m [31m83.1 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.2/4.2 MB[0m [31m59.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m255.2/255.2 kB[0m [31m22.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m85.7/85.7 kB[0m [31m8.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━

In [None]:
%%capture
!pip install --upgrade bertopic umap-learn hdbscan jax jaxlib

In [None]:
import nltk
from nltk.corpus import stopwords

nltk.download('stopwords')

STOPWORDS = stopwords.words('german')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer_model = CountVectorizer(ngram_range=(1, 2), stop_words=STOPWORDS)

In [None]:
from joblib import parallel_backend
from bertopic import BERTopic
import pandas as pd
from google.colab import drive

# Google Drive mounten
drive.mount('/content/drive')

# Funktion zum Speichern der Top-Wörter und Themeninformationen
def save_topic_words(topic_model, file_name, num_words=10):
    # Hole die Top-Wörter und die Informationen zu den Themen
    topics = topic_model.get_topics()
    topic_info = topic_model.get_topic_info()

    # Erstelle ein Dictionary mit den Top-Wörtern und den jeweiligen Counts
    topic_words = {f"Topic {topic_num} (Count: {int(topic_info[topic_info['Topic'] == topic_num]['Count'])})":
                   [word for word, _ in words[:num_words]] for topic_num, words in topics.items()}

    # Wandle das Dictionary in einen DataFrame um
    df_topics = pd.DataFrame.from_dict(topic_words, orient='index')

    # Speichere den DataFrame als CSV-Datei
    df_topics.to_csv(file_name, index=True)


# Topic Modeling für jeden Teil durchführen
for i in range(1, 11):
    try:
        # Lese den bereinigten Teil der Datei ein
        final_df = pd.read_csv(f'/content/messages_influencer_teil_{i}_cleaned.csv')

        # Bereinige die 'Message Text' Spalte, konvertiere in Strings und ersetze NaN durch leere Strings
        final_df['Message Text'] = final_df['Message Text'].astype(str).fillna('')

        # Extrahiere die Nachrichten in eine Liste und entferne leere Einträge
        docs = [doc for doc in final_df['Message Text'].tolist() if isinstance(doc, str) and doc.strip() != '']

        # Verwende parallel_backend für die parallele Verarbeitung
        with parallel_backend('loky'):
            topic_model = BERTopic(language="multilingual", calculate_probabilities=True, verbose=True, vectorizer_model=vectorizer_model)
            topics, probs = topic_model.fit_transform(docs)

        # Themenmodellierungsergebnisse anzeigen
        print(f"Teil {i}: Themenmodellierung abgeschlossen!")
        topic_info = topic_model.get_topic_info()
        print(topic_info)

        # Speichere die Top-Wörter jedes Themas in Google Drive
        save_topic_words(topic_model, f'/content/drive/MyDrive/MasterArbeitDaten/Topic Modeling/topic_model_part_{i}_words.csv')

        # Speichere das Modell in Google Drive
        topic_model.save(f'/content/drive/MyDrive/MasterArbeitDaten/Topic Modeling/topic_model_part_{i}.bertopic')
        print(f"Modell für Teil {i} gespeichert.")

        # Speichern der Wahrscheinlichkeiten der Themen pro Dokument in Google Drive
        df_probs = pd.DataFrame(probs)
        df_probs.to_csv(f'/content/drive/MyDrive/MasterArbeitDaten/Topic Modeling/topic_probabilities_part_{i}.csv', index=False)

    except Exception as e:
        print(f"Fehler bei der Themenmodellierung für Teil {i}: {e}")


2024-09-17 12:13:35,118 - BERTopic - Embedding - Transforming documents to embeddings.


Mounted at /content/drive


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/4.12k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Batches:   0%|          | 0/1426 [00:00<?, ?it/s]

2024-09-17 12:14:21,961 - BERTopic - Embedding - Completed ✓
2024-09-17 12:14:21,962 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-09-17 12:15:08,270 - BERTopic - Dimensionality - Completed ✓
2024-09-17 12:15:08,272 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-09-17 12:26:01,953 - BERTopic - Cluster - Completed ✓
2024-09-17 12:26:01,973 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-09-17 12:26:07,496 - BERTopic - Representation - Completed ✓


Teil 1: Themenmodellierung abgeschlossen!
     Topic  Count                                               Name  \
0       -1  21617                          -1_ja_menschen_mehr_schon   
1        0    846               0_deutschland_deutschen_deutsche_brd   
2        1    548     1_redaktion redaktion_redaktion_pn_aktion hans   
3        2    485                              2_ja_gesagt_schon_mag   
4        3    423      3_corona_corona ausschuss_maßnahmen_ausschuss   
..     ...    ...                                                ...   
474    473     10  473_fälle_millionen_gestreut schweren_polen sc...   
475    474     10    474_urlaub_mecklenburg_bundesländern_vorpommern   
476    475     10  475_lockdown me_überall wahrheit_wahrheit schl...   
477    476     10  476_wirtschaft_wand gefahren_bricht_frage sagtest   
478    477     10        477_buch_annalena_neues buch_baerbocks buch   

                                        Representation  \
0    [ja, menschen, mehr, schon, ma



Modell für Teil 1 gespeichert.


2024-09-17 12:27:12,049 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/1166 [00:00<?, ?it/s]

2024-09-17 12:27:58,674 - BERTopic - Embedding - Completed ✓
2024-09-17 12:27:58,676 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-09-17 12:28:18,901 - BERTopic - Dimensionality - Completed ✓
2024-09-17 12:28:18,904 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-09-17 12:55:31,171 - BERTopic - Cluster - Completed ✓
2024-09-17 12:55:31,187 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-09-17 12:55:37,163 - BERTopic - Representation - Completed ✓


Teil 2: Themenmodellierung abgeschlossen!
     Topic  Count                                               Name  \
0       -1  12037                           -1_corona_mehr_the_wurde   
1        0    975                    0_video_youtube_videos_gelöscht   
2        1    415           1_islam_muslime_muslimische_muslimischen   
3        2    393              2_polizei_polizisten_beamten_polizist   
4        3    325                      3_demokraten_afd_avaaz_partei   
..     ...    ...                                                ...   
757    756     10  756_flüchtlingswelle_neue flüchtlingswelle_mag...   
758    757     10  757_sozialismus_katja kipping_kipping_sozialis...   
759    758     10  758_inhalte frühzugriff_exklusive inhalte_früh...   
760    759     10                       759_the_nazism_jews_the book   
761    760     10  760_gefälschte griechische_polizeistation_hans...   

                                        Representation  \
0    [corona, mehr, the, wurde, deu



Modell für Teil 2 gespeichert.


2024-09-17 12:56:50,438 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/1530 [00:00<?, ?it/s]

2024-09-17 12:57:44,823 - BERTopic - Embedding - Completed ✓
2024-09-17 12:57:44,824 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-09-17 12:58:12,917 - BERTopic - Dimensionality - Completed ✓
2024-09-17 12:58:12,919 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-09-17 13:15:11,616 - BERTopic - Cluster - Completed ✓
2024-09-17 13:15:11,634 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-09-17 13:15:19,115 - BERTopic - Representation - Completed ✓


Teil 3: Themenmodellierung abgeschlossen!
     Topic  Count                                               Name  \
0       -1  22699                        -1_corona_mehr_menschen_mal   
1        0   1252                                0_ja_gut_stimmt_mal   
2        1    971                    1_video_youtube_videos_gelöscht   
3        2    712              2_deutschland_deutschen_deutsche_volk   
4        3    501        3_polizei_polizisten_polizist_freie sachsen   
..     ...    ...                                                ...   
497    496     10  496_london_london demonstranten_demonstranten_bbc   
498    497     10  497_möhren_leben_dinge regierung_verneinen bez...   
499    498     10  498_unglaublich_unglaublich unglaublich_unbeli...   
500    499     10  499_umfragen_umfragen mainstream_zeitnah kanal...   
501    500     10  500_zensur_zensiert_verstärkte zensur_kündigt ...   

                                        Representation  \
0    [corona, mehr, menschen, mal, 

2024-09-17 13:16:20,392 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/1401 [00:00<?, ?it/s]

2024-09-17 13:17:01,414 - BERTopic - Embedding - Completed ✓
2024-09-17 13:17:01,416 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-09-17 13:17:27,101 - BERTopic - Dimensionality - Completed ✓
2024-09-17 13:17:27,104 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-09-17 13:32:52,228 - BERTopic - Cluster - Completed ✓
2024-09-17 13:32:52,245 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-09-17 13:32:57,279 - BERTopic - Representation - Completed ✓


Teil 4: Themenmodellierung abgeschlossen!
     Topic  Count                                               Name  \
0       -1  20501                         -1_corona_mehr_ja_menschen   
1        0    921                            0_janich_ja_johnny_sagt   
2        1    549                        1_kinder_kind_eltern_schule   
3        2    498       2_triggered_pk klasse_mal pk_triggered helft   
4        3    455                  3_polizei_polizisten_polizist_cid   
..     ...    ...                                                ...   
510    509     10  509_kritiker oppermann_wurden merkel_oppermann...   
511    510     10  510_pflanzen_plan sekte_epstein decke_betracht...   
512    511     10  511_wirsindmehr teilt_medienumfrage_denen endl...   
513    512     10  512_frau 100_audiobotschaft_bennilife unterzei...   
514    513     10  513_wikileaks_eindruck erwecken_fakealarmeinse...   

                                        Representation  \
0    [corona, mehr, ja, menschen, s



Modell für Teil 4 gespeichert.


2024-09-17 13:33:52,566 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/1390 [00:00<?, ?it/s]

2024-09-17 13:34:38,189 - BERTopic - Embedding - Completed ✓
2024-09-17 13:34:38,191 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-09-17 13:35:10,436 - BERTopic - Dimensionality - Completed ✓
2024-09-17 13:35:10,439 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-09-17 13:47:25,420 - BERTopic - Cluster - Completed ✓
2024-09-17 13:47:25,436 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-09-17 13:47:31,273 - BERTopic - Representation - Completed ✓


Teil 5: Themenmodellierung abgeschlossen!
     Topic  Count                                               Name  \
0       -1  19715                  -1_corona_beitrag_einblick_zuerst   
1        0    557  0_mainstream hardcore_pflege mainstream_hardco...   
2        1    502           1_impfstoff_impfungen_impfstoffe_impfung   
3        2    500                             2_ja_mateo_mal_luzifer   
4        3    492                3_russland_putin_ukraine_russischen   
..     ...    ...                                                ...   
480    479     10  479_kreisvorstand_freising_freising pfaffenhof...   
481    480     10  480_ängste entstehen_verbindung erde_feieraben...   
482    481     10  481_unterstützung deutschsprachiger_nachrichte...   
483    482     10          482_explosion_hafen beirut_beirut_libanon   
484    483     10  483_prozent corona_50 prozent_corona intensivp...   

                                        Representation  \
0    [corona, beitrag, einblick, zu



Modell für Teil 5 gespeichert.


2024-09-17 13:48:24,413 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/1364 [00:00<?, ?it/s]

2024-09-17 13:49:10,675 - BERTopic - Embedding - Completed ✓
2024-09-17 13:49:10,677 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-09-17 13:49:37,628 - BERTopic - Dimensionality - Completed ✓
2024-09-17 13:49:37,630 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-09-17 14:02:57,949 - BERTopic - Cluster - Completed ✓
2024-09-17 14:02:57,965 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-09-17 14:03:04,426 - BERTopic - Representation - Completed ✓


Teil 6: Themenmodellierung abgeschlossen!
     Topic  Count                                               Name  \
0       -1  20391                      -1_corona_mehr_menschen_schon   
1        0    679  0_medien_abonnieren report24news_bleiben abonn...   
2        1    634           1_impfstoff_impfung_impfungen_impfstoffe   
3        2    614  2_willkommen_willkommen willkommen_willkommen ...   
4        3    604  3_gastautor_niveau ignorieren_doppelmoral thx_...   
..     ...    ...                                                ...   
495    494     10            494_system_system fertig_greifen_lautet   
496    495     10  495_sofort kanal_kanal gelöscht_wurde sofort_g...   
497    496     10  496_raum diskussionen_diskussionen_zuviele idi...   
498    497     10  497_wien fällt_fällt merkel_merkel allein_alle...   
499    498     10  498_anklagen tun_anklagen_versiegelten anklage...   

                                        Representation  \
0    [corona, mehr, menschen, schon



Modell für Teil 6 gespeichert.


2024-09-17 14:03:58,680 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/1404 [00:00<?, ?it/s]

2024-09-17 14:04:45,997 - BERTopic - Embedding - Completed ✓
2024-09-17 14:04:46,000 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-09-17 14:05:14,778 - BERTopic - Dimensionality - Completed ✓
2024-09-17 14:05:14,780 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-09-17 14:20:15,009 - BERTopic - Cluster - Completed ✓
2024-09-17 14:20:15,026 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-09-17 14:20:21,150 - BERTopic - Representation - Completed ✓


Teil 7: Themenmodellierung abgeschlossen!
     Topic  Count                                               Name  \
0       -1  19816                        -1_corona_menschen_mal_mehr   
1        0   1026                       0_youtube_video_videos_schau   
2        1    535  1_gruppe_libertaerediskussion herzlich_rules b...   
3        2    530  2_starke_merken starke_starke argumentation_ph...   
4        3    495                         3_trump_wahl_biden_stimmen   
..     ...    ...                                                ...   
518    517     10          517_pdf_video_atmung maske_setzt millitär   
519    518     10               518_gunnar kaiser_gunnar_kaiser_jess   
520    519     10          519_kenne_schlimm kenn_nit schlimm_ah nit   
521    520     10  520_unzensiert_unzensiert eingesendet_unzensie...   
522    521     10  521_resolution_europarat_gerichtshof_diskrimin...   

                                        Representation  \
0    [corona, menschen, mal, mehr, 



Modell für Teil 7 gespeichert.


2024-09-17 14:21:22,363 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/1369 [00:00<?, ?it/s]

2024-09-17 14:22:08,690 - BERTopic - Embedding - Completed ✓
2024-09-17 14:22:08,693 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-09-17 14:22:44,544 - BERTopic - Dimensionality - Completed ✓
2024-09-17 14:22:44,546 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-09-17 14:34:09,582 - BERTopic - Cluster - Completed ✓
2024-09-17 14:34:09,598 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-09-17 14:34:16,677 - BERTopic - Representation - Completed ✓


Teil 8: Themenmodellierung abgeschlossen!
     Topic  Count                                               Name  \
0       -1  20210                      -1_corona_menschen_mehr_schon   
1        0   1052                       0_video_youtube_videos_schau   
2        1    707        1_polizei_polizisten_polizist_demonstranten   
3        2    498                                2_sagt_mann_herr_ja   
4        3    494  3_wichtig bidentrain_top wichtig_servus rip_ri...   
..     ...    ...                                                ...   
470    469     10  469_unglaublich_unglaublich unglaublich_epic_w...   
471    470     10    470_geht gar_weiß sogar_gar kannst_sogar kannst   
472    471     10            471_ewig_wer nu_hand mach_aktuell lasse   
473    472     10             472_guck_hals_mal geradeaus_mutig habt   
474    473     10  473_kontaktbeschränkungen_pitztal_stämmen_kont...   

                                        Representation  \
0    [corona, menschen, mehr, schon

2024-09-17 14:35:08,875 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/1395 [00:00<?, ?it/s]

2024-09-17 14:35:59,997 - BERTopic - Embedding - Completed ✓
2024-09-17 14:35:59,998 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-09-17 14:36:27,184 - BERTopic - Dimensionality - Completed ✓
2024-09-17 14:36:27,186 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-09-17 14:45:29,273 - BERTopic - Cluster - Completed ✓
2024-09-17 14:45:29,288 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-09-17 14:45:37,167 - BERTopic - Representation - Completed ✓


Teil 9: Themenmodellierung abgeschlossen!
     Topic  Count                                               Name  \
0       -1  21945                      -1_corona_mehr_menschen_wurde   
1        0    605     0_migranten_flüchtlinge_migration_asylbewerber   
2        1    589                            1_hast_nein_blödsinn_ja   
3        2    563                       2_kinder_schulen_eltern_kind   
4        3    466              3_trump_präsident_donald_donald trump   
..     ...    ...                                                ...   
432    431     10  431_warum_warum sehen_warum wiederholen_wirken...   
433    432     10           432_5g_untauglich 5g_11 g8_t5 untauglich   
434    433     10             433_google_maps_google maps_mal google   
435    434     10              434_jahren haft_haft_gequält_eritreer   
436    435     10  435_österreich_radiosender ö3_neuigkeiten tode...   

                                        Representation  \
0    [corona, mehr, menschen, wurde

2024-09-17 14:46:29,128 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/1405 [00:00<?, ?it/s]

2024-09-17 14:47:11,545 - BERTopic - Embedding - Completed ✓
2024-09-17 14:47:11,547 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-09-17 14:47:36,655 - BERTopic - Dimensionality - Completed ✓
2024-09-17 14:47:36,657 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-09-17 15:01:01,659 - BERTopic - Cluster - Completed ✓
2024-09-17 15:01:01,676 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-09-17 15:01:07,312 - BERTopic - Representation - Completed ✓


Teil 10: Themenmodellierung abgeschlossen!
     Topic  Count                                               Name  \
0       -1  19693                            -1_mehr_menschen_ja_mal   
1        0   1389                             0_gut_dubistfrei_ja_oh   
2        1    809           1_impfstoff_impfung_impfstoffe_impfungen   
3        2    770                              2_janich_ja_sagt_weiß   
4        3    767  3_gruppe_libertaerediskussion herzlich_aufmerk...   
..     ...    ...                                                ...   
488    487     10                       487_tirol_montgomery_ghz_led   
489    488     10    488_tik_tik tik_putsch_kerbholz unbeschriebenes   
490    489     10                  489_hiv_ja hiv_aids_überträgst ja   
491    490     10                       490_06_00 live_06 2020_06 06   
492    491     10  491_03 april_stuttgart 03_pressemitteilung que...   

                                        Representation  \
0    [mehr, menschen, ja, mal, cor



Modell für Teil 10 gespeichert.


# Analyse der Topic Modeling Ergebnisse

In [None]:
import pandas as pd

# Lade die Top-Wörter für jedes Thema in den 10 Teilen
topic_words_list = []
for i in range(1, 11):
    df = pd.read_csv(f'/content/drive/MyDrive/MasterArbeitDatenLokal/Topic Modeling/topic_model_part_{i}_words.csv')
    topic_words_list.append(df)

# Zeige die Top-Wörter für das erste Thema (Topic 0) in jedem Teil
for i in range(10):
    print(f"Top-Wörter für Topic  in Teil {i+1}:")
    print(topic_words_list[i].loc[9].dropna().tolist())  # Zeige die Top-Wörter für Topic 0
    print()


In [None]:
import pandas as pd

# Beispiel: Lade die CSV-Dateien der Top-Wörter für alle 10 Teile
topic_words_list = []
for i in range(1, 11):
    df = pd.read_csv(f'/content/topic_model_part_{i}_words.csv')
    topic_words_list.append(df)

# Vergleich der Top-Wörter für Topic 0 über alle Teile hinweg
for i in range(10):
    print(f"Teil {i+1} - Top-Wörter für Topic :")
    print(topic_words_list[i].loc[0].values)  # Zeige die Top-Wörter für Topic 0-9
    print()


Top-Wörter für Teil 1:
  Unnamed: 0          0                 1          2               3  \
0   Topic -1       mehr          menschen     corona             mal   
1    Topic 0     berlin          berliner       demo      querdenken   
2    Topic 1    polizei        polizisten   polizist   demonstranten   
3    Topic 2  impfstoff           impfung  impfungen      impfstoffe   
4    Topic 3     corona  corona maßnahmen  maßnahmen  corona politik   

                       4             5          6                 7  \
0                  schon            ja      immer             bitte   
1            demo berlin  grüße berlin         10             steht   
2                 gewalt         wurde       demo     polizeigewalt   
3         nebenwirkungen        impfen     pfizer             covid   
4  verfassungsbeschwerde       bergamo  ausschuss  corona ausschuss   

                   8             9  
0              wurde          geht  
1              grüße  berlin steht  
2     

In [None]:
!pip install bertopic --upgrade
from bertopic import BERTopic
import os

# Liste für alle Themen aus den 10 Teilen
all_topics = {}

# Basisverzeichnis (Anpassen, falls nötig)
base_dir = "/content/drive/MyDrive/MasterArbeitDaten/Topic Modeling/"

# Schleife über alle 10 Teile und lade sie
for i in range(1,11):
    model_path = os.path.join(base_dir, f"topic_model_part_{i}.bertopic")

    # Prüfe, ob die Datei existiert, bevor sie geladen wird
    if os.path.exists(model_path):
        print(f"Lade Modell: {model_path}")
        topic_model = BERTopic.load(model_path)

        # Hol die Themen und füge sie der all_topics Liste hinzu
        topics = topic_model.get_topics()

        # Kombiniere die Themen aus den Teilen
        all_topics.update(topics)
    else:
        print(f"Modell nicht gefunden: {model_path}")

# Jetzt hast du alle Themen aus allen Modellen in all_topics gesammelt.
# Zeige nur die Top-Wörter für die ersten 20 Themen
for topic_id in range(51):
    if topic_id in all_topics:
        print(f"Thema {topic_id}:")
        for word, weight in all_topics[topic_id]:
            print(f"{word} (Gewichtung: {weight})")
        print("\n")
    else:
        print(f"Thema {topic_id} ist nicht vorhanden.\n")



Lade Modell: /content/drive/MyDrive/MasterArbeitDaten/Topic Modeling/topic_model_part_1.bertopic
Lade Modell: /content/drive/MyDrive/MasterArbeitDaten/Topic Modeling/topic_model_part_2.bertopic
Lade Modell: /content/drive/MyDrive/MasterArbeitDaten/Topic Modeling/topic_model_part_3.bertopic
Lade Modell: /content/drive/MyDrive/MasterArbeitDaten/Topic Modeling/topic_model_part_4.bertopic
Lade Modell: /content/drive/MyDrive/MasterArbeitDaten/Topic Modeling/topic_model_part_5.bertopic
Lade Modell: /content/drive/MyDrive/MasterArbeitDaten/Topic Modeling/topic_model_part_6.bertopic
Lade Modell: /content/drive/MyDrive/MasterArbeitDaten/Topic Modeling/topic_model_part_7.bertopic
Lade Modell: /content/drive/MyDrive/MasterArbeitDaten/Topic Modeling/topic_model_part_8.bertopic
Lade Modell: /content/drive/MyDrive/MasterArbeitDaten/Topic Modeling/topic_model_part_9.bertopic
Lade Modell: /content/drive/MyDrive/MasterArbeitDaten/Topic Modeling/topic_model_part_10.bertopic
Thema 0:
gut (Gewichtung: 0.0