In [1]:
# Reddit Scraper for Bachelor Thesis Version 1.0

# Das ist die erste Version in der neuen Umgebung VS Code, da ich mit Jupyter Notebooks Probleme hatte. Ich hoffe, es wird besser funktionieren, da ich schon eine gewaltige Zeit verschwendet habe, die Probleme vergebens zu lösen. Hier wird wie in der ersten Version in Jupyter Notebooks ein Reddit Scraper programmiert. Ich werde Kommentare in Englisch lassen, da ich so die Codezeilen besser nachvollziehen kann. Ich werde zudem Updates in Deutsch unter dieser Zeile schreiben und nummerieren.

#### Update 1: Initiales Setup und Umgebungskonfiguration
# Ich habe mich dazu entschieden, meine virtuelle Python-Umgebung "BA" zu erstellen und VS Code als meine primäre Entwicklungsumgebung zu wählen. Bereits hier zeigte sich, dass die Probleme mit meiner Python-Installation, die ich zuvor in JupyterLab hatte, behoben werden konnten. Es stellte sich heraus, dass die generelle Python-Installation auf meinem Rechner fehlerhaft war, was wohl auch die Schwierigkeiten mit JupyterLab verursachte. Die Benutzeroberfläche von VS Code gefällt mir besser, und das Programm lädt generell schneller, weshalb ich den Rest meiner Arbeit hier abschließen werde. Um eine bessere Übersicht zu behalten, werde ich einmalige Installationen und Funktionen über das Terminal ausführen. Zudem habe ich black als Code-Formatter und isort für die Sortierung von Imports konfiguriert, um eine konsistente Code-Qualität sicherzustellen. Dies ist mir für die Lesbarkeit und Wartbarkeit des Projekts wichtig.

#### Update 2: Projektstruktur und erste Schritte der Datenextraktion
# Bislang habe ich das Gerüst für die Datenextraktion erstellt. Ich habe eine umfassende Projektverzeichnisstruktur definiert, die Ordner für Rohdaten, verarbeitete Daten, Notebooks, Quellcode, Berichte und Konfigurationsdateien umfasst. Dies soll die Organisation und Wartbarkeit des Projekts erheblich verbessern. Die Reddit-API-Kredentialien habe ich separat eingetragen, um sensible Informationen nicht direkt im Code zu speichern. Zunächst habe ich eine Handvoll Daten extrahiert, um die grundlegende Struktur und Funktionalität des Codes zu testen.

#### Update 3: Sichere Kredentialverwaltung und Strukturimplementierung
# Das Grundgerüst ist nun funktionsfähig, und ich habe erfolgreich Zugang zur Reddit API erhalten. Die Reddit API-Kredentialien sind nun in einer externen .env-Datei gespeichert, um den Best Practices der sicheren Datenverwaltung zu folgen. Um zu verhindern, dass diese sensiblen Informationen versehentlich veröffentlicht werden, habe ich die .env-Datei zusätzlich in die .gitignore-Datei aufgenommen. Die .gitignore-Datei weist Git an, welche Dateien und Ordner ignoriert werden sollen, sodass die .env-Datei nicht in das Repository hochgeladen wird. Für die Reddit API-Kredentialien habe ich eine eigene Anwendung in meinem Reddit-Account erstellt und die notwendigen Schlüssel dort entnommen. Die geplanten Hauptverzeichnisse des Stammverzeichnisses wurden ebenfalls angelegt.

#### Update 4: Verfeinerung der Datenextraktionslogik
# Nach weiterer Überlegung habe ich mich dazu entschieden, nur die Top-Kommentare zu extrahieren und Sub-Kommentare zu ignorieren. Obwohl Sub-Kommentare die Tiefe der Diskussion zeigen, sind sie stark vom Kontext des übergeordneten Kommentars abhängig und vor allem schwieriger zu vergleichen. Die Konzentration auf Top-Kommentare spart zudem Zeit bei der Abbildung komplexer Baumstrukturen und reicht für die Bewertung der Diskussionsqualität aus. Ich habe die post_limit und comment_limit angepasst, um etwa 800 Kommentare pro Turnier zu extrahieren, basierend auf meinen Schätzungen von 20-40 Posts pro Tag und 40-50 Top-Kommentaren pro Post. Redundanter Beispiel-Code für die allgemeine PRAW-API-Nutzung wurde entfernt, um den Code schlanker und fokussierter zu gestalten.

#### Update 5: NLTK-Integration und erste Datenbereinigung
# Für die Textanalyse habe ich die NLTK-Bibliothek integriert. Die notwendigen NLTK-Datenpakete (stopwords, punkt, wordnet, vader_lexicon) lade ich einmalig über das Terminal herunter, um das Notebook übersichtlich zu halten und unnötige Downloads bei jeder Ausführung zu vermeiden. Die ersten Schritte der Datenbereinigung habe ich bereits implementiert: Duplikate und leere Kommentare werden entfernt. Zudem filtere ich Kommentare von [deleted]-Autoren und solche heraus, deren Inhalt nach der Vorverarbeitung leer wäre, da sie für die Analyse nicht relevant sind.

#### Update 6: Erweiterte Textverarbeitung und Sentiment-Analyse
# Die Textverarbeitung habe ich nun vertieft. Ich habe eine Pipeline zur Bereinigung, Tokenisierung, Stop-Word-Entfernung und Lemmatisierung implementiert, um den Text optimal für die Analyse vorzubereiten. Dies beinhaltet das Entfernen von URLs, Sonderzeichen, Zahlen und die Umwandlung in Kleinbuchstaben, um den Text für die Analyse zu standardisieren. Anschließend wende ich die VADER-Sentiment-Analyse an, um die Polarität (positiv, neutral, negativ) und die Intensität des Sentiments in jedem Kommentar zu bestimmen. Zusätzlich berechne ich die Textlänge (Zeichen- und Wortanzahl) der Kommentare, da diese Metriken später für die Analyse des Engagements relevant sein könnten.

#### Update 7: Zeitliche Kontextualisierung und Verhaltensanalyse
# Um die Kommentare im zeitlichen Kontext der Turniere zu analysieren, habe ich Zeitperioden (Before Event, During Event, After Event) basierend auf den Turnierdaten markiert. Den zeitlichen Abstand jedes Kommentars zum Event-Start habe ich in Tagen berechnet, um die Dynamik besser zu verstehen. Erste Visualisierungen habe ich erstellt, um das Posting-Verhalten (Kommentare pro Stunde und Wochentag mittels Histogrammen und Heatmaps) und die Entwicklung der durchschnittlichen Kommentar-Scores im Zeitverlauf zu untersuchen. Diese ersten Einblicke sind entscheidend, um die Daten zu erfassen.

#### Update 8: Umfassendes Feature Engineering und Modularisierung
# Das Feature Engineering habe ich erheblich erweitert. Ich habe neue Features wie event_name, post_title_length, post_title_word_count, contains_question, contains_team_name, comment_to_post_score_ratio, author_karma (als Platzhalter) und comment_score_per_day hinzugefügt. Ein großer Schritt war die Modularisierung des Codes. Die Kernfunktionen für das Scraping (get_reddit_instance, get_posts_and_comments) habe ich in src/data/reddit_scraper.py ausgelagert. Alle textbezogenen Verarbeitungs- und Feature-Engineering-Funktionen (clean_text, preprocess_text, get_sentiment_score, calculate_text_length, contains_any_keyword) habe ich in src/features/text_features.py verschoben. Die Listen für Teamnamen und andere Keywords habe ich in separate JSON-Konfigurationsdateien (config/teams.json, config/keywords.json) ausgelagert, um die Wartbarkeit zu verbessern. Zudem habe ich eine Fehlerbehandlung in den PRAW-API-Aufrufen implementiert, um die Robustheit des Scrapers zu erhöhen. Die bereinigten und vorverarbeiteten Daten speichere ich nun effizient in einer SQLite-Datenbank, um eine schnelle Wiederverwendung zu ermöglichen.

#### Update 9: Datenintegration und erste Analysen
# Die bereinigten und mit Features angereicherten Daten speichere ich nun in einer SQLite-Datenbank (reddit_dota2_analysis.db) im data/processed/-Verzeichnis. Dafür habe ich Funktionen zur Datenbankverbindung, Tabellenerstellung (für Posts und Kommentare mit relationalen Beziehungen) und zum Einfügen der Daten implementiert. Nach der Speicherung lade ich die Daten direkt aus der Datenbank, um die weitere Analyse zu ermöglichen. Erste Pearson-Korrelationen zwischen den numerischen Features habe ich berechnet und visualisiert, um erste Einblicke in die Beziehungen zwischen den Variablen zu gewinnen. Anschließend habe ich die erste explorative Datenanalyse (EDA) durchgeführt. Die Daten beider Turniere (TI8 und TI11) habe ich in einem kombinierten DataFrame geladen, um vergleichende Analysen zu ermöglichen. Visualisierungen, um die Verteilung wichtiger Features wie Sentiment-Scores, Kommentar-Scores und Kommentarlängen zu untersuchen, habe ich erstellt. Zudem habe ich die Verteilung der Kommentare über die definierten Zeitperioden (Before Event, During Event, After Event) analysiert und den durchschnittlichen Sentiment-Score sowie den Kommentar-Score pro Zeitperiode für jedes Turnier visualisiert.

#### Update 10: ML-Vorbereitung
# Für die Machine Learning Vorbereitung habe ich Textdaten der Kommentare mittels TF-IDF-Vektorisierung in eine numerische Sparse Matrix umgewandelt. Parameter wie max_features, min_df, max_df und ngram_range habe ich konfiguriert, um die Dimensionalität zu steuern und relevante Features zu extrahieren. Zudem habe ich alle vorbereiteten Features (TF-IDF, numerische, kategoriale) zu einem einzigen Feature-Set zusammengeführt. Kategoriale Merkmale habe ich mittels One-Hot Encoding in ein numerisches Format umgewandelt. Die comment_score habe ich als Zielvariable für die Modellierung definiert. Die Daten habe ich in Trainings- und Testsets aufgeteilt, um die Modellentwicklung und eine unabhängige Modellbewertung zu ermöglichen. Die Daten sind nun vollständig für das Training von Machine Learning-Modellen vorbereitet. Außerdem habe ich die Code-Struktur neu organisiert, um die Modularität und Wartbarkeit zu verbessern.

#### Update 11: Debugging und Optimierung des bestehenden Codes
# Das Debugging hat eine erhebliche Zeit in Anspruch genommen. Die Reddit-API lieferte keine Kommentare für historische Daten, da meine Suchanfragen zu spezifisch waren und die Kommentare tief in den Posts versteckt lagen. Die Suchanfragen habe ich Stück für Stück optimiert und subreddit.search() und subreddit.top() kombiniert, um mehr Posts zu finden. Das Abrufen der Kommentare war ineffizient, da replace_more(limit=None) zu viele API-Aufrufe verursachte. Diese habe ich auf limit=3 angepasst, um einen Kompromiss zwischen Datenmenge und Geschwindigkeit zu finden. Um die Effizienz weiter zu steigern, habe ich die Anzahl der Posts, für die Kommentare verarbeitet werden (max_posts_to_process), auf 15 reduziert. Timeouts und API-Fehler waren ebenfalls ein Problem. Hierfür habe ich die tenacity-Bibliothek mit Retry-Mechanismen und Exponential Backoff implementiert, um meine API-Aufrufe robuster zu machen. Diverse KeyError, LookupError und SyntaxError durch fehlende NLTK-Daten, falsche Spaltennamen oder Modularisierungsfehler habe ich ebenfalls behoben.

#### Update 12: Fertigstellung der Datenextraktion und -vorbereitung
# Die Datenextraktion und -vorbereitung sind nun abgeschlossen. Die Pipeline ist stabil und effizient, die Daten sind gesammelt, bereinigt, mit Features angereichert und in SQLite gespeichert. Die Modularisierung des Codes verbessert die Wartbarkeit erheblich. Ich werde in Zukunft schauen, ob sich meine Worte bewahrheiten, wenn ich einen Spieler genauer unter die Lupe nehmen werde. Vorerst fahre ich aber mit den Turnieren fort und behandle den Spieler als separate Instanz. Jetzt beginne ich mit der Analyse und Modellierung.

#### Update 13: Analyse der Turniere TI8 und TI11
# Nachdem die Daten erfolgreich geladen und konsolidiert wurden, begann für mich die Phase der Explorativen Datenanalyse (EDA) und Visualisierung. Mein Ziel war es, tiefere Einblicke in die Dynamik des Online-Engagements während der Turniere TI8 und TI11 zu gewinnen. Zunächst habe ich die Verteilung des Compound Sentiment Scores für beide Events untersucht. Hierbei zeigte sich eine bimodale Verteilung mit dominanten Peaks bei neutralem (0.00) und stark positivem (0.75-1.00) Sentiment. Negative Sentiments waren deutlich seltener. Ein Vergleich zwischen TI8 und TI11 offenbarte, dass TI11 tendenziell eine etwas höhere Konzentration an neutralen und stark positiven Kommentaren aufwies, was auf eine möglicherweise sachlichere oder insgesamt positivere Diskussionskultur hindeutet.

# Anschließend habe ich die Verteilung des Kommentar-Scores (comment_score) analysiert. Beide Verteilungen waren extrem rechtsschief, was bedeutet, dass die überwiegende Mehrheit der Kommentare einen sehr niedrigen Score (nahe 0) hatte, während nur wenige Kommentare hohe Scores erreichten – ein typisches "Long Tail"-Phänomen in sozialen Medien. Interessanterweise zeigte TI11 tendenziell mehr Kommentare mit moderat höheren Scores als TI8, obwohl OGs Sieg bei TI8 als emotionaler wahrgenommen wurde. Dies deutet darauf hin, dass ein hoher Score nicht zwingend mit positivem Sentiment korreliert und andere Faktoren wie Informationsgehalt oder Humor eine Rolle spielen könnten. Die Analyse der Wortanzahl (word_count) der Kommentare bestätigte ebenfalls eine extrem rechtsschiefe Verteilung, wobei die meisten Kommentare sehr kurz waren (Modus bei etwa 10 Wörtern). TI11 wies hier eine höhere Frequenz von kürzeren Kommentaren auf, was auf eine breitere, aber prägnantere Beteiligung hindeuten könnte. Die geringe Korrelation zwischen Wortanzahl und Kommentar-Score unterstreicht, dass die Länge allein kein primärer Treiber für die Popularität eines Kommentars ist.

# Ein weiterer Fokus lag auf der zeitlichen Verteilung der Kommentare. Die Analyse zeigte eine extreme Konzentration des Engagements während der Events ("During Event"), mit einer überwältigenden Mehrheit der Kommentare in dieser Periode. Die Phasen "Before Event" und "Outside Window" wiesen keine Kommentare auf, und die Aktivität fiel nach dem Event ("After Event") rapide ab. Dieses Muster war für beide Turniere konsistent und unterstreicht die Echtzeit- und reaktive Natur der Diskussionen auf Reddit während großer E-Sports-Events. Die durchschnittlichen Kommentar-Scores nach Zeitperiode zeigten, dass TI8 während des Events höhere, aber variablere Scores hatte, während TI11 homogenere, aber niedrigere Scores aufwies. Nach dem Event schien das Engagement für TI8 etwas nachhaltiger zu sein, während es für TI11 fast auf Null fiel. Diese detaillierten Analysen lieferten wertvolle Erkenntnisse über die unterschiedliche Dynamik des Engagements und der Diskussionskultur zwischen den beiden Turnieren.

#### Update 14: Erste Modellierungsversuche und kritische Fehlerbehebung
# Nach der umfassenden Explorativen Datenanalyse (Update 13) war der nächste logische Schritt die Anwendung von Machine Learning-Modellen. Mein Ziel war es, das Engagement der Kommentare (comment_score) vorherzusagen und erste Hypothesen über die treibenden Faktoren zu überprüfen.

# Ich begann mit der Implementierung eines Multiple Linearen Regressionsmodells als unsere Baseline. Dieses Modell sollte die linearen Beziehungen zwischen unseren aufbereiteten Features und der Zielvariable aufzeigen. Parallel dazu habe ich einen XGBoost Regressor trainiert, ein leistungsstärkeres Ensemble-Modell, das auch komplexe, nicht-lineare Muster in den Daten erkennen kann. Beide Modelle habe ich auf einem separaten Testset evaluiert, um ihre Vorhersagekraft zu beurteilen.

# Ein kritischer Moment in dieser Phase war die Beobachtung einer unrealistisch perfekten Modellleistung (R²-Werte von 1.00 und MSE-Werte nahe 0.00). Eine sofortige Analyse der Feature Importance des XGBoost-Modells enthüllte die Ursache: Die Zielvariable (comment_score) war unbeabsichtigt selbst als Feature in den Trainingsdaten enthalten. Dies führte zu einem klassischen Datenleck (Data Leakage), bei dem das Modell die Antwort bereits "kannte". Dieser Fehler wurde umgehend behoben, indem die Zielvariable konsequent aus dem Feature-Set entfernt wurde.

# Nach dieser entscheidenden Korrektur zeigten die Modelle realistische Leistungswerte, die eine fundierte Analyse ermöglichten. Die Feature Importance des XGBoost-Modells lieferte nun aussagekräftige Einblicke, welche Faktoren den comment_score tatsächlich beeinflussten. Die trainierten Modelle habe ich anschließend persistent gespeichert, um die Reproduzierbarkeit zu gewährleisten und eine spätere Nutzung zu ermöglichen.

#### Update 15: Modularisierung der Modellierung und Pipeline-Integration
# Um die Robustheit, Wartbarkeit und Skalierbarkeit meiner Machine Learning-Pipeline zu verbessern, habe ich eine umfassende Modularisierung des gesamten Modellierungsprozesses vorgenommen. Die zuvor im Notebook enthaltenen Schritte für die ML-Vorbereitung, das Training, Tuning und die Evaluierung habe ich in dedizierte Python-Skripte ausgelagert.

# Der Kern dieser Neuausrichtung ist die Einführung von Scikit-learn Pipelines. Die gesamte Datenvorverarbeitung – von der TF-IDF-Vektorisierung der Texte über das One-Hot-Encoding kategorialer Merkmale bis hin zum Feature Scaling numerischer Variablen – habe ich in einer ColumnTransformer-basierten Pipeline gekapselt. Diese Pipeline stellt sicher, dass alle Transformationen konsistent und ohne Datenlecks angewendet werden, indem sie nur auf den Trainingsdaten gelernt und dann auf alle weiteren Daten (Testset, Cross-Validation) angewendet wird.

# Zusätzlich habe ich fortgeschrittene Validierungs- und Optimierungstechniken integriert: Cross-Validation wurde für beide Modelle (Lineare Regression und XGBoost) implementiert, um eine robustere Schätzung der Modellleistung zu ermöglichen. Für das leistungsstarke XGBoost-Modell habe ich eine RandomizedSearchCV implementiert, um effizient den Hyperparameter-Raum zu durchsuchen und die optimale Konfiguration zu finden. Um die "Black-Box" des XGBoost-Modells zu öffnen und die Beiträge einzelner Features besser zu verstehen, habe ich SHAP (SHapley Additive exPlanations)-Werte berechnet, die aussagekräftige Plots zur globalen Feature Importance und zu den Auswirkungen einzelner Features generieren.

# Der gesamte Workflow wird nun durch ein zentrales Skript (train_model.py) orchestriert, das die modularen Funktionen aus model_utils.py aufruft. Dies schafft eine saubere Trennung der Verantwortlichkeiten und ermöglicht eine effiziente und reproduzierbare Ausführung der gesamten Machine Learning-Pipeline.

#### Update 16: Erfolgreiche Forschung und zukünftige Erweiterung des Analysefokus
# Die bisherige Forschungsarbeit war äußerst erfolgreich und hat mir ein tiefes Verständnis für die Dynamik des Online-Engagements auf Reddit im Kontext von E-Sports-Turnieren (TI8 und TI11) ermöglicht. Ich habe eine robuste Datenpipeline etabliert, aussagekräftige Features entwickelt und leistungsstarke Machine Learning-Modelle trainiert, die mir erste Einblicke in die Einflussfaktoren des Kommentar-Engagements geben.

# Angesichts dieser soliden Grundlage und der modularen Architektur meines Projekts ist es nun an der Zeit, meinen Analysefokus zu erweitern. Um die Komplexität und Nuancen des Online-Engagements noch umfassender zu beleuchten, werde ich zwei neue Variablen in meine Untersuchung integrieren: Erstens, die Spieler-Personality und Medienpräsenz, mit einem Fokus auf Topson. Hierbei werde ich analysieren, wie die persönliche Aktivität und Medienpräsenz eines ikonischen Spielers wie Topson das Engagement auf Reddit beeinflusst, insbesondere im Kontext seines Comebacks und der damit verbundenen Nostalgie und Hype. Zweitens, Organisationen im Umbruch, mit einem Fokus auf OG in 2024/2025. Diese Variable ermöglicht es mir, die Fanreaktionen und die Diskussionsqualität zu untersuchen, wenn ein ehemals dominantes Team wie OG eine Phase des Umbruchs oder des Misserfolgs durchläuft. Dies bietet einen spannenden Kontrast zu den Erfolgsphasen, die ich bereits analysiert habe.

# Diese Erweiterung wird es mir ermöglichen, einen analytischen Bogen von "Erfolg" über "Dominanz" bis hin zu "Neuorientierung" zu spannen und die vielfältigen Ausdrucksformen des Fan-Engagements bei Turnieren, Teams und individuellen Spielern zu erforschen. Die Integration dieser neuen Variablen sollte dank unserer modularen Codebasis mit minimalem Aufwand möglich sein, da die bestehenden Datenextraktions-, Vorverarbeitungs- und Modellierungsschritte nahtlos wiederverwendet werden können. Es ist ein absichtlicher Test, um zu sehen, ob meine Codestruktur tatsächlich gut genug ist.

#### Update 17: Erweiterung des Datensatzes - Integration von Riyadh Masters 2024
# Nachdem die modulare Pipeline für die Datenextraktion und -verarbeitung stabilisiert war, begann die Erweiterung des Datensatzes um die neuen Analysevariablen. Der Fokus lag auf dem Riyadh Masters 2024, einem Turnier, das sowohl die Präsenz von OG (mit schwacher Leistung) als auch von Topson (als Stand-In mit guter Performance) umfasste.

# Zunächst erfolgte eine umfassende Aktualisierung der keywords.json-Datei. Diese wurde um alle relevanten Spieler- und Coach-Namen der am Riyadh Masters 2024 teilnehmenden Teams erweitert. Zudem wurden turnierspezifische Begriffe wie "riyadh masters", "gamers8" und "esports world cup" sowie Platzierungen wie "ninth place" bis "twelveth place" in die tournament_event_keywords aufgenommen. Die Listen wurden alphabetisch sortiert und Duplikate entfernt, um die Qualität der Feature-Erkennung zu optimieren.

# Anschließend wurden im reddit_scraper.ipynb-Notebook neue Abschnitte zur Datensammlung für OG und Topson während des Riyadh Masters 2024 hinzugefügt. Hierfür wurden die bereits etablierten Funktionen zur Datenextraktion (get_posts_and_comments) mit spezifischen Suchanfragen ("OG", "Topson") und dem relevanten Turnierzeitraum (04. bis 28. Juli 2024) verwendet.

# Die neu gesammelten Daten für OG und Topson beim Riyadh Masters 2024 wurden nahtlos in die bestehende Datenbereinigungs- und Feature-Engineering-Pipeline integriert. Alle zuvor implementierten Schritte, wie die initiale Bereinigung, Textvorverarbeitung, Sentiment-Analyse, Zeitperioden-Markierung und die Erstellung weiterer Features (z.B. post_title_features, contains_question, contains_team_name, comment_to_post_score_ratio), wurden konsequent auf die neuen DataFrames angewendet. Jedem neuen Datensatz wurde ein eindeutiger event_name (OG_RM24, Topson_RM24) zugewiesen, um eine differenzierte Analyse zu ermöglichen.

# Abschließend wurden alle bereinigten und mit Features angereicherten DataFrames (TI8, TI11, OG_RM24, Topson_RM24) zu einem einzigen großen DataFrame zusammengeführt und in der SQLite-Datenbank gespeichert. Diese Konsolidierung stellt sicher, dass die nachfolgenden Schritte der Explorativen Datenanalyse (EDA) und der Machine Learning-Modellierung automatisch alle Events umfassen und die Vorteile der modularen Projektstruktur voll genutzt werden können.

#### Update 18: Finale Phase der Modularisierung und Codeoptimierung
# Die letzten Wochen waren eine intensive und zugleich sehr aufschlussreiche Phase der Projektentwicklung. Mein Hauptaugenmerk lag darauf, die Modularität und Wartbarkeit des gesamten Codes auf ein Niveau zu heben, das den hohen Ansprüchen meiner Bachelorarbeit gerecht wird. Es war ein iterativer Prozess, der sich durch viele kleine, aber entscheidende Schritte zog, um die Struktur zu perfektionieren.

# Ein großer Schritt war die vollständige Auslagerung der Datenextraktion, -vorbereitung und des Feature Engineerings in die prepare_data.py-Datei. Diese Datei war nicht mein erster Versuch, das Notebook zu entlasten, sondern tatsächlich das allerletzte Modul, das ich in diesem Kontext erstellt habe. Es repräsentiert die Kulmination meiner Modularisierungsbemühungen und ist nun eine robuste, eigenständige Pipeline. Ich habe mich dazu entschieden, die gesamte Reddit API-Initialisierung, die zuvor noch im Notebook stattfand, direkt in prepare_data.py zu integrieren. Das bedeutet, die Funktion prüft nun selbst, ob Daten in der SQLite-Datenbank (reddit_dota2_analysis.db) vorhanden sind, und sammelt sie nur bei Bedarf neu. Das spart nicht nur enorme Zeit bei jedem Durchlauf, sondern schont auch die API-Limits – ein Problem, das mich in Update 11 schon viel Zeit gekostet hat.

# Die zentrale Konfiguration in config.py hat sich als absolut unverzichtbar erwiesen. Alle relevanten Parameter, von den Turnierdaten über die API-Limits bis hin zu den Pfaden und Modell-Hyperparametern, sind nun dort gebündelt. Es stellte sich heraus, dass dies der Schlüssel zu einer konsistenten und leicht anpassbaren Codebasis ist, was für die Reproduzierbarkeit meiner Ergebnisse entscheidend ist.

# Auch die Visualisierungslogik habe ich weiter optimiert. Ich habe eine neue Orchestrierungsfunktion, generate_all_eda_plots, in plots.py implementiert, die nun alle explorativen Datenanalyse-Plots mit einem einzigen Aufruf generiert. Sogar die Pearson-Korrelationsanalyse, die bisher noch direkt im Notebook stattfand, wurde konsequent in eine eigene Funktion (plot_pearson_correlation) in plots.py ausgelagert. Rückblickend muss ich zugeben, dass die Pearson-Korrelation noch hardcodiert war, weil ich sie schlichtweg übersehen und vergessen hatte – ein gutes Beispiel dafür, wie wichtig eine systematische Überprüfung ist. Das macht die Visualisierungen nicht nur konsistenter, sondern auch viel einfacher zu handhaben.

# Parallel dazu habe ich alle unterstützenden Module – database_utils.py, preprocess.py, reddit_scraper.py, feature_engineering.py, text_features.py und config_loader.py – einer umfassenden Überprüfung unterzogen. Dabei wurden kleinere Inkonsistenzen behoben, Logging-Konfigurationen vereinheitlicht und redundante Code-Abschnitte entfernt. Besonders die Anpassung von database_utils.py, die nun nur noch die relevanten Kommentardaten zurückgibt, trägt zur Präzision bei.

# Das reddit_scraper.ipynb-Notebook selbst ist nun das, was es sein sollte: ein klarer, übersichtlicher Bericht und Orchestrator meines gesamten Workflows. Redundante Imports wurden entfernt, die Nummerierung der Abschnitte wurde überarbeitet, um eine durchgängige und logische Reihenfolge zu gewährleisten, und die Hinweise zur Datenerfassung wurden für verschiedene Betriebssysteme präzisiert.

# Mit diesen umfassenden Anpassungen ist die Kern-Programmierarbeit nun abgeschlossen. Ich habe eine robuste, effiziente und vollständig modularisierte Pipeline geschaffen, die mir die Gewissheit gibt, mich in den kommenden Wochen voll und ganz auf die Analyse der Ergebnisse und das Verfassen meiner Bachelorarbeit konzentrieren zu können. Es ist ein gutes Gefühl, diese technische Grundlage geschaffen zu haben.

# Es folgt lediglich nur noch das Debugging und die Analyse von Riyadh Masters 2024. Danach sollte ich ich komplett fertig mit dem Programmier-Aspekt werden.

#### Update 19: Debugging und Analyse von Riyadh Masters 2024
# Die Zeit seit dem letzten Update war eine Phase intensiver Verfeinerung und des Debuggings, die darauf abzielte, die analytische Tiefe und die Robustheit meiner gesamten Codebasis zu maximieren.

# Ein zentraler Schritt war die Optimierung meiner Analysemethoden. Ich habe die Visualisierungsfunktionen in plots.py erheblich erweitert, um nicht nur ansprechende Diagramme zu generieren, sondern diese auch direkt mit quantitativen Metriken zu versehen. Das bedeutet, meine Plots zeigen nun nicht mehr nur visuelle Trends, sondern untermauern diese mit konkreten Mittelwerten, Medianen und Standardabweichungen. Dies ist entscheidend, um "Schätzungen nach Augenmaß" zu vermeiden und meine Beobachtungen wissenschaftlich präzise zu belegen. Zudem habe ich die Qualität der Plot-Ausgabe für meine Bachelorarbeit optimiert, indem alle Diagramme nun automatisch in hoher Auflösung und in einem konsistenten Format gespeichert werden. Die generierten Bilder finden sich nun im Ordner Code/BA/reports/figures/ und die detaillierten Logs im Ordner Code/BA/logs/.

# Eine Implementierung für statistische Tests war für die Analyse nötig. Ich habe ein neues Modul (statistical_tests.py) erstellt, das Funktionen für unabhängige T-Tests, ANOVA und Chi-Quadrat-Tests enthält. Meine bisherigen visuellen Analysen und "Schätzungen nach Augenmaß" reichten nicht aus, um eine vollständige und wissenschaftlich fundierte Antwort auf meine Forschungsfragen zu geben. Diese Tests sind nun integriert, um die beobachteten Unterschiede quantitativ zu untermauern und die Ergebnisse besser zu verstehen und zu vergleichen.

# Ich habe die text_features.py um einen automatischen NLTK-Daten-Download-Check erweitert. Dies stellt sicher, dass alle notwendigen Sprachressourcen vorhanden sind, bevor die Textverarbeitung beginnt, und macht das Modul widerstandsfähiger gegen fehlende Abhängigkeiten.

# Ein erheblicher Teil meiner Zeit floss in das finale Debugging und die Konsistenz des Loggings. Es stellte sich heraus, dass die Art und Weise, wie das Logging in den verschiedenen Modulen konfiguriert war, zu unerwartetem Verhalten führte. Ich habe nun eine umfassende Lösung implementiert, bei der logging.basicConfig() nur noch an den zentralen Einstiegspunkten meiner Anwendung (dem Notebook und den direkt ausführbaren Skripten) aufgerufen wird. Alle anderen Module verwenden nun eine logger-Instanz, was eine durchgängige und zuverlässige Protokollierung des gesamten Workflows gewährleistet. Dies war ein hartnäckiges Problem, das viel Geduld erforderte, aber nun ist der Output meiner Skripte klar und vollständig.

# Die Zusammenfassung der Machine Learning Ergebnisse wurde ebenfalls hinzugefügt. Ich muss zugeben, dass diese Funktion anfangs übersehen wurde und ich ihre Notwendigkeit erst jetzt bemerkt habe. Sie speichert die wichtigsten Performance-Metriken und Hyperparameter in einer separaten Textdatei, was für die Dokumentation meiner Arbeit sehr nützlich ist. Gleiches gilt für die Speicherung der Rohdaten: Auch diese wurde erst jetzt implementiert, um die Reproduzierbarkeit meiner Datenbasis zu gewährleisten.

# Schließlich habe ich die Projektstruktur noch einmal kritisch beleuchtet und bestätigt, dass die aktuelle Organisation meiner Ordner (BA/config, BA/data/raw, BA/data/processed, BA/models, BA/reports, BA/logs etc.) den Best Practices entspricht und eine klare Trennung der Verantwortlichkeiten gewährleistet. Die finale Runde zum Überschauen aller Module und Funktionen ist damit bereits passiert.

# Ich denke, dass die Codebasis für meine Bachelorarbeit genügend ist und ich hiermit hoffentlich fertig bin zu codieren. Das nächste Update wird sich ausschließlich den Auswertungen der Analysen widmen und damit der letzte Teil des Programmierabschnitts sein.

# Update 20: Analyse aller Variablen und abschließende Worte zum Programmierteil

# 

# 

# 

# 

# 

# ### **Comprehensive Project Reproduction Guide in VS Code**
#
# This section provides a detailed, step-by-step guide to fully reproduce this project. It is highly recommended to use Visual Studio Code (VS Code) as your development environment, as it was specifically designed for seamless integration with Python and Jupyter Notebooks.
#
# #### **1. Prerequisites & Initial Setup**
#
# Before you begin, ensure the following prerequisites are met:
#
# *   **Visual Studio Code:** Installed on your system.
# *   **Python 3.x:** A recent version of Python is installed.
#
# **Steps:**
#
# 1.  **Open the Project Folder:**
#     *   Download or clone the entire project repository.
#     *   Open VS Code.
#     *   Go to `File` > `Open Folder...` and select the main project directory (e.g., `C:\Users\Destiny\OneDrive - HWR Berlin\Desktop\Schule\HWR\1 Abschlussarbeit\Code`).
#
# 2.  **Install Essential VS Code Extensions:**
#     These extensions are crucial for working seamlessly with Python code and Jupyter Notebooks in VS Code.
#     *   Open the Extensions view in VS Code (Ctrl+Shift+X or Cmd+Shift+X).
#     *   Search for and install the following extensions by Microsoft:
#         *   **Python:** Provides IntelliSense, debugging, code formatting, and more.
#         *   **Jupyter:** Enables opening, editing, and running `.ipynb` files directly within VS Code.
#     *   **Note:** These two extensions are fully sufficient for reproducing the project's results. Other extensions are generally for development convenience but are not strictly necessary for this purpose.
#
# #### **2. Set Up the Virtual Environment**
#
# A virtual environment isolates project dependencies from other Python projects on your system, ensuring consistent results.
#
# 1.  **Open the Integrated Terminal:**
#     *   In VS Code, go to `Terminal` > `New Terminal`. This will open a terminal session (typically PowerShell on Windows) directly within your project's root directory.
#
# 2.  **Adjust PowerShell Execution Policy (Windows Only):**
#     *   If you are on Windows and encounter an error like "cannot be loaded because running scripts is disabled on this system" when activating the virtual environment, you need to temporarily bypass the execution policy.
#     *   In the **VS Code Terminal**, run the following command. Confirm the change by typing `J` (Yes) or `A` (All) and pressing `Enter`. This change is valid only for the current terminal session.
#         ```powershell
#         Set-ExecutionPolicy -Scope Process -ExecutionPolicy Bypass
#         ```
#
# 3.  **Create a Virtual Environment:**
#     *   In the **VS Code Terminal**, run:
#         ```bash
#         python -m venv venv
#         ```
#     *   **Expected Output:** There should be no error messages. A new folder named `venv` will be created in your project directory.
#
# 4.  **Activate the Virtual Environment:**
#     *   In the **VS Code Terminal**, run:
#         ```bash
#         .\venv\Scripts\activate
#         ```
#     *   **Expected Output:** Your terminal prompt should change to include `(venv)` at the beginning (e.g., `(venv) PS C:\Your\Project\Path>`). This confirms the virtual environment is active.
#
# 5.  **Select the Python Interpreter in VS Code:**
#     *   This is a **critical step** for VS Code to use the Python version from your virtual environment.
#     *   In the **bottom-left corner** OR **upper-right corner** of the VS Code window, click on the displayed Python version (e.g., `Python 3.x.x`).
#     *   A list of interpreters will appear at the top. Select the interpreter that points to your newly created virtual environment (it will typically have `('venv')` next to it, e.g., `Python 3.x.x ('venv')`).
#     *   **Expected Output:** The Python version in the bottom bar should now display `Python 3.x.x (venv)`.
#
# 6.  **Install Dependencies:**
#     *   Ensure the `requirements.txt` file is present in your project's root directory.
#     *   In the **VS Code Terminal** (with `(venv)` active), run:
#         ```bash
#         pip install -r requirements.txt
#         ```
#     *   **Expected Output:** A series of messages indicating the installation of required libraries. It should conclude with `Successfully installed ...`.
#
# #### **3. Execute the Project Workflow**
#
# The project workflow is structured into three main steps: Data Preparation, Exploratory Data Analysis (EDA) & Statistical Tests, and Machine Learning.
#
# ##### **3.1 Step 1: Data Preparation (`prepare_data.py`)**
#
# This script is the initial step. It collects raw data from the Reddit API, performs cleaning and preprocessing, extracts features, and saves the processed data into an SQLite database.
# This step will be automatically executed when running the subsequent EDA & Statistical Tests notebook. However, you can also run it independently.
# If you wish to manually execute this step, follow these instructions:
#
# 1.  **Open Terminal & Activate Environment:**
#     *   Ensure you have a **VS Code Terminal** open and your virtual environment (`(venv)`) is active.
#
# 2.  **Ensure Unicode Output for Terminal (Optional, but Recommended):**
#     *   To prevent `UnicodeEncodeError` when special characters (like emojis in log messages) are printed to the terminal, set the `PYTHONIOENCODING` environment variable to `utf-8`. This needs to be done in each new terminal session where you intend to run Python scripts.
#         ```powershell
#         $env:PYTHONIOENCODING="utf-8"
#         ```
#     *   **Clarification:** This instruction is specifically for the terminal output of `.py` scripts. Jupyter Notebooks handle their output differently, so this step is not strictly necessary for notebook cells themselves, but crucial for direct script execution in the terminal.
#
# 3.  **Execute Data Preparation Script:**
#     *   In the **VS Code Terminal**, run:
#         ```bash
#         python "BA\src\data\prepare_data.py"
#         ```
#     *   **Expected Outputs in Terminal:**
#         *   Detailed log messages about the progress of data extraction, cleaning, and feature engineering.
#         *   Messages like "Successfully collected X comments for event_name."
#         *   Confirmation of database saving: "Data storage in SQLite complete."
#         *   Summary of prepared data: "Data preparation successful. Prepared DataFrame shape: (X, Y)".
#         *   **Important Note:** If you make changes to the data processing logic and wish to re-collect data, you **MUST** manually delete the existing SQLite database file (`reddit_dota2_analysis.db` located in the `BA\data\processed` folder) before running this script again.
#
# ##### **3.2 Step 2: Exploratory Data Analysis (EDA) & Statistical Tests (Jupyter Notebook)**
#
# This Jupyter Notebook (`reddit_scraper.ipynb`) loads the prepared data, performs exploratory data analysis, generates visualizations, and conducts statistical tests.
#
# 1.  **Open the Notebook:**
#     *   Navigate in the VS Code Explorer to the desired `.ipynb` file (e.g., `BA\notebooks\1_data_extraction\reddit_scraper.ipynb`).
#     *   Click on the file to open it in VS Code.
#
# 2.  **Execute Cells:**
#     *   **Recommendation: Use "Run All".** While you can execute individual code cells by clicking the "Play" icon next to them or using `Shift + Enter`, it is **highly recommended to use the "Run All" option** (located at the top-right of the notebook window). This ensures that all cells are executed in the correct order, preventing potential issues with dependencies or state that might arise from executing cells individually or out of order.
#     *   **Note on Markdown Cells:** When you run "Run All", this markdown cell (the guide itself) and the above will also be executed and displayed. You can easily collapse or hide its output by double-clicking on it. This will return it to its edit form, making the notebook cleaner for viewing. This is particularly useful for large informational cells like this one, which might otherwise appear prominently in the notebook output.
#
# 3.  **Expected Outputs within the Notebook:**
#     *   **Logs:** `logging.info` messages will be displayed directly below the code cells.
#     *   **Data Loading:** Checks will be performed to see if data is already present in the SQLite database. If so, it will load the existing data for further use. If not, data scraping processes will be initiated via `prepare_data.py` (though this step is primarily handled by the `prepare_data.py` script itself).
#     *   **Plots:** Generated charts (e.g., correlation matrices, distribution plots) will be embedded directly within the output cells of the notebook via `plots.py`.
#     *   **Statistical Test Results:** The results of statistical tests will be printed in the output cells via `statistical_tests.py`.
#     *   **Confirmation Messages:** Messages like "Combined DataFrame successfully created with shape: (X, Y)" or "Comments DataFrame loaded with shape: (X, Y)" confirm progress.
#
# ##### **3.3 Step 3: Machine Learning Pipeline (`train_model.py`)**
#
# This script executes the machine learning workflow, including model training, hyperparameter tuning, evaluation, and saving of trained artifacts.
#
# 1.  **Open Terminal & Activate Environment:**
#     *   Ensure you have a **VS Code Terminal** open and your virtual environment (`(venv)`) is active.
#
# 2.  **Execute Machine Learning Pipeline Script:**
#     *   In the **VS Code Terminal**, run:
#         ```bash
#         python "BA\src\models\train_model.py"
#         ```
#     *   **Expected Outputs in Terminal:**
#         *   Detailed log messages about the progress of model training and evaluation.
#         *   Performance metrics for Linear Regression and XGBoost (e.g., R² values, MSE).
#         *   Information about hyperparameter tuning (best parameters).
#         *   Messages regarding the generation and saving of SHAP plots (e.g., "SHAP Summary Plot saved to: ...").
#         *   Confirmation of model artifact saving: "Models and preprocessing objects saved to: ..."
#         *   Final completion message: "Model Pipeline Completed Successfully."
#
# #### **4. Viewing Results**
#
# After successfully executing the project workflow, you can examine the generated outputs:
#
# 1.  **Explore Generated Files:**
#     *   **Data:** The SQLite database (`reddit_dota2_analysis.db`) will be located in `BA\data\processed`. You can open it using SQLite viewers or directly within VS Code using the SQLite extension.
#     *   **Plots & Visualizations:** All generated plots and visualizations will be saved in the `BA\reports\figures` directory. You can open these images using any image viewer.
#     *   **Model Artifacts:** The trained models and preprocessing objects will be saved in the `BA\models` directory. These can be loaded and used for inference or further analysis.
#
# 2.  **Logging:**
#     *   All logs for `prepare_data.py` and the Notebook are saved in `BA\logs\model_pipeline.log`. This file contains detailed logs from both the data preparation and model training processes.
#     *   A precise gathering of data outputs and visualizations for ML models can be also found in `BA\reports\figures`. Summaries of the model's performance and SHAP plots are saved here too.
#
# **End of Guide**


In [None]:
# %% [markdown]
# ### Reddit Scraper for DotA2 Subreddit
#
# **Guideline:** Online Engagement with Organizational News on Reddit: An Analysis Using the Example of E-Sports Player Transfers and the Online Presence of Organizations in Rankings and Tournaments.
#
# ---
#
# #### 1. Project Setup and Data Preparation
#
# This section handles the initial setup, including importing necessary libraries, and orchestrating the data collection, cleaning, and feature engineering process.

# %% [markdown]
# ##### 1.1 Imports and Environment Setup
#
# Importing all required libraries and configuring the Python environment for modularized functions.

# %% [python]
import pandas as pd
import sys # Required for sys.path manipulation
import os  # Required for os.path operations
import praw # Required for Reddit API interaction
import logging # Required for logging configuration

# --- START: Project Root Setup for Module Imports ---
# Dynamically determine the project root relative to the notebook's location.
# This assumes the notebook is located at:
# project_root/BA/notebooks/1_data_extraction/your_notebook.ipynb
# So, we need to go up three directories from the current working directory.
current_notebook_dir = os.getcwd()
project_root = os.path.abspath(os.path.join(current_notebook_dir, '..', '..', '..'))

# Add the project_root to sys.path if it's not already there.
# This must happen *before* importing any modules from the project root (like 'config').
if project_root not in sys.path:
    sys.path.insert(0, project_root)
# --- END: Project Root Setup for Module Imports ---

# Import the centralized configuration
import config

# --- START: Centralized Logging Configuration for Notebook ---
# Ensure the log directory exists before configuring logging
os.makedirs(os.path.dirname(config.LOG_FILE), exist_ok=True)

# Configure logging once at the application's entry point (the notebook)
logging.basicConfig(
    level=config.LOG_LEVEL,
    format="%(asctime)s - %(levelname)s - %(message)s",
    handlers=[
        logging.FileHandler(config.LOG_FILE), # Log to file
        logging.StreamHandler(sys.stdout)     # Log to console/stdout
    ]
)
# --- END: Centralized Logging Configuration for Notebook ---


# Import custom modules from src/
from BA.src.data.database_utils import load_data_from_sqlite
from BA.src.visualization.plots import generate_all_eda_plots, plot_pearson_correlation # Orchestrates all EDA plots, and new correlation plot
from BA.src.data.prepare_data import prepare_data # Orchestrates data collection and preprocessing
from BA.src.analysis.statistical_tests import perform_independent_t_test, perform_anova_test, perform_chi_squared_test # New statistical tests

# For plotting (general setup)
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("whitegrid") # Set plot style


# %% [markdown]
# ##### 1.2 Data Collection, Cleaning, and Feature Engineering
#
# This section orchestrates the entire data preparation pipeline by calling the modularized `prepare_data` function.
# This function handles conditional data loading, raw data collection, cleaning, preprocessing, and feature engineering and saves the processed data to the SQLite database. All parameters are now managed via `config.py`.
# The Reddit API initialization is now handled internally within `prepare_data.py`.

# **Note on Data Collection:**
#
# The `prepare_data()` function is designed to collect and process data from the Reddit API only if it's not already present in the SQLite database (`reddit_dota2_analysis.db`).This saves time and respects API limits.
#
# ** IMPORTANT: To apply changes to data processing (like new feature engineering), you MUST delete the existing database file first! **
#
# For **Windows**:
# ```bash
# del "C:\Users\Destiny\OneDrive - HWR Berlin\Desktop\Schule\HWR\1 Abschlussarbeit\Code\BA\data\processed\reddit_dota2_analysis.db"
# ```
#
# After deleting the database, `prepare_data()` will automatically collect the data again on its next call.
#
# If you wish to manually trigger just the full data extraction, preparation, cleaning and feature engineering process, please run the "prepare_data.py" script directly in your terminal:
#
# ```bash
# python BA/src/data/prepare_data.py
# ```

# %% [python]
logging.info("Starting data preparation and feature engineering pipeline...")

# Call the prepare_data function to execute the full pipeline.
# It will return the combined and cleaned DataFrame.
# No arguments are passed here, as prepare_data now reads them from config.py
df_combined_cleaned = prepare_data()

logging.info("Data preparation and feature engineering pipeline complete.")

# Confirmation of successful data preparation
if not df_combined_cleaned.empty:
    logging.info(f"Combined DataFrame successfully created with shape: {df_combined_cleaned.shape}")
    logging.info("Combined Cleaned DataFrame Info:")
    df_combined_cleaned.info() # This prints to stdout, not necessarily to logger
    print("\nDescriptive statistics of the combined DataFrame:")
    print(df_combined_cleaned.describe(include='all')) # Display descriptive statistics
else:
    logging.warning("Combined DataFrame is empty after data preparation.")


# %% [markdown]
# ---
#
# #### 2. Data Loading and Initial Analysis
#
# This section focuses on loading the processed data from the database and performing initial analytical steps.

# %% [markdown]
# ##### 2.1 Data Loading from SQLite Database
#
# Loading the cleaned and feature-engineered data from the previous step by renaming it to df_comments, instead of loading a separate database file with the same data.

# %% [python]
logging.info("\n--- Loading data from SQLite database ---")
# The df_combined_cleaned DataFrame from the previous step is already loaded and processed.
df_comments = df_combined_cleaned

if not df_comments.empty:
    logging.info(f"Comments DataFrame loaded with shape: {df_comments.shape}")
    logging.info("\nComments DataFrame Info:")
    df_comments.info() # This prints to stdout, not necessarily to logger
    print("\nDescriptive statistics of the loaded DataFrame:")
    print(df_comments.describe(include='all')) # Display descriptive statistics
else:
    logging.warning("No data loaded. Please check previous steps.")


# %% [markdown]
# ##### 2.2 Pearson Correlations
#
# Calculating Pearson correlations between selected numerical features to identify potential relationships.
# This analysis is now encapsulated in a dedicated function within `BA/src/visualization/plots.py`.

# %% [markdown]
# #### Interpretation of Pearson Correlation Matrix
#
# The Pearson Correlation Matrix provides insights into the linear relationships between pairs of numerical variables. The correlation coefficient ranges from -1 (perfect negative linear correlation) to +1 (perfect positive linear correlation), with 0 indicating no linear correlation.
#
# **Key Observations:**
#
# *   **Highly Correlated Features (r > 0.9 or r < -0.9):**
#     *   `post_title_word_count` and `post_title_length` (r = 0.97): As expected, longer titles tend to have more words.
#     *   `word_count` and `char_count` (r = 0.96): Similarly, comments with more characters naturally have more words.
#     *   These high correlations suggest that one of these features might be redundant for certain analyses, though tree-based models like XGBoost are generally robust to multicollinearity.
#
# *   **Strong Positive Correlations (0.7 < r <= 0.9):**
#     *   `contains_team_name` and `contains_player_keyword` (r = 0.69): This indicates that posts mentioning team names often also mention player keywords, suggesting discussions around team rosters or player performances.
#     *   `compound_sentiment` and `pos_sentiment` (r = 0.67): A higher positive sentiment score strongly contributes to the overall compound sentiment.
#
# *   **Moderate Positive Correlations (0.3 < r <= 0.7):**
#     *   `comment_score` and `post_score` (r = 0.55): Posts with higher scores tend to attract comments that also receive higher scores. This is a significant relationship for understanding engagement.
#     *   `is_self` and `post_num_comments` (r = 0.41): Text-based posts (`is_self`) tend to generate more comments, which is an interesting finding regarding content type and interaction.
#     *   `contains_event_keyword` and `word_count` (r = 0.37): Comments containing event-related keywords are moderately correlated with longer comments.
#
# *   **Strong Negative Correlations (-0.7 <= r < -0.3):**
#     *   `pos_sentiment` and `neu_sentiment` (r = -0.72): This is a logical inverse relationship; as positive sentiment increases, neutral sentiment tends to decrease, given that the sum of sentiment scores often approaches 1.
#     *   `compound_sentiment` and `neg_sentiment` (r = -0.59): Higher negative sentiment naturally leads to a lower overall compound sentiment.
#
# *   **Weak or Negligible Correlations (r close to 0):**
#     *   Many features show very low correlations with `contains_question` and `comment_hour`. This suggests that there isn't a strong linear relationship between these variables and others in the dataset. It's important to remember that a low linear correlation does not rule out non-linear relationships.
#
# *   **Notable Observations:**
#     *   `author_karma` shows `NaN` for all correlations, indicating missing data for this feature. If author karma is deemed important for the research questions, this data gap needs to be addressed.
#     *   `upvote_ratio` shows a very weak negative correlation with `comment_score` (r = -0.097). This might be counter-intuitive, as one might expect highly upvoted posts to have highly scored comments. This could suggest that controversial posts (which might have a lower upvote ratio due to mixed reactions) can still generate significant discussion and highly scored comments.
#
# **Implications:**
# The correlation matrix helps identify potential relationships between features, guiding further analysis and feature selection for predictive modeling. Strong correlations can indicate redundant features or important underlying dynamics. Weak correlations suggest that variables might be independent or have non-linear relationships. It is crucial to remember that correlation does not imply causation.

# %% [markdown]
# ##### 2.3 Statistical Tests
#
# Performing statistical tests to quantitatively assess differences and associations between variables.

# %% [python]
if not df_comments.empty:
    logging.info("\n--- Performing Statistical Tests ---")

    # --- Tests for Research Question: How do different factors influence user interactions? ---

    # Independent Samples t-test for Compound Sentiment between two events (e.g., TI8 vs. TI11)
    # This test investigates if there's a statistically significant difference in the mean compound sentiment
    # between comments related to different International (TI) events.
    print("\n--- Independent Samples t-test for Compound Sentiment ---")
    perform_independent_t_test(df_comments, 'event_name', 'compound_sentiment', 'TI8', 'TI11')

# %% [markdown]
# #### Interpretation of Independent Samples t-test (TI8 vs. TI11 for Compound Sentiment)
#
# [Fügen Sie hier Ihre Interpretation basierend auf den geloggten Ergebnissen ein. Erläutern Sie den p-Wert, den t-Wert und die Schlussfolgerung bezüglich der statistischen Signifikanz. Beispiel: "Der t-Test zwischen TI8 und TI11 für das Compound Sentiment zeigte einen p-Wert von X.XX. Dies deutet auf [einen statistisch signifikanten Unterschied / keinen statistisch signifikanten Unterschied] im Sentiment zwischen diesen beiden Ereignissen hin."]

# %% [python]
    perform_independent_t_test(df_comments, 'event_name', 'compound_sentiment', 'TI8', 'OG_RM24')

# %% [markdown]
# #### Interpretation of Independent Samples t-test (TI8 vs. OG_RM24 for Compound Sentiment)
#
# [Fügen Sie hier Ihre Interpretation ein.]

# %% [python]
    perform_independent_t_test(df_comments, 'event_name', 'compound_sentiment', 'TI11', 'OG_RM24')

# %% [markdown]
# #### Interpretation of Independent Samples t-test (TI11 vs. OG_RM24 for Compound Sentiment)
#
# [Fügen Sie hier Ihre Interpretation ein.]

# %% [python]
    perform_independent_t_test(df_comments, 'event_name', 'compound_sentiment', 'OG_RM24', 'Topson_RM24')

# %% [markdown]
# #### Interpretation of Independent Samples t-test (OG_RM24 vs. Topson_RM24 for Compound Sentiment)
#
# [Fügen Sie hier Ihre Interpretation ein.]

# %% [markdown]
# ##### One-Way ANOVA Tests

# %% [python]
    # One-Way ANOVA for Comment Score across different time periods
    # This ANOVA test examines if there are statistically significant differences in the mean comment score
    # across the defined time periods relative to an event (Before, During, After, Outside Window).
    print("\n--- One-Way ANOVA for Comment Score across Time Periods ---")
    perform_anova_test(df_comments, 'time_period', 'comment_score')

# %% [markdown]
# #### Interpretation of One-Way ANOVA (Comment Score across Time Periods)
#
# [Fügen Sie hier Ihre Interpretation basierend auf den geloggten Ergebnissen ein. Erläutern Sie den F-Wert, den p-Wert und die Schlussfolgerung bezüglich der statistischen Signifikanz. Beispiel: "Die ANOVA für den Kommentarpunktwert über die Zeiträume hinweg ergab einen p-Wert von X.XX. Dies deutet auf [einen statistisch signifikanten Unterschied / keinen statistisch signifikanten Unterschied] in den Kommentarpunktwerten zwischen mindestens zwei der Zeiträume hin."]

# %% [python]
    print("\n--- One-Way ANOVA for Compound Sentiment across Time Periods ---")
    perform_anova_test(df_comments, 'time_period', 'compound_sentiment')

# %% [markdown]
# #### Interpretation of One-Way ANOVA (Compound Sentiment across Time Periods)
#
# [Fügen Sie hier Ihre Interpretation ein.]

# %% [markdown]
# ---
#
# ##### Tests for Research Question: How do engagement rates differ between posts on player transfers, tournament results, and ranking placements?
#
# To address this research question, we perform ANOVA tests on key engagement metrics, grouped by the newly created `post_type` feature.

# %% [python]
    print("\n--- One-Way ANOVA for Comment Score across Post Types ---")
    perform_anova_test(df_comments, 'post_type', 'comment_score')

# %% [markdown]
# #### Interpretation of One-Way ANOVA (Comment Score across Post Types)
#
# [Fügen Sie hier Ihre Interpretation basierend auf den geloggten Ergebnissen ein. Erläutern Sie den F-Wert, den p-Wert und die Schlussfolgerung bezüglich der statistischen Signifikanz. Diskutieren Sie, ob es signifikante Unterschiede im durchschnittlichen Kommentarpunktwert zwischen den verschiedenen Beitragstypen (Spielerwechsel, Turnierergebnisse, Ranglistenplatzierungen) gibt.]

# %% [python]
    print("\n--- One-Way ANOVA for Compound Sentiment across Post Types ---")
    perform_anova_test(df_comments, 'post_type', 'compound_sentiment')

# %% [markdown]
# #### Interpretation of One-Way ANOVA (Compound Sentiment across Post Types)
#
# [Fügen Sie hier Ihre Interpretation ein. Diskutieren Sie, ob es signifikante Unterschiede im durchschnittlichen Compound Sentiment zwischen den verschiedenen Beitragstypen gibt.]

# %% [markdown]
# ##### Chi-squared Tests

# %% [python]
    # Chi-squared test of independence between 'time_period' and 'contains_question'
    # This test determines if there is a statistically significant association between the time period relative to an event and whether a comment contains a question.
    print("\n--- Chi-squared test for Time Period and Contains Question ---")
    perform_chi_squared_test(df_comments, 'time_period', 'contains_question')

# %% [markdown]
# #### Interpretation of Chi-squared test (Time Period and Contains Question)
#
# [Fügen Sie hier Ihre Interpretation basierend auf den geloggten Ergebnissen ein. Erläutern Sie den Chi-Quadrat-Wert, den p-Wert und die Schlussfolgerung bezüglich der statistischen Assoziation. Beispiel: "Der Chi-Quadrat-Test für den Zeitraum und 'contains_question' ergab einen p-Wert von X.XX. Dies deutet auf [eine statistisch signifikante Assoziation / keine statistisch signifikante Assoziation] zwischen diesen beiden Variablen hin."]

# %% [python]
    print("\n--- Chi-squared test for Event Name and Contains Team Name ---")
    perform_chi_squared_test(df_comments, 'event_name', 'contains_team_name')

# %% [markdown]
# #### Interpretation of Chi-squared test (Event Name and Contains Team Name)
#
# [Fügen Sie hier Ihre Interpretation ein.]

# %% [python]
    logging.info("\n--- Statistical Tests Complete ---")
else:
    logging.info("Comments DataFrame is empty, skipping statistical tests.")


# %% [markdown]
# ---
#
# #### 3. Exploratory Data Analysis (EDA) and Visualization
#
# This section focuses on visually exploring the cleaned and feature-engineered data to identify patterns, trends, and differences between the four variables. All plots are generated via a single orchestrating function.

# %% [markdown]
# ##### 3.1 Interpretation of Distribution Plots
#
# When analyzing the distribution plots (histograms with KDE, and the new Box/Violin plots), focus on the following aspects for a comprehensive understanding:
#
# *   **KDE Curve (Kernel Density Estimate):** This smoothed line is crucial for understanding the *shape* of the distribution. Look for:
#     *   **Peaks (Modes):** Where are the most frequent values concentrated? Are there multiple peaks?
#     *   **Skewness:** Is the distribution symmetrical, or is it skewed to the left (tail on the left) or right (tail on the right)?
#     *   **Spread:** How wide is the distribution? Does it cover a large range of values or are they tightly clustered?
#     *   **Comparison:** When comparing multiple KDE curves (e.g., for different events), observe if their shapes are similar, if their peaks align, and if their spreads are comparable.
#
# *   **Box Plots / Violin Plots:** These plots are excellent for comparing distributions *between different groups* (e.g., events).
#     *   **Box Plots:** Clearly show the median (middle line), the interquartile range (IQR, the box itself, representing the middle 50% of data), and potential outliers (individual points). They are great for quickly assessing central tendency, spread, and skewness.
#     *   **Violin Plots:** Combine the box plot with the KDE, showing the density of the data at different values. They provide a richer view of the distribution's shape than box plots, especially useful for identifying multimodal distributions.
#
# *   **Quantitative Metrics (Mean, Median, Standard Deviation):** These numerical summaries, provided next to the plots, are essential for precise, quantitative comparisons.
#     *   **Mean & Median:** Indicate the *central tendency* of the data. Compare these values across groups to see if the "average" or "typical* value differs.
#     *   **Standard Deviation:** Measures the *spread* or *variability* of the data. A larger standard deviation means data points are more spread out from the mean.
#
# **In summary:** While histograms give a raw count, the **KDE curve** helps you understand the *overall shape* of the distribution. The **Box/Violin plots** are superior for *comparing distributions across groups*. The **numerical summary statistics** provide the *precise quantitative details* to support your visual observations and are critical for your analysis.

# %% [python]
# Generate all EDA plots using the modularized function
if not df_comments.empty:
    generate_all_eda_plots(df_comments)
else:
    logging.info("Comments DataFrame is empty, skipping EDA plots.")


# %% [markdown]
# ---
#
# #### 4. Machine Learning Preparation
#
# This section outlines the preparation steps for machine learning, with core functionalities modularized into external scripts, which is found within the `BA/src/models/train_model.py` script.

# %% [markdown]
# ---
#
# #### 5. Model Preparation and Data Splitting
#
# The process of splitting the data into training and testing sets, as well as the final assembly of the feature matrix, is handled within the `BA/src/models/train_model.py` script.

# %% [markdown]
# ---
#
# #### 6. Model Training and Evaluation
#
# All aspects of model training, hyperparameter tuning, cross-validation, and model evaluation are fully modularized and orchestrated by the `BA/src/models/train_model.py` script.
# The machine learning pipeline is designed to be executed as a standalone script, ensuring a clean and reproducible workflow.
# To execute the full machine learning pipeline, please run the `train_model.py` script directly from your terminal:
#
# ```bash
# python "C:\Users\Destiny\OneDrive - HWR Berlin\Desktop\Schule\HWR\1 Abschlussarbeit\Code\BA\src\models\train_model.py"
# ```
#
# This modular approach enhances reproducibility, maintainability, and allows for easier integration into automated workflows.

2025-07-31 16:15:56,127 - INFO - NLTK data 'stopwords' already downloaded.
2025-07-31 16:15:56,128 - INFO - NLTK data 'punkt' already downloaded.
2025-07-31 16:15:56,131 - INFO - NLTK data 'wordnet' not found. Attempting to download now...
2025-07-31 16:15:56,342 - INFO - NLTK data 'wordnet' downloaded successfully.
2025-07-31 16:15:56,344 - INFO - NLTK data 'vader_lexicon' not found. Attempting to download now...
2025-07-31 16:15:56,345 - INFO - NLTK data 'vader_lexicon' downloaded successfully.
2025-07-31 16:15:56,355 - INFO - Starting data preparation and feature engineering pipeline...
2025-07-31 16:15:56,355 - INFO - --- Starting Data Preparation Pipeline ---
2025-07-31 16:15:56,360 - INFO - Database 'reddit_dota2_analysis.db' at 'c:\Users\Destiny\OneDrive - HWR Berlin\Desktop\Schule\HWR\1 Abschlussarbeit\Code\BA\data\processed\reddit_dota2_analysis.db' and table 'comments_data' exist and contain 2642 rows.
2025-07-31 16:15:56,360 - INFO - 
Processed data found in 'reddit_dota2_an