# **Seminar: Politische Debatten & Polarisierung im Bundestag**
## Data Preprocessing Schritte

In diesem Notebook werden vorbereitende Maßnahmen ergriffen, um Ressourcen für die eigentliche Fragestellung der Seminararbeit zu sparen. Das Ziel dieser Schritte ist es am Ende für die Reden aus der 19. und die Reden der 20. Wahlperiode auf Satzebene das jeweilige Sentiment zu erhalten. Für diese Analyse wird unter der Verwendung von Transformer-Modellen das german-sentiment-bert Modell genutzt.Für diese Maßnahmen werden verschiedene individuelle geschriebene Methoden verwendet, die sich im Modul "Sentiment_Methods.py" wiederfinden. 

Abschließend werden die Dataframes mit den Sentiment Daten separat gespeichert und dienen als Grundlage für spätere Analysen. 

## 1. Vorbereitende Maßnahmen

### 1.1 Packages installieren

In [1]:
# Import Basic Packages
import numpy as np                 # Numpy
import pandas as pd                 # Zur Arbeit mit dataframes

# Import Visualization Packages
from collections import Counter     # Um worte zu zählen
import matplotlib.pyplot as plt   # Für Visualisierung
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator #Wordcloud erstellen

# Import NLP-Packages
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import wordnet

pd.options.mode.chained_assignment = None
import spacy 

# Import Methods from the GitHub 
import Sentiment_Methods

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/paulahofmann/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/paulahofmann/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     /Users/paulahofmann/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[0m

Collecting de-core-news-sm==3.5.0
  Downloading https://github.com/explosion/spacy-models/releases/download/de_core_news_sm-3.5.0/de_core_news_sm-3.5.0-py3-none-any.whl (14.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m14.6/14.6 MB[0m [31m8.2 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m


[0m

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('de_core_news_sm')


### 1.2 Datensatz einlesen

In diesem Abschnitten werden die JSON-Dateien mit den Reden aus der 19. und 20. Wahlperiode eingelesen. 

In [18]:
# Einlesen der JSON-Datei "speeches_19.jsonl" 
# Legislaturperiode 2019 (24.10.2017-26.09.21)
df19 = pd.read_json("/Users/paulahofmann/Library/CloudStorage/OneDrive-Persönlich/Uni/2. Lernpools Master/3. Semester/Soziologie/Data_Speeches/speeches_19.jsonl", lines=True)
df19['date'] = pd.to_datetime(df19['date'])
df19.sort_values(by='date')

Unnamed: 0,text,id,period,date,name,party,redner_id,discussion_title
1855,Herr Präsident! Liebe Kolleginnen und Kollegen...,ID19100500,19,2017-10-24,Jan Korte,DIE LINKE,11003790,Tagesordnungspunkt 2 2017-10-24
1851,"Guten Morgen, liebe Kolleginnen und Kollegen! ...",ID19100100,19,2017-10-24,Hermann Otto Solms,FDP,11002190,Tagesordnungspunkt 1 2017-10-24
1852,,ID19100200,19,2017-10-24,Hermann Otto Solms,FDP,11002190,Tagesordnungspunkt 1 2017-10-24
1854,Herr Präsident! Meine Damen und Herren! Immer ...,ID19100400,19,2017-10-24,Bernd Baumann,AfD,11004662,Tagesordnungspunkt 2 2017-10-24
1856,Herr Präsident! Sehr verehrte Gäste! Meine lie...,ID19100600,19,2017-10-24,Michael Grosse-Brömer,CDU/CSU,11003541,Tagesordnungspunkt 2 2017-10-24
...,...,...,...,...,...,...,...,...
4593,Frau Präsidentin! Meine Damen und Herren! Die ...,ID1923901800,19,2021-09-07,Rüdiger Lucassen,AfD,11004807,Tagesordnungspunkt 2 2021-09-07
4594,Frau Präsidentin! Liebe Kolleginnen und Kolleg...,ID1923901900,19,2021-09-07,Andreas Jung,CDU/CSU,11003780,Tagesordnungspunkt 2 2021-09-07
4595,Frau Präsidentin! Liebe Kolleginnen und Kolleg...,ID1923902000,19,2021-09-07,Wolfgang Kubicki,FDP,11001235,Tagesordnungspunkt 2 2021-09-07
4579,Herr Präsident! Liebe Kolleginnen und Kollegen...,ID1923900400,19,2021-09-07,Christian Lindner,FDP,11004097,Tagesordnungspunkt 1 2021-09-07


In [19]:
# Einlesen der JSON-Datei "speeches_20.jsonl"
# Legislaturperiode 2020 (24.10.2017-26.09.21)
df20 = pd.read_json("/Users/paulahofmann/Library/CloudStorage/OneDrive-Persönlich/Uni/2. Lernpools Master/3. Semester/Soziologie/Data_Speeches/speeches_20.jsonl", lines=True)
df20['date'] = pd.to_datetime(df20['date'])
df20.sort_values(by='date')

Unnamed: 0,text,id,period,date,name,party,redner_id,discussion_title
8620,"Frau Präsidentin, ich nehme die Wahl an und fr...",ID20101400,18,2021-10-26,Petra Pau,DIE LINKE,11003206,Tagesordnungspunkt 6 2021-10-26
8607,Sehr geehrter Herr Alterspräsident! So muss ic...,ID20100100,18,2021-10-26,Gabriele Katzmarek,SPD,11004325,Tagesordnungspunkt 2 2021-10-26
8608,Herr Präsident! Liebe Kolleginnen und Kollegen...,ID20100200,18,2021-10-26,Stefan Müller,CDU/CSU,11003597,Tagesordnungspunkt 2 2021-10-26
8609,Sehr geehrter Herr Alterspräsident Wolfgang Sc...,ID20100300,18,2021-10-26,Britta Haßelmann,BÜNDNIS 90/DIE GRÜNEN,11003764,Tagesordnungspunkt 2 2021-10-26
8610,Sehr geehrter Herr Präsident! Meine lieben Kol...,ID20100400,18,2021-10-26,Marco Buschmann,FDP,11004023,Tagesordnungspunkt 2 2021-10-26
...,...,...,...,...,...,...,...,...
9145,Vielen Dank. – Frau Präsidentin! Meine sehr ve...,ID209804700,18,2023-04-21,Caren Lay,DIE LINKE,11004088,Tagesordnungspunkt 24 2023-04-21
9146,Sehr geehrte Frau Präsidentin! Werte Kolleginn...,ID209804800,18,2023-04-21,Daniel Föst,FDP,11004716,Tagesordnungspunkt 24 2023-04-21
9147,Sehr geehrte Frau Präsidentin! Liebe Kolleginn...,ID209804900,18,2023-04-21,Petra Nicolaisen,CDU/CSU,11004841,Tagesordnungspunkt 24 2023-04-21
9138,Frau Präsidentin! Herr Staatssekretär! Meine l...,ID209804000,18,2023-04-21,Mechthilde Wittmann,CDU/CSU,11005261,Tagesordnungspunkt 13 2023-04-21


### 1.3 Datensätze bearbeiten
In diesem Schritt werden die eingelesenen Reden mithilfe von Schlüsselwörtern und einem zeitlichen Filter auf relevante Inhalte beschränkt, da uns nur die Reden interessieren, die sich im Kontext von Corona bewegen. 

Zunächst werden die Schlüsselwörter definiert, wobei hier 'Covid-19' & Synonyme als Hauptschlüsselwort verwendet werden. Anschließend werden die politischen Reden in einem DataFrame gefiltert. 


In [20]:
# Filtern df19 nach Datum
# Startpunkt Auftreten des 1. Falls in DE

start_date = pd.to_datetime('2020-01-27')
df19_filtered = df19[df19['date'] >= start_date]

In [22]:
# Festlegung der Keywords nach den gesucht werden soll.
# Unter Verwendung des Moduls Sentiment_Methods wird dabei innerhalb der Reden nach Keywords und Synonymen gesucht
keywords = ['Covid-19']

# Aufruf der Methode, um die Reden aus der 19. Periode zu erhalten, die entsprechende Keywords haben.
df19_Covid = Sentiment_Methods.filter_dataframe_by_keywords_with_synonyms(df19_filtered, keywords)
print(f"Anzahl der Reden in der 19. Wahlperiode mit dem Stichwort oder Synonym 'Covid-19': {len(df19_Covid)}")

# Aufruf der Methode, um die Reden aus der 20. Periode zu erhalten, die entsprechende Keywords haben.
df20_Covid = Sentiment_Methods.filter_dataframe_by_keywords_with_synonyms(df20, keywords)
print(f"Anzahl der Reden in der 19. Wahlperiode mit dem Stichwort oder Synonym 'Covid-19': {len(df20_Covid)}")


Anzahl der Reden in der 19. Wahlperiode mit dem Stichwort oder Synonym 'Covid-19': 203
Anzahl der Reden in der 19. Wahlperiode mit dem Stichwort oder Synonym 'Covid-19': 43


In [24]:

# Wir wollen uns nun ausgeben lassen, inwieferen 
def get_synonyms(word):
    synonyms = []
    for syn in wordnet.synsets(word):
        for lemma in syn.lemmas():
            synonyms.append(lemma.name())
    return synonyms

def count_occurrences_of_keywords(df, keywords):
    def count_occurrences(text):
        word_tokens = word_tokenize(text.lower())
        keyword_occurrences = [1 for word in word_tokens if word in keywords]
        synonym_occurrences = [1 for word in word_tokens for keyword in keywords if word in get_synonyms(keyword)]
        return sum(keyword_occurrences) + sum(synonym_occurrences)
    
    df['occurrences'] = df['text'].apply(count_occurrences)
    return df


# List of keywords (including 'corona')
keywords = ['corona']

# Count occurrences of keywords and synonyms in each cell of 'text'
df_with_occurrences = count_occurrences_of_keywords(df20_Covid, keywords)

# Display the DataFrame with the occurrence count
print(df_with_occurrences)



                                                    text           id  period  \
216    Sehr geehrte Frau Präsidentin! Sehr geehrte Ko...  ID203110500      18   
223    Vielen Dank. – Frau Präsidentin! Die einrichtu...  ID203111200      18   
224    Sehr geehrte Frau Präsidentin! Werte Kolleginn...  ID203111300      18   
226    Sehr geehrte Frau Präsidentin! Sehr geehrte Ko...  ID203111500      18   
366    Frau Präsidentin! Meine Damen und Herren! Von ...  ID207910600      18   
849    Vielen Dank, Herr Präsident. – Liebe Kolleginn...  ID204610600      18   
1032   Frau Präsidentin! Liebe Kolleginnen und Kolleg...  ID207317600      18   
1493   Sehr geehrte Frau Präsidentin! Meine Damen und...   ID20401000      18   
2319   Frau Präsidentin! Liebe Kolleginnen und Kolleg...  ID201307500      18   
2325   Sehr geehrte Frau Präsidentin! Liebe Kolleginn...  ID201308100      18   
2335   Sehr geehrte Frau Präsidentin! Als ungeimpfter...  ID201309100      18   
2336   Sehr geehrte Frau Prä

### 1.4 Textdaten bereinigen
Im nächsten Schritt werden Methoden aufgerufen, um das Sentiment der Reden auf Satzebene analysieren zu können. Die Methode tokenize_and_split_sentences(df) nimmt den DataFrame mit den Reden entgegen, tokenisiert die darin enthaltenen Sätze mithilfe von NLTK und teilt sie in einzelne Sätze des DataFrames auf, wodurch ein neues DataFrame erstellt wird, das sowohl die ursprünglichen Zeilendaten als auch die tokenisierten Sätze enthält. Dies ist hilfreich, um Textdaten auf Satzebene zu analysieren oder weiter zu verarbeiten.

In [25]:
#Methodenaufruf,tokenize_and_split_sentences(df)
df19_Covid_Split = Sentiment_Methods.tokenize_and_split_sentences (df19_Covid)
df20_Covid_Split = Sentiment_Methods.tokenize_and_split_sentences (df20_Covid)

Im nächsten Schritt wollen wir Zeilen und Sätze löschen, die für die Auswertung keine Relevanz haben. 
Wir wollen dazu Stoppwörter löschen die in politischen Reden sehr häufig vorkommen, wie "Minister", "Ministerin" oder "mann", "geehrter". Dieses erleichtert die Sentiment Auswertung. 

In [27]:
# Download der Deutschen Stoppwortliste
nltk.download('stopwords')

# Festlegen einer eigenen Stoppwortliste
my_stopwords = ['ministerin', 'minister', 'kollege', 'kollegin', 'präsidentin', 'kolleginnen', 'kollegen', 'frau', 'herr', 'mann', 'geehrte', 'geehrter', 'liebe', 'lieber', 'damen', 'herren', 'präsident', 'vielen dank','dank','redner','rednerin']

# Methodenaufruf clean_text zur Textverarbeitung und einfacheren Erstellung von n-grammen
df19_cleaned = Sentiment_Methods.clean_text(df19_Covid_Split, my_stopwords)

df20_cleaned = Sentiment_Methods.clean_text(df20_Covid_Split, my_stopwords)


[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/paulahofmann/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## 2. Identifizierung des Sentiments unter Verwendung von Transformer-Modellen
Die Identifizierung des Sentiments während der Corona Pandemie erfolgt unter Verwendung von Transformer-Modellen. Durch die Anwendung eines vortrainierten Transformer-Modells German Sentiment Classification with Bert auf den gegebenen Text. 

@InProceedings{guhr-EtAl:2020:LREC,
  author    = {Guhr, Oliver  and  Schumann, Anne-Kathrin  and  Bahrmann, Frank  and  Böhme, Hans Joachim},
  title     = {Training a Broad-Coverage German Sentiment Classification Model for Dialog Systems},
  booktitle      = {Proceedings of The 12th Language Resources and Evaluation Conference},
  month          = {May},
  year           = {2020},
  address        = {Marseille, France},
  publisher      = {European Language Resources Association},
  pages     = {1620--1625},
  url       = {https://www.aclweb.org/anthology/2020.lrec-1.202}
}


### 3.1 Modellaufruf
Wir beginnen mit dem Methodenaufruf aus dem Modul Sentiment_methods. Dieser verwendet eine Pipeline, um das German Sentiment Bert-Modell für die Sentiment-Analyse zu nutzen. Dabei nutzen wir keine eigenen Text-Preprocessing-Schritte, da die Methode diese automatisch durchführt. Wir wenden das Modell auf Satzebene an, um das Sentiment zu analysieren.

In [15]:
# Aufruf Transformer Modell unter Verwendung einer eigenen Methode
import tensorflow

#Original Text - Modell Periode 19
modell_original19 = Sentiment_Methods.sentiment_analysis(df19_cleaned, 'satz')

#Original Text - Modell Periode 19
modell_original20 = Sentiment_Methods.sentiment_analysis(df20_cleaned, 'satz')


All PyTorch model weights were used when initializing TFBertForSequenceClassification.

All the weights of TFBertForSequenceClassification were initialized from the PyTorch model.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFBertForSequenceClassification for predictions without further training.


Unexpected exception formatting exception. Falling back to standard exception


Traceback (most recent call last):
  File "/Users/paulahofmann/anaconda3/envs/env1/lib/python3.11/site-packages/IPython/core/interactiveshell.py", line 3508, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "/var/folders/ss/4y6dgpw950348n7xdxy73vnm0000gn/T/ipykernel_51472/1111271159.py", line 5, in <module>
    modell_original19 = Sentiment_Methods.sentiment_analysis(df19_Covid_cleaned, 'satz')
                        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/Users/paulahofmann/Library/CloudStorage/OneDrive-Persönlich/Uni/2. Lernpools Master/3. Semester/Soziologie/Politische-Debatten-1/Sentiment_Methods.py", line 240, in sentiment_analysis
    df['Sentiment'] = df[text_column].apply(lambda x: nlp_sentiment(x))
                      ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/Users/paulahofmann/anaconda3/envs/env1/lib/python3.11/site-packages/pandas/core/series.py", line 4771, in apply
    return SeriesApply(self, f

Um die Qualität der Sentiment-Analyse zu vergleichen, werden die Transformer-Modelle auch auf Satzebene mit den eigenen preprozessierten Sätzen angewendet. Dies gewährleistet einen fairen und aussagekräftigen Vergleich der Analyseergebnisse.

In [19]:
# Modellaufruf mit preprocessed Text Periode 19
modell_processed19 = Sentiment_Methods.sentiment_analysis(df19_cleaned, 'cleaned_text')

# Modellaufruf mit preprocessed Text Periode 20
modell_processed20 = Sentiment_Methods.sentiment_analysis(df20_cleaned, 'cleaned_text')

### 3.2 Deskriptive Darstellung der Sentimentanalyse

In [27]:
Sentiment_Methods.plot_sentiment_analysis(modell_original19, modell_processed19)

In [32]:
Sentiment_Methods.plot_sentiment_wordclouds (modell_cleaned19)
Sentiment_Methods.plot_sentiment_wordclouds (modell_processed19)

NameError: name 'modell_cleaned19' is not defined