# Texte im Vektorraum (Musterlösung)

Bisher haben wir nur unmittelbar mit den Textdaten selbst gearbeitet und mit einfachen Mitteln erste statistische Untersuchungen durchgeführt. Die Inhalte dieser Übungseinheit schließen unmittelbar hieran an. Im Fokus steht jedoch nicht länger die ‚direkte‘ Arbeit mit den Texten selbst, sondern die Umwandlung der Textdaten in Vektoren, die sich wesentlich effizienter verarbeiten und auswerten lassen. 

## Externe Bibliotheken

Im Python-Ökosystem hat sich rund um die Themengebiete das Natural Language Processing wie auch der Datawissenschaft (*Data Science*) in den letzten Jahren eine Vielzahl von Bibliotheken entwickelt. An dieser Stelle werden nachfolgend einige dieser Bibliotheken verwendet, dazu zählen:

* [Pandas](https://pandas.pydata.org) zur Datenspeicherung / -auswertung
* [NLTK](https://www.nltk.org)
* [scikit-learn](https://scikit-learn.org/stable/)

Diese Bibliotheken sind standardmäßig Teil der [Anaconda-Distribution](https://www.anaconda.com).

## Texte als Vektoren

Die Umwandlung von Textdaten in Vektoren spielt eine zentrale Rolle im Bereich der digitalen Textanalyse. Im Kern besteht diese Notwendigkeit aus dem fundamentalen Unterschied zwischen der Art und Weise, wie Menschen und Maschinen Informationen verarbeiten. Menschen können Text auf natürliche Weise interpretieren und dessen Bedeutung und Kontext erfassen – Maschinen nicht.

Die zentralen Informationen eines Textes müssen notwendigerweise auf eine Art und Weise umgewandelt werden, die von Maschinen verstanden und analysiert werden kann. Typischerweise werden die Textdaten dabei in Vektoren umgewandelt bzw. als solche repräsentiert. Idealisiert könnte dies für einen Beispielsatz wie `Die Bundesregierung hat sich auf einen Kompromiss geeinigt.` folgendermaßen aussehen:

```
0
1
2
3
4
5
6
7
```

Oder als einfache Liste in Python:

```python
[0, 1, 2, 3, 4, 5, 6, 7]
```

Durch diese Transformation wird jeder Text, sei es ein Wort, ein Satz oder ein ganzer Absatz, in eine Reihe von Zahlen (also einen Vektor) umgewandelt. Jede Zahl in diesem Vektor repräsentiert ein Merkmal (Feature) des Textes, wie etwa seine Häufigkeit in einem Dokument, seine Position in einem Satz – wie im Beispiel – oder seine semantische Ähnlichkeit mit anderen Wörtern. 

**Weiterführende Literatur**

- Hirschle, Jochen. Deep Natural Language Processing: Einstieg in Word Embedding, Sequence-to-Sequence-Modelle Und Transformers Mit Python – insbesondere Kapitel 2.1 und 4.1.
- McGillivray, Barbara, und Gábor Mihály Tóth. Applying Language Technology in Humanities Research: Design, Application, and the Underlying Logic. Springer International Publishing, 2020. DOI.org (Crossref), https://doi.org/10.1007/978-3-030-46493-6 – insbesondere Kapitel 5.

## Bag Of Words 

Das sog. *Bag of Words* (BoW) Modell ist eine der grundlegenden und weit verbreiteten Methoden zur Textvektorisierung. Obwohl es sich hierbei um recht simple Repräsentation der Textdaten handelt, lässt es es für eine Vielzahl von Anwendungen verwenden. Dazu zählen etwa Dokumentenklassifizierung, Sentiment-Analyse oder auch Information Retrieval.

Das BoW-Modell behandelt einen Text als ‚Beutel‘ von Wörtern, ohne dabei auf deren Reihenfolge zu achten. Die Zählung von Häufigkeiten ist wichtiger als die Reihenfolge der Worte im Text. Um ein BoW-Repräsentation zu erstellen, wird zunächst eine Art Wörterbuch aller einzigartigen Wörter in allen Dokumenten oder Texten, die wir analysieren wollen, erstellt (das sog. Vokabular). Jedes einzigartige Wort bekommt einen Index zugewiesen. Dann wird jedes Dokument in einen Vektor umgewandelt, der die Häufigkeit jedes Worts aus dem Wörterbuch im Dokument darstellt. Wenn ein Wort im Dokument vorkommt, wird der entsprechende Index im Vektor erhöht.

Angenommen wir haben die drei Beispieldokumente:

1. Die Bundesregierung hat sich auf einen Kompromiss geeinigt.
2. Die Opposition ist mit dem Kompromiss nicht zufrieden.
3. Der Bundeskanzler hat sich für den Kompromiss eingesetzt.

Dann sieht die zugehörige BoW-Repräsentation (bei Vernachlässigung von Groß- und Kleinschreibung) in tabellarischer Form folgendermaßen aus:

|        | die | bundesregierung | hat | sich | auf | einen | kompromiss | geeinigt | opposition | ist | mit | dem | nicht | zufrieden | bundeskanzler | für | den | eingesetzt |
|--------|-----|-----------------|-----|------|-----|-------|------------|----------|------------|-----|-----|-----|------|-----------|---------------|-----|-----|------------|
| Text 1 |   1 |               1 |   1 |    1 |   1 |     1 |          1 |        1 |          0 |   0 |   0 |   0 |    0 |         0 |             0 |   0 |   0 |          0 |
| Text 2 |   1 |               0 |   0 |    0 |   0 |     0 |          1 |        0 |          1 |   1 |   1 |   1 |    1 |         1 |             0 |   0 |   1 |          0 |
| Text 3 |   0 |               0 |   1 |    1 |   0 |     0 |          1 |        0 |          0 |   0 |   0 |   0 |    0 |         0 |             1 |   1 |   1 |          1 |






## Inhalt dieser Übung

Nachfolgend soll eine solche Textrepräsentation für tatsächliche Dokumente erstellt werden. Als Beispiel dienen die Reden der 20. Legislaturperiode des deutschen Bundestages. Führen Sie zum Download der Beispieldaten zunächst die nächste Zelle aus. Eine Einführung zum Format der Daten und den dort enthaltenen Informationen finden Sie in [vorherigen Übungseinheit](./05_working-with-texts.ipynb). 

Ziel dieser Einheit ist es die Grundprinzipien der Textaufbereitung und Repräsentation mithilfe von BoW zu erproben und basierend hierauf einfache Berechnungen durchzuführen.

In [None]:
from urllib.request import urlopen
from io import BytesIO
from zipfile import ZipFile

sciebo_download = "https://uni-wuppertal.sciebo.de/s/OVSgl4lSy4AxBgt/download"
http_response = urlopen(sciebo_download)
with ZipFile(BytesIO(http_response.read())) as zip_file:
    zip_file.extractall(path='.')


Zur einfachen Aufbereitung der Texte sei folgende Funktion gegeben, die unerwünschte Zeichen entfernt und den Text in durchgängige Kleinschreibung konvertiert:

In [1]:
import re

def remove_unwanted_chars_and_lower(text_input):
    """Die Methode `sub()` nimmt drei Parameter entgegen:
    1. Das Suchmuster 
    2. Womit das Muster ersetzt werden soll
    3. Den Textinhalt, auf dem diese Operation ausgeführt wird
    """
    # Entferne Zeilenumbrüche, Tabs und Return-Carriage
    text_cleaned = re.sub('[\n\t\r]', ' ', text_input)
    # Entferne alle Sonderzeichen, die nicht Buchstaben oder Leerzeichen sind
    text_cleaned = re.sub(r'[\.:;!?,–\d]', '', text_cleaned)
    # Entferne alle doppelten Leerzeichen
    text_cleaned = re.sub(r'\s+', ' ', text_cleaned)
    return text_cleaned.lower()

## Planung des Vorgehens 

Für die Untersuchung der Plenarprotokolle JSON-Daten zunächst eingelesen und verarbeitet werden. Ein typischer Arbeitsablauf könnte folgendermaßen aussehen:

1. Erstellen einer Liste aller Dateien, die eingelesen werden sollen.
2. Erstellen eines leeren Pandas-DataFrames mit den relevanten Spalten
3. Einlesen der Dateien in einer Schleife
4. Extrahieren der benötigten Informationen
5. Hinzufügen zum DataFrame
6. Zwischenspeichern
7. Bereinigung (Entfernen von Stoppwörtern, Lemmatisierung etc.)

### 1. Dateiliste anlegen

In Python kann das `glob`-Modul verwendet werden, um eine Liste von Dateien basierend auf einem bestimmten Muster oder einem Pfadmuster zu erstellen. Das `glob`-Modul unterstützt das Matching von Dateinamen mit Wildcards wie `*` und `?`. 

1. Importiere das `glob`-Modul:
```python
import glob
```

2. Verwende die `glob.glob()`-Funktion, um eine Liste von Dateien basierend auf einem Muster zu erstellen. Das Muster kann ein Dateiname oder ein Pfadmuster sein. Zum Beispiel:
```python
file_list = glob.glob('Pfad_zum_Ordner/*.txt')
```
Dieses Beispiel sucht nach allen Dateien mit der Erweiterung `.txt` im angegebenen Verzeichnis. 

Das Muster kann auch wildcards verwenden. Beispielsweise kann `'*.xml'` verwendet werden, um alle Dateien mit der Erweiterung `.xml` zu erfassen, oder `'file_?.txt'`, um Dateien mit Namen wie `file_1.txt`, `file_2.txt`, usw. zu erfassen.


In [16]:
import glob

# Finden aller Dateien im Ordner `pp20`, die auf `.json` enden
files = glob.glob('./pp20/*.json')

In [17]:
# Anzeige der ersten 3 Dateinamen
files[:3]

['./pp20/20047.json', './pp20/20010.json', './pp20/20006.json']

### 2. Arbeit mit Pandas

Pandas ist eine leistungsstarke und flexible Open-Source-Datenanalyse- und -manipulationsbibliothek für Python. Sie bietet Datenstrukturen und Funktionen, die notwendig sind, um numerische Tabellen zu manipulieren und zu analysieren. Pandas ermöglicht das Laden, Vorbereiten, Manipulieren und Analysieren von Daten in Python. Der Grundbaustein sind sog. `DataFrames`, in denen die Daten in einer Tabellenform abgelegt werden.

In [18]:
# Import der Bibliothek als Alias `pd`
import pandas as pd

# Definition von Anzeigeoptionen
pd.set_option('max_colwidth', 150)

# Definition von Spaltennamen für einen ersten DataFrame
columns = ['speech_id', 'file_name', 'speech']

# Anlegen eines initialen DataFrames ohne Inhalt
df_initial = pd.DataFrame(columns=columns)
df_initial

Unnamed: 0,speech_id,file_name,speech


3. / 4. Einlesen der Dateien und Extraktion der Information

Nachfolgend wird eine Funktion `read_speeches_to_df` definiert, die alle Reden mit zugehöriger ID ausliest und in einem `DataFrame` hinzufügt.

In [19]:
import json

def read_speeches_to_df(filename, df):
    with open(filename, 'r', encoding='UTF-8') as file:
    # Verarbeitung der geöffneten JSON-Datei mit der Funktion `load`
        content = json.load(file)
    
    filename_without_slash = filename.split('/')[-1]
    
    for speech in content['speeches']:
        # Extraktion der Informationen und Speicherung in einer Liste
        doc = [speech['id'], filename_without_slash, speech['text']]
        # Hinzufügen zum DataFrame als neue Zeile
        df.loc[len(df)] = doc
        

In [20]:
# Anwendung am Beispiel des ersten Protokolls in der Dateiliste
read_speeches_to_df(files[0], df_initial)
# Ausgabe des DataFrames
df_initial

Unnamed: 0,speech_id,file_name,speech
0,ID204700100,20047.json,"Frau Präsidentin! Sehr geehrte Damen und Herren! Guten Morgen und danke, dass ich zum Einstieg in die Debatte kurz das Wort bekomme. Alleine die s..."
1,ID204700200,20047.json,"Frau Präsidentin! Liebe Kolleginnen und Kollegen! In diesem speziellen Fall auch: Lieber Herr Direktor, verbunden mit einem ganz herzlichen Dankes..."
2,ID204700300,20047.json,"Frau Präsidentin! Liebe Kolleginnen und Kollegen! Frau Präsidentin, Sie haben gesagt: Es war eine gute Stimmung, und jetzt gehen wir zur Tagesordn..."
3,ID204700400,20047.json,"Frau Präsidentin! Meine Damen und Herren! Sie von der Ampel wollen heute beschließen, dass zukünftig 2 Prozent der Fläche Deutschlands ausschließl..."
4,ID204700500,20047.json,"Sehr geehrte Frau Präsidentin! Meine lieben Kolleginnen und Kollegen! Wir beschließen heute das beste EEG, das Deutschland je hatte.\nWir etablier..."
...,...,...,...
202,ID204720300,20047.json,"Die Zahl der mit dem Coronavirus infizierten Personen in Deutschland hat sich innerhalb der letzten fünf Wochen von circa 660 000 auf über 1,5 Mil..."
203,ID204720400,20047.json,"Wir haben diese Vorschrift im März 2020, zu Beginn der Coronapandemie, erstmals eingeführt, um die Arbeitsfähigkeit des Parlaments auch unter Pand..."
204,ID204720500,20047.json,Glücklicherweise sind mittlerweile viele unangenehme Beschränkungen wieder gefallen. Hoffentlich bleibt das auch so.\nDie infolge der Covid‑19-Pan...
205,ID204720600,20047.json,"Während der Pandemie hat der Bundestag Beschlüsse gefasst, um einen reibungslosen, parlamentarischen Betrieb unter Coronabedingungen zu garantiere..."


### 6. Zwischenspeichern (optional)

Jeder `DataFrame` kann problemlos in verschiedene Dateiformate überführt werden. Pandas bietet hierzu verschiedene Methoden wie `to_csv` an. Weitere Informationen finden sich in der Dokumentation: [Pandas Docs](https://pandas.pydata.org/docs/reference/frame.html)

### 7. Bereinigung / Aufbereitung

Bevor wir nun die Texte in ein Bow-Modell umwandeln können, führen wir zunächst einige Arbeitsschritte zur Bereinigung durch. Zunächst sollen unerwünschte Zeichen wie etwa `\n` für Zeilenumbrüche entfernt werden, bevor dann häufig vorkommende Worte, die keinen besonderen Informationswert haben (Stoppwörter), ebenfalls entfernt werden. Dafür wird zunächst eine Liste von Stoppwörtern heruntergeladen und importiert. Anschließend wird eine Funktion zum Entfernen der Stoppworte definiert und diese wird gemeinsam mit der zuvor definierten Bereinigungsfunktion zeilenweise auf den Inhalt der Spalte `speech`.

In [21]:
from nltk import download
from nltk.corpus import stopwords
# Download der Stoppwortliste
download('stopwords')
# Laden der Stoppworte
ger_stops = stopwords.words('german')
ger_stops[:3]

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/bastian/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['aber', 'alle', 'allem']

In [22]:
def remove_stop_words(text_input, stop_words):
    text_tokenized = text_input.split(' ')
    cleaned_text = []
    
    for word in text_tokenized:
        if word in stop_words:
            continue
        cleaned_text.append(word)
    
    return " ".join(cleaned_text)

In [23]:
df_initial['speech'] = df_initial.speech.apply(
        lambda row: remove_stop_words(remove_unwanted_chars_and_lower(row), ger_stops)
    )
df_initial

Unnamed: 0,speech_id,file_name,speech
0,ID204700100,20047.json,frau präsidentin geehrte damen herren guten morgen danke einstieg debatte kurz wort bekomme alleine schiere anzahl umfang gesetzentwürfe zeigen ge...
1,ID204700200,20047.json,frau präsidentin liebe kolleginnen kollegen speziellen fall lieber herr direktor verbunden ganz herzlichen dankeschön wirken seitens unserer frakt...
2,ID204700300,20047.json,frau präsidentin liebe kolleginnen kollegen frau präsidentin gesagt gute stimmung gehen tagesordnung finde gute stimmung bleiben verabschieden grö...
3,ID204700400,20047.json,frau präsidentin damen herren ampel heute beschließen zukünftig prozent fläche deutschlands ausschließlich windindustrieanlagen bereitgestellt sol...
4,ID204700500,20047.json,geehrte frau präsidentin lieben kolleginnen kollegen beschließen heute beste eeg deutschland je etablieren heutigen beschluss marktwirtschaftliche...
...,...,...,...
202,ID204720300,20047.json,zahl coronavirus infizierten personen deutschland innerhalb letzten fünf wochen circa millionen mehr verdoppelt sieben-tage-mittel anfang woche tä...
203,ID204720400,20047.json,vorschrift märz beginn coronapandemie erstmals eingeführt arbeitsfähigkeit parlaments pandemiebedingungen gewährleisten geltende regelung erlaubt ...
204,ID204720500,20047.json,glücklicherweise mittlerweile viele unangenehme beschränkungen gefallen hoffentlich bleibt infolge covid‑-pandemie beschlossene absenkung quorums ...
205,ID204720600,20047.json,pandemie bundestag beschlüsse gefasst reibungslosen parlamentarischen betrieb coronabedingungen garantieren beschlüsse coronapandemie ziel gesundh...


### Erstellen eines BoW-Modells mit scikit-learn

Die aufbereiteten Inhalte der Spalte `speech` lassen sich nun eine BoW-Repräsentation überführen. Dafür wird hier die Klasse `CountVectorizer` aus scikit-learn verwendet.

Hierauf wird eine Methode `fit_transform()` aufgerufen, der die Textinhalte übergeben werden. Diese Methode führt folgende Operatione aus:

1. Zunächst wird das Vokabular erstellt (`fit`)
2. Anschließend wird die Matrix mit den Zählungen für jedes Dokument erstellt (`transform`)

In [24]:
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer()
data_cv = cv.fit_transform(df_initial.speech)
data_dtm = pd.DataFrame(data_cv.toarray(), columns=cv.get_feature_names_out())
data_dtm.index = df_initial.speech_id
data_dtm

Unnamed: 0_level_0,ab,abbau,abbauen,abbauregionen,abdecken,abdeckt,abdeckung,abdrehen,abdreht,abebbt,...,überzieht,überzugehen,üblich,üblichen,übrig,übrigen,übrigens,übungsleiter,üppig,üppigen
speech_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
ID204700100,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
ID204700200,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
ID204700300,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
ID204700400,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
ID204700500,1,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
ID204720300,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
ID204720400,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
ID204720500,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
ID204720600,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Die BoW-Repräsentation lässt sich nun für weitere Untersuchungen nutzen:

- Berechnung der relativen Dokumenthäufigkeit der einzelnen Worte, um herauszufinden, welche Worte immer wieder verwendet werden
- Vergleiche von Dokumenten (der Reden) bspw. durch Berechnung der Cosinus-Distanz

## Übungsaufgabe 

1. Erstellen Sie einen leeren DataFrame mit den Spalten speech_id, file_name und speech und weisen Sie diesen der Variable `df_speeches_raw` zu
2. Lesen Sie *alle* Dateien mithilfe der Funktion `read_speeches_to_df` 

In [25]:
columns = ['speech_id', 'file_name', 'speech', ]
# Es wird ein DataFrame mit den Spalten `speech_id`, `file_name` und `speech` angelegt
# dafür wird die Liste `columns` verwendet
df_speeches_raw = pd.DataFrame(columns=columns)

In [26]:
try:
    assert isinstance(df_speeches_raw, pd.DataFrame)
    for col_name in columns:
        assert col_name in df_speeches_raw.columns
    print("DataFrame korrekt erstellt!")
except AssertionError:
    print("Die Variable `df_speeches_raw` ist nicht vom Typ `pd.DataFrame`")


DataFrame korrekt erstellt!


In [27]:
for file in files:
    read_speeches_to_df(file, df_speeches_raw)
df_speeches_raw

Unnamed: 0,speech_id,file_name,speech
0,ID204700100,20047.json,"Frau Präsidentin! Sehr geehrte Damen und Herren! Guten Morgen und danke, dass ich zum Einstieg in die Debatte kurz das Wort bekomme. Alleine die s..."
1,ID204700200,20047.json,"Frau Präsidentin! Liebe Kolleginnen und Kollegen! In diesem speziellen Fall auch: Lieber Herr Direktor, verbunden mit einem ganz herzlichen Dankes..."
2,ID204700300,20047.json,"Frau Präsidentin! Liebe Kolleginnen und Kollegen! Frau Präsidentin, Sie haben gesagt: Es war eine gute Stimmung, und jetzt gehen wir zur Tagesordn..."
3,ID204700400,20047.json,"Frau Präsidentin! Meine Damen und Herren! Sie von der Ampel wollen heute beschließen, dass zukünftig 2 Prozent der Fläche Deutschlands ausschließl..."
4,ID204700500,20047.json,"Sehr geehrte Frau Präsidentin! Meine lieben Kolleginnen und Kollegen! Wir beschließen heute das beste EEG, das Deutschland je hatte.\nWir etablier..."
...,...,...,...
11288,ID206810300,20068.json,Sehr geehrte Frau Präsidentin! Sehr geehrte Damen und Herren! Liebe Kolleginnen und Kollegen! In dieser Haushaltswoche kommt man aus dem Staunen\n...
11289,ID206810400,20068.json,Sehr geehrte Frau Präsidentin! Liebe Kolleginnen und Kollegen! Meine Damen und Herren! Stellen Sie sich vor: Sie kommen finanziell gerade so eben\...
11290,ID206810500,20068.json,"Sehr geehrte Frau Präsidentin! Werte Kolleginnen und Kollegen, insbesondere Kollegen Bilger und Engelhard! Alte Antworten in neuen Schläuchen oder..."
11291,ID206810600,20068.json,"Sehr geehrte Frau Präsidentin! Werte Kolleginnen und Kollegen! Vor bald einem Jahr haben Sie, liebe Ampelfraktionen, in Ihrem Koalitionsvertrag\n ..."


In [28]:
try:
    assert len(df_speeches_raw) == 11293
    print("DataFrame korrekt erstellt!")
except AssertionError:
    print("Die Variable `df_speeches_raw` enthält nicht die korrekte Anzahl an Zeilen")

DataFrame korrekt erstellt!


3. Erstellen Sie eine Bow-Repräsentation – führen vorab jedoch die Funktionen zur Bereinigung durch.

In [29]:
df_speeches_raw['speech'] = df_speeches_raw.speech.apply(
        lambda row: remove_stop_words(remove_unwanted_chars_and_lower(row), ger_stops)
    )
df_speeches_raw

Unnamed: 0,speech_id,file_name,speech
0,ID204700100,20047.json,frau präsidentin geehrte damen herren guten morgen danke einstieg debatte kurz wort bekomme alleine schiere anzahl umfang gesetzentwürfe zeigen ge...
1,ID204700200,20047.json,frau präsidentin liebe kolleginnen kollegen speziellen fall lieber herr direktor verbunden ganz herzlichen dankeschön wirken seitens unserer frakt...
2,ID204700300,20047.json,frau präsidentin liebe kolleginnen kollegen frau präsidentin gesagt gute stimmung gehen tagesordnung finde gute stimmung bleiben verabschieden grö...
3,ID204700400,20047.json,frau präsidentin damen herren ampel heute beschließen zukünftig prozent fläche deutschlands ausschließlich windindustrieanlagen bereitgestellt sol...
4,ID204700500,20047.json,geehrte frau präsidentin lieben kolleginnen kollegen beschließen heute beste eeg deutschland je etablieren heutigen beschluss marktwirtschaftliche...
...,...,...,...
11288,ID206810300,20068.json,geehrte frau präsidentin geehrte damen herren liebe kolleginnen kollegen haushaltswoche kommt staunen mehr raus beim abstimmung stehenden bundesha...
11289,ID206810400,20068.json,geehrte frau präsidentin liebe kolleginnen kollegen damen herren stellen kommen finanziell gerade eben runden vollzeitarbeit funktioniert pendeln ...
11290,ID206810500,20068.json,geehrte frau präsidentin werte kolleginnen kollegen insbesondere kollegen bilger engelhard alte antworten neuen schläuchen alte antworten ende alt...
11291,ID206810600,20068.json,geehrte frau präsidentin werte kolleginnen kollegen bald jahr liebe ampelfraktionen koalitionsvertrag ambitionierte ziele umfassende weiterentwick...


In [30]:
try:
    assert '.' not in df_speeches_raw.loc[0].speech
    print("Bereinigung erfolgreich!")
except AssertionError:
    print("Die Bereinigung der Redebeiträge war nicht erfolgreich")

Bereinigung erfolgreich!


In [31]:
doc_cv = CountVectorizer()
data_cv = doc_cv.fit_transform(df_speeches_raw.speech)
all_speeches_dtm = pd.DataFrame(data_cv.toarray(), columns=doc_cv.get_feature_names_out())
len(all_speeches_dtm.columns)


111440

In [32]:
try:
    assert len(all_speeches_dtm.columns) == 111440
    print("BoW korrekt erstellt!")
except AssertionError:
    print("Die Variable `all_speeches_dtm` enthält nicht die korrekte Anzahl an Spalten")

BoW korrekt erstellt!


4. Berechnen Sie nun die relative Dokumenthäufigkeit pro Wort und weisen Sie die 15 häufigsten Worte der Variable `most_common_words` zu.

In [33]:
# Anzahl aller Dokumente
count_docs = len(all_speeches_dtm)

# Kalkulation der relativen Dokumenthäufigkeit pro Token – Formel: die Anzahl der Dokumente / der Reden, in denen dieser Begriff auftritt, geteilt durch die Gesamtanzahl der Reden
calc_docf = []

# Iteration über alle Spalten
for col in all_speeches_dtm.columns:
    # Berechnung der relativen Dokumenthäufigkeit pro Token, indem die Summe aller Werte in einer Spalte durch die Anzahl aller Dokumente geteilt wird
    word_docf = all_speeches_dtm[col].sum() / count_docs
    calc_docf.append(word_docf)

# Erstellung eines DataFrames aus der Liste
df_docf = pd.DataFrame(calc_docf).transpose()
# Umbenennung der Spaltennamen
df_docf.columns = all_speeches_dtm.columns




In [34]:
# Ausgabe der 15. häufigsten Tokens
most_common_words = df_docf.transpose().sort_values(by=0, ascending=False).head(15)
most_common_words

Unnamed: 0,0
müssen,1.200744
mehr,1.073143
kollegen,1.061454
menschen,1.054547
frau,1.004428
kolleginnen,0.926769
liebe,0.898875
schon,0.884619
ja,0.834056
herren,0.815107


In [35]:
try:
    assert round(most_common_words.iloc[3].values[0]) == 1
    print("Alles korrekt!")
except AssertionError:
    print("Der Wert des Eintrags mit dem Index sollte gerundet 1 ergeben")

Alles korrekt!
