# Explorative Datenanalyse - Zeitlicher Verlauf<div class="tocSkip">


### Hilfsfunktionen und Einstellungen <div class="tocSkip">

**Bitte ausführen!!**

In [1]:
%run "../lib/settings.py"

%reload_ext autoreload
%autoreload 2
%config InlineBackend.figure_format = 'retina'

# to print output of all statements and not just the last
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

**Plotly-Backend zur Visualisierung**

Für die Visualisierung verwenden wir in diesem Notebook das interaktive [Plotly-Backend](https://plotly.com/python/pandas-backend/) von Pandas.

In [2]:
pd.options.plotting.backend = "plotly"

## Daten einlesen

### Daten aus Datenbank lesen

In [3]:
database = '../resources/bt_reden_final.sqlite'

sql = """
SELECT speech_id, speaker,
  affiliation, text, session_id, session_date,
  session_date || " " || session_start AS session_start,
  session_date || " " || session_end AS session_end,
  length
FROM bt_reden_prepared ORDER BY session_id DESC;
"""

con = sqlite3.connect(database)
df = pd.read_sql_query(sql, con)
con.close()

In [4]:
df

Unnamed: 0,speech_id,speaker,affiliation,text,session_id,session_date,session_start,session_end,length
0,ID1922800100,Thorsten Frei,CDU/CSU,Sehr geehrter Herr Präsident! Liebe Kolleginnen und Kollegen! Wir bringen heute in erster Lesung den Entwurf eines Gesetzes zur Anpassung des Verfassungsschutzrechts ein. Ich will an dieser Stelle...,228,2021-05-07,2021-05-07 09:00,2021-05-07 17:09,547
1,ID1922800200,Jens Maier,AfD,Sehr geehrter Herr Präsident! Meine Damen und Herren! Dieser Gesetzentwurf stellt einen weiteren Schritt dar in Richtung Totalüberwachung der Gesellschaft. Was hier als angebliche Reaktion auf die...,228,2021-05-07,2021-05-07 09:00,2021-05-07 17:09,537
2,ID1922800300,Uli Grötsch,SPD,Vielen Dank. – Herr Präsident! Liebe Kolleginnen und Kollegen! In gewisser Weise kann ich an die Worte meines Vorredners anknüpfen und sagen: Noch nie war das Bundesamt für Verfassungsschutz mehr ...,228,2021-05-07,2021-05-07 09:00,2021-05-07 17:09,870
3,ID1922800400,Benjamin Strasser,FDP,"Sehr geehrter Herr Präsident! Liebe Kolleginnen und Kollegen! Liebe Genossinnen und Genossen!\n\nHerr Minister Seehofer, Herr Frei, ob Sie es glauben oder nicht: Jeder in diesem Haus will, dass be...",228,2021-05-07,2021-05-07 09:00,2021-05-07 17:09,280
4,ID1922800500,André Hahn,DIE LINKE,"Herr Präsident! Meine Damen und Herren! Die deutschen Geheimdienste sollen neue, weitreichende Schnüffelbefugnisse erhalten. Dem fortwährenden Drängen aus dem Hause Seehofer zu erweiterten geheimd...",228,2021-05-07,2021-05-07 09:00,2021-05-07 17:09,396
...,...,...,...,...,...,...,...,...,...
24642,ID19101500,Thomas Oppermann,SPD,"Jawohl, Herr Präsident, ich nehme die Wahl an.\n\nIch beglückwünsche Sie und freue mich auf gute Zusammenarbeit.\n\nHerr Kollege Kubicki, nehmen Sie die Wahl an?",1,2017-10-24,2017-10-24 11:00,2017-10-24 17:03,25
24643,ID19101600,Wolfgang Kubicki,FDP,"Herr Präsident, ich nehme die Wahl an.\n\nDann beglückwünsche ich auch Sie im Namen des Hauses und freue mich auf gute Zusammenarbeit.\n\nFrau Kollegin Pau, nehmen Sie die Wahl an?",1,2017-10-24,2017-10-24 11:00,2017-10-24 17:03,30
24644,ID19101700,Petra Pau,DIE LINKE,"Herr Präsident, ich nehme die Wahl an und freue mich auf die Zusammenarbeit.\n\nHerzlichen Glückwunsch, Frau Pau. Auch ich freue mich auf die Zusammenarbeit.\n\nJetzt frage ich die Frau Kollegin R...",1,2017-10-24,2017-10-24 11:00,2017-10-24 17:03,36
24645,ID19101800,Claudia Roth,BÜNDNIS 90/DIE GRÜNEN,"Ja, ich nehme die Wahl mit großer Freude an und freue mich auch auf die Zusammenarbeit.\n\nDie Freude ist unübersehbar. Ich beglückwünsche Sie im Namen des ganzen Hauses, Frau Kollegin Roth.\n\nIc...",1,2017-10-24,2017-10-24 11:00,2017-10-24 17:03,492


Das session_date wird zu einem datetime64 Objekt umgewandeln

In [5]:
df['session_date'] = pd.to_datetime(df['session_date'])
                                    #, format="%d.%m.%Y")

In [6]:
# set display column width to -1 to show full text
pd.set_option('max_colwidth', 20)

df.head(800)

# reset display column width to 30
pd.reset_option('max_colwidth')

Unnamed: 0,speech_id,speaker,affiliation,text,session_id,session_date,session_start,session_end,length
0,ID1922800100,Thorsten Frei,CDU/CSU,Sehr geehrter He...,228,2021-05-07,2021-05-07 09:00,2021-05-07 17:09,547
1,ID1922800200,Jens Maier,AfD,Sehr geehrter He...,228,2021-05-07,2021-05-07 09:00,2021-05-07 17:09,537
2,ID1922800300,Uli Grötsch,SPD,Vielen Dank. – H...,228,2021-05-07,2021-05-07 09:00,2021-05-07 17:09,870
3,ID1922800400,Benjamin Strasser,FDP,Sehr geehrter He...,228,2021-05-07,2021-05-07 09:00,2021-05-07 17:09,280
4,ID1922800500,André Hahn,DIE LINKE,Herr Präsident! ...,228,2021-05-07,2021-05-07 09:00,2021-05-07 17:09,396
...,...,...,...,...,...,...,...,...,...
795,ID1922304800,Volkmar Klein,CDU/CSU,Tatsächlich eine...,223,2021-04-21,2021-04-21 11:00,2021-04-21 21:27,36
796,ID1922304900,Gerd Müller,Bundesminister BMZ,Wir haben zusamm...,223,2021-04-21,2021-04-21 11:00,2021-04-21 21:27,91
797,ID1922305000,Olaf in der Beek,FDP,Frau Präsidentin...,223,2021-04-21,2021-04-21 11:00,2021-04-21 21:27,149
798,ID1922305100,Gerd Müller,Bundesminister BMZ,"Nein, das wäre n...",223,2021-04-21,2021-04-21 11:00,2021-04-21 21:27,214


Datentypen der jeweiligen Spalten prüfen:

In [7]:
df.dtypes

speech_id                object
speaker                  object
affiliation              object
text                     object
session_id                int64
session_date     datetime64[ns]
session_start            object
session_end              object
length                    int64
dtype: object

### Datums- und Zeitwerte

Für die einzelnen Visualisierungen arbeiten wir die unterschiedlichen Zweitwerte heraus.

In [8]:
df['day'] = df['session_date'].dt.date
df['week'] = df['session_date'].dt.strftime("%Y/Week %W")
df['month'] = df['session_date'].dt.strftime("%Y/ %m")
df['year'] = df['session_date'].dt.year

df[['session_date', 'day', 'week', 'month', 'year', 'session_id']].sample(10)

Unnamed: 0,session_date,day,week,month,year,session_id
9452,2020-03-12,2020-03-12,2020/Week 10,2020/ 03,2020,152
2151,2021-03-03,2021-03-03,2021/Week 09,2021/ 03,2021,214
10208,2020-02-12,2020-02-12,2020/Week 06,2020/ 02,2020,145
17122,2019-02-21,2019-02-21,2019/Week 07,2019/ 02,2019,83
13227,2019-10-18,2019-10-18,2019/Week 41,2019/ 10,2019,119
23009,2018-03-22,2018-03-22,2018/Week 12,2018/ 03,2018,23
4157,2020-11-27,2020-11-27,2020/Week 47,2020/ 11,2020,196
4509,2020-11-20,2020-11-20,2020/Week 46,2020/ 11,2020,193
9984,2020-02-14,2020-02-14,2020/Week 06,2020/ 02,2020,147
23580,2018-02-23,2018-02-23,2018/Week 08,2018/ 02,2018,15


## Visualisierung zeitlicher Entwicklungen


In [25]:
import plotly.express as px

### Reden pro Woche (LP19):

In [11]:
timeseries_speeches_df = df.query('year >= 2017') \
                  .groupby('week').agg({'text': 'count'}) \
                  .rename(columns={'text': 'Reden pro Woche'})
timeseries_speeches_df

Unnamed: 0_level_0,Reden pro Woche
week,Unnamed: 1_level_1
2017/Week 43,19
2017/Week 47,153
2017/Week 50,224
2018/Week 03,188
2018/Week 04,16
...,...
2021/Week 09,414
2021/Week 12,458
2021/Week 15,370
2021/Week 16,530


In [12]:
timeseries_speeches_df.plot(title="Anzahl der Reden pro Woche in den Jahren 2017 - 2021")

Als erstes lässt sich feststellen, dass die Anzahl der Reden im laufe der Legislaturperiode deutlich von ca. 200 auf 500 Reden pro Woche gestiegen ist.

2019 ist mitte Juli die [Sommerpause im Bundestag](https://www.bundestag.de/services/glossar/glossar/P/parlamentarische_sommerpause-247336) zu erkennen. Das die [Sommerpause im Juni 2018](https://www.marcusweinberg.de/images/bundestag/Sitzungskalender-Deutscher-Bundestag-2018.pdf) und im [Juni 2020](https://jens-koeppen.de/wp-content/uploads/2019/09/Sitzungskalender-Deutscher-Bundestag-2020-1.jpg) ebenfalls stattgefunden hat lässt sich erst auf dem zweiten Blick erkennen. Da zwischen Woche 27 und Woche 39 bzw. Woche 26 und Woche 37 keine Daten vorhanden waren, wird der Zeitraum einfach übersprungen.

Während 2020, wohl vor allem aufgrund des ersten Lockdowns Anfang März kaum Reden im Bundestag stattfanden. Auch pünktlich zum zweiten Lockdown (Woche 49) im Winter 20/21 fallen die Anzahl der Reden leicht. Davor und danach sind jedoch deutliche Steigungen zu erkennen, was für eine hitzige Dabatte um Lockdowneinführungen bzw. Lockerungen spricht.

### Wörter pro Woche (LP19):

In [29]:
timeseries_words_df = df.query('year >= 2017') \
                  .groupby('week').agg({'length': 'sum'}) \
                  .rename(columns={'length': 'Wörter pro Woche'})
                  
timeseries_words_df

Unnamed: 0_level_0,Wörter pro Woche
week,Unnamed: 1_level_1
2017/Week 43,6450
2017/Week 47,83975
2017/Week 50,94831
2018/Week 03,86589
2018/Week 04,11265
...,...
2021/Week 09,184704
2021/Week 12,209192
2021/Week 15,163417
2021/Week 16,232746


In [16]:
timeseries_words_df.plot(title="Anzahl der Wörter pro Woche in den Jahren 2017 - 2021")

Die Grafik der Wörter die pro Woche verwendet wurden, ist fast identisch zu der Grafik der Reden die pro Woche gehalten wurden. Nur der Gesamtansteig der aus der ersten Grafik hervorging ist hier nicht so deutlich zu erkennen. Das bedeutet: Vor den Coronajahren haben zwar weniger Abgeordnete Reden gehalten, dafür haben diese aber für ihre Reden mehr Wörter verwendet und somit vermutlich auch längere Reden gehalten.