In [1]:
import re
import pandas as pd
from matplotlib import pyplot as plt
import numpy as np

In [2]:
# Read .csv data.
data = pd.read_csv("../data/raw/parlspeech_bundestag.csv", parse_dates=['date'], low_memory=False)
data = data.reset_index()

In [3]:
# Discard entries where "chair" variable is True. These are not speeches by MPs.
data = data[data['chair']==False]
data.iloc[0].text[1000:1500]

"harmlost und den Bürgern mögliche Belastungen verschwiegen . . _ Ich wußte gar nicht , daß Sie in der Früh' schon so lebendig sind . _ (Struck [SPD] : Sie werden sich noch wundern , Herr Waigel ! _ Wieczorek [Duisburg] [SPD] : Wir sind doch keine Schlafmützen !) Das Gegenteil , meine Damen und Herren , läßt sich beweisen . . Ich habe in einer Ansprache vor dem Zentralausschuß der Deutschen Landwirtschaft am 14 . Februar 1990 folgendes gesagt : (Vogel [SPD] : Steuern werden nicht erhöht ! ) Die w"

In [4]:
data.iloc[0].text[-500:]

'r Sie alles bekannt war , wie konnte dann ein so kluger Mann wie Ihr Kanzlerkandidat von einem guten Investitionsstandort sprechen ? Diesen Zwiespalt und Widerspruch in Ihrer Argumentation verstehe ich nicht . . Die Infrastruktur muß praktisch von Grund auf überholt werden . So ist das völlig überlastete Eisenbahnnetz in seiner Ausbauqualität sogar noch weit hinter den Stand von 1939 zurückgefallen . (Anhaltende Zurufe des Abg Duve [SPD]) _Frau Präsidentin , da muß ein Blähhals am Werke sein . .'

In [5]:
data.iloc[-1].text[-500:]

'Ich bedanke mich bei den Mitarbeitern der Verwaltung, beim Stenografischen Dienst und bei der Saalassistenz. Und jetzt haben Sie das letzte Wort. Ich bedanke mich und freue mich auf das nächste Jahr. Vielen Dank. – Bürgermeister überziehen halt etwas öfter; aber, Herr Präsident, Sie haben es im Griff.'

In [6]:
data.iloc[-3].text[-500:]

'skutieren können. Es gibt auch Punkte, die ich gern ablehne. Aber ich denke, wir sind hier auf dem richtigen Weg, das Thema Fachkräfte entsprechend voranzutreiben, auch im sozialen Bereich. Abschließend wünsche ich Ihnen allen schöne Weihnachten und besinnliche Feiertage; denn Zeit zur Besinnung und Einsicht würde dem einen oder anderen nicht schaden. Zudem bedanke ich mich bei dieser Gelegenheit für in der Regel fair geführte Debatten in diesem Jahr – in der Regel – sowie beim Tagungspräsidium.'

In [7]:
data.iloc[-3].text[1000:1500]

'en. Wir haben gehört: Auch die Fallzahlen in der Kinder- und Jugendhilfe sind gestiegen. Im Koalitionsvertrag stehen noch viele andere gute Dinge. Das zeigt natürlich, dass wir Fachkräfte benötigen. Ich selber war Bürgermeister. In dieser Zeit habe ich gemerkt: Wenn man engagiert ist und qualifiziertes Personal haben will, ist es sehr schwierig. Dennoch sollte man einige sachliche Punkte erwähnen. Während sich die Zahl der zu betreuenden Kinder zwischen 2008 und 2017 um 16 Prozent erhöht hat, ha'

We notice some immediate problems with the data:
1. It contains comments from other members of parliament within parentheses
2. The old speeches use the old German spelling rules
3. The old speeches sometimes use underscores ('_'). This was probably done for formatting purposes, but we do not need it.
4. This is probably not a problem at all, but earlier speeches use spaces between punctuation marks and newer speeches do not.

First, let's fix 1. by simply removing all text inside parentheses.

In [8]:
# Remove bracketed content from speeches. This content is commentary; not part of the original speech.
def remove_brackets(text):
    text_clean = re.sub(r'\([^)]*\)',"",text)
    text_clean = re.sub(r'\([^)]*',"",text_clean) # Sometimes there will be a comment right before the end of the speech with no closing paren
    text_clean = re.sub("\[INTERVENTION BEGINS\]", "", text_clean)
    text_clean = re.sub("\[INTERVENTION ENDS\]", "", text_clean)
    return text_clean

data['text_clean'] = data['text'].apply(remove_brackets)

In [9]:
data.iloc[0].text_clean[-500:]

'schäden erbringen .  _Ja , wenn das für Sie alles bekannt war , wie konnte dann ein so kluger Mann wie Ihr Kanzlerkandidat von einem guten Investitionsstandort sprechen ? Diesen Zwiespalt und Widerspruch in Ihrer Argumentation verstehe ich nicht . . Die Infrastruktur muß praktisch von Grund auf überholt werden . So ist das völlig überlastete Eisenbahnnetz in seiner Ausbauqualität sogar noch weit hinter den Stand von 1939 zurückgefallen .  _Frau Präsidentin , da muß ein Blähhals am Werke sein . .'

In [10]:
from collections import Counter
full_str = data['text'].str.cat()
counter = Counter(full_str)
counter

Counter({'F': 1228008,
         'r': 37206558,
         'a': 26895519,
         'u': 20333979,
         ' ': 97542920,
         'P': 1222709,
         'ä': 2845498,
         's': 31918591,
         'i': 42487418,
         'd': 23891862,
         'e': 83279537,
         'n': 54488238,
         't': 30625488,
         '!': 255575,
         'M': 1507505,
         'h': 22641344,
         'g': 15721770,
         'D': 2765248,
         'm': 11124296,
         'H': 1066827,
         'I': 1436284,
         'z': 6000252,
         'B': 2022014,
         'v': 3468544,
         'o': 11887804,
         'l': 17384350,
         'E': 1760080,
         'w': 7141498,
         'f': 7201117,
         '1': 422216,
         '9': 252407,
         'W': 1584372,
         '.': 5395340,
         'V': 1094263,
         'A': 2105221,
         'b': 8625784,
         'ü': 3406054,
         '4': 122301,
         '0': 677643,
         'c': 14588996,
         '3': 141151,
         'O': 271465,
         'k': 5641104,
  

In [11]:
search_text = data[data['text_clean'].str.find('[') > -1].iloc[3].text_clean
get_inside_brackets = lambda x: re.findall(r'\[[^\]]*\]', x)
broken_candidates = data[data['text_clean'].str.find('[') > -1]
broken_candidates

Unnamed: 0,index,date,agenda,speechnumber,speaker,party,party.facts.id,chair,terms,text,parliament,iso3country,text_clean
9062,9062,1991-10-30,,26,Horst Peter,SPD,383.0,False,333,"Ich gestehe Ihnen zu , daß diese Ausgaben in d...",DE-Bundestag,DEU,"Ich gestehe Ihnen zu , daß diese Ausgaben in d..."
12358,12358,1991-12-12,,15,Claudia Nolte,CDU/CSU,211.0,False,1476,Frau Präsidentin ! Meine sehr geehrten Damen u...,DE-Bundestag,DEU,Frau Präsidentin ! Meine sehr geehrten Damen u...
12655,12655,1991-12-13,,25,Heidemarie Wieczorek-Zeul,SPD,383.0,False,275,"Ich möchte diesen Punkt erst zu Ende bringen ,...",DE-Bundestag,DEU,"Ich möchte diesen Punkt erst zu Ende bringen ,..."
13483,13483,1992-01-23,,8,Hermann Bachmaier,SPD,383.0,False,101,"Ja , bitte . Heinrich L . Kolb (FDP) : Herr Ba...",DE-Bundestag,DEU,"Ja , bitte . Heinrich L . Kolb : Herr Bachmai..."
13835,13835,1992-01-24,,32,Iris Gleicke,SPD,383.0,False,1275,Herr Präsident ! Meine sehr verehrten Kollegin...,DE-Bundestag,DEU,Herr Präsident ! Meine sehr verehrten Kollegin...
...,...,...,...,...,...,...,...,...,...,...,...,...,...
370789,370789,2018-07-03,Tagesordnungspunkt I.8: Einzelplan 17 Bundesm...,192,Beatrix von Storch,AfD,1976.0,False,698,Frau Präsidentin! Sehr geehrte Damen und Herre...,DE-Bundestag,DEU,Frau Präsidentin! Sehr geehrte Damen und Herre...
371760,371760,2018-09-12,punkte 1 a und 1 b – fort: a) Erste Beratung d...,84,Simone Barrientos,PDS/LINKE,1545.0,False,474,Sehr geehrter Herr Präsident! Werte Kolleginne...,DE-Bundestag,DEU,Sehr geehrter Herr Präsident! Werte Kolleginne...
375958,375958,2018-11-08,Damit rufe ich die Tagesordnungspunkte 4 a bis...,26,Markus Kurth,GRUENE,1816.0,False,801,Herr Präsident! Liebe Kolleginnen und Kollegen...,DE-Bundestag,DEU,Herr Präsident! Liebe Kolleginnen und Kollegen...
376936,376936,2018-11-21,Tagesordnungspunkt I.9: hier: Einzelplan 04 Bu...,16,Sahra Wagenknecht,PDS/LINKE,1545.0,False,2436,Herr Präsident! Sehr geehrte Damen und Herren!...,DE-Bundestag,DEU,Herr Präsident! Sehr geehrte Damen und Herren!...


In [12]:
data[data.index == 376936].iloc[0].text[10200:10700]

'. Es ist doch bekannt, wie heute bei Ryanair, bei Amazon, bei der Deutschen Post und in vielen anderen Unternehmen mit Mitarbeitern umgesprungen wird. Und es sind Ihre Gesetze, die das möglich machen, die möglich machen, dass Menschen in schlecht bezahlten Jobs gedemütigt werden oder dass ömer[CDU/CSU]: sie als Leiharbeiter und Dauerbefristete der Willkür ihrer Arbeitgeber in besonderem Maße ausgeliefert sind. Es sind Ihre Gesetze, die möglich machen, dass Arbeitslose im Jobcenter schikaniert we'

In [13]:
data[data.index == 9062].iloc[0].text[:500]

'Ich gestehe Ihnen zu , daß diese Ausgaben in den letzten Jahren gesunken sind . . : Wie stark denn ? _ Klaus Kirschner [SPD] : Nachdem sie vorher hochgegangen sind !) _ Ich habe die Prozentzahlen jetzt nicht vor mir liegen . Ich lasse mich da gerne von Ihnen belehren . Die Senkung , die zu erwarten war , ist übrigens durch den Blüm-Bauch begründet , d . h . durch die Möglichkeit , sich noch vor Toresschluß den notwendigen Zahnersatz zu besorgen . Hinterher ist natürlich eine Nachfragelücke entst'

Some of the transcriptions simply have broken formatting for commentaries. We kick these candidates out entirely. In the process, we lose some data (a negligible amount in our opinion), but the data that remains is of higher quality.

In [14]:
indices_to_drop = broken_candidates.index
filtered_data = data.drop(indices_to_drop)
num_dropped = len(data) - len(filtered_data)
print(f"Dropped {num_dropped} ({100 * num_dropped / len(data):.2f}%) speeches. {len(filtered_data)} speeches remain.")
filtered_data[filtered_data['text_clean'].str.find('[') > -1]

Dropped 1079 (0.51%) speeches. 211381 speeches remain.


Unnamed: 0,index,date,agenda,speechnumber,speaker,party,party.facts.id,chair,terms,text,parliament,iso3country,text_clean


Next, let's remove the underscores.

In [15]:
filtered_data.iloc[0].text_clean[-500:]

'schäden erbringen .  _Ja , wenn das für Sie alles bekannt war , wie konnte dann ein so kluger Mann wie Ihr Kanzlerkandidat von einem guten Investitionsstandort sprechen ? Diesen Zwiespalt und Widerspruch in Ihrer Argumentation verstehe ich nicht . . Die Infrastruktur muß praktisch von Grund auf überholt werden . So ist das völlig überlastete Eisenbahnnetz in seiner Ausbauqualität sogar noch weit hinter den Stand von 1939 zurückgefallen .  _Frau Präsidentin , da muß ein Blähhals am Werke sein . .'

In [16]:
def remove_underscores(text):
    return re.sub('_', '', text)

filtered_data['text_clean'] = filtered_data['text_clean'].apply(remove_underscores)

In [17]:
filtered_data.iloc[0].text_clean[-500:]

'ltschäden erbringen .  Ja , wenn das für Sie alles bekannt war , wie konnte dann ein so kluger Mann wie Ihr Kanzlerkandidat von einem guten Investitionsstandort sprechen ? Diesen Zwiespalt und Widerspruch in Ihrer Argumentation verstehe ich nicht . . Die Infrastruktur muß praktisch von Grund auf überholt werden . So ist das völlig überlastete Eisenbahnnetz in seiner Ausbauqualität sogar noch weit hinter den Stand von 1939 zurückgefallen .  Frau Präsidentin , da muß ein Blähhals am Werke sein . .'

Finally, we tackle the issue of the German spelling reform. We looked for Python packages to handle this part for us and found nothing. Apparently Word can do it, and there is some really old software from Duden that can also do it. We also tried a spellcheck / autocorrect package, but this solution would destroy more than it would fix (e.g. it would automatically correct names like "Rolf" to "roll").
Thus, we do the bare minimum and transform 'ß' ("esszet") into 'ss'. Doing more would probably help the final result, but it's not feasible for the scope of this project.

In [18]:
def replace_esszet(text):
    return re.sub('ß', 'ss', text)

filtered_data['text_clean'] = filtered_data['text_clean'].apply(replace_esszet)

In [19]:
filtered_data.iloc[0].text_clean[-500:]

'schäden erbringen .  Ja , wenn das für Sie alles bekannt war , wie konnte dann ein so kluger Mann wie Ihr Kanzlerkandidat von einem guten Investitionsstandort sprechen ? Diesen Zwiespalt und Widerspruch in Ihrer Argumentation verstehe ich nicht . . Die Infrastruktur muss praktisch von Grund auf überholt werden . So ist das völlig überlastete Eisenbahnnetz in seiner Ausbauqualität sogar noch weit hinter den Stand von 1939 zurückgefallen .  Frau Präsidentin , da muss ein Blähhals am Werke sein . .'

In [20]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
stop_words = stopwords.words('german')

vectorizer = CountVectorizer(stop_words=stop_words, max_features=100000) # max_df and min_df might be worth checking out later
bow = vectorizer.fit_transform(filtered_data['text_clean'])

In [21]:
#bow_df = pd.DataFrame(bow)
#bow_df

In [104]:
from sklearn.preprocessing import normalize
X_norm = normalize(bow)

In [105]:
from sklearn.decomposition import TruncatedSVD
svd = TruncatedSVD(n_components=100)
X_prime = svd.fit_transform(X_norm)

In [110]:
ind_to_voc = {v: k for k, v in vectorizer.vocabulary_.items()}
top_k = 5
top_comps = 5
for comp in range(top_comps):
    sorted_inds = np.argsort(-np.abs(svd.components_[comp, :]))
    print(f"Component #{comp+1}")
    for k in range(top_k):
        ind = sorted_inds[k]
        print(ind_to_voc[ind], svd.components_[comp, ind])

Component #1
herr 0.28571149943874197
müssen 0.20157605353456257
mehr 0.18987591975449808
schon 0.14970404345253457
gibt 0.14244587799612576
Component #2
ja 0.9356798868049461
bitte 0.26322162899960827
gerne 0.12412686022237705
müssen -0.052322480744274945
schön 0.04976515874732047
Component #3
herr 0.7721736213833889
kollege 0.3111087376140443
frage 0.17789199802230535
bitte 0.16627513060388688
ja -0.1517407355682209
Component #4
bitte 0.9135689736538645
ja -0.23738382660480062
schön 0.23091474767685977
herr -0.1431158153250464
gerne -0.09342827645813166
Component #5
gerne 0.9234792922912106
frau 0.18777081304082735
frage 0.17840024777308433
ja -0.14498603285488612
herr -0.13728163750481218


In [22]:
from sklearn.decomposition import LatentDirichletAllocation
lda = LatentDirichletAllocation(n_components=200, max_iter=5)
lda.fit(bow)

LatentDirichletAllocation(max_iter=5, n_components=200)

In [24]:
ind_to_voc = {v: k for k, v in vectorizer.vocabulary_.items()}

for (idx, topic) in enumerate(lda.components_):
    sorted_inds = np.argsort(-topic)[:5]
    print(f"Topic #{idx+1}:  {' '.join([ind_to_voc[i] for i in sorted_inds])}")

Topic #1:  gibt frage herr schon worden
Topic #2:  deutschland müssen wirtschaft unternehmen bereich
Topic #3:  frau gesagt schon müssen gibt
Topic #4:  frage fragen kind beantwortet frau
Topic #5:  frauen mädchen resolution aktionsplan genitalverstümmelung
Topic #6:  sozialhilfe sozialhilfeempfänger gibt wieviel okay
Topic #7:  wohnungen mieter mehr müssen wohnung
Topic #8:  bitte schön ja herr kollege
Topic #9:  frauen quote frau prozent schon
Topic #10:  forschung wissenschaft mehr bildung deutschland
Topic #11:  euro millionen milliarden haushalt müssen
Topic #12:  opfer müssen gewalt sagen heute
Topic #13:  internet haushalt schon kollegen herr
Topic #14:  kinder kindern müssen eltern jugendlichen
Topic #15:  neuen müssen bundesregierung ländern ab
Topic #16:  bafög hochschulen studierenden studium studenten
Topic #17:  tiere tierschutz mehr müssen bundesregierung
Topic #18:  deutsch polen tschechischen polnischen polnische
Topic #19:  post mehr schon müssen gibt
Topic #20:  opel 

Topic #198:  herr sagen schon handwerk thema
Topic #199:  euro millionen frage jahr gibt
Topic #200:  sagen müssen herr länder gibt


In [25]:
lda_feats = lda.transform(bow)

In [26]:
lda_df = pd.DataFrame(lda_feats)
lda_df = lda_df.add_prefix('lda_')
lda_df

Unnamed: 0,lda_0,lda_1,lda_2,lda_3,lda_4,lda_5,lda_6,lda_7,lda_8,lda_9,...,lda_190,lda_191,lda_192,lda_193,lda_194,lda_195,lda_196,lda_197,lda_198,lda_199
0,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,...,0.030787,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015
1,0.000002,0.000002,0.000002,0.000002,0.000002,0.000002,0.000002,0.000002,0.000002,0.000002,...,0.000002,0.011875,0.000002,0.000002,0.000002,0.000002,0.000002,0.000002,0.000002,0.000002
2,0.000046,0.000046,0.000046,0.000046,0.000046,0.000046,0.000046,0.000046,0.000046,0.000046,...,0.000046,0.000046,0.000046,0.000046,0.000046,0.000046,0.000046,0.000046,0.000046,0.000046
3,0.000053,0.000053,0.000053,0.000053,0.000053,0.000053,0.000053,0.000053,0.000053,0.000053,...,0.000053,0.000053,0.000053,0.000053,0.000053,0.000053,0.000053,0.000053,0.000053,0.000053
4,0.000313,0.000313,0.000313,0.000313,0.000313,0.000313,0.000313,0.000313,0.000313,0.000313,...,0.000313,0.000313,0.000313,0.000313,0.000313,0.000313,0.000313,0.000313,0.000313,0.000313
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
211376,0.000016,0.000016,0.000016,0.000016,0.000016,0.000016,0.000016,0.000016,0.000016,0.000016,...,0.000016,0.000016,0.000016,0.000016,0.000016,0.000016,0.000016,0.112486,0.000016,0.000016
211377,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,...,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015
211378,0.000013,0.000013,0.000013,0.000013,0.000013,0.000013,0.000013,0.000013,0.000013,0.000013,...,0.000013,0.000013,0.000013,0.006077,0.000013,0.035853,0.000013,0.000013,0.000013,0.000013
211379,0.001000,0.001000,0.001000,0.001000,0.001000,0.001000,0.001000,0.001000,0.001000,0.001000,...,0.001000,0.001000,0.001000,0.001000,0.001000,0.001000,0.001000,0.001000,0.001000,0.001000


In [21]:
"""
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
stop_words = stopwords.words('german')

vectorizer = CountVectorizer(stop_words=stop_words) # max_df and min_df might be worth checking out later
vectorizer.fit(filtered_data['text_clean'])
len(vectorizer.vocabulary_)
"""

"\nfrom sklearn.feature_extraction.text import CountVectorizer\nfrom nltk.corpus import stopwords\nstop_words = stopwords.words('german')\n\nvectorizer = CountVectorizer(stop_words=stop_words) # max_df and min_df might be worth checking out later\nvectorizer.fit(filtered_data['text_clean'])\nlen(vectorizer.vocabulary_)\n"

In [22]:
import string

def is_word(s):
    return any(c.isalnum() for c in s)

def remove_punctuation(s):
    return s.translate(str.maketrans('', '', string.punctuation))

def get_avg_word_length(text):
    words = remove_punctuation(text).split()
    return sum([len(word) for word in words]) / len(words)

filtered_data['avg_word_length'] = filtered_data['text_clean'].apply(get_avg_word_length)
filtered_data

Unnamed: 0,index,date,agenda,speechnumber,speaker,party,party.facts.id,chair,terms,text,parliament,iso3country,text_clean,avg_word_length
0,0,1991-03-12,,2,Theodor Waigel,CDU/CSU,211.0,False,880,Frau Präsidentin ! Meine sehr geehrten Damen u...,DE-Bundestag,DEU,Frau Präsidentin ! Meine sehr geehrten Damen u...,6.414523
2,2,1991-03-12,,4,Theodor Waigel,CDU/CSU,211.0,False,5756,Nicht viel besser sieht es im Straßenwesen aus...,DE-Bundestag,DEU,Nicht viel besser sieht es im Strassenwesen au...,6.379921
4,4,1991-03-12,,6,Barbara Höll,PDS/LINKE,86.0,False,233,Geehrte Frau Präsidentin ! Meine Damen und Her...,DE-Bundestag,DEU,Geehrte Frau Präsidentin ! Meine Damen und Her...,6.666667
6,6,1991-03-12,,8,Jürgen Rüttgers,CDU/CSU,211.0,False,242,Frau Präsidentin ! Meine sehr verehrten Damen ...,DE-Bundestag,DEU,Frau Präsidentin ! Meine sehr verehrten Damen ...,5.441748
8,8,1991-03-12,,10,Peter Struck,SPD,383.0,False,31,Frau Präsidentin ! Meine Damen und Herren ! Wi...,DE-Bundestag,DEU,Frau Präsidentin ! Meine Damen und Herren ! Wi...,6.480000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
379535,379535,2018-12-14,Tagesordnungspunkt 23: Beratung des Antrags de...,186,Grigorios Aggelidis,FDP,573.0,False,648,Sehr geehrter Herr Präsident! Meine sehr geehr...,DE-Bundestag,DEU,Sehr geehrter Herr Präsident! Meine sehr geehr...,5.549383
379537,379537,2018-12-14,Tagesordnungspunkt 23: Beratung des Antrags de...,188,Katja Dörner,GRUENE,1816.0,False,688,Herr Präsident! Liebe Kolleginnen! Liebe Kolle...,DE-Bundestag,DEU,Herr Präsident! Liebe Kolleginnen! Liebe Kolle...,5.635174
379539,379539,2018-12-14,Tagesordnungspunkt 23: Beratung des Antrags de...,190,Michael Kießling,CDU/CSU,211.0,False,815,Sehr geehrter Herr Präsident! Liebe Kolleginne...,DE-Bundestag,DEU,Sehr geehrter Herr Präsident! Liebe Kolleginne...,5.403681
379541,379541,2018-12-14,Tagesordnungspunkt 23: Beratung des Antrags de...,192,Michael Kießling,CDU/CSU,211.0,False,9,Selbstverständlich. – Einen Satz würde ich ger...,DE-Bundestag,DEU,Selbstverständlich. – Einen Satz würde ich ger...,5.555556


In [23]:
filtered_data.sort_values(by=['avg_word_length'], ascending=False)[:20]

Unnamed: 0,index,date,agenda,speechnumber,speaker,party,party.facts.id,chair,terms,text,parliament,iso3country,text_clean,avg_word_length
26279,26279,1993-01-14,,42,Arno Schmidt,FDP,573.0,False,2,Nichtregierungsorganisation !,DE-Bundestag,DEU,Nichtregierungsorganisation !,27.0
170169,170169,2003-07-03,,131,Irmingard Schewe-Gerigk,GRUENE,1816.0,False,2,Selbstverständlich .,DE-Bundestag,DEU,Selbstverständlich .,18.0
52936,52936,1994-09-21,,410,Iris Gleicke,SPD,383.0,False,2,Selbstverständlich .,DE-Bundestag,DEU,Selbstverständlich .,18.0
209956,209956,2007-03-01,,67,Sigmar Gabriel,SPD,383.0,False,2,Selbstverständlich .,DE-Bundestag,DEU,Selbstverständlich .,18.0
229346,229346,2008-09-18,,96,Sigmar Gabriel,SPD,383.0,False,2,Selbstverständlich .,DE-Bundestag,DEU,Selbstverständlich .,18.0
188147,188147,2005-01-20,,175,Jürgen Koppelin,FDP,573.0,False,2,Selbstverständlich .,DE-Bundestag,DEU,Selbstverständlich .,18.0
320018,320018,2014-11-27,Tagesordnungspunkt I.13: Einzelplan 30 Bundes...,138,Ewald Schurer,SPD,383.0,False,1,Selbstverständlich.,DE-Bundestag,DEU,Selbstverständlich.,18.0
370564,370564,2018-06-29,Tagesordnungspunkt 25: Beratung des Antrags d...,237,Sepp Müller,CDU/CSU,211.0,False,1,Selbstverständlich.,DE-Bundestag,DEU,Selbstverständlich.,18.0
93984,93984,1997-05-15,,8,Kristin Heyne,GRUENE,1816.0,False,2,Selbstverständlich .,DE-Bundestag,DEU,Selbstverständlich .,18.0
370568,370568,2018-06-29,Tagesordnungspunkt 25: Beratung des Antrags d...,241,Sepp Müller,CDU/CSU,211.0,False,1,Selbstverständlich.,DE-Bundestag,DEU,Selbstverständlich.,18.0


In [24]:
from collections import Counter

def count_char(text, char):
    return text.count(char)

def count_exclamations(text):
    return count_char(text, '!') / len(text)

def count_questions(text):
    return count_char(text, '?') / len(text)

filtered_data['relative_num_exclamations'] = filtered_data.text_clean.apply(count_exclamations)
filtered_data['relative_num_questions'] = filtered_data.text_clean.apply(count_questions)

In [25]:
filtered_data.sort_values(by=['relative_num_questions'], ascending=False)[:1000]

Unnamed: 0,index,date,agenda,speechnumber,speaker,party,party.facts.id,chair,terms,text,parliament,iso3country,text_clean,avg_word_length,relative_num_exclamations,relative_num_questions
331551,331551,2015-09-24,Zusatzpunkt 3: 5a)Beratung des Antrags der Abg...,98,Petra Hinz,SPD,383.0,False,1,Ja?,DE-Bundestag,DEU,Ja?,2.000000,0.0,0.333333
361568,361568,2018-02-22,Tagesordnungspunkt 5: Beratung des Antrags de...,94,Philipp Amthor,CDU/CSU,211.0,False,1,Ja?,DE-Bundestag,DEU,Ja?,2.000000,0.0,0.333333
372800,372800,2018-09-27,Tagesordnungspunkt 6: Erste Beratung des von ...,104,Philipp Amthor,CDU/CSU,211.0,False,1,Ja?,DE-Bundestag,DEU,Ja?,2.000000,0.0,0.333333
288762,288762,2012-09-13,Tagesordnungspunkt 4 b: Beratung der Beschlus...,192,Mechthild Heil,CDU/CSU,211.0,False,1,Ja?,DE-Bundestag,DEU,Ja?,2.000000,0.0,0.333333
329697,329697,2015-06-19,Tagesordnungspunkte 34 a und 34 b: a) Beratun...,129,Hermann Färber,CDU/CSU,211.0,False,1,Ja?,DE-Bundestag,DEU,Ja?,2.000000,0.0,0.333333
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
34501,34501,1993-06-23,,236,Jürgen Augustinowitz,CDU/CSU,211.0,False,24,"Eine kurze Zusatzfrage , Frau Staatssekretärin...",DE-Bundestag,DEU,"Eine kurze Zusatzfrage , Frau Staatssekretärin...",6.050000,0.0,0.013514
14491,14491,1992-02-19,,15,Friedhelm Julius Beucher,SPD,383.0,False,11,"Sind Sie bereit , uns diese Namen gegebenenfal...",DE-Bundestag,DEU,"Sind Sie bereit , uns diese Namen gegebenenfal...",6.888889,0.0,0.013514
128090,128090,2000-02-16,,128,Ulrike Flach,FDP,573.0,False,24,"Herr Staatssekretär , befürchten Sie nicht ein...",DE-Bundestag,DEU,"Herr Staatssekretär , befürchten Sie nicht ein...",6.100000,0.0,0.013423
117927,117927,1999-06-16,,227,Ulrike Flach,FDP,573.0,False,24,Wie schätzen Sie die Auswirkungen auf den Arbe...,DE-Bundestag,DEU,Wie schätzen Sie die Auswirkungen auf den Arbe...,5.590909,0.0,0.013423


In [28]:
from nltk.corpus import stopwords
stop_words = stopwords.words('german')

def is_stop_word(word):
    return word in stop_words

def get_stop_word_fraction(text):
    words = remove_punctuation(text).lower().split()
    num_stop_words = len([word for word in words if is_stop_word(word)])
    return num_stop_words / len(words)

filtered_data['stop_word_fraction'] = filtered_data.text_clean.apply(get_stop_word_fraction)

In [30]:
from HanTa import HanoverTagger as ht
tagger = ht.HanoverTagger('morphmodel_ger.pgz')

In [41]:
import nltk
sent = "Die Europawahl in den Niederlanden findet immer donnerstags statt."

words = nltk.word_tokenize(filtered_data.text_clean[0])
lemmata = tagger.tag_sent(words,taglevel= 1)
" ".join([lemma[1] for lemma in lemmata])

"Frau Präsidentin -- mein sehr geehrt Dame und Herr -- der ihnen heute zur erster Beratung vorliegend Entwurf des Bundeshaushalts 1991 sein der Haushalt der Wiedervereinigung -- fast ein Viertel aller Ausgabe von über 400 Milliarde Dm beziehen sich auf die am 3 -- Oktober 1990 neu hinzukommen Bundesland -- Umfang und Struktur dieses Haushaltsentwurfs sein Zeugnis der gewaltig Herausforderung -- vor die wir seit dem Fall von Mauer und Stacheldraht im November 1989 stellen sein -- es gehen jetzt darum -- die Folge von 45 Jahr katastrophal sozialistisch Misswirtschaft zu beseitigen -- zugleich müssen wir uns den gestiegen international Anforderung an ein wied Rvereinigtes Deutschland stellen -- dieses Zusammentreffen gewaltig Aufgabe erfordern den Zusammenhalt aller Kraft -- und ohne die finanz- und haushaltspolitisch Absicherung sein der Einigungsprozeß nicht gestaltbar -- die Spd unterstellen uns -- wir haben die Problem im Zusammenhang mit der Wiedervereinigung verharmlosen und den Bür

In [48]:
sentences = nltk.word_tokenize(filtered_data.text_clean[0])
sentences

['Frau',
 'Präsidentin',
 '!',
 'Meine',
 'sehr',
 'geehrten',
 'Damen',
 'und',
 'Herren',
 '!',
 'Der',
 'Ihnen',
 'heute',
 'zur',
 'ersten',
 'Beratung',
 'vorliegende',
 'Entwurf',
 'des',
 'Bundeshaushalts',
 '1991',
 'ist',
 'der',
 'Haushalt',
 'der',
 'Wiedervereinigung',
 '.',
 'Fast',
 'ein',
 'Viertel',
 'aller',
 'Ausgaben',
 'von',
 'über',
 '400',
 'Milliarden',
 'DM',
 'bezieht',
 'sich',
 'auf',
 'die',
 'am',
 '3',
 '.',
 'Oktober',
 '1990',
 'neu',
 'hinzugekommenen',
 'Bundesländer',
 '.',
 'Umfang',
 'und',
 'Struktur',
 'dieses',
 'Haushaltsentwurfs',
 'sind',
 'Zeugnis',
 'der',
 'gewaltigen',
 'Herausforderungen',
 ',',
 'vor',
 'die',
 'wir',
 'seit',
 'dem',
 'Fall',
 'von',
 'Mauer',
 'und',
 'Stacheldraht',
 'im',
 'November',
 '1989',
 'gestellt',
 'sind',
 '.',
 'Es',
 'geht',
 'jetzt',
 'darum',
 ',',
 'die',
 'Folgen',
 'von',
 '45',
 'Jahren',
 'katastrophaler',
 'sozialistischer',
 'Misswirtschaft',
 'zu',
 'beseitigen',
 '.',
 'Zugleich',
 'müssen',
 

In [50]:
def tokenize(text):
    words = nltk.word_tokenize(text)
    words = [word for word in words if is_word(word) and not is_stop_word(word)]
    return " ".join(words).lower()
        

#filtered_data['text_tokenize'] = filtered_data.text_clean.apply(lemmatize)
filtered_data['text_tokenized'] = filtered_data.text_clean.apply(tokenize)

In [91]:
from sklearn.feature_extraction.text import TfidfVectorizer

def get_avg_tfidf_scores(data):
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(data.text_tokenized)
    data['avg_tfidf'] = X.mean(axis=1).ravel().A1
    return data

filtered_data = get_avg_tfidf_scores(filtered_data)

In [27]:
data_feats = pd.read_csv("../data/processed/parlspeech_bundestag_feats.csv")
data_feats

Unnamed: 0,party,text_length,avg_sentence_length,relative_num_exclamations,relative_num_questions,readability,num_profanities,TTR,sentiment,avg_word_length,stop_word_fraction,avg_tfidf
0,CDU/CSU,5070,123.658537,0.000592,0.000394,25.45,1,0.577912,-0.082449,6.417549,0.470499,0.000023
1,CDU/CSU,36626,133.185455,0.000055,0.000055,25.65,0,0.350135,0.004907,6.389919,0.474276,0.000046
2,PDS/LINKE,1589,176.555556,0.001259,0.000000,10.90,0,0.741294,0.037170,6.666667,0.447761,0.000014
3,CDU/CSU,1394,107.230769,0.001435,0.000000,51.65,0,0.631068,-0.199800,5.451456,0.548544,0.000012
4,SPD,196,65.333333,0.010204,0.000000,27.10,0,0.960000,-0.004800,6.480000,0.400000,0.000005
...,...,...,...,...,...,...,...,...,...,...,...,...
211376,FDP,4346,127.823529,0.000920,0.000230,49.25,0,0.547434,-0.010658,5.595645,0.516330,0.000022
211377,GRUENE,4668,97.250000,0.001071,0.000000,53.55,0,0.500000,0.023796,5.676901,0.517544,0.000021
211378,CDU/CSU,5346,90.610169,0.000561,0.000000,60.60,0,0.467822,0.041896,5.451733,0.528465,0.000022
211379,CDU/CSU,60,30.000000,0.000000,0.000000,71.55,0,1.000000,0.000000,6.125000,0.500000,0.000003


In [13]:
data_feats.corr()

Unnamed: 0,text_length,avg_sentence_length,relative_num_exclamations,relative_num_questions,readability,num_profanities,TTR,sentiment,avg_word_length,stop_word_fraction,avg_tfidf
text_length,1.0,0.036526,-0.008238,-0.11827,-0.020628,0.187916,-0.789592,-0.018739,0.10463,0.130579,0.904429
avg_sentence_length,0.036526,1.0,-0.080405,-0.004984,-0.587904,-0.015631,-0.146735,-0.053262,0.301289,0.267594,0.111007
relative_num_exclamations,-0.008238,-0.080405,1.0,-0.018576,0.033351,0.004064,0.019774,0.00803,-0.024967,-0.052415,-0.016188
relative_num_questions,-0.11827,-0.004984,-0.018576,1.0,0.025641,-0.018665,0.162373,-0.0204,-0.033981,0.013755,-0.157335
readability,-0.020628,-0.587904,0.033351,0.025641,1.0,0.026782,0.018349,0.06739,-0.7004,0.097135,-0.054246
num_profanities,0.187916,-0.015631,0.004064,-0.018665,0.026782,1.0,-0.156086,-0.030985,-0.00692,0.034507,0.177145
TTR,-0.789592,-0.146735,0.019774,0.162373,0.018349,-0.156086,1.0,0.02554,-0.13757,-0.319211,-0.917258
sentiment,-0.018739,-0.053262,0.00803,-0.0204,0.06739,-0.030985,0.02554,1.0,-0.049604,0.012606,-0.028106
avg_word_length,0.10463,0.301289,-0.024967,-0.033981,-0.7004,-0.00692,-0.13757,-0.049604,1.0,0.07317,0.168758
stop_word_fraction,0.130579,0.267594,-0.052415,0.013755,0.097135,0.034507,-0.319211,0.012606,0.07317,1.0,0.218882


In [14]:
pd.get_dummies(data_feats.party)

Unnamed: 0,AfD,CDU/CSU,FDP,GRUENE,PDS/LINKE,SPD,independent
0,0,1,0,0,0,0,0
1,0,1,0,0,0,0,0
2,0,0,0,0,1,0,0
3,0,1,0,0,0,0,0
4,0,0,0,0,0,1,0
...,...,...,...,...,...,...,...
211376,0,0,1,0,0,0,0
211377,0,0,0,1,0,0,0
211378,0,1,0,0,0,0,0
211379,0,1,0,0,0,0,0


In [157]:
data_feats_final = pd.concat([data_feats.drop(columns=['party']), pd.get_dummies(data_feats.party)], axis=1)
data_feats_final

Unnamed: 0,text_length,avg_sentence_length,relative_num_exclamations,relative_num_questions,readability,num_profanities,TTR,sentiment,avg_word_length,stop_word_fraction,avg_tfidf,AfD,CDU/CSU,FDP,GRUENE,PDS/LINKE,SPD,independent
0,5070,123.658537,0.000592,0.000394,25.45,1,0.577912,-0.082449,6.417549,0.470499,0.000023,0,1,0,0,0,0,0
1,36626,133.185455,0.000055,0.000055,25.65,0,0.350135,0.004907,6.389919,0.474276,0.000046,0,1,0,0,0,0,0
2,1589,176.555556,0.001259,0.000000,10.90,0,0.741294,0.037170,6.666667,0.447761,0.000014,0,0,0,0,1,0,0
3,1394,107.230769,0.001435,0.000000,51.65,0,0.631068,-0.199800,5.451456,0.548544,0.000012,0,1,0,0,0,0,0
4,196,65.333333,0.010204,0.000000,27.10,0,0.960000,-0.004800,6.480000,0.400000,0.000005,0,0,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
211376,4346,127.823529,0.000920,0.000230,49.25,0,0.547434,-0.010658,5.595645,0.516330,0.000022,0,0,1,0,0,0,0
211377,4668,97.250000,0.001071,0.000000,53.55,0,0.500000,0.023796,5.676901,0.517544,0.000021,0,0,0,1,0,0,0
211378,5346,90.610169,0.000561,0.000000,60.60,0,0.467822,0.041896,5.451733,0.528465,0.000022,0,1,0,0,0,0,0
211379,60,30.000000,0.000000,0.000000,71.55,0,1.000000,0.000000,6.125000,0.500000,0.000003,0,1,0,0,0,0,0


In [28]:
data_feats_lda = pd.concat([data_feats, lda_df], axis=1)
data_feats_lda

Unnamed: 0,party,text_length,avg_sentence_length,relative_num_exclamations,relative_num_questions,readability,num_profanities,TTR,sentiment,avg_word_length,...,lda_190,lda_191,lda_192,lda_193,lda_194,lda_195,lda_196,lda_197,lda_198,lda_199
0,CDU/CSU,5070,123.658537,0.000592,0.000394,25.45,1,0.577912,-0.082449,6.417549,...,0.030787,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015
1,CDU/CSU,36626,133.185455,0.000055,0.000055,25.65,0,0.350135,0.004907,6.389919,...,0.000002,0.011875,0.000002,0.000002,0.000002,0.000002,0.000002,0.000002,0.000002,0.000002
2,PDS/LINKE,1589,176.555556,0.001259,0.000000,10.90,0,0.741294,0.037170,6.666667,...,0.000046,0.000046,0.000046,0.000046,0.000046,0.000046,0.000046,0.000046,0.000046,0.000046
3,CDU/CSU,1394,107.230769,0.001435,0.000000,51.65,0,0.631068,-0.199800,5.451456,...,0.000053,0.000053,0.000053,0.000053,0.000053,0.000053,0.000053,0.000053,0.000053,0.000053
4,SPD,196,65.333333,0.010204,0.000000,27.10,0,0.960000,-0.004800,6.480000,...,0.000313,0.000313,0.000313,0.000313,0.000313,0.000313,0.000313,0.000313,0.000313,0.000313
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
211376,FDP,4346,127.823529,0.000920,0.000230,49.25,0,0.547434,-0.010658,5.595645,...,0.000016,0.000016,0.000016,0.000016,0.000016,0.000016,0.000016,0.112486,0.000016,0.000016
211377,GRUENE,4668,97.250000,0.001071,0.000000,53.55,0,0.500000,0.023796,5.676901,...,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015,0.000015
211378,CDU/CSU,5346,90.610169,0.000561,0.000000,60.60,0,0.467822,0.041896,5.451733,...,0.000013,0.000013,0.000013,0.006077,0.000013,0.035853,0.000013,0.000013,0.000013,0.000013
211379,CDU/CSU,60,30.000000,0.000000,0.000000,71.55,0,1.000000,0.000000,6.125000,...,0.001000,0.001000,0.001000,0.001000,0.001000,0.001000,0.001000,0.001000,0.001000,0.001000


In [164]:
data_feats_lda_final = pd.concat([data_feats_final, lda_df], axis=1)
data_feats_lda_final.corr()['GRUENE']

text_length                 -0.018864
avg_sentence_length         -0.008894
relative_num_exclamations    0.000609
relative_num_questions       0.018702
readability                  0.035226
num_profanities              0.017512
TTR                         -0.015378
sentiment                   -0.021615
avg_word_length             -0.020231
stop_word_fraction           0.026132
avg_tfidf                   -0.003202
AfD                         -0.033886
CDU/CSU                     -0.270156
FDP                         -0.150099
GRUENE                       1.000000
PDS/LINKE                   -0.135625
SPD                         -0.241312
independent                 -0.022131
lda_0                        0.021550
lda_1                        0.026423
lda_2                       -0.013564
lda_3                       -0.000660
lda_4                        0.000445
lda_5                       -0.063889
lda_6                        0.042621
lda_7                        0.013858
lda_8       

In [29]:
data_final = data_feats_lda.dropna(axis=0)
X = data_final.drop(columns=['party'])
y = data_final['party']

In [30]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.1, random_state = 0)

In [31]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
cols = X_train.columns
X_train = pd.DataFrame(scaler.fit_transform(X_train), columns=[cols])
X_test = pd.DataFrame(scaler.transform(X_test))

In [32]:
# train a logistic regression model on the training set
from sklearn.linear_model import LogisticRegression


# instantiate the model
logreg = LogisticRegression(solver='liblinear', random_state=0)


# fit the model
logreg.fit(X_train, y_train)



LogisticRegression(random_state=0, solver='liblinear')

In [33]:
y_pred_test = logreg.predict(X_test)

In [34]:
from sklearn.metrics import accuracy_score

print('Model accuracy score: {0:0.4f}'. format(accuracy_score(y_test, y_pred_test)))

Model accuracy score: 0.3607


In [35]:
from collections import Counter
counter = Counter(y_pred_test)
counter

Counter({'CDU/CSU': 12919,
         'SPD': 5231,
         'PDS/LINKE': 1093,
         'GRUENE': 767,
         'FDP': 67,
         'AfD': 4})

In [36]:
Counter(y_test)

Counter({'GRUENE': 2988,
         'FDP': 2573,
         'CDU/CSU': 6658,
         'SPD': 5521,
         'PDS/LINKE': 2140,
         'AfD': 146,
         'independent': 55})

In [37]:
data.party.value_counts()

CDU/CSU        66133
SPD            56357
GRUENE         29541
FDP            25955
PDS/LINKE      21747
AfD             1495
independent      642
Name: party, dtype: int64