In [6]:
import pandas as pd
import json
import glob
import os

In [7]:
# settings

folder_path = "../data/19th_20th_speeches_all"
test_file = "LP_19_Sitzung_35.json"

***
## **Understand the Structure**
***

#### **Get files and file content**

In [8]:
# get a list of all filenames
json_files = glob.glob(os.path.join(folder_path, "*.json"))

print("Nr. of session protocols:", len(json_files))
json_files[:5]

Nr. of session protocols: 329


['../data/19th_20th_speeches_all\\LP_19_Sitzung_1.json',
 '../data/19th_20th_speeches_all\\LP_19_Sitzung_10.json',
 '../data/19th_20th_speeches_all\\LP_19_Sitzung_100.json',
 '../data/19th_20th_speeches_all\\LP_19_Sitzung_101.json',
 '../data/19th_20th_speeches_all\\LP_19_Sitzung_102.json']

In [9]:
# get a test file (later in loop over all json files)
with open(f"{folder_path}/{test_file}", 'r') as file:
    data = json.load(file)


# print the data
print(data.keys())

dict_keys(['Protocol', 'AgendaItems', 'NLPSpeeches'])


In [10]:
# protocol and agends irrelevant --> interested in NLP speeches
print("Data Type:", type(data["NLPSpeeches"]))

# fist elements keys
data["NLPSpeeches"][0].keys()

# here, second loop necessary, loop over length of data["NLPSpeeches"]

Data Type: <class 'list'>


dict_keys(['CategoryCoveredTags', 'NamedEntities', 'Tokens', 'Sentiments', 'AbstractSummary', 'AbstractSummaryPEGASUS', 'ExtractiveSummary', 'EnglishTranslationOfSpeech', 'EnglishTranslationScore', 'Text', 'SpeakerId', 'Segments', 'ProtocolNumber', 'LegislaturePeriod', 'AgendaItemNumber', 'MongoId', 'Id'])

***
#### **Find speech text**

In [11]:
# example speech text of speech nr. 30 (full, not segmented with shouts)
print(data['NLPSpeeches'][30]["Text"])

Das Thema Wohnungen ist mit Recht ein Schwerpunkt unserer Arbeit in der Koalition und auch in der Koalitionsvereinbarung. Wir wollen 1,5 Millionen neue Wohnungen bauen, und zwar Wohnungen zu bezahlbaren Mieten. Dazu wollen wir die entsprechenden Rahmenbedingungen schaffen. Wir wollen auch die Mieter besser schützen, indem sie mehr Auskunft bekommen. Die Grundlage für alle Arbeiten ist der Koalitionsvertrag. Das gilt für die von Ihnen angesprochene Ministerin genauso wie für Herrn Luczak. Da gibt es auch gar keinen Gesprächsbedarf bei uns.
Jetzt geht es darum, sowohl die Maßnahmen für den sozialen Wohnungsbau als auch die Maßnahmen für den freien Wohnungsbau gerade auch durch das bei der Klausurtagung von den geschäftsführenden Fraktionsvorständen beschlossene Paket schnell umzusetzen. Dazu laufen Gespräche. Wir brauchen mehr Bauland; da kann auch die BImA mithelfen. Aber wir brauchen eben auch schnellere Verfahren, und wir brauchen bessere Auskunftsrechte für die Mieterinnen und Mieter

In [12]:
# under segments, you get the speech, separated into chunks, with shouts inbetween
data['NLPSpeeches'][30]["Segments"]

[{'Text': 'Das Thema Wohnungen ist mit Recht ein Schwerpunkt unserer Arbeit in der Koalition und auch in der Koalitionsvereinbarung. Wir wollen 1,5\xa0Millionen neue Wohnungen bauen, und zwar Wohnungen zu bezahlbaren Mieten. Dazu wollen wir die entsprechenden Rahmenbedingungen schaffen. Wir wollen auch die Mieter besser schützen, indem sie mehr Auskunft bekommen. Die Grundlage für alle Arbeiten ist der Koalitionsvertrag. Das gilt für die von Ihnen angesprochene Ministerin genauso wie für Herrn Luczak. Da gibt es auch gar keinen Gesprächsbedarf bei uns.\n',
  'Shouts': [],
  'SpeechId': '931f3906-0d3c-446c-6acd-08da102a68d8',
  'Id': '24d45fae-4551-4cce-7868-08da102a68db'},
 {'Text': 'Jetzt geht es darum, sowohl die Maßnahmen für den sozialen Wohnungsbau als auch die Maßnahmen für den freien Wohnungsbau gerade auch durch das bei der Klausurtagung von den geschäftsführenden Fraktionsvorständen beschlossene Paket schnell umzusetzen. Dazu laufen Gespräche. Wir brauchen mehr Bauland; da kan

In [13]:
# another example, with applause

# full speech
print(data['NLPSpeeches'][24]["Text"]) 

# segments with applause breaks
data['NLPSpeeches'][24]["Segments"]

Herr Kollege, als ich Bundeskanzlerin wurde, hatte Deutschland 5 Millionen Arbeitslose. Jetzt haben wir die niedrigste Arbeitslosigkeit seit der Wiedervereinigung,
auch durch die Reformen – ich will das ausdrücklich sagen – meines Vorgängers. Das ist der Weg, den wir gehen müssen. Wir haben inzwischen den Mindestlohn eingeführt. Wir haben eine deutliche Verbesserung für viele Menschen erreicht, und da, wo die Verbesserungen noch nicht angekommen sind, werden wir durch eine Kommission „Gleichwertige Lebensverhältnisse“ in Deutschland darauf achten, dass dies noch geschieht.
Aber ich glaube, die Frage so zu formulieren, dass es Deutschland schlechter geht, ist aus meiner Sicht falsch. Im Übrigen haben die jeweiligen Handelsabkommen auch in Deutschland zu großen Arbeitsplatzgewinnen geführt, weil sie fair und vernünftig ausgehandelt waren. Deshalb werde ich auch weiter dem freien Welthandel auf einer multilateralen Basis das Wort reden. Ich glaube, Ihre Abschottung und Ihr Glaube, alles a

[{'Text': 'Herr Kollege, als ich Bundeskanzlerin wurde, hatte Deutschland 5\xa0Millionen Arbeitslose. Jetzt haben wir die niedrigste Arbeitslosigkeit seit der Wiedervereinigung,\n',
  'Shouts': [{'Text': '(Beifall bei der CDU/CSU sowie bei Abgeordneten der FDP)',
    'FirstName': None,
    'LastName': None,
    'Fraction': None,
    'Party': None,
    'SpeakerId': None,
    'SpeechSegmentId': '0e80b8dc-22e4-401b-c3e0-08da0f22a00b',
    'Id': '941f4408-7c4f-4ac8-0dd9-08da0f22a00e'}],
  'SpeechId': '563e2437-3e04-4221-62f3-08da0f22a008',
  'Id': '0e80b8dc-22e4-401b-c3e0-08da0f22a00b'},
 {'Text': 'auch durch die Reformen\xa0– ich will das ausdrücklich sagen\xa0– meines Vorgängers. Das ist der Weg, den wir gehen müssen. Wir haben inzwischen den Mindestlohn eingeführt. Wir haben eine deutliche Verbesserung für viele Menschen erreicht, und da, wo die Verbesserungen noch nicht angekommen sind, werden wir durch eine Kommission „Gleichwertige Lebensverhältnisse“ in Deutschland darauf achten, da

***
#### **Get Speaker ID**

In [14]:
data['NLPSpeeches'][30].keys() 
# delivers SpeakerId

dict_keys(['CategoryCoveredTags', 'NamedEntities', 'Tokens', 'Sentiments', 'AbstractSummary', 'AbstractSummaryPEGASUS', 'ExtractiveSummary', 'EnglishTranslationOfSpeech', 'EnglishTranslationScore', 'Text', 'SpeakerId', 'Segments', 'ProtocolNumber', 'LegislaturePeriod', 'AgendaItemNumber', 'MongoId', 'Id'])

In [15]:
# reffering speaker Id of the speech

data['NLPSpeeches'][30]["SpeakerId"]

'11001478'

***
#### **Get Speech ID**

In [16]:
data['NLPSpeeches'][30].keys() 
# delivers Id --> speech id

dict_keys(['CategoryCoveredTags', 'NamedEntities', 'Tokens', 'Sentiments', 'AbstractSummary', 'AbstractSummaryPEGASUS', 'ExtractiveSummary', 'EnglishTranslationOfSpeech', 'EnglishTranslationScore', 'Text', 'SpeakerId', 'Segments', 'ProtocolNumber', 'LegislaturePeriod', 'AgendaItemNumber', 'MongoId', 'Id'])

In [17]:
data['NLPSpeeches'][30]["Id"]

'931f3906-0d3c-446c-6acd-08da102a68d8'

***
#### **Investigate further properties**


* Bundestagsmine reports some NLP analysis properties
* Brief investigation on two examples
* $\to$ in our usecase propably irrelevant

* Some other properties on legislative period, agenda item evtl. helpful $\to$ record them

In [18]:
# example 1
print("NamedEntities: ", data['NLPSpeeches'][30]['NamedEntities'])
print("Tokens: ", data['NLPSpeeches'][30]['Tokens']) 
print("Sentiments: ", data['NLPSpeeches'][30]['Sentiments'])
print("AbstractSummary: ", data['NLPSpeeches'][30]['AbstractSummary'])
print("AbstractSummaryPEGASUS: ", data['NLPSpeeches'][30]['AbstractSummaryPEGASUS'])
print("ExtractiveSummary: ", data['NLPSpeeches'][30]['ExtractiveSummary'])

NamedEntities:  [{'LemmaValue': 'Ministerin', 'NLPSpeechId': '931f3906-0d3c-446c-6acd-08da102a68d8', 'ShoutId': '00000000-0000-0000-0000-000000000000', 'Begin': 452, 'End': 462, 'Value': 'PER', 'Id': '0577b27e-e55c-4247-70c8-08da102a68e5'}, {'LemmaValue': 'Herrn Luczak', 'NLPSpeechId': '931f3906-0d3c-446c-6acd-08da102a68d8', 'ShoutId': '00000000-0000-0000-0000-000000000000', 'Begin': 479, 'End': 491, 'Value': 'PER', 'Id': 'f069d3dc-4dac-4f20-70c9-08da102a68e5'}, {'LemmaValue': 'sozial', 'NLPSpeechId': '931f3906-0d3c-446c-6acd-08da102a68d8', 'ShoutId': '00000000-0000-0000-0000-000000000000', 'Begin': 595, 'End': 603, 'Value': 'MISC', 'Id': '1aa35abe-71f1-4f3e-70ca-08da102a68e5'}, {'LemmaValue': 'BImA', 'NLPSpeechId': '931f3906-0d3c-446c-6acd-08da102a68d8', 'ShoutId': '00000000-0000-0000-0000-000000000000', 'Begin': 863, 'End': 867, 'Value': 'ORG', 'Id': 'f60ba2c8-40d5-4b6c-70cb-08da102a68e5'}]
Tokens:  None
Sentiments:  [{'NLPSpeechId': '931f3906-0d3c-446c-6acd-08da102a68d8', 'ShoutId':

In [19]:
# example 2
print("NamedEntities: ", data['NLPSpeeches'][24]['NamedEntities'])
print("Tokens: ", data['NLPSpeeches'][24]['Tokens'])
print("Sentiments: ", data['NLPSpeeches'][24]['Sentiments'])
print("AbstractSummary: ", data['NLPSpeeches'][24]['AbstractSummary'])
print("AbstractSummaryPEGASUS: ", data['NLPSpeeches'][24]['AbstractSummaryPEGASUS'])
print("ExtractiveSummary: ", data['NLPSpeeches'][24]['ExtractiveSummary'])

NamedEntities:  [{'LemmaValue': 'Bundeskanzlerin', 'NLPSpeechId': '563e2437-3e04-4221-62f3-08da0f22a008', 'ShoutId': '00000000-0000-0000-0000-000000000000', 'Begin': 22, 'End': 37, 'Value': 'MISC', 'Id': 'aed591ca-be94-43c4-c45f-08da0f22a015'}, {'LemmaValue': 'Deutschland', 'NLPSpeechId': '563e2437-3e04-4221-62f3-08da0f22a008', 'ShoutId': '00000000-0000-0000-0000-000000000000', 'Begin': 51, 'End': 62, 'Value': 'LOC', 'Id': 'db9f11ce-6bbd-43ac-c460-08da0f22a015'}, {'LemmaValue': 'Wiedervereinigung', 'NLPSpeechId': '563e2437-3e04-4221-62f3-08da0f22a008', 'ShoutId': '00000000-0000-0000-0000-000000000000', 'Begin': 145, 'End': 162, 'Value': 'MISC', 'Id': '10ffff21-9229-4439-c461-08da0f22a015'}, {'LemmaValue': 'Kommission', 'NLPSpeechId': '563e2437-3e04-4221-62f3-08da0f22a008', 'ShoutId': '00000000-0000-0000-0000-000000000000', 'Begin': 478, 'End': 488, 'Value': 'ORG', 'Id': '3de7938e-e3c4-4ea9-c462-08da0f22a015'}, {'LemmaValue': 'Deutschland', 'NLPSpeechId': '563e2437-3e04-4221-62f3-08da0f

In [20]:
# potentially helpful properties
print("ProtocolNumber: ", data['NLPSpeeches'][30]['ProtocolNumber'])
print("LegislaturePeriod: ", data['NLPSpeeches'][30]['LegislaturePeriod'])
print("AgendaItemNumber: ", data['NLPSpeeches'][30]['AgendaItemNumber'])
print("MongoId: ", data['NLPSpeeches'][30]['MongoId']) # mondo DB --> database ID?

ProtocolNumber:  35
LegislaturePeriod:  19
AgendaItemNumber:  1
MongoId:  61ffafe7d0740928515ea623


***
## **Handle one whole file**
***

In [21]:
print("Nr. of Speeches:", len(data["NLPSpeeches"]))

Nr. of Speeches: 74


In [22]:
# legislative period 19, session 35
df_LP19_35 = pd.DataFrame(columns=['speech_id', 'speaker_id', 'speech_text', 'legislative_period', 'protocol_nr', 'agenda_item_number'])


for i, speech in enumerate(data["NLPSpeeches"]):


    row = {
        'speech_id' : speech['Id'], 
        'speaker_id' : speech['SpeakerId'], 
        'speech_text' : speech['Text'], 
        'legislative_period' : speech['LegislaturePeriod'], 
        'protocol_nr' : speech['ProtocolNumber'], 
        'agenda_item_number' : speech['AgendaItemNumber']
    }

    df_LP19_35 = pd.concat([df_LP19_35, pd.DataFrame([row])], ignore_index=True)
  
df_LP19_35



Unnamed: 0,speech_id,speaker_id,speech_text,legislative_period,protocol_nr,agenda_item_number
0,851aed59-8247-4b96-2769-08da0d9e2391,11001478,Es ist Gegenstand meiner Gespräche mit dem Bun...,19,35,1
1,46b1bec8-45cb-4d82-f1e7-08da0daf380d,11001478,"Ich sehe sehr wohl, dass es wünschenswert ist,...",19,35,1
2,a1c908ab-52ba-42da-f853-08da0daf380d,11001478,Ich sehe noch Gesprächsbedarf innerhalb der Bu...,19,35,1
3,1e6f86cd-5efa-4f2e-f9eb-08da0daf380d,11001478,"Auf dem G-7-Gipfel haben wir, glaube ich, nich...",19,35,1
4,1160cbc7-5d16-4074-fcef-08da0daf380d,11001478,"Ich habe in meiner Einführung gesagt, dass sic...",19,35,1
...,...,...,...,...,...,...
69,3912ac29-ae94-4d94-05be-08da0f05b642,11004831,"Verehrte Frau Bundeskanzlerin, die G 7 brauche...",19,35,1
70,c0b49e79-da01-43aa-26d8-08da0d9e2391,11004905,,19,35,1
71,fb54d2c4-2a96-4bc1-6ba7-08da0f22a008,11004911,Sehr geehrter Herr Präsident! Werte Kolleginne...,19,35,3
72,70868387-5556-4379-4cd5-08da0e9b3c58,11004914,,19,35,1


***
## **Go over all files**
***

In [23]:
len(json_files)

329

In [None]:
# df for all speeches, from all 329 sessions
df_all = pd.DataFrame(columns=['speech_id', 'speaker_id', 'speech_text', 'legislative_period', 'protocol_nr', 'agenda_item_number'])


# loop over all files
for session_file in json_files:

    # get temporary data from current session
    with open(f"{session_file}", 'r') as file:
        data_temp = json.load(file)

    # make df
    df_temp = pd.DataFrame(columns=['speech_id', 'speaker_id', 'speech_text', 'legislative_period', 'protocol_nr', 'agenda_item_number'])


    # loop over all speeches, extract relevant features
    for i, speech in enumerate(data_temp["NLPSpeeches"]):
        row = {
            'speech_id' : speech['Id'], 
            'speaker_id' : speech['SpeakerId'], 
            'speech_text' : speech['Text'], 
            'legislative_period' : speech['LegislaturePeriod'], 
            'protocol_nr' : speech['ProtocolNumber'], 
            'agenda_item_number' : speech['AgendaItemNumber']
        }

        # add current speech
        df_temp = pd.concat([df_temp, pd.DataFrame([row])], ignore_index=True)


    df_all = pd.concat([df_all, df_temp], ignore_index=True)

# ~30 sec. runtime

In [25]:
# sainity checks

print("Legislative Periods: ", df_all['legislative_period'].unique()) # fine

print("Nr. of sessions in 19th: ", len(df_all[df_all['legislative_period'] == 19]['protocol_nr'].unique())) # fine
print("Nr. of sessions in 20th: ", len(df_all[df_all['legislative_period'] == 20]['protocol_nr'].unique())) # just 90?

nr_sessions_19 = len(df_all[df_all['legislative_period'] == 19]['protocol_nr'].unique())
nr_sessions_20 = len(df_all[df_all['legislative_period'] == 20]['protocol_nr'].unique())

print("Nr. of sessions: ", nr_sessions_19 + nr_sessions_20)
print("Session Nr. check: ", nr_sessions_19 + nr_sessions_20 == len(json_files))

Legislative Periods:  [19 20]
Nr. of sessions in 19th:  239
Nr. of sessions in 20th:  90
Nr. of sessions:  329
Session Nr. check:  True


In [26]:
# first glance
df_all

Unnamed: 0,speech_id,speaker_id,speech_text,legislative_period,protocol_nr,agenda_item_number
0,0c6d709a-3af2-4e75-55ac-08da0f22a008,11001074,,19,1,3
1,f7f58b13-85f3-424a-6864-08da102a68d8,11001235,"Herr Präsident, ich nehme die Wahl an.\nDann b...",19,1,6
2,d0c84378-49ab-47ce-61aa-08da102a68d8,11001938,Das ist der Fall. – Ich sehe keine weiteren Vo...,19,1,3
3,649d0b8b-6770-47cf-ff0a-08da0f05b641,11001938,,19,1,3
4,5516f789-3f1e-47cc-522d-08da0f22a008,11002190,,19,1,3
...,...,...,...,...,...,...
33944,49664a2c-adde-4492-bfd5-97d1a99a83f7,11005228,Frau Präsidentin! Meine Damen! Meine Herren! I...,20,92,1
33945,851ade38-70d2-46c1-8125-8d799c7602db,11005251,Sehr geehrte Frau Präsidentin! Sehr geehrte Ko...,20,92,2
33946,63673dff-7423-4a3d-a613-05c0ee1b23c1,11005251,Sehr geehrte Frau Präsidentin! Sehr geehrte Ko...,20,92,5
33947,ef2ca5c9-7242-42b6-b574-b22e40cf0253,11005263,Sehr geehrter Herr Präsident! Liebe Kolleginne...,20,92,3


In [27]:
# NaN's? --> no
df_all[df_all.isna().any(axis=1)]

Unnamed: 0,speech_id,speaker_id,speech_text,legislative_period,protocol_nr,agenda_item_number


In [28]:
df_all['speech_text'][0] # but empty texts

''

In [29]:
df_all_clean = df_all[df_all['speech_text'] != ''].reset_index()
print("Kept", len(df_all_clean), "speeches.")

Kept 32589 speeches.


In [30]:
# save/export

df_all_clean.to_csv("../data/speeches.csv", index = False)

In [31]:
# get unique speaker IDs

print("Nr. unqiue speaker: ", len(df_all_clean["speaker_id"].unique()))

unique_speaker = pd.DataFrame((df_all_clean["speaker_id"].unique())).rename(columns={0: 'speaker_id'})
unique_speaker.to_csv("../data/unique_speaker_ids.csv", index=False)

Nr. unqiue speaker:  1034


***
## **Old: Matching test with Ella**
***

In [32]:
# quite some work, but we could write a function to match speaker ID to names from the shouts
# --> no guarantee to match all 

# get the speakers name using the Bundestag API --> GetSpeakerByID Endpoint

for i in range(len(data['NLPSpeeches'])):

    #print(data['NLPSpeeches'][i].keys())

    for j in range(len(data['NLPSpeeches'][i]["Segments"])):
        #print(data['NLPSpeeches'][i]["Segments"][j]["Shouts"])

        if len(data['NLPSpeeches'][i]["Segments"][j]["Shouts"]) > 0:
            
            for k in range(len(data['NLPSpeeches'][i]["Segments"][j]["Shouts"])):

                if data['NLPSpeeches'][i]["Segments"][j]["Shouts"][k]["FirstName"] != None:

                    print(data['NLPSpeeches'][i]["Segments"][j]["Shouts"][k]["FirstName"])
                    print(data['NLPSpeeches'][i]["Segments"][j]["Shouts"][k]["LastName"])
                    print(data['NLPSpeeches'][i]["Segments"][j]["Shouts"][k]["Fraction"])
                    print(data['NLPSpeeches'][i]["Segments"][j]["Shouts"][k]["SpeakerId"])
            #print()

        #print(data['NLPSpeeches'][i][j]['Shouts']["LastName"])
               
               
               
               
               #[28]['Segments']#['Shouts']

Jürgen
Braun
AfD
11004680
­Filiz
Polat
Bündnis 90 / Die Grünen
None
Jan
Korte
Die Linke
11003790


None
None
nichts
geschafft!
None
None
Volker
Kauder
CDU/CSU
11001074
Marco
Buschmann
FDP
11004023
Heike
Hänsel
Die Linke
11003763


None
None
Steffi
Lemke
Bündnis 90 / Die Grünen
11002720
W.
Birkwald
Die Linke
None
Steffi
Lemke
Bündnis 90 / Die Grünen
11002720
Beate
Müller-Gemmeke
Bündnis 90 / Die Grünen
11004117
Steffi
Lemke
Bündnis 90 / Die Grünen
11002720
W.
Birkwald
Die Linke
None
Jessica
Tatti
Die Linke
11004911
W.
Birkwald
Die Linke
None
Jessica
Tatti
Die Linke
11004911
Kerstin
Tack
SPD
11004173
Beate
Müller-Gemmeke
Bündnis 90 / Die Grünen
11004117
Kerstin
Tack
SPD
11004173
Martin
Rosemann
SPD
11004389
Peter
Weiß
CDU/CSU
11003255
Kai
Whittaker
CDU/CSU
11004443
W.
Birkwald
Die Linke
None
Kai
Whittaker
CDU/CSU
11004443
Johannes
Vogel
FDP
11004179
Beate
Müller-Gemmeke
Bündnis 90 / Die Grünen
11004117
W.
Birkwald
Die Linke
None
Christian
Lindner
FDP
11004097
Graf
Lambsdorff
FDP
None
W.
