In [1]:
import pandas as pd
import json
import glob
import os

In [38]:
# settings

folder_path = "../data/19th_20th_speeches_all"
test_file = "LP_20_Sitzung_105.json"

***
## **Understand the Structure**
***

#### **Get files and file content**

In [23]:
# get a list of all filenames
json_files = glob.glob(os.path.join(folder_path, "*.json"))

print("Nr. of session protocols:", len(json_files))
json_files[:5]

Nr. of session protocols: 438


['../data/19th_20th_speeches_all\\LP_19_Sitzung_1.json',
 '../data/19th_20th_speeches_all\\LP_19_Sitzung_10.json',
 '../data/19th_20th_speeches_all\\LP_19_Sitzung_100.json',
 '../data/19th_20th_speeches_all\\LP_19_Sitzung_101.json',
 '../data/19th_20th_speeches_all\\LP_19_Sitzung_102.json']

In [39]:
# get a test file (later in loop over all json files)
with open(f"{folder_path}/{test_file}", 'r') as file:
    data = json.load(file)


# print the data
print(data.keys())

dict_keys(['Protocol', 'AgendaItems', 'NLPSpeeches', 'SpeechCategories'])


In [40]:
# protocol and agends irrelevant --> interested in NLP speeches
print("Data Type:", type(data["NLPSpeeches"]))

# fist elements keys
data["NLPSpeeches"][0].keys()

# here, second loop necessary, loop over length of data["NLPSpeeches"]

Data Type: <class 'list'>


dict_keys(['CategoryCoveredTags', 'NamedEntities', 'Tokens', 'Sentiments', 'AbstractSummary', 'AbstractSummaryPEGASUS', 'GetAbstractSummaryPEGASUS', 'GetAbstractSummary', 'GetExtractiveSummary', 'ExtractiveSummary', 'EnglishTranslationOfSpeech', 'EnglishTranslationScore', 'Text', 'SpeakerId', 'Segments', 'ProtocolNumber', 'LegislaturePeriod', 'AgendaItemNumber', 'MongoId', 'Id'])

***
#### **Find speech text**

In [41]:
# example speech text of speech nr. 30 (full, not segmented with shouts)
print(data['NLPSpeeches'][30]["Text"])

Sehr geehrte Frau Präsidentin! Sehr geehrter Herr Abgeordneter, natürlich sind mir die damaligen Anträge bekannt. Ich bezog mich hier auf eine
                    weitere Auszahlung, die wir vorgenommen haben. Die erste Auszahlung ist ja schon erfolgt; da hatten Sie einen anderen Vorschlag, den wir nicht aufgegriffen
                    haben. Stattdessen haben wir damals den Vorschlag umgesetzt, den ich hier auch vorgetragen habe: Es sind 1,5 Milliarden Euro als direkte Energiehilfe geflossen,
                    und es gab ein Verrechnungssystem, das sich dann als im Einzelfall schwer handhabbar erwiesen hat. Auf der Grundlage haben wir dann – ohne Ihre Aufforderung und
                    ohne Ihre Unterstützung – noch einmal 2,5 Milliarden Euro nachgelegt. Da ist die erste Lesung, soweit ich informiert bin, in der nächsten Sitzungswoche zu
                    erwarten.
– Morgen ist die erste Lesung sogar, höre ich gerade, also noch schneller als gedacht.
Ich möchte aber darauf hinw

In [27]:
# under segments, you get the speech, separated into chunks, with shouts inbetween
data['NLPSpeeches'][30]["Segments"]

[{'Text': 'Das Thema Wohnungen ist mit Recht ein Schwerpunkt unserer Arbeit in der Koalition und auch in der Koalitionsvereinbarung. Wir wollen 1,5\xa0Millionen neue Wohnungen bauen, und zwar Wohnungen zu bezahlbaren Mieten. Dazu wollen wir die entsprechenden Rahmenbedingungen schaffen. Wir wollen auch die Mieter besser schützen, indem sie mehr Auskunft bekommen. Die Grundlage für alle Arbeiten ist der Koalitionsvertrag. Das gilt für die von Ihnen angesprochene Ministerin genauso wie für Herrn Luczak. Da gibt es auch gar keinen Gesprächsbedarf bei uns.\n',
  'Shouts': [],
  'SpeechId': '931f3906-0d3c-446c-6acd-08da102a68d8',
  'Id': '24d45fae-4551-4cce-7868-08da102a68db'},
 {'Text': 'Jetzt geht es darum, sowohl die Maßnahmen für den sozialen Wohnungsbau als auch die Maßnahmen für den freien Wohnungsbau gerade auch durch das bei der Klausurtagung von den geschäftsführenden Fraktionsvorständen beschlossene Paket schnell umzusetzen. Dazu laufen Gespräche. Wir brauchen mehr Bauland; da kan

In [28]:
# another example, with applause

# full speech
print(data['NLPSpeeches'][24]["Text"]) 

# segments with applause breaks
data['NLPSpeeches'][24]["Segments"]

Herr Kollege, als ich Bundeskanzlerin wurde, hatte Deutschland 5 Millionen Arbeitslose. Jetzt haben wir die niedrigste Arbeitslosigkeit seit der Wiedervereinigung,
auch durch die Reformen – ich will das ausdrücklich sagen – meines Vorgängers. Das ist der Weg, den wir gehen müssen. Wir haben inzwischen den Mindestlohn eingeführt. Wir haben eine deutliche Verbesserung für viele Menschen erreicht, und da, wo die Verbesserungen noch nicht angekommen sind, werden wir durch eine Kommission „Gleichwertige Lebensverhältnisse“ in Deutschland darauf achten, dass dies noch geschieht.
Aber ich glaube, die Frage so zu formulieren, dass es Deutschland schlechter geht, ist aus meiner Sicht falsch. Im Übrigen haben die jeweiligen Handelsabkommen auch in Deutschland zu großen Arbeitsplatzgewinnen geführt, weil sie fair und vernünftig ausgehandelt waren. Deshalb werde ich auch weiter dem freien Welthandel auf einer multilateralen Basis das Wort reden. Ich glaube, Ihre Abschottung und Ihr Glaube, alles a

[{'Text': 'Herr Kollege, als ich Bundeskanzlerin wurde, hatte Deutschland 5\xa0Millionen Arbeitslose. Jetzt haben wir die niedrigste Arbeitslosigkeit seit der Wiedervereinigung,\n',
  'Shouts': [{'Text': '(Beifall bei der CDU/CSU sowie bei Abgeordneten der FDP)',
    'FirstName': None,
    'LastName': None,
    'Fraction': None,
    'Party': None,
    'SpeakerId': None,
    'SpeechSegmentId': '0e80b8dc-22e4-401b-c3e0-08da0f22a00b',
    'Id': '941f4408-7c4f-4ac8-0dd9-08da0f22a00e'}],
  'SpeechId': '563e2437-3e04-4221-62f3-08da0f22a008',
  'Id': '0e80b8dc-22e4-401b-c3e0-08da0f22a00b'},
 {'Text': 'auch durch die Reformen\xa0– ich will das ausdrücklich sagen\xa0– meines Vorgängers. Das ist der Weg, den wir gehen müssen. Wir haben inzwischen den Mindestlohn eingeführt. Wir haben eine deutliche Verbesserung für viele Menschen erreicht, und da, wo die Verbesserungen noch nicht angekommen sind, werden wir durch eine Kommission „Gleichwertige Lebensverhältnisse“ in Deutschland darauf achten, da

#### clean formatting

In [29]:
import unicodedata
import regex as re

def clean_text_advanced(text: str) -> str:
    # Normalize unicode (e.g., é → é)
    text = unicodedata.normalize("NFKC", text)
    
    # Remove zero-width characters (like \u200b)
    text = re.sub(r'[\u200B-\u200D\uFEFF]', '', text)

    # Apply previous cleaning
    text = text.replace('\xa0', ' ')
    text = text.replace('\t', ' ')
    text = re.sub(r'\s+', ' ', text)
    return text.strip()


In [44]:
formattest = clean_text_advanced(data['NLPSpeeches'][24]["Text"])

In [45]:
data['NLPSpeeches'][24]["Text"]

'Sehr geehrte Frau Präsidentin! Sehr geehrte Abgeordnete, vielen Dank für diese Frage.\xa0– Wir haben heute im Kabinett tatsächlich das\n                    Pflegestudiumstärkungsgesetz verabschiedet. In der Tat ist es eine sehr wichtige Initiative. Wir werden damit dazu übergehen, dass für die praktischen Teile im\n                    Studium eine Vergütung gezahlt wird, sodass die Studienplätze auch gefüllt werden. Jeder zweite Studienplatz ist derzeit nicht gefüllt. Wir müssen den\n                    Absolventinnen und Absolventen dieses Studiums auch gute Karrieremöglichkeiten eröffnen; daran wird intensiv gearbeitet. Ich gehe davon aus, dass wir innerhalb\n                    von sehr kurzer Zeit hier eine deutliche Zunahme der Studierendenzahlen beobachten können.\n'

In [46]:
formattest

'Sehr geehrte Frau Präsidentin! Sehr geehrte Abgeordnete, vielen Dank für diese Frage. – Wir haben heute im Kabinett tatsächlich das Pflegestudiumstärkungsgesetz verabschiedet. In der Tat ist es eine sehr wichtige Initiative. Wir werden damit dazu übergehen, dass für die praktischen Teile im Studium eine Vergütung gezahlt wird, sodass die Studienplätze auch gefüllt werden. Jeder zweite Studienplatz ist derzeit nicht gefüllt. Wir müssen den Absolventinnen und Absolventen dieses Studiums auch gute Karrieremöglichkeiten eröffnen; daran wird intensiv gearbeitet. Ich gehe davon aus, dass wir innerhalb von sehr kurzer Zeit hier eine deutliche Zunahme der Studierendenzahlen beobachten können.'

***
#### **Get Speaker ID**

In [47]:
data['NLPSpeeches'][30].keys() 
# delivers SpeakerId

dict_keys(['CategoryCoveredTags', 'NamedEntities', 'Tokens', 'Sentiments', 'AbstractSummary', 'AbstractSummaryPEGASUS', 'GetAbstractSummaryPEGASUS', 'GetAbstractSummary', 'GetExtractiveSummary', 'ExtractiveSummary', 'EnglishTranslationOfSpeech', 'EnglishTranslationScore', 'Text', 'SpeakerId', 'Segments', 'ProtocolNumber', 'LegislaturePeriod', 'AgendaItemNumber', 'MongoId', 'Id'])

In [48]:
# reffering speaker Id of the speech

data['NLPSpeeches'][30]["SpeakerId"]

'11003797'

***
#### **Get Speech ID**

In [49]:
data['NLPSpeeches'][30].keys() 
# delivers Id --> speech id

dict_keys(['CategoryCoveredTags', 'NamedEntities', 'Tokens', 'Sentiments', 'AbstractSummary', 'AbstractSummaryPEGASUS', 'GetAbstractSummaryPEGASUS', 'GetAbstractSummary', 'GetExtractiveSummary', 'ExtractiveSummary', 'EnglishTranslationOfSpeech', 'EnglishTranslationScore', 'Text', 'SpeakerId', 'Segments', 'ProtocolNumber', 'LegislaturePeriod', 'AgendaItemNumber', 'MongoId', 'Id'])

In [50]:
data['NLPSpeeches'][30]["Id"]

'0f912814-fb4c-4205-9677-05ddd67c7937'

***
#### **Investigate further properties**


* Bundestagsmine reports some NLP analysis properties
* Brief investigation on two examples
* $\to$ in our usecase propably irrelevant

* Some other properties on legislative period, agenda item evtl. helpful $\to$ record them

In [51]:
# example 1
print("NamedEntities: ", data['NLPSpeeches'][30]['NamedEntities'])
print("Tokens: ", data['NLPSpeeches'][30]['Tokens']) 
print("Sentiments: ", data['NLPSpeeches'][30]['Sentiments'])
print("AbstractSummary: ", data['NLPSpeeches'][30]['AbstractSummary'])
print("AbstractSummaryPEGASUS: ", data['NLPSpeeches'][30]['AbstractSummaryPEGASUS'])
print("ExtractiveSummary: ", data['NLPSpeeches'][30]['ExtractiveSummary'])

NamedEntities:  [{'LemmaValue': 'Morgen', 'NLPSpeechId': '0f912814-fb4c-4205-9677-05ddd67c7937', 'ShoutId': 'a470dd56-560f-461b-ab75-8a3e08874ecc', 'Begin': 0, 'End': 7, 'Value': 'ORG', 'Id': '8dc0d9c0-9dc2-4d03-af3f-08dbb6b04029'}, {'LemmaValue': 'Krankenhäusern', 'NLPSpeechId': '0f912814-fb4c-4205-9677-05ddd67c7937', 'ShoutId': '3d7a28f5-1d29-41c7-ae87-d1bf39ddf801', 'Begin': 27, 'End': 42, 'Value': 'ORG', 'Id': '36aec324-046c-49dc-af40-08dbb6b04029'}, {'LemmaValue': 'Abgeordneter', 'NLPSpeechId': '0f912814-fb4c-4205-9677-05ddd67c7937', 'ShoutId': '00000000-0000-0000-0000-000000000000', 'Begin': 50, 'End': 62, 'Value': 'ORG', 'Id': '61377107-139e-434d-af41-08dbb6b04029'}, {'LemmaValue': 'Robert Habeck', 'NLPSpeechId': '0f912814-fb4c-4205-9677-05ddd67c7937', 'ShoutId': '00000000-0000-0000-0000-000000000000', 'Begin': 1250, 'End': 1263, 'Value': 'PER', 'Id': '817f9cb1-fef6-4015-af42-08dbb6b04029'}]
Tokens:  None
Sentiments:  [{'NLPSpeechId': '0f912814-fb4c-4205-9677-05ddd67c7937', 'Sho

In [52]:
# example 2
print("NamedEntities: ", data['NLPSpeeches'][24]['NamedEntities'])
print("Tokens: ", data['NLPSpeeches'][24]['Tokens'])
print("Sentiments: ", data['NLPSpeeches'][24]['Sentiments'])
print("AbstractSummary: ", data['NLPSpeeches'][24]['AbstractSummary'])
print("AbstractSummaryPEGASUS: ", data['NLPSpeeches'][24]['AbstractSummaryPEGASUS'])
print("ExtractiveSummary: ", data['NLPSpeeches'][24]['ExtractiveSummary'])

NamedEntities:  [{'LemmaValue': 'Pflegestudiumstärkungsgesetz', 'NLPSpeechId': 'db254216-706f-45e5-87eb-d4d01ce590a0', 'ShoutId': '00000000-0000-0000-0000-000000000000', 'Begin': 152, 'End': 180, 'Value': 'PER', 'Id': 'da7030ef-0d95-4c7f-b1e8-08dbb6b04029'}, {'LemmaValue': 'Zeit', 'NLPSpeechId': 'db254216-706f-45e5-87eb-d4d01ce590a0', 'ShoutId': '00000000-0000-0000-0000-000000000000', 'Begin': 699, 'End': 703, 'Value': 'MISC', 'Id': '73f812ba-0577-4863-b1e9-08dbb6b04029'}]
Tokens:  None
Sentiments:  [{'NLPSpeechId': 'db254216-706f-45e5-87eb-d4d01ce590a0', 'ShoutId': '00000000-0000-0000-0000-000000000000', 'Begin': 0, 'End': 30, 'SentimentSingleScore': 0.0, 'Id': '0e119f16-1f4e-42e6-e06e-08dbb6b0402b'}, {'NLPSpeechId': 'db254216-706f-45e5-87eb-d4d01ce590a0', 'ShoutId': '00000000-0000-0000-0000-000000000000', 'Begin': 31, 'End': 85, 'SentimentSingleScore': 0.0, 'Id': '36f28627-20d0-4ba1-e06f-08dbb6b0402b'}, {'NLPSpeechId': 'db254216-706f-45e5-87eb-d4d01ce590a0', 'ShoutId': '00000000-0000

In [53]:
# potentially helpful properties
print("ProtocolNumber: ", data['NLPSpeeches'][30]['ProtocolNumber'])
print("LegislaturePeriod: ", data['NLPSpeeches'][30]['LegislaturePeriod'])
print("AgendaItemNumber: ", data['NLPSpeeches'][30]['AgendaItemNumber'])
print("MongoId: ", data['NLPSpeeches'][30]['MongoId']) # mondo DB --> database ID?

ProtocolNumber:  105
LegislaturePeriod:  20
AgendaItemNumber:  2
MongoId:  00000000-0000-0000-0000-000000000000


***
## **Handle one whole file**
***

In [54]:
print("Nr. of Speeches:", len(data["NLPSpeeches"]))

Nr. of Speeches: 154


In [58]:
data["NLPSpeeches"][0]['Id']

'9b57cd98-aeb8-4568-8272-6890d3c1b0e7'

In [59]:
# legislative period 19, session 35
df_LP20_105 = pd.DataFrame(columns=['speech_id', 'speaker_id', 'speech_text', 'legislative_period', 'protocol_nr', 'agenda_item_number'])


for i, speech in enumerate(data["NLPSpeeches"]):


    row = {
        'speech_id' : speech['Id'], 
        'speaker_id' : speech['SpeakerId'], 
        'speech_text' : speech['Text'], 
        'legislative_period' : speech['LegislaturePeriod'], 
        'protocol_nr' : speech['ProtocolNumber'], 
        'agenda_item_number' : speech['AgendaItemNumber']
    }

    df_LP20_105 = pd.concat([df_LP20_105, pd.DataFrame([row])], ignore_index=True)
  
df_LP20_105



Unnamed: 0,speech_id,speaker_id,speech_text,legislative_period,protocol_nr,agenda_item_number
0,9b57cd98-aeb8-4568-8272-6890d3c1b0e7,11003613,Frau Präsidentin! Liebe Kolleginnen und Kolleg...,20,105,5
1,50c49b79-7529-4431-a82a-629b974f2ef9,11003638,Frau Präsidentin! Liebe Kolleginnen und Kolleg...,20,105,4
2,3be50ca2-348e-435c-a6c5-94c187a10255,11003756,Frau Präsidentin! Liebe Kolleginnen und Kolleg...,20,105,5
3,0f86f45c-8343-4916-a6d8-ded57abcb5c4,11003780,Frau Präsidentin! Liebe Kolleginnen und Kolleg...,20,105,4
4,70dc3c4b-ccc7-4cf8-85c3-ea99fb894689,11003797,Sehr geehrte Frau Präsidentin! Sehr geehrter H...,20,105,2
...,...,...,...,...,...,...
149,07c7a21c-4739-49af-9f94-a27c76b7c860,11005248,,20,105,2
150,919e8f38-ef67-43ed-94f4-beb86b25d453,11005248,Sehr geehrte Frau Präsidentin! Liebe Kolleginn...,20,105,7
151,3c045f7e-d532-4c01-b1cf-a78bad4ade0d,11005260,Frau Präsidentin! Meine Damen und Herren! Die ...,20,105,6
152,0704eaae-2703-4895-ae7f-7e407f887dda,11005289,Sehr geehrte Präsidentin! Liebe Kolleginnen un...,20,105,8


***
## **Go over all files**
***

In [None]:
len(json_files) #329 -> 438 protocols

438

In [None]:
# df for all speeches, from all 329 sessions
df_all = pd.DataFrame(columns=['speech_id', 'speaker_id', 'speech_text', 'legislative_period', 'protocol_nr', 'agenda_item_number'])


# loop over all files
for session_file in json_files:

    # get temporary data from current session
    with open(f"{session_file}", 'r') as file:
        data_temp = json.load(file)

    # make df
    df_temp = pd.DataFrame(columns=['speech_id', 'speaker_id', 'speech_text', 'legislative_period', 'protocol_nr', 'agenda_item_number'])


    # loop over all speeches, extract relevant features
    for i, speech in enumerate(data_temp["NLPSpeeches"]):
        row = {
            'speech_id' : speech['Id'], 
            'speaker_id' : speech['SpeakerId'], 
            'speech_text' : speech['Text'], 
            'legislative_period' : speech['LegislaturePeriod'], 
            'protocol_nr' : speech['ProtocolNumber'], 
            'agenda_item_number' : speech['AgendaItemNumber']
        }

        # add current speech
        df_temp = pd.concat([df_temp, pd.DataFrame([row])], ignore_index=True)


    df_all = pd.concat([df_all, df_temp], ignore_index=True)

# ~1 min. runtime

In [None]:
# sanity checks

print("Legislative Periods: ", df_all['legislative_period'].unique()) # fine

print("Nr. of sessions in 19th: ", len(df_all[df_all['legislative_period'] == 19]['protocol_nr'].unique())) # fine
print("Nr. of sessions in 20th: ", len(df_all[df_all['legislative_period'] == 20]['protocol_nr'].unique())) # just 90?

nr_sessions_19 = len(df_all[df_all['legislative_period'] == 19]['protocol_nr'].unique())
nr_sessions_20 = len(df_all[df_all['legislative_period'] == 20]['protocol_nr'].unique())

print("Nr. of sessions: ", nr_sessions_19 + nr_sessions_20)
print("Session Nr. check: ", nr_sessions_19 + nr_sessions_20 == len(json_files))

Legislative Periods:  [19 20]
Nr. of sessions in 19th:  239
Nr. of sessions in 20th:  199
Nr. of sessions:  438
Session Nr. check:  True


In [63]:
# first glance
df_all

Unnamed: 0,speech_id,speaker_id,speech_text,legislative_period,protocol_nr,agenda_item_number
0,0c6d709a-3af2-4e75-55ac-08da0f22a008,11001074,,19,1,3
1,f7f58b13-85f3-424a-6864-08da102a68d8,11001235,"Herr Präsident, ich nehme die Wahl an.\nDann b...",19,1,6
2,d0c84378-49ab-47ce-61aa-08da102a68d8,11001938,Das ist der Fall. – Ich sehe keine weiteren Vo...,19,1,3
3,649d0b8b-6770-47cf-ff0a-08da0f05b641,11001938,,19,1,3
4,5516f789-3f1e-47cc-522d-08da0f22a008,11002190,,19,1,3
...,...,...,...,...,...,...
46785,b4de6b5b-082e-45ac-ba6e-4403a82de283,11005264,Sehr geehrter Herr Präsident! Meine Damen und ...,20,99,4
46786,c79c0aa4-7e21-4d2a-9918-8893c8c8eb12,11005289,,20,99,1
46787,bdebf7db-c75e-41e5-aad7-20486732377b,11005289,,20,99,1
46788,dae72d62-2ab2-439a-9332-d585dcb35e54,11005289,Sehr geehrte Präsidentin! Liebe Kolleginnen un...,20,99,7


In [64]:
# NaN's? --> no
df_all[df_all.isna().any(axis=1)]

Unnamed: 0,speech_id,speaker_id,speech_text,legislative_period,protocol_nr,agenda_item_number


In [65]:
df_all['speech_text'][0] # but empty texts

''

In [66]:
df_all_clean = df_all[df_all['speech_text'] != ''].reset_index()
print("Kept", len(df_all_clean), "speeches.")

Kept 44716 speeches.


In [67]:
# save/export

df_all_clean.to_csv("../data/speeches.csv", index = False)

In [68]:
# get unique speaker IDs

print("Nr. unqiue speaker: ", len(df_all_clean["speaker_id"].unique()))

unique_speaker = pd.DataFrame((df_all_clean["speaker_id"].unique())).rename(columns={0: 'speaker_id'})
unique_speaker.to_csv("../data/unique_speaker_ids.csv", index=False)

Nr. unqiue speaker:  1048


***
#### **Estelle adds: Get Agenda Item and Protocol Info**

In [69]:
data['Protocol']

{'Date': '2023-05-24T00:00:00',
 'LegislaturePeriod': 20,
 'Number': 105,
 'Title': '105.\xa0Sitzung',
 'AgendaItemsCount': 8,
 'MongoId': '00000000-0000-0000-0000-000000000000',
 'Id': '211ba62b-b557-4b0d-e458-08dbb6b04007'}

In [70]:
data['AgendaItems'][0]

{'Title': 'Pflegeunterstützungs- und -entlastungsgesetz',
 'Description': 'Erste Beratung des von der Bundesregierung eingebrachten Entwurfs eines Gesetzes zur Unterstützung und Entlastung in der Pflege (Pflegeunterstützungs- und -entlastungsgesetz – PUEG)<br>Drucksache <a target="_blank" href="https://dserver.bundestag.de/btd/20/068/2006869.pdf" class="dipLink" title="Die PDF-Datei Drucksache 20/6869 öffnet sich in einem neuen Fenster"><i class="icon-doc"></i>20/6869</a>',
 'AgendaItemNumber': '1',
 'Order': 1,
 'Date': '2023-05-24T13:00:00',
 'ProtocolId': '211ba62b-b557-4b0d-e458-08dbb6b04007',
 'Id': '13e81aed-136d-4d56-a78b-08dbb6be6ecc'}

#### Protocol data

In [72]:
rows = []

for session_file in json_files:
    with open(session_file, 'r') as file:
        data_temp = json.load(file)
        rows.append(data_temp['Protocol'])

# build final DataFrame in one step
df_protocol_meta = pd.DataFrame(rows)[['Date', 'LegislaturePeriod', 'Number', 'Title', 'AgendaItemsCount', 'MongoId', 'Id']]

In [73]:
df_protocol_meta.rename(columns={
    'Date': 'ProtocolDate',
    'Title': 'SessionTitle'
}, inplace=True)

In [74]:
df_protocol_meta['DateOnly'] = pd.to_datetime(df_protocol_meta['ProtocolDate']).dt.date


In [75]:
df_protocol_meta

Unnamed: 0,ProtocolDate,LegislaturePeriod,Number,SessionTitle,AgendaItemsCount,MongoId,Id,DateOnly
0,2017-10-24T00:00:00,19,1,1. Sitzung,6,6205403f03957565211832cb,76c3b183-81d7-4cd0-ee48-08da0c32b602,2017-10-24
1,2018-01-31T00:00:00,19,10,10. Sitzung,3,6205403f03957565211832c2,9830dca7-f0e1-4906-ee3f-08da0c32b602,2018-01-31
2,2019-05-15T00:00:00,19,100,100. Sitzung,4,6205403f0395756521183268,7d5aebcf-9b16-47a6-ede5-08da0c32b602,2019-05-15
3,2019-05-16T00:00:00,19,101,101. Sitzung,26,6205403f0395756521183267,f98bb208-7f24-4a3f-ede4-08da0c32b602,2019-05-16
4,2019-05-17T00:00:00,19,102,102. Sitzung,11,6205403f0395756521183266,ee086175-6c20-44b0-ede3-08da0c32b602,2019-05-17
...,...,...,...,...,...,...,...,...
433,2023-03-31T00:00:00,20,95,95. Sitzung,7,00000000-0000-0000-0000-000000000000,218f1cf4-f452-45ff-5c0a-08db39b0f643,2023-03-31
434,2023-04-19T00:00:00,20,96,96. Sitzung,7,00000000-0000-0000-0000-000000000000,797bcf60-4df4-462a-9463-08db4195fa79,2023-04-19
435,2023-04-20T00:00:00,20,97,97. Sitzung,14,00000000-0000-0000-0000-000000000000,0f039fcd-49f1-4c25-159d-08db424421b3,2023-04-20
436,2023-04-21T00:00:00,20,98,98. Sitzung,6,00000000-0000-0000-0000-000000000000,281683d2-1125-46ff-d5ef-08db44e7eb96,2023-04-21


In [76]:
# sanity checks

print("Nr. of sessions in 19th: ", len(df_protocol_meta[df_protocol_meta['LegislaturePeriod'] == 19])) # fine
print("Nr. of sessions in 20th: ", len(df_protocol_meta[df_protocol_meta['LegislaturePeriod'] == 20])) # just 90?


Nr. of sessions in 19th:  239
Nr. of sessions in 20th:  199


#### Agenda Item Meta Data

In [77]:
# legislative period 19, session 35
df_Agenda = pd.DataFrame(columns=['Title', 'AgendaItemNumber', 'Order','Date', 'ProtocolId'])


for i, item in enumerate(data["AgendaItems"]):


    row = {
        'Title' : item['Title'], 
        'AgendaItemNumber' : item['AgendaItemNumber'], 
        'Order': item['Order'],
        'Date' : item['Date'], 
        'ProtocolId' : item['ProtocolId']
    }

    df_Agenda = pd.concat([df_Agenda, pd.DataFrame([row])], ignore_index=True)
  
df_Agenda

Unnamed: 0,Title,AgendaItemNumber,Order,Date,ProtocolId
0,Pflegeunterstützungs- und -entlastungsgesetz,1,1,2023-05-24T13:00:00,211ba62b-b557-4b0d-e458-08dbb6b04007
1,Befragung der Bundesregierung,2,2,2023-05-24T13:00:00,211ba62b-b557-4b0d-e458-08dbb6b04007
2,Fragestunde,3,3,2023-05-24T14:45:00,211ba62b-b557-4b0d-e458-08dbb6b04007
3,Aktuelle Stunde - Heizungspläne der Bundesregi...,ZP 1,4,2023-05-24T15:35:00,211ba62b-b557-4b0d-e458-08dbb6b04007
4,Berufsbildungsbericht 2023,4,5,2023-05-24T16:45:00,211ba62b-b557-4b0d-e458-08dbb6b04007
5,Tag des Grundgesetzes am 23. Mai als Gedenktag,5,6,2023-05-24T17:30:00,211ba62b-b557-4b0d-e458-08dbb6b04007
6,Bekämpfung von Arzneimittellieferengpässen,6,7,2023-05-24T18:20:00,211ba62b-b557-4b0d-e458-08dbb6b04007
7,Unterbringung von Flüchtlingen und Asylbewerbern,7,8,2023-05-24T19:10:00,211ba62b-b557-4b0d-e458-08dbb6b04007


In [78]:
rows = []

for session_file in json_files:
    with open(session_file, 'r') as file:
        data_temp = json.load(file)

    for item in data_temp["AgendaItems"]:
        rows.append({
            'AgendaItemTitle': item['Title'],
            'AgendaItemNumber': item['AgendaItemNumber'],
            'Order': item['Order'],
            'AgendaItemDate': item['Date'],
            'ProtocolId': item['ProtocolId']
        })

df_agenda_items = pd.DataFrame(rows)


# ~30 sec. runtime

In [79]:
df_agenda_items['DateOnly'] = pd.to_datetime(df_agenda_items['AgendaItemDate']).dt.date


In [80]:
df_agenda_items

Unnamed: 0,AgendaItemTitle,AgendaItemNumber,Order,AgendaItemDate,ProtocolId,DateOnly
0,Eröffnung der Sitzung durch den Alterspräsidenten,1,1,2017-10-24T11:05:00,76c3b183-81d7-4cd0-ee48-08da0c32b602,2017-10-24
1,Beschlussfassung über die Geschäftsordnung,2,2,2017-10-24T11:25:00,76c3b183-81d7-4cd0-ee48-08da0c32b602,2017-10-24
2,Wahl des Präsidenten,3,3,2017-10-24T12:05:00,76c3b183-81d7-4cd0-ee48-08da0c32b602,2017-10-24
3,Amtsübernahme durch den Präsidenten mit Ansprache,4,4,2017-10-24T13:15:00,76c3b183-81d7-4cd0-ee48-08da0c32b602,2017-10-24
4,Festlegung der Zahl der Stellvertreter des Prä...,5,5,2017-10-24T13:40:00,76c3b183-81d7-4cd0-ee48-08da0c32b602,2017-10-24
...,...,...,...,...,...,...
4459,Aktuelle Stunde - Umstrittene Personalpolitik ...,ZP 1,3,2023-04-26T14:40:00,7b867a5b-45a6-438f-ae05-08db4746451b,2023-04-26
4460,Bundeswehreinsatz Evakuierung aus Sudan,ZP 2,4,2023-04-26T15:30:00,7b867a5b-45a6-438f-ae05-08db4746451b,2023-04-26
4461,Wolfsbestandsmanagement,4,5,2023-04-26T16:40:00,7b867a5b-45a6-438f-ae05-08db4746451b,2023-04-26
4462,Bundeswehreinsatz EUNAVFOR MED IRINI,3,6,2023-04-26T17:30:00,7b867a5b-45a6-438f-ae05-08db4746451b,2023-04-26


#### Merge

In [81]:
df_agenda = df_agenda_items.merge(df_protocol_meta, on='DateOnly', how='left')

In [82]:
df_agenda.to_csv("../data/agenda_item_info.csv")

***
## **Old: Matching test with Ella**
***

In [32]:
# quite some work, but we could write a function to match speaker ID to names from the shouts
# --> no guarantee to match all 

# get the speakers name using the Bundestag API --> GetSpeakerByID Endpoint

for i in range(len(data['NLPSpeeches'])):

    #print(data['NLPSpeeches'][i].keys())

    for j in range(len(data['NLPSpeeches'][i]["Segments"])):
        #print(data['NLPSpeeches'][i]["Segments"][j]["Shouts"])

        if len(data['NLPSpeeches'][i]["Segments"][j]["Shouts"]) > 0:
            
            for k in range(len(data['NLPSpeeches'][i]["Segments"][j]["Shouts"])):

                if data['NLPSpeeches'][i]["Segments"][j]["Shouts"][k]["FirstName"] != None:

                    print(data['NLPSpeeches'][i]["Segments"][j]["Shouts"][k]["FirstName"])
                    print(data['NLPSpeeches'][i]["Segments"][j]["Shouts"][k]["LastName"])
                    print(data['NLPSpeeches'][i]["Segments"][j]["Shouts"][k]["Fraction"])
                    print(data['NLPSpeeches'][i]["Segments"][j]["Shouts"][k]["SpeakerId"])
            #print()

        #print(data['NLPSpeeches'][i][j]['Shouts']["LastName"])
               
               
               
               
               #[28]['Segments']#['Shouts']

Jürgen
Braun
AfD
11004680
­Filiz
Polat
Bündnis 90 / Die Grünen
None
Jan
Korte
Die Linke
11003790


None
None
nichts
geschafft!
None
None
Volker
Kauder
CDU/CSU
11001074
Marco
Buschmann
FDP
11004023
Heike
Hänsel
Die Linke
11003763


None
None
Steffi
Lemke
Bündnis 90 / Die Grünen
11002720
W.
Birkwald
Die Linke
None
Steffi
Lemke
Bündnis 90 / Die Grünen
11002720
Beate
Müller-Gemmeke
Bündnis 90 / Die Grünen
11004117
Steffi
Lemke
Bündnis 90 / Die Grünen
11002720
W.
Birkwald
Die Linke
None
Jessica
Tatti
Die Linke
11004911
W.
Birkwald
Die Linke
None
Jessica
Tatti
Die Linke
11004911
Kerstin
Tack
SPD
11004173
Beate
Müller-Gemmeke
Bündnis 90 / Die Grünen
11004117
Kerstin
Tack
SPD
11004173
Martin
Rosemann
SPD
11004389
Peter
Weiß
CDU/CSU
11003255
Kai
Whittaker
CDU/CSU
11004443
W.
Birkwald
Die Linke
None
Kai
Whittaker
CDU/CSU
11004443
Johannes
Vogel
FDP
11004179
Beate
Müller-Gemmeke
Bündnis 90 / Die Grünen
11004117
W.
Birkwald
Die Linke
None
Christian
Lindner
FDP
11004097
Graf
Lambsdorff
FDP
None
W.
