In [1]:
import pandas as pd
import json
import glob
import os

In [2]:
# settings

folder_path = "../data/19th_20th_speeches_all"
test_file = "LP_20_Sitzung_105.json"

***
## **Understand the Structure**
***

#### **Get files and file content**

In [3]:
# get a list of all filenames
json_files = glob.glob(os.path.join(folder_path, "*.json"))

print("Nr. of session protocols:", len(json_files))
json_files[:5]

Nr. of session protocols: 438


['../data/19th_20th_speeches_all\\LP_19_Sitzung_1.json',
 '../data/19th_20th_speeches_all\\LP_19_Sitzung_10.json',
 '../data/19th_20th_speeches_all\\LP_19_Sitzung_100.json',
 '../data/19th_20th_speeches_all\\LP_19_Sitzung_101.json',
 '../data/19th_20th_speeches_all\\LP_19_Sitzung_102.json']

In [4]:
# get a test file (later in loop over all json files)
with open(f"{folder_path}/{test_file}", 'r') as file:
    data = json.load(file)


# print the data
print(data.keys())

dict_keys(['Protocol', 'AgendaItems', 'NLPSpeeches', 'SpeechCategories'])


In [5]:
# interested in NLP speeches
print("Data Type:", type(data["NLPSpeeches"]))

# fist elements keys
data["NLPSpeeches"][0].keys()

# here, second loop necessary, loop over length of data["NLPSpeeches"]

Data Type: <class 'list'>


dict_keys(['CategoryCoveredTags', 'NamedEntities', 'Tokens', 'Sentiments', 'AbstractSummary', 'AbstractSummaryPEGASUS', 'GetAbstractSummaryPEGASUS', 'GetAbstractSummary', 'GetExtractiveSummary', 'ExtractiveSummary', 'EnglishTranslationOfSpeech', 'EnglishTranslationScore', 'Text', 'SpeakerId', 'Segments', 'ProtocolNumber', 'LegislaturePeriod', 'AgendaItemNumber', 'MongoId', 'Id'])

***
#### **Find speech text**

In [6]:
# example speech text of speech nr. 30 (full, not segmented with shouts)
print(data['NLPSpeeches'][30]["Text"])

Sehr geehrte Frau Präsidentin! Sehr geehrter Herr Abgeordneter, natürlich sind mir die damaligen Anträge bekannt. Ich bezog mich hier auf eine
                    weitere Auszahlung, die wir vorgenommen haben. Die erste Auszahlung ist ja schon erfolgt; da hatten Sie einen anderen Vorschlag, den wir nicht aufgegriffen
                    haben. Stattdessen haben wir damals den Vorschlag umgesetzt, den ich hier auch vorgetragen habe: Es sind 1,5 Milliarden Euro als direkte Energiehilfe geflossen,
                    und es gab ein Verrechnungssystem, das sich dann als im Einzelfall schwer handhabbar erwiesen hat. Auf der Grundlage haben wir dann – ohne Ihre Aufforderung und
                    ohne Ihre Unterstützung – noch einmal 2,5 Milliarden Euro nachgelegt. Da ist die erste Lesung, soweit ich informiert bin, in der nächsten Sitzungswoche zu
                    erwarten.
– Morgen ist die erste Lesung sogar, höre ich gerade, also noch schneller als gedacht.
Ich möchte aber darauf hinw

In [7]:
# under segments, you get the speech, separated into chunks, with shouts inbetween
data['NLPSpeeches'][30]["Segments"]

[{'Text': 'Sehr geehrte Frau Präsidentin! Sehr geehrter Herr Abgeordneter, natürlich sind mir die damaligen Anträge bekannt. Ich bezog mich hier auf eine\n                    weitere Auszahlung, die wir vorgenommen haben. Die erste Auszahlung ist ja schon erfolgt; da hatten Sie einen anderen Vorschlag, den wir nicht aufgegriffen\n                    haben. Stattdessen haben wir damals den Vorschlag umgesetzt, den ich hier auch vorgetragen habe: Es sind 1,5\xa0Milliarden Euro als direkte Energiehilfe geflossen,\n                    und es gab ein Verrechnungssystem, das sich dann als im Einzelfall schwer handhabbar erwiesen hat. Auf der Grundlage haben wir dann\xa0– ohne Ihre Aufforderung und\n                    ohne Ihre Unterstützung\xa0– noch einmal 2,5\xa0Milliarden Euro nachgelegt. Da ist die erste Lesung, soweit ich informiert bin, in der nächsten Sitzungswoche zu\n                    erwarten.\n',
  'Shouts': [{'Text': 'Morgen!',
    'FirstName': '',
    'LastName': '',
    'Fra

In [8]:
# another example, without applause

# full speech
print(data['NLPSpeeches'][24]["Text"]) 

# segments with applause breaks
data['NLPSpeeches'][24]["Segments"]

Sehr geehrte Frau Präsidentin! Sehr geehrte Abgeordnete, vielen Dank für diese Frage. – Wir haben heute im Kabinett tatsächlich das
                    Pflegestudiumstärkungsgesetz verabschiedet. In der Tat ist es eine sehr wichtige Initiative. Wir werden damit dazu übergehen, dass für die praktischen Teile im
                    Studium eine Vergütung gezahlt wird, sodass die Studienplätze auch gefüllt werden. Jeder zweite Studienplatz ist derzeit nicht gefüllt. Wir müssen den
                    Absolventinnen und Absolventen dieses Studiums auch gute Karrieremöglichkeiten eröffnen; daran wird intensiv gearbeitet. Ich gehe davon aus, dass wir innerhalb
                    von sehr kurzer Zeit hier eine deutliche Zunahme der Studierendenzahlen beobachten können.



[{'Text': 'Sehr geehrte Frau Präsidentin! Sehr geehrte Abgeordnete, vielen Dank für diese Frage.\xa0– Wir haben heute im Kabinett tatsächlich das\n                    Pflegestudiumstärkungsgesetz verabschiedet. In der Tat ist es eine sehr wichtige Initiative. Wir werden damit dazu übergehen, dass für die praktischen Teile im\n                    Studium eine Vergütung gezahlt wird, sodass die Studienplätze auch gefüllt werden. Jeder zweite Studienplatz ist derzeit nicht gefüllt. Wir müssen den\n                    Absolventinnen und Absolventen dieses Studiums auch gute Karrieremöglichkeiten eröffnen; daran wird intensiv gearbeitet. Ich gehe davon aus, dass wir innerhalb\n                    von sehr kurzer Zeit hier eine deutliche Zunahme der Studierendenzahlen beobachten können.\n',
  'Shouts': [],
  'SpeechId': 'db254216-706f-45e5-87eb-d4d01ce590a0',
  'Id': 'c3806efb-cffe-4f93-0cee-08dbb6b04024'}]

#### clean formatting

In [9]:
import unicodedata
import regex as re

def clean_text_advanced(text: str) -> str:
    # Normalize unicode (e.g., é → é)
    text = unicodedata.normalize("NFKC", text)
    
    # Remove zero-width characters (like \u200b)
    text = re.sub(r'[\u200B-\u200D\uFEFF]', '', text)

    # Apply previous cleaning
    text = text.replace('\xa0', ' ')
    text = text.replace('\t', ' ')
    text = re.sub(r'\s+', ' ', text)
    return text.strip()


In [10]:
data['NLPSpeeches'][24]["Text"]

'Sehr geehrte Frau Präsidentin! Sehr geehrte Abgeordnete, vielen Dank für diese Frage.\xa0– Wir haben heute im Kabinett tatsächlich das\n                    Pflegestudiumstärkungsgesetz verabschiedet. In der Tat ist es eine sehr wichtige Initiative. Wir werden damit dazu übergehen, dass für die praktischen Teile im\n                    Studium eine Vergütung gezahlt wird, sodass die Studienplätze auch gefüllt werden. Jeder zweite Studienplatz ist derzeit nicht gefüllt. Wir müssen den\n                    Absolventinnen und Absolventen dieses Studiums auch gute Karrieremöglichkeiten eröffnen; daran wird intensiv gearbeitet. Ich gehe davon aus, dass wir innerhalb\n                    von sehr kurzer Zeit hier eine deutliche Zunahme der Studierendenzahlen beobachten können.\n'

In [11]:
formattest = clean_text_advanced(data['NLPSpeeches'][24]["Text"])
formattest


'Sehr geehrte Frau Präsidentin! Sehr geehrte Abgeordnete, vielen Dank für diese Frage. – Wir haben heute im Kabinett tatsächlich das Pflegestudiumstärkungsgesetz verabschiedet. In der Tat ist es eine sehr wichtige Initiative. Wir werden damit dazu übergehen, dass für die praktischen Teile im Studium eine Vergütung gezahlt wird, sodass die Studienplätze auch gefüllt werden. Jeder zweite Studienplatz ist derzeit nicht gefüllt. Wir müssen den Absolventinnen und Absolventen dieses Studiums auch gute Karrieremöglichkeiten eröffnen; daran wird intensiv gearbeitet. Ich gehe davon aus, dass wir innerhalb von sehr kurzer Zeit hier eine deutliche Zunahme der Studierendenzahlen beobachten können.'

***
## **Go over all files**
***

In [12]:
len(json_files) #329 -> 438 protocols

438

In [13]:
# df for all speeches, from all 329 sessions
df_all = pd.DataFrame(columns=['speech_id', 'speaker_id', 'speech_text', 'legislative_period', 'protocol_nr', 'agenda_item_number'])


# loop over all files
for session_file in json_files:

    # get temporary data from current session
    with open(f"{session_file}", 'r') as file:
        data_temp = json.load(file)

    # make df
    df_temp = pd.DataFrame(columns=['speech_id', 'speaker_id', 'speech_text', 'legislative_period', 'protocol_nr', 'agenda_item_number'])


    # loop over all speeches, extract relevant features
    for i, speech in enumerate(data_temp["NLPSpeeches"]):
        row = {
            'speech_id' : speech['Id'], 
            'speaker_id' : speech['SpeakerId'], 
            'speech_text' : speech['Text'], 
            'legislative_period' : speech['LegislaturePeriod'], 
            'protocol_nr' : speech['ProtocolNumber'], 
            'agenda_item_number' : speech['AgendaItemNumber']
        }

        # add current speech
        df_temp = pd.concat([df_temp, pd.DataFrame([row])], ignore_index=True)


    df_all = pd.concat([df_all, df_temp], ignore_index=True)

# ~1 min. runtime

In [21]:
# sanity checks

print("Legislative Periods: ", df_all['legislative_period'].unique()) # fine

print("Nr. of sessions in 19th: ", len(df_all[df_all['legislative_period'] == 19]['protocol_nr'].unique())) # fine
print("Nr. of sessions in 20th: ", len(df_all[df_all['legislative_period'] == 20]['protocol_nr'].unique())) # just 90?

nr_sessions_19 = len(df_all[df_all['legislative_period'] == 19]['protocol_nr'].unique())
nr_sessions_20 = len(df_all[df_all['legislative_period'] == 20]['protocol_nr'].unique())

print("Nr. of sessions: ", nr_sessions_19 + nr_sessions_20)
print("Session Nr. check: ", nr_sessions_19 + nr_sessions_20 == len(json_files))

Legislative Periods:  [19 20]
Nr. of sessions in 19th:  239
Nr. of sessions in 20th:  199
Nr. of sessions:  438
Session Nr. check:  True


In [22]:
# first glance
df_all.head()

Unnamed: 0,speech_id,speaker_id,speech_text,legislative_period,protocol_nr,agenda_item_number
0,0c6d709a-3af2-4e75-55ac-08da0f22a008,11001074,,19,1,3
1,f7f58b13-85f3-424a-6864-08da102a68d8,11001235,"Herr Präsident, ich nehme die Wahl an.\nDann b...",19,1,6
2,d0c84378-49ab-47ce-61aa-08da102a68d8,11001938,Das ist der Fall. – Ich sehe keine weiteren Vo...,19,1,3
3,649d0b8b-6770-47cf-ff0a-08da0f05b641,11001938,,19,1,3
4,5516f789-3f1e-47cc-522d-08da0f22a008,11002190,,19,1,3


In [23]:
# NaN's? --> no
df_all[df_all.isna().any(axis=1)]

Unnamed: 0,speech_id,speaker_id,speech_text,legislative_period,protocol_nr,agenda_item_number


In [17]:
df_all['speech_text'][0] # but empty texts

''

In [18]:
df_all_clean = df_all[df_all['speech_text'] != ''].reset_index()
print("Kept", len(df_all_clean), "speeches.")

Kept 44716 speeches.


In [24]:
# save/export

df_all_clean.to_csv("../data/speeches.csv", index = False)

In [25]:
# get unique speaker IDs

print("Nr. unqiue speaker: ", len(df_all_clean["speaker_id"].unique()))

unique_speaker = pd.DataFrame((df_all_clean["speaker_id"].unique())).rename(columns={0: 'speaker_id'})
unique_speaker.to_csv("../data/unique_speaker_ids.csv", index=False)

Nr. unqiue speaker:  1048
