In [1]:
import pandas as pd

In [2]:
# read CSV file with speeches
opendiscourse = pd.read_csv('speeches.csv')

In order to find the index numbers and IDs for the sessions/speeches we needed, we searched through the speech content for strings that we took from the session minutes. The plenary session minutes are published on the Bundestag website as PDFs and contain the text of the entire session; however, the links lead directly to the section of the PDF where the discussion of the topic (changes to citizenship law) begins. (See links below.)  

Links to the PDFs of session minutes:
Second law change:   
18/39  
Erste Beratung 05.06.2014: BT-Plenarprotokoll 18/39, S. 3336A-3356B  
https://dserver.bundestag.de/btp/18/18039.pdf#P.3336  
18/46  
Zweite Beratung 03.07.2014: BT-Plenarprotokoll 18/46, S. 4183C-4195B  
https://dserver.bundestag.de/btp/18/18046.pdf#P.4183  
Dritte Beratung 03.07.2014: BT-Plenarprotokoll 18/46, S. 4194C-4194D  
https://dserver.bundestag.de/btp/18/18046.pdf#P.4194  

Third law change:   
19/101  
Erste Beratung 16.05.2019: BT-Plenarprotokoll 19/101, S. 12274D-12282C  
https://dserver.bundestag.de/btp/19/19101.pdf#P.12274  
19/107  
Zweite Beratung 27.06.2019: BT-Plenarprotokoll 19/107, S. 13212D-13223A  
https://dserver.bundestag.de/btp/19/19107.pdf#P.13212  
Dritte Beratung 27.06.2019: BT-Plenarprotokoll 19/107, S. 13223A-13223A  
https://dserver.bundestag.de/btp/19/19107.pdf#P.13223  

Fourth law change:   
19/224  
Erste Beratung 22.04.2021: BT-Plenarprotokoll 19/224, S. 28573B-28576B  
https://dserver.bundestag.de/btp/19/19224.pdf#P.28573  
(The second and third discussions took place on 24.06.2021 and are not part of the data set, but they can be found here under "Plenum":)  
https://dip.bundestag.de/vorgang/viertes-gesetz-zur-%C3%A4nderung-des-staatsangeh%C3%B6rigkeitsgesetzes/275942

In [3]:
# the first attempt

# set 'wahlperiode' to electoral term number and 'sitzungsnummer' to session number
# electoral term numbers and session numbers are noted in the previous cell prior to the PDF links
wahlperiode = 18
sitzungsnummer = 39

# prints the text of the entire session, including index, id, date, speaker's last name, and speech content
# search in this text using 'Ctrl+F'/'Strg+F' to find the appropriate index that matches the PDF section we need
for ind in opendiscourse.index: 
    if opendiscourse['session'][ind] == sitzungsnummer and opendiscourse['electoralTerm'][ind] == wahlperiode: 
        print('ind:', ind, 'id:', opendiscourse['id'][ind], opendiscourse['date'][ind], opendiscourse['lastName'][ind], opendiscourse['speechContent'][ind])

ind: 800829 id: 802213 2014-06-05 Murmann Frau Präsidentin! Verehrte Kolleginnen und Kollegen! Sehr geehrte Besucher! Meine Damen und Herren!
Wir sind noch bei der Abarbeitung der Krise von 2008 das ist sicherlich richtig. Es ist natürlich bedenkenswert,
woran Wolfgang Schäuble erinnerte, als er neulich bei
uns im Ausschuss war: Der internationale Bankensektor
hat unserer Gesellschaft, der Wirtschaft und der Politik
in den letzten Jahren tatsächlich viel zugemutet.

Herr Schick, ich gebe Ihnen insoweit recht, dass es sicherlich auch notwendig ist, an die Wurzeln der Problematik heranzugehen. Aber Ihrer Behauptung, man könne
zukünftige Krisen allein durch Regulierungen und immer weiter gehende Regulierungen vermeiden, kann ich
mich nicht anschließen. Im Moment müssen wir erst einmal dafür sorgen, dass eine Krise, wie sie das letzte Mal
eingetreten ist, sich nicht wiederholen kann. Ich denke,
dazu sind inzwischen viele Maßnahmen ergriffen worden, Maßnahmen, die unser Finanzsystem insgesa

#### The second attempt:

We'll open the CSV file that we created and saved using the notebook 'Datensatz nach Sitzung filtern' and search through the speech content using '.str.contains' in order to find the beginning of the section that is relevant for our project.

In [4]:
Data2014a = pd.read_csv('Sitzung 18, 39.csv')

In [5]:
Data2014a

Unnamed: 0,id,session,electoralTerm,firstName,lastName,politicianId,speechContent,factionId,documentUrl,positionShort,positionLong,date
0,802213,39,18,Philipp,Murmann,11004118,Frau Präsidentin! Verehrte Kolleginnen und Kol...,4,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Member of Parliament,,2014-06-05
1,802259,39,18,Kathrin,Vogler,11004181,"Vielen Dank, Herr Präsident. - Liebe Kolleginn...",6,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Member of Parliament,,2014-06-05
2,802274,39,18,Marlene,Mortler,11003596,Wir reden über die Rindfleischetikettierung un...,4,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Member of Parliament,,2014-06-05
3,802107,39,18,Edelgard,Bulmahn,11000305,"Herr Kollege, wollen Sie eine Zwischenfrage zu...",-1,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Presidium of Parliament,vizepräsidentin,2014-06-05
4,802108,39,18,Rudolf,Henke,11004055,"Ja, gerne.\n\n",4,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Member of Parliament,,2014-06-05
...,...,...,...,...,...,...,...,...,...,...,...,...
313,802297,39,18,Helmut,Nowak,11004364,Bürokratieabbau ist eines der zentralen Themen...,4,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Member of Parliament,,2014-06-05
314,802298,39,18,Andrea,Wicklein,11003659,"Wenn auch zu wirklich später Stunde, klar ist:...",23,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Member of Parliament,,2014-06-05
315,802299,39,18,Michael,Schlecht,11004144,Das Wort Bürokratie hat bei vielen Bürgerinnen...,6,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Member of Parliament,,2014-06-05
316,802300,39,18,Thomas,Gambke,11004037,\nBürokratieabbau ist und bleibt ein Dauerthem...,3,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Member of Parliament,,2014-06-05


In [6]:
# An attempt to find the beginning of the correct section
# This code finds the right rows, but it gives us the index numbers from the new CSV file.
# However, now we at least have the correct code and can use it to search in the original 'speeches.csv' file
# for the index numbers we need.

filtered = Data2014a[(Data2014a['speechContent'].str.contains('Wir kommen zum Tagesordnungspunkt 5 a'))]

for ind in filtered.index: 
    print('ind:', ind, 'id:', filtered['id'][ind], filtered['date'][ind], filtered['lastName'][ind], filtered['speechContent'][ind])

ind: 61 id: 802029 2014-06-05 Lammert Ich schließe die Aussprache.

Dass das Präsidium, Frau Kollegin Kolbe, Ihre Ein-
schätzung teilt, dass dieses Thema sicher noch eine län-
gere Beratungszeit verdient hätte, kommt schon darin
zum Ausdruck, dass wir jetzt nachweislich deutlich län-
ger debattiert haben, als wir zu Beginn dieser Debatte
gemeinsam beschlossen haben.

Interfraktionell wird Überweisung des Gesetzent-
wurfs auf der Drucksache 18/1558 an die in der Tages-
ordnung aufgeführten Ausschüsse vorgeschlagen. Gibt
es dazu alternative Vorschläge? - Das ist nicht der Fall.
Dann ist die Überweisung so beschlossen.

Wir kommen zum Tagesordnungspunkt 5 a und 5 b:

a) Erste Beratung des von der Bundesregierung eingebrachten Entwurfs eines Zweiten Gesetzes
zur Änderung des Staatsangehörigkeitsgesetzes

Drucksache 18/1312
Überweisungsvorschlag:
Innenausschuss ({0})
Auswärtiger Ausschuss
Ausschuss für Recht und Verbraucherschutz

b) Erste Beratung des von den Abgeordneten Jan
Korte, Sevim 

In [7]:
# We'll now use '.str.contains' to search for our search string in the content 
# of the relevant sessions in 'speeches.csv' so that we can find the index numbers.

# The index number that's printed on the left is the one we're looking for
# However, the code below takes too long to execute
# Instead, let's save the rows we need (for a particular session) to a new variable
# and then search through that variable's contents for our search string

wahlperiode = 18
sitzungsnummer = 39
searchString = 'Wir kommen zum Tagesordnungspunkt 5 a und 5 b'
filtered = opendiscourse[(opendiscourse['electoralTerm'] == wahlperiode) & (opendiscourse['session'] == sitzungsnummer) & (opendiscourse['speechContent'].str.contains(searchString))]

print(filtered)

            id  session  electoralTerm firstName lastName  politicianId  \
802050  802029       39             18   Norbert  Lammert      11001274   

                                            speechContent  factionId  \
802050  Ich schließe die Aussprache.\n\nDass das Präsi...         -1   

                                              documentUrl  \
802050  https://dip21.bundestag.de/dip21/btp/18/18039.pdf   

                  positionShort positionLong        date  
802050  Presidium of Parliament    präsident  2014-06-05  


In [8]:
sessionSection = opendiscourse[(opendiscourse['electoralTerm'] == wahlperiode) & (opendiscourse['session'] == sitzungsnummer)]
sessionSection

Unnamed: 0,id,session,electoralTerm,firstName,lastName,politicianId,speechContent,factionId,documentUrl,positionShort,positionLong,date
800829,802213,39,18,Philipp,Murmann,11004118,Frau Präsidentin! Verehrte Kolleginnen und Kol...,4,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Member of Parliament,,2014-06-05
800948,802259,39,18,Kathrin,Vogler,11004181,"Vielen Dank, Herr Präsident. - Liebe Kolleginn...",6,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Member of Parliament,,2014-06-05
800976,802274,39,18,Marlene,Mortler,11003596,Wir reden über die Rindfleischetikettierung un...,4,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Member of Parliament,,2014-06-05
801530,802107,39,18,Edelgard,Bulmahn,11000305,"Herr Kollege, wollen Sie eine Zwischenfrage zu...",-1,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Presidium of Parliament,vizepräsidentin,2014-06-05
801570,802108,39,18,Rudolf,Henke,11004055,"Ja, gerne.\n\n",4,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Member of Parliament,,2014-06-05
...,...,...,...,...,...,...,...,...,...,...,...,...
802308,802297,39,18,Helmut,Nowak,11004364,Bürokratieabbau ist eines der zentralen Themen...,4,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Member of Parliament,,2014-06-05
802309,802298,39,18,Andrea,Wicklein,11003659,"Wenn auch zu wirklich später Stunde, klar ist:...",23,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Member of Parliament,,2014-06-05
802310,802299,39,18,Michael,Schlecht,11004144,Das Wort Bürokratie hat bei vielen Bürgerinnen...,6,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Member of Parliament,,2014-06-05
802311,802300,39,18,Thomas,Gambke,11004037,\nBürokratieabbau ist und bleibt ein Dauerthem...,3,https://dip21.bundestag.de/dip21/btp/18/18039.pdf,Member of Parliament,,2014-06-05


In [9]:
indexFinder = sessionSection[(sessionSection['speechContent'].str.contains(searchString))]
print(indexFinder)

            id  session  electoralTerm firstName lastName  politicianId  \
802050  802029       39             18   Norbert  Lammert      11001274   

                                            speechContent  factionId  \
802050  Ich schließe die Aussprache.\n\nDass das Präsi...         -1   

                                              documentUrl  \
802050  https://dip21.bundestag.de/dip21/btp/18/18039.pdf   

                  positionShort positionLong        date  
802050  Presidium of Parliament    präsident  2014-06-05  


In [10]:
# Let's define a function so we can easily find all the index numbers we need

def findSection(wahlperiode, sitzungsnummer, searchString):
    sessionSection = opendiscourse[(opendiscourse['electoralTerm'] == wahlperiode) & (opendiscourse['session'] == sitzungsnummer)]
    indexFinder = sessionSection[(sessionSection['speechContent'].str.contains(searchString))]
    print(indexFinder)

In [11]:
findSection(18,39,'Wir kommen zum Tagesordnungspunkt 5 a und 5 b')

            id  session  electoralTerm firstName lastName  politicianId  \
802050  802029       39             18   Norbert  Lammert      11001274   

                                            speechContent  factionId  \
802050  Ich schließe die Aussprache.\n\nDass das Präsi...         -1   

                                              documentUrl  \
802050  https://dip21.bundestag.de/dip21/btp/18/18039.pdf   

                  positionShort positionLong        date  
802050  Presidium of Parliament    präsident  2014-06-05  


This step needs to be executed twice for each session -- once using the first string to find the index number for beginning of the session, and once using the second string to find the index number for the end of the session.

The index number will be used e.g. as a parameter in the topic modeling code to make sure that the code uses the correct section of the session minutes.

Here are the parameters for each session:  
    
2014a  
wahlperiode = 18  
sitzungsnummer = 39  
searchString = 'Wir kommen zum Tagesordnungspunkt 5 a und 5 b'  
searchString = 'Ich rufe die Tagesordnungspunkte 6 a und 6 b auf'  

2014b  
wahlperiode = 18  
sitzungsnummer = 46  
searchString = 'Ich rufe die Zusatzpunkte 7 a und 7 b auf'   
searchString = 'Versachlichung der Atmosphäre beigetragen'  

2019a  
wahlperiode = 19  
sitzungsnummer = 101  
searchString = 'Das klingt für manche vielleicht nach Rechtstechnik'  
searchString = 'Seit 74 Jahren leben die Menschen in Europa überwiegend in Frieden'  

2019b  
wahlperiode = 19  
sitzungsnummer = 107  
searchString = 'die intensivste Form der Bindung an einen Staat'  
searchString = 'Auch Geldwäsche lässt die Immobilienpreise in Deutschland steigen'  

2021a  
wahlperiode = 19  
sitzungsnummer = 224  
searchString = 'Das sind die Opfer des NS'  
searchString = 'Doping schadet' 