# Funktionen zum Durchsuchen und Filtern der Reden




In [39]:
import json
import jsonlines

# Das (natural language toolkit) müsst ihr bestimmt installieren.
# Weiß noch jemand, wie das geht?
import nltk

# Hier legen wir fest, welche Daten (Wahlperiode 19 oder 20) wir laden:
legislatur = 20

# Wir generieren eine leere Liste:
alleReden = []

# Wir öffnen den entsprechende File (Dateipfad anpassen!):
with jsonlines.open(f'../../data/speeches_{legislatur}.jsonl') as f:
    for line in f.iter():
    # Wir packen alles Zeile für Zeile zu unserer Liste:
        alleReden.append(line)
        
# Wir sortieren nach Datum:
alleReden.sort(key = lambda x:x['date'])

# Wir lassen uns zeigen, wie viele Reden enthalten sind.
print(f'Die Liste enthält {len(alleReden)} Reden')
# Neue Zeile auf der Konsole:
print(f'\n')


Die Liste enthält 10791 Reden




## Suchfunktionen



In [74]:

## Zunächst brauchen wir eine Funktion, die uns die Reden gibt, die ein bestimmtes Wort enthalten. 
#  Funktion für Textsuche: 
#  Gibt eine Untermenge an Reden zurück, die einen bestimmten String (Wort) enthalten.

def find_speeches_with_word(search_term, speeches):
    filtered_speeches = []
    for speech in speeches:
        if ( search_term in speech['text'] ):
            filtered_speeches.append(speech)
    return filtered_speeches

## Probieren wir das mal aus.
#  Das ist unser Suchwort (oder String):
wort = 'letzte Generation'
#wort = 'Kapital'

#  Hier rufen wir die Suchfunktion auf und speichern die Untermenge der Reden.
untermenge = find_speeches_with_word(wort, alleReden)

# Wir lassen uns zeigen, wie viele Reden enthalten sind.
print(f'Diese Liste (Suche nach {wort}) enthält {len(untermenge)} Reden.')
# Neue Zeile auf der Konsole:
print(f'\n')

## Reden sind lang und die Worte tauchen in verschiedenen Kontexten auf.
#  Wir würden gerne alle Sätze sehen, in denen der Suchbegriff vorkommt.
#  Aber natürlich kommt unser Suchstring nur in Sätzen vor, die in de Untermenge an Reden sind. 

def find_sentences_with_word(search_term, speeches):
    sents_with_words = []
    for speech in speeches:
        sent_list = nltk.sent_tokenize(speech['text'])
        for sent in sent_list:
            if search_term in sent:
                sents_with_words.append(sent)
    return sents_with_words
                
# Probieren wir diese Funktion einmal aus:
satz_liste = find_sentences_with_word(wort,untermenge)

# Wir lassen uns zeigen, wie viele Sätze in der Liste enthalten sind.
print(f'Diese Liste (Suche nach {wort}) enthält {len(satz_liste)} Sätze')
# Neue Zeile auf der Konsole:
print(f'\n')

# Wollen wir uns die alle anzeigen lassen? Ja oder Nein?
wir_wollen = False
if wir_wollen:
    for satz in satz_liste:
        print(satz)

        
## Nun wäre es doch spannend, zu sehen, von welcher Partei die Reden stammen.
#  Dazu entwickeln wir eine Funktion, die es erlaubt, in den anderen Felder (keys) zu suchen.
#  Funktion, mit der man eine Menge an Reden nach verschiedenen Kriterien filtern kann.
#  Es wird die entsprechende Untermenge zurückgegeben.
#  'what' enthält den Key, wo gesucht werden soll. Interessant vor allem: 'name' und 'party'

def filter_speeches_for(what, search_term, speeches):
    filtered_speeches = []
    for speech in speeches:
        if search_term in speech[what]:
            filtered_speeches.append(speech)
        
    filtered_speeches.sort(key = lambda x:x['date'])   
    return filtered_speeches

# Beispiel: Für alle Reden von Olaf Scholz:
suche_nach = 'Olaf Scholz'
untermenge02 = filter_speeches_for('name', suche_nach, alleReden)
# Wir lassen uns zeigen, wie viele Reden enthalten sind.
print(f'Diese Liste (Suche nach {suche_nach}) enthält {len(untermenge)} Reden')
print(f'\n')

####
## Jetzt könnten wir die Sätze von Olaf Scholz mit einem bestimmten Wort anschauen.
#  Das ist unser Suchwort (oder String):
wort = 'Kapital'

#  Hier rufen wir die Suchfunktion auf und speichern die Untermenge der Reden.
untermenge = find_speeches_with_word(wort, alleReden)

# Wir suchen nach:
suche_nach = 'Olaf Scholz'
untermenge = filter_speeches_for('name', suche_nach, untermenge)
satz_liste = find_sentences_with_word(wort,untermenge)

print(f'In {len(untermenge)} Reden gibt es {len(satz_liste)} Sätze von {suche_nach}, die {wort} enthalten:')
print(f'\n')

# Die schauen wir uns an.
for sx,satz in enumerate(satz_liste):
    print(f' Satz {sx+1}: {satz}')
    print(f'\n')


Diese Liste (Suche nach letzte Generation) enthält 2 Reden.


Diese Liste (Suche nach letzte Generation) enthält 2 Sätze


Diese Liste (Suche nach Olaf Scholz) enthält 2 Reden


In 2 Reden gibt es 2 Sätze von Olaf Scholz, die Kapital enthalten:


 Satz 1: Und zugleich werden wir den Nachholfaktor wieder gelten lassen und bauen in die gesetzliche Rentenversicherung eine teilweise Kapitaldeckung ein.


 Satz 2: Natürlich braucht eine wettbewerbsfähige Europäische Union die Vollendung der Kapitalmarkt- und der Bankenunion.




In [80]:
####
## Jetzt könnten wir die Sätze von Olaf Scholz mit einem bestimmten Wort anschauen.
#  Das ist unser Suchwort (oder String):
wort = 'Kapitalismus'
wort ='Nachhaltigkeit'

#  Hier rufen wir die Suchfunktion auf und speichern die Untermenge der Reden.
untermenge = find_speeches_with_word(wort, alleReden)

# Wir suchen nach:
suche_nach = 'Olaf Scholz'
#untermenge = filter_speeches_for('name', suche_nach, untermenge)
satz_liste = find_sentences_with_word(wort,untermenge)

#print(f'In {len(untermenge)} Reden gibt es {len(satz_liste)} Sätze von {suche_nach}, die {wort} enthalten:')
print(f'In {len(untermenge)} Reden gibt es {len(satz_liste)} Sätze, die {wort} enthalten:')
print(f'\n')

# Die schauen wir uns an.
for sx,satz in enumerate(satz_liste):
    print(f' Satz {sx+1}: {satz}')
    print(f'\n')

In 319 Reden gibt es 700 Sätze, die Nachhaltigkeit enthalten:


 Satz 1: Gerade die kleinen und regional verankerten Betriebe müssen aber erhalten bleiben, wenn wir den Umbau der Landwirtschaft zu mehr Nachhaltigkeit und regionaler Erzeugung voranbringen wollen.


 Satz 2: Ich war die letzten vier Jahre auch im Nachhaltigkeitsbeirat dieses Parlamentes Mitglied.


 Satz 3: Ich bin schon schwer enttäuscht, Herr Trittin, welch mickrige Rolle eine solide Nachhaltigkeitspolitik in Ihrem Sondierungspapier spielt.


 Satz 4: Sie bezeichnen sich als Zukunftskoalition; aber beim Thema Nachhaltigkeit wollen Sie sich nur im Bereich der Entwicklungshilfepolitik dazu verpflichten, Ihre Politik im Sinne der 17 UN-Nachhaltigkeitsziele auszurichten.


 Satz 5: Ich hätte gedacht, Sie packen das Prinzip der Nachhaltigkeit in die Überschrift Ihres Sondierungspapiers.


 Satz 6: Wir haben gemeinsam mit allen Fraktionen – außer mit der AfD – hier im Bundestag eine Empfehlung beschlossen, dass wir in Zukunf

4

In [None]:




# Funktion, mit der man eine Menge an Reden nach verschiedenen Kriterien filtern kann.
# Es wird die entsprechende Untermenge zurückgegeben.
# 'what' enthält den Key wo gesucht werden soll.
# Also 'name', 'party', 'date', etc.
# Für 'text' ist eine extra-Funktion vorgesehen (siehe unten).
# Beispiel: Für alle Reden von Olaf Scholz:
# subset = filter_speeches_for('name', ['Olaf Scholz'], alleReden)

def filter_speeches_for(what, search_terms, speeches):
    filtered_speeches = []
    for speech in speeches:
        if ( speech[what] in set(search_terms) ):
            filtered_speeches.append(speech)
        
    filtered_speeches.sort(key = lambda x:x['date'])   
    return filtered_speeches




def find_speeches_with_words(search_terms, speeches):
    filtered_speeches = []
    search_terms_low = []
    for st in search_terms:
        search_terms_low.append(st.lower())
    for speech in speeches:
        match = [st in speech['text'].lower() for st in search_terms_low]
        if all(st == True for st in match):
        #if any(st in speech[what] for st in search_terms):
            #print(match)
        #if ( search_terms in speech[what] ):
            filtered_speeches.append(speech)
    return filtered_speeches



In [37]:
import nltk

sents_with_words = []
for speech in subset:
    sent_list = nltk.sent_tokenize(speech['text'])
    for sent in sent_list:
        if search_term in sent:
            sents_with_words.append(sent)

print(len(sents_with_words))

6


In [30]:

print(sents_with_words)



['Es geht nicht um weniger als die Lebensbedingungen heutiger und zukünftiger Generationen auf der Erde.', 'Viele Familien leben schon seit Generationen in Deutschland.', 'Darum ist es mir zum Beispiel so wichtig, dass wir die nächste Generation von Kampfflugzeugen und Panzern gemeinsam mit europäischen Partnern und insbesondere Frankreich hier in Europa bauen.', 'Auch der Wiederaufbau der Ukraine wird eine Generationenaufgabe; auch das wird einem in den zerschossenen Häuserruinen von Irpin sehr deutlich.', 'Wer die Bilder aus den von Russland befreiten ukrainischen Städten und Dörfern sieht, der versteht: Das wird eine Generationenaufgabe, bei der die gesamte zivilisierte Staatengemeinschaft ihre Kräfte bündeln muss.', 'Damit wird ein dreistelliger Milliardenbetrag aus den Mitteln des Instruments NextGenerationEU genutzt und aufgestockt, um uns unabhängig zu machen von fossiler Energie.']
