# Funktionen zum Durchsuchen und Filtern der Reden




In [1]:
import json
import jsonlines

# Das (natural language toolkit) müsst ihr bestimmt installieren.
# Weiß noch jemand, wie das geht?
import nltk

# Die collections.Counter package müsst ihr bestimmt auch installieren.
# Die brauchen wir später, um Worte zu zählen.
from collections import Counter



# Hier legen wir fest, welche Daten (Wahlperiode 19 oder 20) wir laden:
legislatur = 20

# Wir generieren eine leere Liste:
alleReden = []

# Wir öffnen den entsprechende File (Dateipfad anpassen!):
with jsonlines.open(f'../../data/speeches_{legislatur}.jsonl') as f:
    for line in f.iter():
    # Wir packen alles Zeile für Zeile zu unserer Liste:
        alleReden.append(line)
        
# Wir sortieren nach Datum:
alleReden.sort(key = lambda x:x['date'])

# Wir lassen uns zeigen, wie viele Reden enthalten sind.
print(f'Die Liste enthält {len(alleReden)} Reden')
# Neue Zeile auf der Konsole:
print(f'\n')


Die Liste enthält 10791 Reden




## Suchfunktionen



In [15]:

## Zunächst brauchen wir eine Funktion, die uns die Reden gibt, die ein bestimmtes Wort enthalten. 
#  Funktion für Textsuche: 
#  Gibt eine Untermenge an Reden zurück, die einen bestimmten String (Wort) enthalten.

def find_speeches_with_word(search_term, speeches):
    filtered_speeches = []
    for speech in speeches:
        if ( search_term in speech['text'] ):
            filtered_speeches.append(speech)
    return filtered_speeches

## Probieren wir das mal aus.
#  Das ist unser Suchwort (oder String):
wort = 'letzte Generation'
#wort = 'Kapital'

#  Hier rufen wir die Suchfunktion auf und speichern die Untermenge der Reden.
untermenge = find_speeches_with_word(wort, alleReden)

# Wir lassen uns zeigen, wie viele Reden enthalten sind.
print(f'Diese Liste (Suche nach {wort}) enthält {len(untermenge)} Reden.')
# Neue Zeile auf der Konsole:
print(f'\n')

## Reden sind lang und die Worte tauchen in verschiedenen Kontexten auf.
#  Wir würden gerne alle Sätze sehen, in denen der Suchbegriff vorkommt.
#  Aber natürlich kommt unser Suchstring nur in Sätzen vor, die in de Untermenge an Reden sind. 

def find_sentences_with_word(search_term, speeches):
    sents_with_words = []
    for speech in speeches:
        sent_list = nltk.sent_tokenize(speech['text'])
        for sent in sent_list:
            if search_term in sent:
                sents_with_words.append(sent)
    return sents_with_words
                
# Probieren wir diese Funktion einmal aus:
satz_liste = find_sentences_with_word(wort,untermenge)

# Wir lassen uns zeigen, wie viele Sätze in der Liste enthalten sind.
print(f'Diese Liste (Suche nach {wort}) enthält {len(satz_liste)} Sätze')
# Neue Zeile auf der Konsole:
print(f'\n')

# Wollen wir uns die alle anzeigen lassen? Ja oder Nein?
wir_wollen = False
if wir_wollen:
    for satz in satz_liste:
        print(satz)

        
## Nun wäre es doch spannend, die Reden einer Partei oder eines Politikers zu sehen.
#  Dazu entwickeln wir eine Funktion, die es erlaubt, in den anderen Felder (keys) zu suchen.
#  Funktion, mit der man eine Menge an Reden nach verschiedenen Kriterien filtern kann.
#  Es wird die entsprechende Untermenge zurückgegeben.
#  'what' enthält den Key, wo gesucht werden soll. Interessant vor allem: 'name' und 'party'

def filter_speeches_for(what, search_term, speeches):
    filtered_speeches = []
    for speech in speeches:
        if search_term in speech[what]:
            filtered_speeches.append(speech)
        
    filtered_speeches.sort(key = lambda x:x['date'])   
    return filtered_speeches

# Beispiel: Für alle Reden von Olaf Scholz:
suche_nach = 'Olaf Scholz'
untermenge = filter_speeches_for('name', suche_nach, alleReden)
# Wir lassen uns zeigen, wie viele Reden enthalten sind.
print(f'Diese Liste (Suche nach {suche_nach}) enthält {len(untermenge)} Reden')
print(f'\n')

####
## Jetzt könnten wir die Sätze von Olaf Scholz mit einem bestimmten Wort anschauen.
#  Das ist unser Suchwort (oder String):
#wort = 'Klimawandel'
wort = 'Klimakrise'

#  Hier rufen wir die Suchfunktion auf und speichern die Untermenge der Reden.
untermenge = find_speeches_with_word(wort, alleReden)

# Wir suchen nach:
suche_nach = 'Olaf Scholz'
untermenge = filter_speeches_for('name', suche_nach, untermenge)
satz_liste = find_sentences_with_word(wort,untermenge)

print(f'In {len(untermenge)} Reden gibt es {len(satz_liste)} Sätze von {suche_nach}, die {wort} enthalten:')
print(f'\n')

# Die schauen wir uns an.
for sx,satz in enumerate(satz_liste):
    print(f' Satz {sx+1}: {satz}')
    print(f'\n')


Diese Liste (Suche nach letzte Generation) enthält 2 Reden.


Diese Liste (Suche nach letzte Generation) enthält 2 Sätze


Diese Liste (Suche nach Olaf Scholz) enthält 171 Reden


In 4 Reden gibt es 6 Sätze von Olaf Scholz, die Klimakrise enthalten:


 Satz 1: Die Klimakrise erfordert entschlossenes, systematisches und international abgestimmtes Vorgehen.


 Satz 2: Deshalb bieten wir China Zusammenarbeit an bei Menschheitsherausforderungen wie der Klimakrise, der Pandemie oder der Rüstungskontrolle.


 Satz 3: Vor uns liegen enorme Aufgaben: die wirtschaftliche Transformation voranbringen, die Klimakrise in den Griff bekommen, demografischen Wandel gestalten, Frieden in Europa sichern.


 Satz 4: Aber jetzt ist klar: Die Erneuerbaren brauchen wir nicht nur wegen der Klimakrise.


 Satz 5: Angesichts von Krieg und Klimakrise geht es heute auch um Europa selbst.


 Satz 6: Meine Damen und Herren, wir leben in einer besonders herausfordernden Zeit: Die Klimakrise spitzt sich zu; der Krie

# Übungen/Hausaufgaben

1. Probiert es aus!



# Fortgeschrittener Teil
## Welche Worte kommen häufig vor?

In [25]:

####
## Lass mal was versuchen:
wort = 'Kapitalismus'
#wort ='Nachhaltigkeit'

#  Hier rufen wir die Suchfunktion auf und speichern die Untermenge der Reden.
untermenge = find_speeches_with_word(wort, alleReden)
satz_liste = find_sentences_with_word(wort,untermenge)

print(f'In {len(untermenge)} Reden gibt es {len(satz_liste)} Sätze, die {wort} enthalten:')
print(f'\n')

In 18 Reden gibt es 22 Sätze, die Kapitalismus enthalten:




In [26]:
#from nltk.corpus import stopwords
german_stop_words = nltk.corpus.stopwords.words('german')

# Die schauen wir uns an und generieren eine Wortliste
wort_liste = []
for sx,satz in enumerate(satz_liste):
    #print(f' Satz {sx+1}: {satz}')
    worte = nltk.word_tokenize(satz)
    #print(f' Satz {sx+1}: {worte}')
    wort_liste.extend(worte)

wort_liste_clean = []
for wort in wort_liste:
    if wort not in german_stop_words:
        if len(wort)>3: # simple shortcut for other "stop words"
            wort_liste_clean.append(wort)
    
print(f'In der Liste befinden sich {len(wort_liste_clean)} Worte: \n')
#print(wort_liste_clean)

from collections import Counter
counts = Counter(wort_liste_clean)
print(counts.most_common(20))



In der Liste befinden sich 246 Worte: 

[('Kapitalismus', 18), ('Nachhaltigkeit', 4), ('Profite', 2), ('sprechen', 2), ('Menschen', 2), ('Damen', 2), ('Herren', 2), ('Auch', 2), ('Kapitalismuskritik', 2), ('Ihnen', 2), ('Beispiel', 2), ('worden', 2), ('Russland', 2), ('heute', 2), ('mehr', 2), ('Krisen', 2), ('Marx', 2), ('Frage', 1), ('beantworten', 1), ('Weil', 1)]


In [28]:
# Umsetzung mit Spacy
import spacy
nlp = spacy.load('de') #load spacy model

def get_list_of_lemmata(satz_liste):
    wort_liste = []
    for sx,satz in enumerate(satz_liste):
        #print(f' Satz {sx+1}: {satz}')
        doc = nlp(satz)
        for token in doc:
            if token.pos_ in ['NOUN','PROPN']:
                #print(token.lemma_)
                wort_liste.append(token.lemma_)    
    return wort_liste
    
wort_liste = get_list_of_lemmata(satz_liste)

counts = Counter(wort_liste).most_common(20)
print(counts)

[('Kapitalismus', 18), ('Nachhaltigkeit', 4), ('Krise', 3), ('Profit', 2), ('Mensch', 2), ('Dame', 2), ('Herr', 2), ('Kapitalismuskritik', 2), ('Beispiel', 2), ('Russland', 2), ('Marx', 2), ('Frage', 1), ('Kosten', 1), ('Magazin', 1), ('Spiegel', 1), ('Umfrage', 1), ('Jugendliche', 1), ('Unterstützung', 1), ('Natur', 1), ('Bedürfnis', 1)]
