### Sources
**Unless otherwise stated in the cells, the code in this notebook is written by me (Sonja Brehm).**
Other sources are marked with **##** at the beginning of the corresponding code cell.
____

# Test out German Stopwords & Lemmatisers
## Get test sentences
To test the different stop words and lemmatizers, I took random short paragraphs from different manifestos (spread over different years and parties)

In [1]:
import pandas as pd 
import numpy as np
import re

In [2]:
#Read CSV file into pandas dataframe
df = pd.read_csv('data/sorted_manifestos.csv', encoding='utf-8')

In [3]:
#Get the indices of different dates & parties to get parts of their text cells later
indices = df.index[(df["date"]==194908) & (df["party"]==41320)|
                   (df["date"]==196509) & (df["party"]==41420)|
                   (df["date"]==199410) & (df["party"]==41521)|
                   (df["date"]==202109) & (df["party"]==41113)].tolist()

In [4]:
#Slice sentences out of the manifestos
paragraphs = [df.at[indices[0],'text'][1019:1344], df.at[indices[1],'text'][2704:2926], 
              df.at[indices[2],'text'][5078:5372], df.at[indices[3],'text'][7976:8389]]
print (paragraphs)

['Wir, BÜNDNIS 90/DIE GRÜNEN, legen mit diesem Programm unser inhaltliches Angebot an Sie vor. Wir tun dies in einer Zeit des globalen Ausnahmezustands. Die Pandemie hat uns alle bis ins Mark getroffen. Sie hat im Guten gezeigt, zu welcher Gemeinsamkeit, Innovationskraft und Widerstandsfähigkeit wir Menschen erreichen können.', 'Die Frankfurter Wirtschaftsverwaltungen aber hat die Bedrohung durch Krisen nicht ausgeschaltet. Sie hat nur als Instrument des Klassenkampfes von oben funktioniert, sie hat die Armen ärmer und die Reichen reicher gemacht.', 'Nur in der Vielfalt der Meinungen bleibt der moderne demokratische Staat lebendig. Mit wachsender Besorgnis sehen die Freien Demokraten deshalb den verstärkten Zug der Konzentration im Pressewesen und das Proporzdenken und -handeln bei den öffentlich-rechtlichen Rundfunk- und Fernsehanstalten.', 'Die Grenzregionen zu Polen und Tschechien zeichnen sich durch besondere Problemlagen aus. Im Rahmen der besonderen Maßnahmen in den Sonderförderg

## Stop Words
You can find several german stopword lists that vary in size.
I tried out:
- NLTK stopwords
- spaCy stopwords
- stop-words (https://pypi.org/project/stop-words/)
- german_stopwords (https://github.com/solariz/german_stopwords)
- stopwords-de (https://github.com/stopwords-iso/stopwords-de)

In [5]:
#Function to create tokens & apply stopwords
def my_tokeniser(stopwords):
    #divide all strings in paragraphs into tokens
    tokens = []
    for i in range(len(paragraphs)):
        tokens += re.split(r'[-\s.,;!?/]+', paragraphs[i])
    #make tokens lowercase and delete stopwords
    without_sw = [t.lower() for t in tokens if not t.lower() in stopwords]
    return without_sw

In [6]:
#Function to print out the result after using my_tokenizer & one of the stopword lists
def print_outcome(german_stopwords):
    print('Tokens left: ' + str(len(my_tokeniser(german_stopwords)))) #How many tokens are left?
    print(my_tokeniser(german_stopwords)) #show all tokens that are left
    print('\nTotal number of words in this stopword-list: ' + str(len(german_stopwords)))
    print(german_stopwords) #print all words included in the stopword list


### For comparison: Tokens without removing any stopwords

In [7]:
tokens = []
for i in range(len(paragraphs)):
    tokens += re.split(r'[-\s.,;!?/]+', paragraphs[i])
print(len(tokens))    
print(tokens)

174
['Wir', 'BÜNDNIS', '90', 'DIE', 'GRÜNEN', 'legen', 'mit', 'diesem', 'Programm', 'unser', 'inhaltliches', 'Angebot', 'an', 'Sie', 'vor', 'Wir', 'tun', 'dies', 'in', 'einer', 'Zeit', 'des', 'globalen', 'Ausnahmezustands', 'Die', 'Pandemie', 'hat', 'uns', 'alle', 'bis', 'ins', 'Mark', 'getroffen', 'Sie', 'hat', 'im', 'Guten', 'gezeigt', 'zu', 'welcher', 'Gemeinsamkeit', 'Innovationskraft', 'und', 'Widerstandsfähigkeit', 'wir', 'Menschen', 'erreichen', 'können', '', 'Die', 'Frankfurter', 'Wirtschaftsverwaltungen', 'aber', 'hat', 'die', 'Bedrohung', 'durch', 'Krisen', 'nicht', 'ausgeschaltet', 'Sie', 'hat', 'nur', 'als', 'Instrument', 'des', 'Klassenkampfes', 'von', 'oben', 'funktioniert', 'sie', 'hat', 'die', 'Armen', 'ärmer', 'und', 'die', 'Reichen', 'reicher', 'gemacht', '', 'Nur', 'in', 'der', 'Vielfalt', 'der', 'Meinungen', 'bleibt', 'der', 'moderne', 'demokratische', 'Staat', 'lebendig', 'Mit', 'wachsender', 'Besorgnis', 'sehen', 'die', 'Freien', 'Demokraten', 'deshalb', 'den', 'v

### NLTK stopwords

In [8]:
#import german stopword list from nltk
from nltk.corpus import stopwords
german_stopwords_nltk = stopwords.words('german')

print_outcome(german_stopwords_nltk)

Tokens left: 91
['bündnis', '90', 'grünen', 'legen', 'programm', 'inhaltliches', 'angebot', 'tun', 'zeit', 'globalen', 'ausnahmezustands', 'pandemie', 'mark', 'getroffen', 'guten', 'gezeigt', 'gemeinsamkeit', 'innovationskraft', 'widerstandsfähigkeit', 'menschen', 'erreichen', '', 'frankfurter', 'wirtschaftsverwaltungen', 'bedrohung', 'krisen', 'ausgeschaltet', 'instrument', 'klassenkampfes', 'oben', 'funktioniert', 'armen', 'ärmer', 'reichen', 'reicher', 'gemacht', '', 'vielfalt', 'meinungen', 'bleibt', 'moderne', 'demokratische', 'staat', 'lebendig', 'wachsender', 'besorgnis', 'sehen', 'freien', 'demokraten', 'deshalb', 'verstärkten', 'zug', 'konzentration', 'pressewesen', 'proporzdenken', 'handeln', 'öffentlich', 'rechtlichen', 'rundfunk', 'fernsehanstalten', '', 'grenzregionen', 'polen', 'tschechien', 'zeichnen', 'besondere', 'problemlagen', 'rahmen', 'besonderen', 'maßnahmen', 'sonderfördergebieten', 'gemeinschaftsaufgabe', '"verbesserung', 'regionalen', 'wirtschaftsstruktur"', 'd

### SpaCy stopwords

Note: Download the corresponding language model by using *!spacy download de_core_news_sm*

In [9]:
## Code in this cell is from Afham Fardeen (2021), 'Tutorial for Stopwords in Spacy Library'
## link: https://machinelearningknowledge.ai/tutorial-for-stopwords-in-spacy/

import spacy
#loading a german language model of spacy
de = spacy.load('de_core_news_sm')
german_stopwords_spacy = de.Defaults.stop_words

print_outcome(german_stopwords_spacy)

Using TensorFlow backend.


Tokens left: 85
['bündnis', '90', 'grünen', 'legen', 'programm', 'inhaltliches', 'angebot', 'globalen', 'ausnahmezustands', 'pandemie', 'mark', 'getroffen', 'guten', 'gezeigt', 'gemeinsamkeit', 'innovationskraft', 'widerstandsfähigkeit', 'menschen', 'erreichen', '', 'frankfurter', 'wirtschaftsverwaltungen', 'bedrohung', 'krisen', 'ausgeschaltet', 'instrument', 'klassenkampfes', 'funktioniert', 'armen', 'ärmer', 'reichen', 'reicher', '', 'vielfalt', 'meinungen', 'bleibt', 'moderne', 'demokratische', 'staat', 'lebendig', 'wachsender', 'besorgnis', 'sehen', 'freien', 'demokraten', 'verstärkten', 'zug', 'konzentration', 'pressewesen', 'proporzdenken', 'handeln', 'öffentlich', 'rechtlichen', 'rundfunk', 'fernsehanstalten', '', 'grenzregionen', 'polen', 'tschechien', 'zeichnen', 'besondere', 'problemlagen', 'rahmen', 'besonderen', 'maßnahmen', 'sonderfördergebieten', 'gemeinschaftsaufgabe', '"verbesserung', 'regionalen', 'wirtschaftsstruktur"', 'grenzregionen', 'polen', 'tschechischen', 'rep

### stop-words (https://pypi.org/project/stop-words/)

Note: Run *!pip install stop-words* before this cell

In [10]:
from stop_words import get_stop_words
#get german stopword list from stop-words
german_stopwords_stop = get_stop_words('german')

print_outcome(german_stopwords_stop)

Tokens left: 91
['bündnis', '90', 'grünen', 'legen', 'programm', 'inhaltliches', 'angebot', 'tun', 'zeit', 'globalen', 'ausnahmezustands', 'pandemie', 'mark', 'getroffen', 'guten', 'gezeigt', 'gemeinsamkeit', 'innovationskraft', 'widerstandsfähigkeit', 'menschen', 'erreichen', '', 'frankfurter', 'wirtschaftsverwaltungen', 'bedrohung', 'krisen', 'ausgeschaltet', 'instrument', 'klassenkampfes', 'oben', 'funktioniert', 'armen', 'ärmer', 'reichen', 'reicher', 'gemacht', '', 'vielfalt', 'meinungen', 'bleibt', 'moderne', 'demokratische', 'staat', 'lebendig', 'wachsender', 'besorgnis', 'sehen', 'freien', 'demokraten', 'deshalb', 'verstärkten', 'zug', 'konzentration', 'pressewesen', 'proporzdenken', 'handeln', 'öffentlich', 'rechtlichen', 'rundfunk', 'fernsehanstalten', '', 'grenzregionen', 'polen', 'tschechien', 'zeichnen', 'besondere', 'problemlagen', 'rahmen', 'besonderen', 'maßnahmen', 'sonderfördergebieten', 'gemeinschaftsaufgabe', '"verbesserung', 'regionalen', 'wirtschaftsstruktur"', 'd

### german_stopwords (https://github.com/solariz/german_stopwords)
Information about the creators:

    GERMAN STOPWORDS
    Marco Götze, Steffen Geyer
    LAST UPDATE 12/2016
    www.solariz.de
    Source and more Information: https://solariz.de/de/downloads/6/german-enhanced-stopwords.htm

In [11]:
## code in this cell is from GeeksForGeeks (2021), 'How to Read Text File Into List in Python?', Example 1
## link: https://www.geeksforgeeks.org/how-to-read-text-file-into-list-in-python/
## modified to read my data and split the text on spaces instead of dots

#open .txt files that contain stopwords (they offer two different sets)
file_plain = open('stopwords/german_stopwords/german_stopwords_plain.txt', "r")
data_plain = file_plain.read()

file_full = open('stopwords/german_stopwords/german_stopwords_full.txt', "r")
data_full = file_full.read()

#create a list
german_stopwords_plain = data_plain.replace('\n', ' ').split(" ")
german_stopwords_full = data_full.replace('\n', ' ').split(" ")

In [12]:
print_outcome(german_stopwords_plain)

Tokens left: 88
['bündnis', '90', 'grünen', 'legen', 'programm', 'inhaltliches', 'angebot', 'tun', 'zeit', 'globalen', 'ausnahmezustands', 'pandemie', 'mark', 'getroffen', 'guten', 'gezeigt', 'gemeinsamkeit', 'innovationskraft', 'widerstandsfähigkeit', 'menschen', 'erreichen', '', 'frankfurter', 'wirtschaftsverwaltungen', 'bedrohung', 'krisen', 'ausgeschaltet', 'instrument', 'klassenkampfes', 'funktioniert', 'armen', 'ärmer', 'reichen', 'reicher', 'gemacht', '', 'vielfalt', 'meinungen', 'bleibt', 'moderne', 'demokratische', 'staat', 'lebendig', 'wachsender', 'besorgnis', 'sehen', 'freien', 'demokraten', 'verstärkten', 'zug', 'konzentration', 'pressewesen', 'proporzdenken', 'handeln', 'öffentlich', 'rechtlichen', 'rundfunk', 'fernsehanstalten', '', 'grenzregionen', 'polen', 'tschechien', 'zeichnen', 'besondere', 'problemlagen', 'rahmen', 'besonderen', 'maßnahmen', 'sonderfördergebieten', 'gemeinschaftsaufgabe', '"verbesserung', 'regionalen', 'wirtschaftsstruktur"', 'grenzregionen', 'pol

In [13]:
print_outcome(german_stopwords_full)

Tokens left: 78
['bündnis', '90', 'grünen', 'programm', 'inhaltliches', 'angebot', 'zeit', 'globalen', 'ausnahmezustands', 'pandemie', 'mark', 'getroffen', 'gezeigt', 'gemeinsamkeit', 'innovationskraft', 'widerstandsfähigkeit', 'menschen', 'erreichen', 'frankfurter', 'wirtschaftsverwaltungen', 'bedrohung', 'krisen', 'ausgeschaltet', 'instrument', 'klassenkampfes', 'funktioniert', 'armen', 'ärmer', 'reichen', 'reicher', 'vielfalt', 'meinungen', 'moderne', 'demokratische', 'staat', 'lebendig', 'wachsender', 'besorgnis', 'freien', 'demokraten', 'verstärkten', 'zug', 'konzentration', 'pressewesen', 'proporzdenken', 'handeln', 'öffentlich', 'rechtlichen', 'rundfunk', 'fernsehanstalten', 'grenzregionen', 'polen', 'tschechien', 'zeichnen', 'besondere', 'problemlagen', 'rahmen', 'besonderen', 'maßnahmen', 'sonderfördergebieten', 'gemeinschaftsaufgabe', '"verbesserung', 'regionalen', 'wirtschaftsstruktur"', 'grenzregionen', 'polen', 'tschechischen', 'republik', 'überwiegend', 'gehören', 'grunds

### stopwords-de (https://github.com/stopwords-iso/stopwords-de)
Credits: https://github.com/stopwords-iso/stopwords-iso/blob/master/CREDITS.md

In [14]:
## Code in this cell is from GeeksForGeeks (2021), 'How to Read Text File Into List in Python?', Example 1
## link: https://www.geeksforgeeks.org/how-to-read-text-file-into-list-in-python/
## modified to read my data and split the text on spaces instead of dots

file = open('stopwords/stopwords-de/stopwords-de.txt', "r")
data = file.read()

german_stopwords_de = data.replace('\n', ' ').split(" ")

In [15]:
print_outcome(german_stopwords_de)

Tokens left: 84
['bündnis', '90', 'grünen', 'legen', 'programm', 'inhaltliches', 'angebot', 'globalen', 'ausnahmezustands', 'pandemie', 'mark', 'getroffen', 'guten', 'gezeigt', 'gemeinsamkeit', 'innovationskraft', 'widerstandsfähigkeit', 'erreichen', '', 'frankfurter', 'wirtschaftsverwaltungen', 'bedrohung', 'krisen', 'ausgeschaltet', 'instrument', 'klassenkampfes', 'funktioniert', 'armen', 'ärmer', 'reichen', 'reicher', '', 'vielfalt', 'meinungen', 'bleibt', 'moderne', 'demokratische', 'staat', 'lebendig', 'wachsender', 'besorgnis', 'sehen', 'freien', 'demokraten', 'verstärkten', 'zug', 'konzentration', 'pressewesen', 'proporzdenken', 'handeln', 'öffentlich', 'rechtlichen', 'rundfunk', 'fernsehanstalten', '', 'grenzregionen', 'polen', 'tschechien', 'zeichnen', 'besondere', 'problemlagen', 'rahmen', 'besonderen', 'maßnahmen', 'sonderfördergebieten', 'gemeinschaftsaufgabe', '"verbesserung', 'regionalen', 'wirtschaftsstruktur"', 'grenzregionen', 'polen', 'tschechischen', 'republik', 'übe

### Comparison

**NLTK vs stop-words**:
Both of them achived the same results, so I checked what the actuall difference between them is (it's marginal)

In [16]:
# which words are only in stop-words?
for word in german_stopwords_stop:
    if word not in german_stopwords_nltk:
        print(word)
# which words are only in NLTK?
for word in german_stopwords_nltk:
    if word not in german_stopwords_stop:
        print(word)

unserer
anderr


**NLTK vs SpaCy:** SpaCy has a lot more stopwords then NLTK, so I looked at which words are only in SpaCy

In [17]:
# which words are only in spacy?
for word in german_stopwords_spacy:
    if word not in german_stopwords_nltk:
        print(word)

zuerst
zweite
hoch
dermaßen
zweites
dürfen
erste
allerdings
achtes
gut
demgemäss
neben
jahr
ebenso
jedoch
besonders
zeit
vier
á
deren
gar
ag
recht
später
deshalb
damals
machte
immer
los
zwei
heißt
außerdem
davon
darüber
lang
mehr
übrigens
hätte
darin
weiteres
ganzer
irgend
dürft
siebente
beide
mögt
rechten
gute
ab
neuen
dermassen
durfte
seid
wurde
mag
rund
gegenüber
mittel
eigenes
gemocht
vierte
wirklich
siebte
viertes
dementsprechend
mochte
sechster
kleines
müsst
wen
na
erst
überhaupt
wart
gern
bereits
einander
gibt
fünf
dadurch
richtig
hast
acht
siebtes
gedurft
zweiter
kurz
musst
zehntes
geworden
seit
eben
sechsten
entweder
währenddem
leider
leicht
eigene
jemanden
wenige
fünfte
beiden
kommen
siebten
kleine
oben
gleich
bekannt
wollten
hätten
sagt
davor
dank
trotzdem
solang
drittes
en
sei
neue
dritte
außer
sah
dritten
grossen
deswegen
rechte
daher
heisst
statt
warum
jahre
zwanzig
gutes
neuntes
dritter
derjenigen
viele
besten
zehnten
großen
weitere
ganzen
muß
morgen
gekonnt
ehrlich
dana

**SpaCy vs german_stopwords plain:** german_stopwords plain has 55 more words than SpaCy, but also contains different words.

In [18]:
# which words are only in spacy?
for word in german_stopwords_spacy:
    if word not in german_stopwords_plain:
        print(word)

zweite
hoch
dermaßen
zweites
dürfen
erste
achtes
gut
demgemäss
ohne
jahr
zeit
vier
á
ag
recht
später
machte
los
zwei
heißt
lang
wollen
dürft
siebente
mögt
rechten
gute
neuen
dermassen
durfte
mag
rund
gegenüber
mittel
gemocht
vierte
siebte
viertes
dementsprechend
mochte
sechster
müsst
na
überhaupt
wart
gern
einander
gibt
fünf
richtig
acht
siebtes
gedurft
zweiter
kurz
zehntes
geworden
sechsten
währenddem
leicht
eigene
jemanden
fünfte
siebten
kleine
bekannt
wollten
sagt
dank
solang
drittes
en
sei
neue
dritte
sah
dritten
grossen
rechte
heisst
statt
jahre
zwanzig
gutes
wollte
neuntes
dritter
besten
zehnten
großen
könnte
morgen
gekonnt
ehrlich
her
tag
worden
wollt
zehnte
siebter
gemacht
fünftes
magst
zunächst
durften
zehn
ende
jemandem
teil
wahr
mögen
eigener
ging
jahren
konnten
infolgedessen
gemusst
jedermanns
beispiel
niemandem
grosses
geschweige
sechs
gesagt
vergangene
tagen
demzufolge
diejenigen
zweiten
vergangenen
konnte
daselbst
dazwischen
sieben
a
tat
vierter
gross
möchte
große
sagte


In [19]:
# which words are only in german_stopwords plain?
for word in german_stopwords_plain:
    if word not in german_stopwords_spacy:
        print(word)

allerlei
allmählich
allzu
alsbald
and
ander
anderer
andererseits
anderes
anderm
andernfalls
anstatt
ausgenommen
außerhalb
beiderlei
beides
beinahe
beträchtlich
bevor
bezüglich
bislang
bloß
bsp.
bzw
ca
ca.
content
darüberhinaus
deinen
deines
demnach
dennoch
derart
derartig
derem
derer
derzeit
desto
diesseits
direkt
direkte
direkten
direkter
dorther
dorthin
drauf
drunter
drüber
dunklen
ebenfalls
eher
eigentlich
einerseits
einfach
einführen
einführte
einführten
eingesetzt
einig
einigem
einigermaßen
eins
einseitig
einseitige
einseitigen
einseitiger
einst
einstmals
einzig
entsprechend
etc
etliche
euer
eure
eurem
euren
eurer
eures
falls
fast
ferner
folgende
folgenden
folgender
folgendes
folglich
fuer
ganzem
gemäss
ggf
gleichwohl
gleichzeitig
glücklicherweise
gänzlich
hab
haette
hattest
hattet
heraus
herein
hiermit
hiesige
hinein
hinten
hinterher
http
hätt
höchstens
igitt
immerhin
indessen
infolge
innen
innerhalb
insofern
inzwischen
irgendeine
irgendwas
irgendwen
irgendwer
irgendwie
irgendwo


**german_stopwords plain vs stopwords-de:** stopwords-de has 22 more words than german_stopwords plain, but they also contain different words

In [20]:
# which words are only in german_stopwords plain?
for word in german_stopwords_plain:
    if word not in german_stopwords_de:
        print(word)

allerlei
allmählich
allzu
alsbald
and
andererseits
andernfalls
anstatt
ausgenommen
außerhalb
beiderlei
beides
beinahe
beträchtlich
bevor
bezüglich
bislang
bloß
bsp.
bzw
ca
ca.
content
darüberhinaus
demnach
dennoch
derart
derartig
derem
derzeit
desto
diesseits
direkt
direkte
direkten
direkter
dorther
dorthin
drauf
drunter
drüber
dunklen
ebenfalls
eher
eigentlich
einerseits
einfach
einführen
einführte
einführten
eingesetzt
einigermaßen
einseitig
einseitige
einseitigen
einseitiger
einst
einstmals
einzig
entsprechend
etc
etliche
falls
fast
ferner
folgenden
folgender
folgendes
folglich
fuer
ganzem
gemäss
ggf
gleichwohl
gleichzeitig
glücklicherweise
gänzlich
haette
heraus
herein
hiermit
hiesige
hinein
hinten
hinterher
http
hätt
höchstens
igitt
immerhin
indessen
infolge
innen
innerhalb
insofern
inzwischen
irgendeine
irgendwas
irgendwen
irgendwer
irgendwie
irgendwo
jed
jedenfalls
jederlei
jenseits
jährig
jährige
jährigen
jähriges
keinerlei
keineswegs
klar
klare
klaren
klares
klein
koennen
koen

In [21]:
# which words are only in stopwords-de ?
for word in german_stopwords_de:
    if word not in german_stopwords_plain:
        print(word)

a
ach
acht
achte
achten
achter
achtes
ag
allgemeinen
anderr
au
b
beispiel
bekannt
besten
c
d
d.h
dahinter
dank
darf
darfst
dasein
daselbst
dazwischen
dementsprechend
demgegenüber
demgemäss
demgemäß
demzufolge
dermassen
dermaßen
diejenigen
drei
dritte
dritten
dritter
drittes
durfte
durften
dürfen
dürft
e
ehrlich
ei
ei,
eigen
eigene
eigener
einander
elf
en
ende
endlich
ernst
erste
ersten
erster
erstes
f
früher
fünf
fünfte
fünften
fünfter
fünftes
g
ganz
gedurft
gegenüber
gehabt
gehen
geht
gekannt
gekonnt
gemacht
gemocht
gemusst
genug
gerade
gern
gesagt
geschweige
gewesen
gewollt
geworden
gibt
ging
gott
gross
grosse
grossen
grosser
grosses
groß
große
großen
großer
großes
gut
gute
guter
gutes
h
habt
heisst
her
heute
hoch
i
infolgedessen
j
jahr
jahre
jahren
jedermann
jedermanns
jemandem
jemanden
k
kleine
konnte
konnten
kurz
könnte
l
lang
lange
leicht
leide
lieber
los
m
macht
machte
mag
magst
mahn
mal
mann
mensch
menschen
mittel
mochte
mochten
morgen
möchte
mögen
möglich
mögt
müsst
n
na
neue


**german_stopwords plain & stopwords-de vs german_stopwords full:** german_stopwords full is the longest stopword list with 1855 words, so I wanted to compare it to the two other biggest lists of my selection.

In [22]:
# which words are only in german_stopwords full (vs. plain)?
for word in german_stopwords_full:
    if word not in german_stopwords_plain:
        print(word)

abermaliges
abermals
abgerufen
abgerufene
abgerufener
abgerufenes
abgesehen
acht
aehnlich
aehnliche
aehnlichem
aehnlichen
aehnlicher
aehnliches
aehnlichste
aehnlichstem
aehnlichsten
aehnlichster
aehnlichstes
aeusserst
aeusserste
aeusserstem
aeussersten
aeusserster
aeusserstes
ähnliche
ähnlichem
ähnlichen
ähnlicher
ähnliches
ähnlichst
ähnlichste
ähnlichstem
ähnlichsten
ähnlichster
ähnlichstes
alleine
allemal
allenfalls
allenthalben
allesamt
allg
allg.
allgemein
allgemeine
allgemeinem
allgemeinen
allgemeiner
allgemeines
allgemeinste
allgemeinstem
allgemeinsten
allgemeinster
allgemeinstes
allzeit
andauernd
andauernde
andauerndem
andauernden
andauernder
andauerndes
anderenfalls
anderr
anderst
anderweitig
anderweitige
anderweitigem
anderweitigen
anderweitiger
anderweitiges
anerkannt
anerkannte
anerkannter
anerkanntes
anfangen
anfing
angefangen
angesetze
angesetzt
angesetzten
angesetzter
ans
anscheinend
ansetzen
ansonst
ansonsten
anstelle
arbeiten
aufgehört
aufgrund
aufhören
aufhörte
aufzusu

In [23]:
# which words are only in german_stopwords full (vs. stopwords-de)?
for word in german_stopwords_full:
    if word not in german_stopwords_de:
        print(word)

abermaliges
abermals
abgerufen
abgerufene
abgerufener
abgerufenes
abgesehen
aehnlich
aehnliche
aehnlichem
aehnlichen
aehnlicher
aehnliches
aehnlichste
aehnlichstem
aehnlichsten
aehnlichster
aehnlichstes
aeusserst
aeusserste
aeusserstem
aeussersten
aeusserster
aeusserstes
ähnlich
ähnliche
ähnlichem
ähnlichen
ähnlicher
ähnliches
ähnlichst
ähnlichste
ähnlichstem
ähnlichsten
ähnlichster
ähnlichstes
alleine
allemal
allenfalls
allenthalben
allerlei
allesamt
allg
allg.
allgemein
allgemeine
allgemeinem
allgemeiner
allgemeines
allgemeinste
allgemeinstem
allgemeinsten
allgemeinster
allgemeinstes
allmählich
allzeit
allzu
alsbald
and
andauernd
andauernde
andauerndem
andauernden
andauernder
andauerndes
anderenfalls
andererseits
andernfalls
anderst
anderweitig
anderweitige
anderweitigem
anderweitigen
anderweitiger
anderweitiges
anerkannt
anerkannte
anerkannter
anerkanntes
anfangen
anfing
angefangen
angesetze
angesetzt
angesetzten
angesetzter
ans
anscheinend
ansetzen
ansonst
ansonsten
anstatt
anstell

**-> Conclusion:** I decided to go with german_stopwords plain, but also to try out german_stopwords full.

![alt text](data/images/stopwords.png)

## Lemmatisation

### SpaCy Lemmatiser 
When using the spaCy Lemmatiser, you also have to use the included word tokenization. I tried to use it on my already tokenized list of words, but it doesn't seem to work (or I didn't figure out the right code to do it). Probably because it is not following the right tokenization the model was trained on.

But I found a way to still make it work, by first running the SpaCy model and then applying my chosen stopword list.

In [24]:
## Code in this cell is from Data Science Learner, 'spacy lemmatization Implementation in Python : 4 Steps only'
## link: https://www.datasciencelearner.com/spacy-lemmatization-implementation-python-steps/
## modified by adding the for loop to go trough the strings + changing the for loop to get the lemmas (variable tokens_lemma)

nlp = spacy.load('de_core_news_sm')

tokens_lemma = []

#go trough every string in paragraphs
for string in paragraphs:
    #use the spacy model on each string
    doc = nlp(string)
    #add the lemmatised token to the list tokens_lemma if the token is not '--' (is used for punctuation marks, see code below)
    tokens_lemma += [token.lemma_ for token in doc if token.lemma_ != '--']
print(tokens_lemma)

['wir', 'BÜNDNIS', '90', 'DIE', 'GRÜNEN', 'legen', 'mit', 'dieser', 'Programm', 'unser', 'inhaltlich', 'Angebot', 'an', 'sie', 'vor', 'wir', 'tun', 'dieser', 'in', 'ein', 'Zeit', 'der', 'global', 'Ausnahmezustand', 'der', 'Pandemie', 'haben', 'uns', 'alle', 'bis', 'in', 'Mark', 'treffen', 'sie', 'haben', 'in', 'gute', 'zeigen', 'zu', 'welcher', 'Gemeinsamkeit', 'Innovationskraft', 'und', 'Widerstandsfähigkeit', 'wir', 'Mensch', 'erreichen', 'können', 'der', 'Frankfurter', 'Wirtschaftsverwaltung', 'aber', 'haben', 'der', 'Bedrohung', 'durch', 'Krise', 'nicht', 'ausschalten', 'sie', 'haben', 'nur', 'als', 'Instrument', 'der', 'Klassenkampf', 'von', 'oben', 'funktionieren', 'sie', 'haben', 'der', 'arme', 'arm', 'und', 'der', 'reiche', 'reich', 'machen', 'nur', 'in', 'der', 'Vielfalt', 'der', 'Meinung', 'bleiben', 'der', 'modern', 'demokratisch', 'Staat', 'lebendig', 'mit', 'wachsend', 'Besorgnis', 'sehen', 'der', 'frei', 'Demokrat', 'deshalb', 'der', 'verstärkt', 'Zug', 'der', 'Konzentrat

In [25]:
#compare the original tokens to the lemmatised ones
for string in paragraphs:
    doc = nlp(string)
    for token in doc:
        print (token, token.lemma_)

Wir wir
, --
BÜNDNIS BÜNDNIS
90 90
/ --
DIE DIE
GRÜNEN GRÜNEN
, --
legen legen
mit mit
diesem dieser
Programm Programm
unser unser
inhaltliches inhaltlich
Angebot Angebot
an an
Sie sie
vor vor
. --
Wir wir
tun tun
dies dieser
in in
einer ein
Zeit Zeit
des der
globalen global
Ausnahmezustands Ausnahmezustand
. --
Die der
Pandemie Pandemie
hat haben
uns uns
alle alle
bis bis
ins in
Mark Mark
getroffen treffen
. --
Sie sie
hat haben
im in
Guten gute
gezeigt zeigen
, --
zu zu
welcher welcher
Gemeinsamkeit Gemeinsamkeit
, --
Innovationskraft Innovationskraft
und und
Widerstandsfähigkeit Widerstandsfähigkeit
wir wir
Menschen Mensch
erreichen erreichen
können können
. --
Die der
Frankfurter Frankfurter
Wirtschaftsverwaltungen Wirtschaftsverwaltung
aber aber
hat haben
die der
Bedrohung Bedrohung
durch durch
Krisen Krise
nicht nicht
ausgeschaltet ausschalten
. --
Sie sie
hat haben
nur nur
als als
Instrument Instrument
des der
Klassenkampfes Klassenkampf
von von
oben oben
funktioniert funktionie

In [26]:
#remove stopwords & make lowercase
tokens_lemma_sw = [t.lower() for t in tokens_lemma if not t.lower() in german_stopwords_plain]
print(tokens_lemma_sw)

['bündnis', '90', 'grünen', 'legen', 'programm', 'inhaltlich', 'angebot', 'tun', 'zeit', 'global', 'ausnahmezustand', 'pandemie', 'mark', 'treffen', 'gute', 'zeigen', 'gemeinsamkeit', 'innovationskraft', 'widerstandsfähigkeit', 'mensch', 'erreichen', 'frankfurter', 'wirtschaftsverwaltung', 'bedrohung', 'krise', 'ausschalten', 'instrument', 'klassenkampf', 'funktionieren', 'arme', 'arm', 'reiche', 'reich', 'vielfalt', 'meinung', 'bleiben', 'modern', 'demokratisch', 'staat', 'lebendig', 'wachsend', 'besorgnis', 'sehen', 'frei', 'demokrat', 'verstärkt', 'zug', 'konzentration', 'pressewesen', 'proporzdenken', '-handeln', 'öffentlich-rechtlich', 'rundfunk', 'fernsehanstalt', 'grenzregione', 'polen', 'tschechien', 'zeichnen', 'besonderer', 'problemlag', 'rahmen', 'besonderer', 'maßnahme', 'sonderfördergebiet', 'gemeinschaftsaufgabe', 'verbesserung', 'regional', 'wirtschaftsstruktur', 'grenzregione', 'polen', 'tschechisch', 'republik', 'überwiegend', 'gehören', 'grundsätzlich', 'förderung', '

I noticed that '-' was left in there, e.g. in '-handeln', so I removed it

In [27]:
tokens_new = []
for i in range(len(tokens_lemma)):
    #use re.sub to detect all '-' and replace them with nothing
    tokens_new.append(re.sub(r'[-]','', tokens_lemma[i]))
## The following line is from the NLP Week 2.2-Task Notebook
#remove stopwords & make lowercase
tokens_lemma_sw = [t.lower() for t in tokens_new if not t.lower() in german_stopwords_plain]

print(tokens_lemma_sw)

['bündnis', '90', 'grünen', 'legen', 'programm', 'inhaltlich', 'angebot', 'tun', 'zeit', 'global', 'ausnahmezustand', 'pandemie', 'mark', 'treffen', 'gute', 'zeigen', 'gemeinsamkeit', 'innovationskraft', 'widerstandsfähigkeit', 'mensch', 'erreichen', 'frankfurter', 'wirtschaftsverwaltung', 'bedrohung', 'krise', 'ausschalten', 'instrument', 'klassenkampf', 'funktionieren', 'arme', 'arm', 'reiche', 'reich', 'vielfalt', 'meinung', 'bleiben', 'modern', 'demokratisch', 'staat', 'lebendig', 'wachsend', 'besorgnis', 'sehen', 'frei', 'demokrat', 'verstärkt', 'zug', 'konzentration', 'pressewesen', 'proporzdenken', 'handeln', 'öffentlichrechtlich', 'rundfunk', 'fernsehanstalt', 'grenzregione', 'polen', 'tschechien', 'zeichnen', 'besonderer', 'problemlag', 'rahmen', 'besonderer', 'maßnahme', 'sonderfördergebiet', 'gemeinschaftsaufgabe', 'verbesserung', 'regional', 'wirtschaftsstruktur', 'grenzregione', 'polen', 'tschechisch', 'republik', 'überwiegend', 'gehören', 'grundsätzlich', 'förderung', 'ge

### Hanover Tagger (https://github.com/wartaal/HanTa)

*Citation // For a explanation of the underlying ideas see:*

Christian Wartena (2019). A Probabilistic Morphology Model for German Lemmatization. In: Proceedings of the 15th Conference on Natural Language Processing (KONVENS 2019): Long Papers. Pp. 40-49, Erlangen. https://corpora.linguistik.uni-erlangen.de/data/konvens/proceedings/papers/KONVENS2019_paper_10.pdf https://doi.org/10.25968/opus-1527

**Note: run *!pip install HanTa* before running the following cells**



In [28]:
## Code in this cell is from the NLP Week 2.2-Task Notebook
## sligthly modified to use a different stopword list & by adding t != '' to tokens_sw

#get the original tokens with stopwords removed
tokens = []
for i in range(len(paragraphs)):
    tokens += re.split(r'[\s.,;!?/"-]+', paragraphs[i])
#don't make the words lowercase yet because the HanTa tries to capitalize the words again later
tokens_sw = [t for t in tokens if not t.lower() in german_stopwords_plain and t != '']
print(tokens_sw)

['BÜNDNIS', '90', 'GRÜNEN', 'legen', 'Programm', 'inhaltliches', 'Angebot', 'tun', 'Zeit', 'globalen', 'Ausnahmezustands', 'Pandemie', 'Mark', 'getroffen', 'Guten', 'gezeigt', 'Gemeinsamkeit', 'Innovationskraft', 'Widerstandsfähigkeit', 'Menschen', 'erreichen', 'Frankfurter', 'Wirtschaftsverwaltungen', 'Bedrohung', 'Krisen', 'ausgeschaltet', 'Instrument', 'Klassenkampfes', 'funktioniert', 'Armen', 'ärmer', 'Reichen', 'reicher', 'gemacht', 'Vielfalt', 'Meinungen', 'bleibt', 'moderne', 'demokratische', 'Staat', 'lebendig', 'wachsender', 'Besorgnis', 'sehen', 'Freien', 'Demokraten', 'verstärkten', 'Zug', 'Konzentration', 'Pressewesen', 'Proporzdenken', 'handeln', 'öffentlich', 'rechtlichen', 'Rundfunk', 'Fernsehanstalten', 'Grenzregionen', 'Polen', 'Tschechien', 'zeichnen', 'besondere', 'Problemlagen', 'Rahmen', 'besonderen', 'Maßnahmen', 'Sonderfördergebieten', 'Gemeinschaftsaufgabe', 'Verbesserung', 'regionalen', 'Wirtschaftsstruktur', 'Grenzregionen', 'Polen', 'Tschechischen', 'Republi

In [29]:
## Code in this cell is from Christian Wartena (2020), 'HanTa/Demo – How to Use the Hanover Tagger'
## link: https://github.com/wartaal/HanTa/blob/master/Demo.ipynb

#Use the Hanover Tagger on my tokens (with stopwords removed)
from HanTa import HanoverTagger as ht
tagger = ht.HanoverTagger('morphmodel_ger.pgz')
lemmata = tagger.tag_sent(tokens_sw,taglevel= 1)
print(lemmata)

[('BÜNDNIS', 'Bündnis', 'NN'), ('90', '90', 'CARD'), ('GRÜNEN', 'Grüner', 'NN'), ('legen', 'legen', 'VVFIN'), ('Programm', 'Programm', 'NN'), ('inhaltliches', 'inhaltlich', 'ADJA'), ('Angebot', 'Angebot', 'NN'), ('tun', 'tun', 'VVFIN'), ('Zeit', 'Zeit', 'NN'), ('globalen', 'global', 'ADJA'), ('Ausnahmezustands', 'Ausnahmezustand', 'NN'), ('Pandemie', 'Pandemi', 'NN'), ('Mark', 'Mark', 'NN'), ('getroffen', 'treffen', 'VVPP'), ('Guten', 'Gute', 'NN'), ('gezeigt', 'zeigen', 'VVPP'), ('Gemeinsamkeit', 'Gemeinsamkeit', 'NN'), ('Innovationskraft', 'Innovationskraft', 'NN'), ('Widerstandsfähigkeit', 'Widerstandsfähigkeit', 'NN'), ('Menschen', 'Mensch', 'NN'), ('erreichen', 'erreichen', 'VVFIN'), ('Frankfurter', 'frankfurter', 'ADJA'), ('Wirtschaftsverwaltungen', 'Wirtschaftsverwaltung', 'NN'), ('Bedrohung', 'Bedrohung', 'NN'), ('Krisen', 'Krise', 'NN'), ('ausgeschaltet', 'ausschalten', 'VVPP'), ('Instrument', 'Instrument', 'NN'), ('Klassenkampfes', 'Klassenkampf', 'NN'), ('funktioniert', 'fun

In [30]:
## Code in this cell is from stackoverflow, username of the answer: Maryam Bahrami, question: 'Ho to do lemmatization on German text?'
## link: https://stackoverflow.com/questions/57857240/ho-to-do-lemmatization-on-german-text
## modified to also make the lemmas lowercase

#Get a list containing only the lemmatisations & make them lowercase
tokens_sw_lemma = [lemma.lower() for (word,lemma,pos) in tagger.tag_sent(tokens_sw,taglevel= 1)]
print(tokens_sw_lemma)

['bündnis', '90', 'grüner', 'legen', 'programm', 'inhaltlich', 'angebot', 'tun', 'zeit', 'global', 'ausnahmezustand', 'pandemi', 'mark', 'treffen', 'gute', 'zeigen', 'gemeinsamkeit', 'innovationskraft', 'widerstandsfähigkeit', 'mensch', 'erreichen', 'frankfurter', 'wirtschaftsverwaltung', 'bedrohung', 'krise', 'ausschalten', 'instrument', 'klassenkampf', 'funktionieren', 'arm', 'arm', 'reich', 'reich', 'machen', 'vielfalt', 'meinung', 'bleiben', 'modern', 'demokratisch', 'staat', 'lebendig', 'wachsend', 'besorgnis', 'sehen', 'frei', 'demokrat', 'verstärkt', 'zug', 'konzentration', 'pressewesen', 'proporzdenken', 'handeln', 'öffentlich', 'rechtlich', 'rundfunk', 'fernsehanstalt', 'grenzregion', 'polen', 'tschechien', 'zeichnen', 'besonderer', 'problemlage', 'rahmen', 'besonderer', 'maßnahme', 'sonderfördergebiet', 'gemeinschaftsaufgabe', 'verbesserung', 'regional', 'wirtschaftsstruktur', 'grenzregion', 'polen', 'tschechisch', 'republik', 'überwiegend', 'gehören', 'grundsätzlich', 'förde

### Simplemma (https://pypi.org/project/simplemma/)

Note: run *!pip install simplemma* before running this cell

In [31]:
## Code in this cell is from Adrien Barbaresi (2022), 'simplemma 0.9.0'
## link: https://pypi.org/project/simplemma/

import simplemma

tokens_sw_simplemma = [simplemma.lemmatize(t, lang='de') for t in tokens_sw]
tokens_sw_simplemma = [t.lower() for t in tokens_sw_simplemma]
print(tokens_sw_simplemma)

['bündnis', '90', 'grün', 'legen', 'programm', 'inhaltlich', 'angebot', 'tun', 'zeit', 'global', 'ausnahmezustand', 'pandemie', 'mark', 'treffen', 'guter', 'zeigen', 'gemeinsamkeit', 'innovationskraft', 'widerstandsfähigkeit', 'mensch', 'erreichen', 'frankfurter', 'wirtschaftsverwaltung', 'bedrohung', 'krise', 'ausschalten', 'instrument', 'klassenkampf', 'funktioniert', 'arme', 'arm', 'reiche', 'reichern', 'machen', 'vielfalt', 'meinung', 'bleiben', 'modern', 'demokratisch', 'staat', 'lebendig', 'wachsend', 'besorgnis', 'sehen', 'freie', 'demokrat', 'verstärken', 'zug', 'konzentration', 'pressewesen', 'proporzdenken', 'handeln', 'öffentlich', 'rechtlich', 'rundfunk', 'fernsehanstalt', 'grenzregion', 'pol', 'tschechien', 'zeichnen', 'besonder', 'problemlagen', 'rahmen', 'besonder', 'maßnahme', 'sonderfördergebieten', 'gemeinschaftsaufgabe', 'verbesserung', 'regional', 'wirtschaftsstruktur', 'grenzregion', 'pol', 'tschechische', 'republik', 'überwiegen', 'gehören', 'grundsätzlich', 'förd

### Conclusion
I decided to go with the Hanover Tagger as it achieves similar results as SpaCy, but is easier to use. Simplemma didn't perform as well.

![alt text](data/images/lemmatisation.png)