# Auswertung Koalitionsvertrag
## 2. Beispiele für den Foliensatz
Mit diesem Notebook möchte ich zeigen warum einzelne Schritte in der NLP-Pipeline notwendig sind.

In [10]:
import nltk
from nltk.tokenize import RegexpTokenizer
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import requests
import pandas as pd

In [9]:
stop_words = stopwords.words('German')

### Tokenization ohne Entfernen der Satzzeichen und Stoppwörter

In [11]:
# Using the FDP file as an example
with open('data/fdp_b.txt', 'r') as f:
    corpus = f.read()

In [20]:
tokens = word_tokenize(corpus)
df = pd.DataFrame.from_dict(nltk.FreqDist(tokens), orient='index')
df.columns = ['Frequency']
df.index.name = 'Term'

In [39]:
# Printing the top 10 terms
print(df.sort_values("Frequency", ascending=False)[0:10].to_latex())

\begin{tabular}{lr}
\toprule
{} &  Frequency \\
Term        &            \\
\midrule
Freie       &        376 \\
Demokraten  &        375 \\
sowie       &        135 \\
EU          &        128 \\
müssen      &        119 \\
mehr        &        111 \\
fordern     &        110 \\
Deutschland &        106 \\
sollen      &         80 \\
setzen      &         78 \\
\bottomrule
\end{tabular}



### Tokenization, Satzzeichen entfernt, Stoppwörter bleiben

In [41]:
tokens = RegexpTokenizer(r'\w+').tokenize(corpus)

df = pd.DataFrame.from_dict(nltk.FreqDist(tokens), orient='index')
df.columns = ['Frequency']
df.index.name = 'Term'

In [42]:
# Printing the top 10 terms
print(df.sort_values("Frequency", ascending=False)[0:10].to_latex())

\begin{tabular}{lr}
\toprule
{} &  Frequency \\
Term   &            \\
\midrule
und    &       1696 \\
die    &       1106 \\
der    &       1000 \\
für    &        616 \\
Wir    &        534 \\
wollen &        480 \\
in     &        477 \\
wir    &        419 \\
von    &        389 \\
zu     &        381 \\
\bottomrule
\end{tabular}



### Tokenization mit Satzzeichen ohne Stoppwörter

In [34]:
tokens = word_tokenize(corpus)
filtered = [w for w in tokens if not w.lower() in stop_words] # Removing Stop Words

df = pd.DataFrame.from_dict(nltk.FreqDist(filtered), orient='index')
df.columns = ['Frequency']
df.index.name = 'Term'

In [35]:
# Printing the top 10 terms
print(df.sort_values("Frequency", ascending=False)[0:10].to_latex())

Unnamed: 0_level_0,Frequency
Term,Unnamed: 1_level_1
.,2075
",",1335
Freie,376
Demokraten,375
sowie,135
–,122
müssen,119
mehr,111
„,110
fordern,110


### Tokenization ohne Satzzeichen, ohne Stoppwörter

In [43]:
tokens = RegexpTokenizer(r'\w+').tokenize(corpus)
filtered = [w for w in tokens if not w.lower() in stop_words] # Removing Stop Words

df = pd.DataFrame.from_dict(nltk.FreqDist(filtered), orient='index')
df.columns = ['Frequency']
df.index.name = 'Term'

In [44]:
# Printing the top 10 terms
print(df.sort_values("Frequency", ascending=False)[0:10].to_latex())

\begin{tabular}{lr}
\toprule
{} &  Frequency \\
Term        &            \\
\midrule
Freie       &        376 \\
Demokraten  &        375 \\
sowie       &        135 \\
EU          &        128 \\
müssen      &        119 \\
mehr        &        111 \\
fordern     &        110 \\
Deutschland &        106 \\
sollen      &         80 \\
setzen      &         78 \\
\bottomrule
\end{tabular}

