# Data Preparation für Natural Language Processing (NLP)

- Darstellungen unter Einsatz der populären NLP-Bibliothek [nltk](https://www.nltk.org/) (Installation und Download erforderlich).
- Weitere verbreitete Bibliotheken sind [spacy](https://spacy.io/), [gensim](https://radimrehurek.com/gensim/) und [TextBlob](https://textblob.readthedocs.io/en/dev/).

### Tokenisierung und n-Gramme


- Tokenisierung bezeichnet die Zerlegung eines Satzes in seine Bestandteile.
- Mögliche Zerlegungsmethoden sind:
  - Unigramme (Ein Wort)
  - Bigramme (Zwei Wörter)
  - Trigramme (Drei Wörter)
  - allgemein spricht man von: n-Grammen (n Wörter)

In [41]:
import nltk # library to support NLP tasks
from nltk import word_tokenize # splits sentences in words/tokens

# Tokenization in unigrams
my_sentence = "The United States is a country."
words = word_tokenize(my_sentence)
print("Unigrams: ", words)

# Tokenization in bigrams
my_sentence = "The United States is a country."
words = word_tokenize(my_sentence)
bigrams = list(nltk.bigrams(words))
print("Bigrams: ",bigrams )
print("\nMeaningful Bigram: ",  bigrams[1])

Unigrams:  ['The', 'United', 'States', 'is', 'a', 'country', '.']
Bigrams:  [('The', 'United'), ('United', 'States'), ('States', 'is'), ('is', 'a'), ('a', 'country'), ('country', '.')]

Meaningful Bigram:  ('United', 'States')


### PoS Tagging

- PoS = Parts of Speech
- Beim PoS Tagging wird jedem Wort (bzw. Interpunktionszeichen) eines Satzes eine Wortart zugewiesen.

In [31]:
my_sentence = "The United States are a country."
words = word_tokenize(my_sentence)
pos_words = nltk.pos_tag(words) # PoS Tagging
print("PoS tagged my_sentence: \n", pos_words)

PoS tagged my_sentence: 
 [('The', 'DT'), ('United', 'NNP'), ('States', 'NNPS'), ('are', 'VBP'), ('a', 'DT'), ('country', 'NN'), ('.', '.')]


Erklärung zu den Wortarten:
    - DT: determiner (Bestimmungswort)
    - NNP: proper noun, singular (korrekt geschriebenes Substantiv im Singular
    - NNPS: Proper noun, plural (korrekt geschriebenes Substantiv im Plural)
    - VBP: verb present (Verb in Zeitfrom Präsens)
    - DT: determiner (Bestimmungswort)
    - NN: noun, singular or mass (Substantiv)

https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

### Stopwörter

- Stopwörter sind häufig in einem Satz auftretende Wörter mit wenig Bedeutungsinhalt
- Stopwörter kennzeichnet die Eigenschaft, dass sie eine geringe Relevanz für das Verständnis eines Satzes besitzen.
- Die Entfernung von Stopwörtern aus Texten ist ein Standard-Preprocessing Schritt.
- Mögliche Stopwörter im Englischen sind beispielsweise "a", "am" und "the"
- Stopwörter werden entfernt, weil sie wenig/keinen positiven Einfluss auf die Leistung eines Machine Learning Modells zur Textklassifikation besitzen. 
- Insbesondere wenn klassische Modelle wie SVM oder Naive Bayes zum Einsatz kommen, sollten Stopwörter entfernt werden. Machine Learning Modelle basierend auf Neuronalen Netzen sind in der Lage die für die jeweilige Aufgabe relevanten Features selbstständig zu identifizieren. Eine Entfernung von Stopwörter ist nicht zwingend erforderlich.
- Die Entfernung von Stopwörtern reduziert darüber hinaus die zu verarbeitende Datenmenge erheblich. 

In [45]:
import nltk
from nltk import word_tokenize
from nltk.corpus import stopwords # nltk provides stop words lists

english_stopwords = stopwords.words('English') # select english stopword list
print("First 10 stopwords in english stopword list : \n", english_stopwords[:10])

my_sentence = "The United States is a country."
words = word_tokenize(my_sentence)

# Filter out stopwords from my_sentence which are contained in stopword list
words_wo_stops = [word for word in words if word not in english_stopwords]

print("\nOrginial Tokens :\n", words)
print("\nTokens without stopwords :\n", words_wo_stops)

First 10 stopwords in english stopword list : 
 ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

Orginial Tokens :
 ['The', 'United', 'States', 'is', 'a', 'country', '.']

Tokens without stopwords :
 ['The', 'United', 'States', 'country', '.']


Tokens "is" und "a" wurden aus dem Satz entfernt.

In [46]:
"is" and "a" in english_stopwords

True

### Text Normalisierung

- Im NLP-Kontext wird von Normalisierung gesprochen, wenn verschiedene Variationen eines Wortes oder Ausdrucks existieren und diese auf eine einheitliche Form zurückgeführt werden.
- Eine mögliche Variation stellt die Konjugation von Verben dar. Englische Wörter wie "doing" oder "does" werden durch Normalisierung auf die Stammform "do" reduziert.
- Auch Abkürzungen wie "US" werden durch Normalisierung in den Ländernamen "United States" transformiert.
<br><br>
- Es existieren verschiedene Normalisierungstechniken für Text. Bekannte Methoden sind: 
  - <b>Korrektur von Rechtschreibung</b>
  - <b>Stemming (Stammformreduktion)</b>
  - <b>Lemmatisierung</b>

In [48]:
# Simple text normalization: change US to United States
my_sentence = "The US is a country."
my_normalized_sentence = my_sentence.replace("US", "United States")
print("Normalized Sentence: ", my_normalized_sentence)

Normalized Sentence:  The United States is a country.


#### Rechtschreibkorrektur

- Die Korrektur von Rechtschreibung stellt einen aufwendigen Prozess in der Datenvorverarbeitung von Text dar.
- Wenn für das Verständnis eines Satzes wichtige Wörter falsch geschrieben wurden, besteht die Gefahr, dass diese nicht ins spätere Machine Learning Modell überführt werden können (vgl. Embeddings). Dies würde einen Informationsverlust im Preprocessing darstellen und sollte vermieden werden.
- Die Python Bibliothek [autocorrect](https://github.com/phatpiglet/autocorrect/) unterstützt das Korrigieren von Rechtschreibung in begrenztem Umfang.

In [51]:
# !pip install autocorrect

In [80]:
import nltk
from nltk import word_tokenize
from autocorrect import spell

my_sentence = "HTe Uited States is a contry." # Spelling errors in "Uited" and "contry"
words = word_tokenize(my_sentence)
print("Original Words: ", words)

autocorrected_words =  [spell(word) for word in words]
print("Autocorrected Words: ", autocorrected_words)

Original Words:  ['HTe', 'Uited', 'States', 'is', 'a', 'contry', '.']
Autocorrected Words:  ['The', 'United', 'States', 'is', 'a', 'country', 'a']


In [79]:
# Autocorrect is not always working as expected!
spell_error_word = "Countr" 
print("Wrong Correction to '{}' instead of 'Country'.".format(spell(spell_error_word)))

Wrong Correction to 'Count' instead of 'Country'.


#### Stemming (Stammformreduktion)

-  Stemming bezeichnet ein Verfahren, das Wörter auf ihre Stammform zurückführt. 
-  Für Verben stellt der Infinitiv die Stammform dar.
- Durch Stemming können auch Nomen wie "Production" und "Products" auf die Stammform "Product" reduziert werden.
<br><br>
-  Für die Stammformreduktion existieren verschiedene Stemmer-Implementierungen. Populäre Stemmmer:
  - PorterStemmer (ältester Stemmer)
  - SnowballStemmer (Porter 2 - Weiterentwicklung PorterStemmer)
  - LancasterStemmer (Paice-Husk-Stemmer)

In [83]:
import nltk
porter_stemmer = nltk.stem.PorterStemmer()
porter_stemmer.stem("doing")

'do'

In [86]:
from nltk.stem.snowball import SnowballStemmer
snowball_stemmer = SnowballStemmer('english') # Stemmer with english language support
snowball_stemmer.stem("Production")

'product'

#### Lemmatisierung

- Lemmatisierung zielt darauf ab die grammatikalisch korrekte Form eines Wortes zu bilden. Die durch Lemmatisierung erzeugten Wörter werden Lemmata genannt.
- Lemmatisierung kann insbesondere beim Einsatz von Stemming sinnvoll sein, da bei der Stammformreduktion existierende Wörter enstehen können.