# Data Preparation für Natural Language Processing (NLP)

- Dieses Noteook enthält grundlegende Techniken für die Vorverarbeitung von Daten in Textform.
- Darstellungen unter Einsatz der populären NLP-Bibliothek [nltk](https://www.nltk.org/) (Installation und Download erforderlich).
- Weitere verbreitete Bibliotheken sind [spacy](https://spacy.io/), [gensim](https://radimrehurek.com/gensim/) und [TextBlob](https://textblob.readthedocs.io/en/dev/).

### Tokenisierung und n-Gramme


- Tokenisierung bezeichnet die Zerlegung eines Satzes in seine Bestandteile.
- Mögliche Zerlegungsmethoden sind:
  - Unigramme (Ein Wort)
  - Bigramme (Zwei Wörter)
  - Trigramme (Drei Wörter)
  - allgemein spricht man von: n-Grammen (n Wörter)

In [1]:
import nltk # library to support NLP tasks
from nltk import word_tokenize # splits sentences in words/tokens

# Tokenization in unigrams
my_sentence = "The United States is a country."
words = word_tokenize(my_sentence)
print("Unigrams: ", words)

# Tokenization in bigrams
my_sentence = "The United States is a country."
words = word_tokenize(my_sentence)
bigrams = list(nltk.bigrams(words))
print("Bigrams: ",bigrams )
print("\nMeaningful Bigram: ",  bigrams[1])

Unigrams:  ['The', 'United', 'States', 'is', 'a', 'country', '.']
Bigrams:  [('The', 'United'), ('United', 'States'), ('States', 'is'), ('is', 'a'), ('a', 'country'), ('country', '.')]

Meaningful Bigram:  ('United', 'States')


### PoS Tagging

- PoS = Parts of Speech
- Beim PoS Tagging wird jedem Wort (bzw. Interpunktionszeichen) eines Satzes eine Wortart zugewiesen.

In [2]:
my_sentence = "The United States are a country."
words = word_tokenize(my_sentence)
pos_words = nltk.pos_tag(words) # PoS Tagging
print("PoS tagged my_sentence: \n", pos_words)

PoS tagged my_sentence: 
 [('The', 'DT'), ('United', 'NNP'), ('States', 'NNPS'), ('are', 'VBP'), ('a', 'DT'), ('country', 'NN'), ('.', '.')]


Erklärung zu den Wortarten:
    - DT: determiner (Bestimmungswort)
    - NNP: proper noun, singular (korrekt geschriebenes Substantiv im Singular)
    - NNPS: Proper noun, plural (korrekt geschriebenes Substantiv im Plural)
    - VBP: verb present (Verb in Zeitfrom Präsens)
    - DT: determiner (Bestimmungswort)
    - NN: noun, singular or mass (Substantiv)

https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

### Stoppwörter

- Stopwörter sind häufig in einem Satz auftretende Wörter mit wenig Bedeutungsinhalt
- Stopwörter kennzeichnet die Eigenschaft, dass sie eine geringe Relevanz für das Verständnis eines Satzes besitzen.
- Die Entfernung von Stopwörtern aus Texten ist ein Standard-Preprocessing Schritt.
- Mögliche Stopwörter im Englischen sind beispielsweise "a", "am" und "the"
- Stopwörter werden entfernt, weil sie wenig/keinen positiven Einfluss auf die Leistung eines Machine Learning Modells zur Textklassifikation besitzen. 
- Insbesondere wenn klassische Modelle wie SVM oder Naive Bayes zum Einsatz kommen, sollten Stopwörter entfernt werden. Machine Learning Modelle basierend auf Neuronalen Netzen sind in der Lage die für die jeweilige Aufgabe relevanten Features selbstständig zu identifizieren. Eine Entfernung von Stopwörter ist nicht zwingend erforderlich.
- Die Entfernung von Stopwörtern reduziert darüber hinaus die zu verarbeitende Datenmenge erheblich. 

In [1]:
import nltk
from nltk import word_tokenize
from nltk.corpus import stopwords # nltk provides stop words lists

english_stopwords = stopwords.words('English') # select english stopword list
print("First 10 stopwords in english stopword list : \n", english_stopwords[:10])

my_sentence = "The United States is a country."
words = word_tokenize(my_sentence)

# Filter out stopwords from my_sentence which are contained in stopword list
words_wo_stops = [word for word in words if word not in english_stopwords]

print("\nOrginial Tokens :", words)
print("\nTokens without stopwords :", words_wo_stops)

First 10 stopwords in english stopword list : 
 ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

Orginial Tokens : ['The', 'United', 'States', 'is', 'a', 'country', '.']

Tokens without stopwords : ['The', 'United', 'States', 'country', '.']


Tokens "is" und "a" wurden aus dem Satz entfernt.

In [4]:
"is" and "a" in english_stopwords

True

### Text Normalisierung

- Im NLP-Kontext wird von Normalisierung gesprochen, wenn verschiedene Variationen eines Wortes oder Ausdrucks existieren und diese auf eine einheitliche Form zurückgeführt werden.
- Eine mögliche Variation stellt die Konjugation von Verben dar. Englische Wörter wie "doing" oder "does" werden durch Normalisierung auf die Stammform "do" reduziert.
- Auch Abkürzungen wie "US" werden durch Normalisierung in den Ländernamen "United States" transformiert.
<br><br>
- Es existieren verschiedene Normalisierungstechniken für Text. Bekannte Methoden sind: 
  - <b>Korrektur von Rechtschreibung</b>
  - <b>Stemming (Stammformreduktion)</b>
  - <b>Lemmatisierung</b>

In [5]:
# Simple text normalization: change US to United States
my_sentence = "The US is a country."
my_normalized_sentence = my_sentence.replace("US", "United States")
print("Normalized Sentence: ", my_normalized_sentence)

Normalized Sentence:  The United States is a country.


#### Rechtschreibkorrektur

- Die Korrektur von Rechtschreibung stellt einen aufwendigen Prozess in der Datenvorverarbeitung von Text dar.
- Wenn für das Verständnis eines Satzes wichtige Wörter falsch geschrieben wurden, besteht die Gefahr, dass diese nicht ins spätere Machine Learning Modell überführt werden können (vgl. Embeddings). Dies würde einen Informationsverlust im Preprocessing darstellen und sollte vermieden werden.
- Die Python Bibliothek [autocorrect](https://github.com/phatpiglet/autocorrect/) unterstützt das Korrigieren von Rechtschreibung in begrenztem Umfang.

In [6]:
# !pip install autocorrect

In [7]:
import nltk
from nltk import word_tokenize
from autocorrect import spell

my_sentence = "HTe Uited States is a contry." # Spelling errors in "Uited" and "contry"
words = word_tokenize(my_sentence)
print("Original Words: ", words)

autocorrected_words =  [spell(word) for word in words]
print("Autocorrected Words: ", autocorrected_words)

Original Words:  ['HTe', 'Uited', 'States', 'is', 'a', 'contry', '.']
Autocorrected Words:  ['The', 'United', 'States', 'is', 'a', 'country', 'a']


In [8]:
# Autocorrect is not always working as expected!
spell_error_word = "Countr" 
print("Wrong Correction to '{}' instead of 'Country'.".format(spell(spell_error_word)))

Wrong Correction to 'Count' instead of 'Country'.


#### Stemming (Stammformreduktion)

-  Stemming bezeichnet ein Verfahren, mit welchem verschiedene morphologische Varianten eines  Wortes auf ihre gemeinsame Stammform zurückführt werden. Die Idee ist, dass die lexikalische Bedeutung eines Wortes in seinem Stamm zu finden ist.
-  Für Verben stellt der Infinitiv die Stammform dar.
- Durch Stemming können auch Nomen wie "Production" und "Products" auf die Stammform "Product" reduziert werden.
<br><br>
-  Für die Stammformreduktion existieren verschiedene Stemmer-Implementierungen. Populäre Stemmmer:
  - PorterStemmer (ältester Stemmer)
  - SnowballStemmer (Porter 2 - Weiterentwicklung PorterStemmer)
  - LancasterStemmer (Paice-Husk-Stemmer)

In [9]:
import nltk
porter_stemmer = nltk.stem.PorterStemmer()
porter_stemmer.stem("running")

'run'

In [10]:
from nltk.stem.snowball import SnowballStemmer
snowball_stemmer = SnowballStemmer('english') # Stemmer with english language support
snowball_stemmer.stem("car's")

'car'

-  Beim Stemming besteht die Gefahr des sogenannten Over- und Under-Stemming.
-  Beim Over-stemming werden zu viele Bestandteile eines Wortes entfernt, was dazu führen kann, dass zwei unterschiedliche Wörter auf die gleiche Stammform reduziert werden. Es besteht die Gefahr, dass ein Satz durch Stemming eine völlig neue Bedeutung erhält.  
- Beim Under-stemming werden nicht zu viel, sondern zu wenig Buchstaben eines Wortes entfernt. Dies führt dazu, dass die korrekte Stammform nicht gebildet werden kann und ein grammatikalisch falsches Grundwort entsteht.

In [11]:
snowball_stemmer = SnowballStemmer('english')

# Over-stemming 
words = ["organs", "organization"]
print("Over-stemming: ",words, "->",[snowball_stemmer.stem(word) for word in words])

# Under-stemming
words = ["absorption", "absorbing"]
print("Under-stemming: ",words, "->",[snowball_stemmer.stem(word) for word in words])

# Examples based on https://www.intrafind.de/blog/the-difference-between-stemming-and-lemmatization-en

Over-stemming:  ['organs', 'organization'] -> ['organ', 'organ']
Under-stemming:  ['absorption', 'absorbing'] -> ['absorpt', 'absorb']


-  Es existieren verschiedene Arten von Stemmern, welche auf unterschiedliche Weise versuchen die Grundform eines Wortes abzuleiten. So setzt der LancasterStemmer beispielsweise auf Affix Removal, welches die am weitesten verbreitete Stemming-Technik ist. Mögliche Affixe von Wörtern wurden hierfür explizit im [Quellcode des LancasterStemmers](https://www.nltk.org/_modules/nltk/stem/lancaster.html) definiert. Das zu "stemmende" Wort wird anschließend auf die definierten Affixe geprüft und bei einem Treffer wird der entsprechende Affix entfernt.
-  Ein Nachteil von Stemming ist, dass die erzeugten Stammformen nicht zwingend wirklich existierende Wörter sein müssen.

In [12]:
from nltk.stem.lancaster import LancasterStemmer
lancaster_stemmer = LancasterStemmer()

print(lancaster_stemmer.stem('trouble')) # word does not exists -> lemmatization
print(lancaster_stemmer.stem('destabilize')) # word does not exists -> lemmatization
print(lancaster_stemmer.stem('football')) # word does not exists -> lemmatization

troubl
dest
footbal


#### Lemmatisierung

- Lemmatisierung zielt darauf ab die grammatikalisch korrekte Form eines Wortes zu bilden. Die durch Lemmatisierung erzeugten Wörter werden Lemmata genannt.
- Lemmatisierung kann insbesondere beim Einsatz von Stemming sinnvoll sein, da bei der Stammformreduktion nicht existierende Wörter enstehen können.

In [13]:
# nltk.download('wordnet')

In [14]:
import nltk
from nltk.stem.wordnet import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

print(lemmatizer.lemmatize('trouble')) 
print(lemmatizer.lemmatize('destabilize'))
print(lemmatizer.lemmatize('football '))

trouble
destabilize
football 


### Named Entities Recognition (NER) 

-  auf Deutsch: Eigennamenerkennung
- IM Unterschied zum Part of Speech Tagging, nimmt sich Named entities recognition dem Problem in einem Wörterbuch nicht existierender Wöter an. Dies betrifft inbesondere Eigennamen von z.B. Personen oder Ortsangaben
- Named entities werden, sofern sie erkannt werden, bestimmten Kategorien zugeordnet.
-  Die einfachste Kategorisierung stellt die Kennzeichnung als Named Entity ([Kategorie "NE'](https://www.nltk.org/book/ch07.html)' dar).
- Ausgehend von dieser Kategorie ist eine feinere Klassifizierung von Wörtern in Kategorien wie Personen, Orte, Organisationen oder auch Währungssymbole möglich.
- Im folgenden Beispiel werden PoS Tagging und Named Entites Recognition gegenübergestellt. Der Firmenname "BASF" sowie die Stadtbezeichnung "Ludwigshafen" werden vom [chunk package der nltk-Bibliothek](https://www.nltk.org/api/nltk.chunk.html)  erkannt und als 'NE' kategorisiert.

In [15]:
# nltk.download('maxent_ne_chunker')
# nltk.download('words')

In [16]:
import nltk
from nltk import word_tokenize

my_sentence = "BASF is a company located in Ludwigshafen"
words = word_tokenize(my_sentence)
pos_words = nltk.pos_tag(words)
print("\nPoS Tokens: ")
[print(w) for w in pos_words]

named_entites = nltk.ne_chunk(pos_words, binary = True) # if binary = true, Named entites are tagges as 'NE'
print("\nNamed entities: ")
print(named_entites)


PoS Tokens: 
('BASF', 'NNP')
('is', 'VBZ')
('a', 'DT')
('company', 'NN')
('located', 'VBN')
('in', 'IN')
('Ludwigshafen', 'NNP')

Named entities: 
(S
  (NE BASF/NNP)
  is/VBZ
  a/DT
  company/NN
  located/VBN
  in/IN
  (NE Ludwigshafen/NNP))


### Word Sense disambiguation (WSD)

- auf Deutsch: Disambiguierung
- Word Sense disambiuation bezeichnet die Auflösung von Mehrdeutigkeiten bei der Verarbeitung natürlicher Sprache.
- Einzelne Wörter, Satzteile oder ganze Sätze können trotz gleicher Schreibweise je nach Kontext unterschiedliches bedeuten. So kann das Wort "bank" je nach Kontext sowohl eine Flussufer als auch ein Kreditinstitut bezeichnen.
- Für Menschen stellen solche Mehrdeutigkeiten meist kein Problem dar. Bei der maschinellen Sprachverarbeitung stellt Disambiguierung eine große Herausforderung dar.
- Grundsätzlich helfen bei der Auflösung von Mehrdeutigkeiten linguistische und kontextuelle Informationen sowie Weltwissen.
- Einen klassischer Algorithmus zur Erkennung von Ambiguität stellt der [Lesk Algorithmus](https://www.nltk.org/howto/wsd.html) dar, welcher in nltk implementiert ist. Der Algorithmus untersucht den Kontext, in welchem ein mehrdeutiges Wort auftaucht. Die Kontextwörter werden  mit den verschiedenen Synsets, die für das gesuchte Worte existieren verglichen. Das ambiguitäre Wort wird abschließend dem Synset zugeordnet, bei welchem die größten Übereinstimmungen gefunden wurden.

In [17]:
import nltk
from nltk.wsd import lesk
from nltk import word_tokenize

sentence1 = "Keep your savings in the bank" # credit institution
sentence2 = "It's so risky to drive over the banks of the road" # river bank
print(lesk(word_tokenize(sentence1), 'bank')) # synset correct
print(lesk(word_tokenize(sentence2), 'bank')) # synset correct

sentence3 = "There is a tiny mouse in the basement!"  # animal mouse
sentence4 = "I need new batteries for my mouse"  # computer mouse
print(lesk(word_tokenize(sentence3), 'mouse')) # synset wrong 
print(lesk(word_tokenize(sentence4), 'mouse')) # synset correct

Synset('savings_bank.n.02')
Synset('bank.v.07')
Synset('mouse.v.02')
Synset('mouse.v.02')


##### Existierende Synsets für die Wörter 'bank' und 'mouse'

Code adapted from: https://proquest.techbus.safaribooksonline.de/book/programming/python/9781484243541/8dot-semantic-analysis/427287_2_en_8_chapter_xhtml?query=((Synset))+AND+(PUBDATEYEAR%3d2019)#snippet

In [18]:
from nltk.corpus import wordnet
import pandas as pd

term1 = 'bank'
synsets = wordnet.synsets(term1)

# display all synsets that exist in NLTK´s WordNet interface for 'bank'
print("Total number of synsets for the word 'bank': ", len(synsets))
bank_df = pd.DataFrame([{'Synset': synset,
                         'Part of Speech': synset.lexname(),
                         'Definition': synset.definition(),
                         'Lemmas': synset.lemma_names(),
                         'Examples': synset.examples()}
                             for synset in synsets])
bank_df = bank_df[['Synset', 'Part of Speech', 'Definition', 'Lemmas', 'Examples']]
bank_df.head(3)

Total number of synsets for the word 'bank':  18


Unnamed: 0,Synset,Part of Speech,Definition,Lemmas,Examples
0,Synset('bank.n.01'),noun.object,sloping land (especially the slope beside a bo...,[bank],"[they pulled the canoe up on the bank, he sat ..."
1,Synset('depository_financial_institution.n.01'),noun.group,a financial institution that accepts deposits ...,"[depository_financial_institution, bank, banki...","[he cashed a check at the bank, that bank hold..."
2,Synset('bank.n.03'),noun.object,a long ridge or pile,[bank],[a huge bank of earth]


In [19]:
from nltk.corpus import wordnet
import pandas as pd

term2 = 'mouse'
synsets = wordnet.synsets(term2)

# display all synsets that exist in NLTK´s WordNet interface for 'mouse'
print("Total number of synsets for the word 'mouse': ", len(synsets))
mouse_df = pd.DataFrame([{'Synset': synset,
                         'Part of Speech': synset.lexname(),
                         'Definition': synset.definition(),
                         'Lemmas': synset.lemma_names(),
                         'Examples': synset.examples()}
                             for synset in synsets])
mouse_df = mouse_df[['Synset', 'Part of Speech', 'Definition', 'Lemmas', 'Examples']]
mouse_df

Total number of synsets for the word 'mouse':  6


Unnamed: 0,Synset,Part of Speech,Definition,Lemmas,Examples
0,Synset('mouse.n.01'),noun.animal,any of numerous small rodents typically resemb...,[mouse],[]
1,Synset('shiner.n.01'),noun.state,a swollen bruise caused by a blow to the eye,"[shiner, black_eye, mouse]",[]
2,Synset('mouse.n.03'),noun.person,person who is quiet or timid,[mouse],[]
3,Synset('mouse.n.04'),noun.artifact,a hand-operated electronic device that control...,"[mouse, computer_mouse]",[a mouse takes much more room than a trackball]
4,Synset('sneak.v.01'),verb.motion,to go stealthily or furtively,"[sneak, mouse, creep, pussyfoot]",[..stead of sneaking around spying on the neig...
5,Synset('mouse.v.02'),verb.contact,manipulate the mouse of a computer,[mouse],[]


### Sentence boundary detection

- Ziel der Methode ist es, das Ende eines Satzes und den Beginn eines Neuen festzustellen.
- Was auf den ersten Blick trival erscheint, ist bei genauerere Betrachtung nicht ganz einfach. So werden z.B. Abkürzungen häufig mit einem Punkt versehen, weshalb die pauschale Regel, dass ein Punkt das Ende eines Satzes markiert, nicht zuverlässig funktioniert.

In [1]:
import nltk
from nltk.tokenize import sent_tokenize  # method detects sentences

correct_detection = sent_tokenize("The United States is a country. The current president "+ 
                    "of the U.S. is Donald Trump. Do you know former presidents? "+
                    "I think, Barack Obama was one.")

incorrect_detection = sent_tokenize("The United States is a country. The current president "+ 
                    "of the U.S. is Donald Trump. Do you know former presidents? "+
                    "E.g. Barack Obama was one.")

print("Correct: \n", correct_detection) # U.S. is correctly identified as abbreviation
print("\nIncorrect: \n", incorrect_detection) # E.g. not recognized abbreviation

Correct: 
 ['The United States is a country.', 'The current president of the U.S. is Donald Trump.', 'Do you know former presidents?', 'I think, Barack Obama was one.']

Incorrect: 
 ['The United States is a country.', 'The current president of the U.S. is Donald Trump.', 'Do you know former presidents?', 'E.g.', 'Barack Obama was one.']


### Vektorisierung

In [38]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
count = CountVectorizer()

text = np.array(["The sun is shining",
                 "The weather is great",
                 "I love nice weather"])

bag = count.fit_transform(text)
print("Vocabulary-Dictionary: \n", count.vocabulary_)
print("One-Hot-Encoding Text: \n", bag.toarray())

Vocabulary-Dictionary: 
 {'the': 6, 'sun': 5, 'is': 1, 'shining': 4, 'weather': 7, 'great': 0, 'love': 2, 'nice': 3}
One-Hot-Encoding Text: 
 [[0 1 0 0 1 1 1 0]
 [1 1 0 0 0 0 1 1]
 [0 0 1 1 0 0 0 1]]


In [42]:
from keras.preprocessing.text import Tokenizer 

text = np.array(["The sun is shining",
                 "The weather is great",
                 "I love nice weather"])

# Tokenization
tokenizer = Tokenizer() 
tokenizer.fit_on_texts(text) 
my_vocabulary = tokenizer.word_index
print("Vocabulary-Dictionary: \n", my_vocabulary)

# Vectorization
print("Sequence: \n", my_tokenizer.texts_to_sequences(text))

Vocabulary-Dictionary: 
 {'the': 1, 'is': 2, 'weather': 3, 'sun': 4, 'shining': 5, 'great': 6, 'i': 7, 'love': 8, 'nice': 9}
Sequence: 
 [[1, 4, 2, 5], [1, 3, 2, 6], [7, 8, 9, 3]]
