# Normalisierung
Die Normalisierung hat zum Ziel, zufällige Störungen, die beispielsweise aus Schreibfehlern entstehen, aus dem Text zu entfernen und ihn gleichzeitig näher an eine Art Standardform zu bringen. Diese Standardform reduziert die Varianz, mit der Informationen ausgedrückt werden, und macht somit die Verarbeitung einfacher und zeitgleich effizienter.

## Inhaltsverzeichnis
- [Vorbereitung](#Vorbereitung)
- [Groß- und Kleinschreibung](#Groß--und-Kleinschreibung)
- [Stopwörter](#Stopwörter)
- [Lemmatisierung](#Lemmatisierung)
- [Stemming](#Stemming)

## Vorbereitung
Laden Sie zuerst NLTK und anschließend die Pakete `stopwords` und `wordnet` herunter.

In [None]:
import nltk
nltk.download('stopwords')
nltk.download('wordnet')

## Groß- und Kleinschreibung
Im Folgenden werden wir immer wieder Wörter in Kleinbuchstaben umwandeln, um Vergleiche zu vereinfachen. Zeitgleich werden dadurch Fehler in der Groß- und Kleinschreibung ignoriert.

Die Python-Funktion `lower` konvertiert jeden Buchstaben einer Zeichenkette in Kleinbuchstaben. Die Funktion `casefold` ist dabei sogar noch etwas aggresiver und konvertiert auch einige Kleinbuchstaben, die außerhalb des lateinsichen Alphabets liegen, in eine Art Stammform:

In [None]:
text = 'IcH Aß'
text.lower(), text.casefold()

Da somit auch leichte Schreibfehler automatisch korrigiert werden, ist zu Zwecken der Textanalyse `casefold` vorzuziehen.

## Stopwörter
Stopwörter sind solche Wörter, die dem Text kaum Informationen hinzufügen und daher ignoriert werden sollten. In der Regel handelt es sich dabei um Wörter, die so häufig vorkommen, dass sie keiner Bedeutung sinnvoll zugeordnet werden können.

Beispiele für diese Wörter sind `in`, `is` / `ist` oder `an` / `ein`. Natürlich bringt NLTK eine Liste solcher Stopwörter für verschiedene Sprachen mit:

In [None]:
from nltk.corpus import stopwords
list(stopwords.words('english'))[:10]

In [None]:
list(stopwords.words('german'))[:10]

Mit Hilfe einer Schleife können Sie nun für einen bereits in Tokens umgewandelten Text prüfen, welche Wörter Stopwörter sind, und diese entfernen.

In [None]:
from nltk.tokenize import word_tokenize
words = word_tokenize('Laue Sommerabende machen mich immer so melancholisch.')

filtered_words = []
for word in words:
    if word not in stopwords.words('german'):
        filtered_words.append(word)

filtered_words

Mit Hilfe einer Comprehension lässt sich dieser Code sogar noch weiter verkürzen:

In [None]:
[word for word in words if word.casefold() not in stopwords.words('german')]

## Lemmatisierung
Die Lemmatisierung hat zum Ziel, unterschiedlich flektierte Wortformen als gleiches Wort (Lexem) darzustellen. So soll `geflogen` beispielsweise auf `fliegen` abgebildet werden.

Beginnen wir aber zunächst in der englischen Sprache. NLTK stellt mit dem `WordNetLemmatizer` eine einfache Möglichkeit bereit, um Wörter auf ihre Stammform zurückzuführen:

In [None]:
from nltk.stem import WordNetLemmatizer
WordNetLemmatizer().lemmatize('dogs')

Der Parameter `pos` wird standardmäßig mit `N` wie *Noun* bzw. *Nomen* belegt. Andere Wortarten lassen sich durch Anpassung dieses Parameters auch auf ihre Stammform zurückführen. Legitime Werte sind `V` für Verben, `A` für Adjektive oder `R` für Adverben.

In [None]:
WordNetLemmatizer().lemmatize('better', pos='a')

Die Lemmatisierung deutscher Wörter unterstützt NLTK leider nicht, sodass eine andere Bibliothek nötig wird. `HanTa` - der Hannover Tagger - implementiert Lemmatisierung für Deutsch, Englisch und Niederländisch. Die folgende Zelle importiert zuerst HanTa, bevor das Modell für die deutsche Sprache geladen wird:

In [None]:
from HanTa import HanoverTagger as ht
md = ht.HanoverTagger('morphmodel_ger.pgz')

Die Funktion `analyze` ermöglicht dann die Lemmatisierung, wobei HanTa sogar ein Tupel mit weiteren Informationen zurückgibt.

(Der zweite Eintrag im Tupel gibt die Zuordnung zur Wortart an. `NN` steht für Nomen, `VV` für Vollverb und `VA` für Hilfsverb.)

In [None]:
md.analyze('Hunde'), md.analyze('geflogen'), md.analyze('hätte')

## Stemming
Stemming ist eine Unterform der Lemmatisierung und führt Wörter auf einen künstlichen Wortstamm zurück. Dieser Wortstamm muss selbst kein gültiges Wort der Ausgangssprache sein. NLTK stellt für das Stemming beispielsweise den `SnowballStemmer` bereit, der sowohl mit englischen wie auch deutschen Wörtern interagieren kann.

In [None]:
from nltk.stem.snowball import SnowballStemmer
snowball = SnowballStemmer('english')

snowball.stem('care'), snowball.stem('cared'), snowball.stem('caring')

In [None]:
snowball = SnowballStemmer('german')

snowball.stem('besuchen'), snowball.stem('besuche'), snowball.stem('besuchte')