# Tokenization
Ziel der Tokenization ist es, gegebene Zeichenketten zu zerlegen. So werden Sätze oder Wörter in sogenannte Tokens aufgeteilt, um sie weiterverarbeiten zu können.

## Inhaltsverzeichnis
- [Vorbereitung](#Vorbereitung)
- [Ein naiver Ansatz](#Ein-naiver-Ansatz)
- [Tokenizer aus NLTK](#Tokenizer-aus-NLTK)
- [Behandlung deutscher Texte](#Behandlung-deutscher-Texte)

## Vorbereitung
Zuerst laden wir die Bibliothek `nltk`. `nltk` steht für *Natural Language Toolkit* und ist eine der am weitesten verbreiteten Bibliotheken zur Verarbeitung von natürlicher Sprache. Sie stellt einfache Schnittstellen bereit, um mit verschiedenen Modellen in verschiedenen Sprachen zu arbeiten.

Bei der Installation der Bibliothek werden die benötigten Modelle übrigens noch nicht installiert. Stattdessen müssen Sie diese separat durch einen Aufruf der Funktion `download` herunterladen. Als Parameter wählen Sie entweder den Namen des Pakets, das Sie benötigen, oder `all`, um alle (3,5 GB) auf Ihrem Computer zu speichern.

**Hinweis**: Im Docker-Image sind auf Grund der Größe nur die für diese Vorlesung relevanten Pakete enthalten.

In [None]:
import nltk
nltk.download('punkt')

## Ein naiver Ansatz
Mithilfe der Python-Funktion `split` lassen sich Zeichenketten an bestimmten Stellen aufteilen. Die sich ergebenden Segmente werden ihrerseits als eine Liste von Zeichenketten zurückgegeben.

Der erste Parameter gibt dabei an, bei welchem Zeichen getrennt werden soll. Der Standardwert für diesen Parameter ist das Leerzeichen.

In [None]:
"I can't put my hat back on.".split()

Die Wörter sind offenbar voneinander getrennt. Allerdings ist diese Lösung nicht im engeren Sinne korrekt. So finden Sie mehrere Wörter, die Satzzeichen oder öffnende bzw. schließende Klammern enthalten. Für Anführungszeichen und Apostrophe gilt im Übrigen das selbe.

Leider ist es nicht möglich, alle Zeichen außer Buchstaben aus den einzelnen Elementen der Liste zu entfernen. Der Punkt als Satzzeichen markiert beispielsweise im Deutschen Abkürzungen und Ordinalzahlen und sollte demnach in genau diesen Fällen erhalten bleiben, um den Sinn einer Aussage nicht zu verfälschen.

## Tokenizer aus NLTK
NLTK liefert verschiedene Funktionen mit, um einen Text in Tokens zu verwandeln.

### WhitespaceTokenizer
Der grundlegenste Tokenizer ist der `WhitespaceTokenizer`. Dieser teilt Sätze anhand von Leerzeichen, Zeilenumbrüchen und Tabstopps. Das Ergebnis verhält sich also analog zu unserem naiven Ansatz, der die in Python integrierte Funktion `split` verwendet.

In [None]:
from nltk.tokenize import WhitespaceTokenizer
WhitespaceTokenizer().tokenize("I can't put my hat back on.")

### sent_tokenize
Die erste Funktion, die eine deutlich komplexere Implementierung einschließt, heißt `sent_tokenize` und unterteilt einen Text in einzelne Sätze. Dabei wird automatisch der von NLTK empfohlene Tokenizer verwendet. (Demnach kann also das Ergebnis unter verschiedenen Versionen von NLTK varrieren!) Dieser Tokenizer ist bereits ausgefeilt genug, um nicht jeden einzelnen Punkt als das Ende eines Satzes zu betrachten:

In [None]:
from nltk.tokenize import sent_tokenize
sent_tokenize("I can't put my hat back on. Mr. X told me so.")

### word_tokenize
Aber auch innerhalb von Sätzen kann NLTK eine deutlich komplexere Tokenization vornehmen. Die Funktion `word_tokenize` unterteilt einen Satz in die einzelnen Wörter. Das Ergebnis der Tokenization ist dabei deutlich näher an der Bedeutung der Worte als die Teilung an Leerzeichen, wie sich insbesondere durch die Trennung von *ca* und *n't* zeigt.

In [None]:
from nltk.tokenize import word_tokenize
word_tokenize("I can't put my hat back on.")

Auch der Punkt wird nicht einfach dem letzten Wort des Satzes zugeordnet. Punkte, die Abkürzungen markieren, bleiben dagegen am zugehörigen Wort hängen.

In [None]:
word_tokenize('Mr. X told me so.')

### SyllableTokenizer
Auch das Aufteilen in Silben beherrscht NLTK. Dazu kann beispielsweise der `SyllableTokenizer` verwendet werden. Die übergebene Zeichenkette darf jedoch nur einzelne Wörter enthalten.

In [None]:
from nltk import SyllableTokenizer
SyllableTokenizer().tokenize("comprehension")

## Behandlung deutscher Texte
Westliche Sprachen trennen in der Regel ihre Wörter durch Leerzeichen und auch die Interpunktion funktioniert ähnlich. Mit der Standardeinstellung - Englisch - lassen sich daher auch die meisten deutschen Sätze problemlos verarbeiten.

In [None]:
word_tokenize("Sei's viehisches Vergessen oder sei's ein banger Zweifel")

Sollten Sie dennoch einmal mit dem Ergebnis unzufrieden und der Unterschied zwischen den Sprachen dafür verantwortlich sein, so können Sie auch die verwendete Sprache setzen. NLTK unterstützt über ein Dutzend Sprachen, aus denen Sie mit Hilfe des Parameters `language` wählen können.

In [None]:
word_tokenize("Sei's viehisches Vergessen oder sei's ein banger Zweifel", language='german')