# Tokenisierung mit `spacy` und `nltk`

In den letzten Kapiteln haben wir gesehen, dass die Tokenisierung von Texten nicht mit ganz einfachen Mitteln zu lösen ist. Allerdings kannst du im Python-Ökosystem auf eine große Vielfalt an Tools zurückgreifen, die u.a. auch tokenisieren können.  

In [None]:
p1 = "Doch das Ende des Jahres 2020 birgt auch Hoffnung, dass durch die Vakzinen \
gegen Covid-19 wieder Normalität einkehre – wie immer die auch aussehen mag \
– und wir uns um anderes Dringliches kümmern oder einfach entspannen \
können. Und dass durch den im Januar anstehenden Bewohnerwechsel im \
Weißen Haus zu Washington D.C. das offizielle Herumgetrumpel auf dem \
gesunden Menschenverstand ein Ende finden möge."

p2 = "Wir, das gesamte Team von heise online und die Redaktionen von c't, iX, \
Technology Review, Mac & i, c't Digitale Fotografie, Make:, Techstage und \
Telepolis sowie heise Security, heise Developer und heise Autos wünschen Ihnen \
ein friedliches und freudvolles Jahr 2021. Wir wünschen Ihnen, dass Sie nicht \
vergeblich hoffen und dass Ihre Vorsätze erfüllt werden, auf dass Sie gesund \
bleiben oder genesen."

## Tokenisierung mit `spacy`

`spacy` hast du schon in der Einleitung kurz kennengelernt. Es hat sich in den letzten Jahren als Standard-Tool zur linguistischen Analyse durchgesetzt.

Als eine Vorstufe dazu führt es auch die Tokenisierung durch. Um Zeit bei umfangreichen Dokumenten oder vielen Aufrufen zu sparen, kannst du in der *Pipeline* die Folgeschritte nach der Tokenisierung mit `disable=['tagger', 'parser', 'ner']` abschalten. Da wir uns auch für Sätze und *Entitäten* interessieren, machen wir das hier nicht:

In [None]:
!pip install textacy
!python -m spacy download de_core_news_lg

In [None]:
import spacy

nlp = spacy.load("de_core_news_lg")
d1 = nlp(p1)
d2 = nlp(p2)

Damit hast du die Dokumente durch `spacy` analysieren lassen und dabei einige Schritte übersprungen (die werden wir später noch besprechen). Jetzt kannst du überprüfen, wie die Tokenisierung geklappt hat:

In [None]:
"|".join([str(d) for d in d1])

`spacy` hat seine Sache sehr gut erledigt. Beacht, dass Satzzeichen in `spacy` eigene Tokens sind, die auch entsprechend gekennzeichnet werden. Daher sind nicht nur Wörter in den Tokens enthalten.

`spacy` kennt außerdem sog. *Entitäten*, also zusammenhängende Wortkombinationen. Überprüfe, ob es im Text welche gefunden hat:

In [None]:
d1.ents

`spacy` kann auch Sätze voneinander trennen:

In [None]:
list(d1.sents)

Schau dir zum Vergleich noch das zweite Dokument an:

In [None]:
"|".join([str(d) for d in d2])

Hier ist bei der Tokenisierung ein subtiler Fehler passiert. `2021.` wurde als ein Token identifiziert. Du kannst überprüfen, ob das auch Auswirkungen auf die erkannt Satzstruktur hat:


In [None]:
list(d2.sents)

In der Tat hat das nicht perfekt funktioniert. Für eine spätere Analyse wäre das wahrscheinlich unproblematisch, aber du kannst sehen, dass diese Analyse nicht immer perfekt funktioniert.

Der Satz enthält durch die Namen der Publikationen viele Entitäten. Du kannst sie dir ausgeben lassen und nachsehen, ob alle erkannt worden sind:

In [None]:
d2.ents

Das hat sehr gut funktioniert. In den nächsten Lektionen betrachten wir, wie du mit diesen Entitäten umgehen kannst.

## Tokenisierung mit `nltk`

Neben `spacy` wird zur linguistischen Analyse auch das etwas ältere `nltk` eingesetzt. Hier findest du ebenso eine `tokenize`-Funktion:

In [None]:
!pip install nltk

Zusätzliche Daten für NLTK herunterladen

In [None]:
import nltk
nltk.download('punkt')

Die eigentliche Tokenisierung startet hier:

In [None]:
from nltk import tokenize
"|".join(tokenize.word_tokenize(p1))

Das Ergebnis ist sehr ähnlich wie das von `spacy`. Auch Sätze kannst du damit erkennen:

In [None]:
tokenize.sent_tokenize(p1)

Das zweite Dokument funktioniert sogar etwas besser als mit `spacy`:

In [None]:
"|".join(tokenize.word_tokenize(p2))

`2021` wurde hier richtig erkannt - das liegt aber eher daran, dass `nltk` keine *Ordinalzahlen* erkennen kann. Damit ist auch die Aufteilung in Sätze genau richtig:

In [None]:
tokenize.sent_tokenize(p2)

`nltk` ist ein leistungsfähiges Software-Paket, aber nicht so gut auf die Mehrsprachfähigkeit wie `spacy` ausgelegt. Besonders die Folgeaufgaben (Part-of-Speech etc.) kann es nicht so gut bewältigen wie `spacy`.