# Tokenisierung mit regulären Ausdrücken

Die Wörter einfach an den Leerzeichen zu trennen, hat nicht sehr gut funktioniert. Daher wirst du jetzt eine etwas fortgeschrittenere Möglichkeit kennenlernen.

Du beginnst wieder mit den bekannten Absätzen aus den [Heise-Neujahrswünschen](https://www.heise.de/news/Guten-Rutsch-und-ein-gesundes-neues-Jahr-2021-5001311.html):

In [None]:
p1 = "Doch das Ende des Jahres 2020 birgt auch Hoffnung, dass durch die Vakzinen \
gegen Covid-19 wieder Normalität einkehre – wie immer die auch aussehen mag \
– und wir uns um anderes Dringliches kümmern oder einfach entspannen \
können. Und dass durch den im Januar anstehenden Bewohnerwechsel im \
Weißen Haus zu Washington D.C. das offizielle Herumgetrumpel auf dem \
gesunden Menschenverstand ein Ende finden möge."

p2 = "Wir, das gesamte Team von heise online und die Redaktionen von c't, iX, \
Technology Review, Mac & i, c't Digitale Fotografie, Make:, Techstage und \
Telepolis sowie heise Security, heise Developer und heise Autos wünschen Ihnen \
ein friedliches und freudvolles Jahr 2021. Wir wünschen Ihnen, dass Sie nicht \
vergeblich hoffen und dass Ihre Vorsätze erfüllt werden, auf dass Sie gesund \
bleiben oder genesen."

## Splitting mit regulären Ausdrücken

Statt einfach nur an Leerzeichen die Worte zu teilen, nutzt du jetzt einen *regulären Ausdruck*. Auch die `regex`-Bibliothek hat eine `split`-Funktion, der kannst du die einzelnen Bedingungen übergeben. Mit `|` verbunden wird an verschiedenen Zeichen geteilt:


|Ausdruck|Bedeutung|
|:--|:-- |
| ` `  | Leerzeichen|
| `, ` | Komma gefolgt von Leerzeichen|
| `\. `| Punkt gefolgt von Leerzeichen (ein Punkt ohne `\` davor steht für ein beliebiges Zeichen)|
| `: `| Doppelpunkt gefolgt von Leerzeichen|
| `\.$`| das `$` steht für das Ende einer Zeile und entfernt den letzten Punkt (weil da kein Leerzeichen folgt)|

Die Ergebnisse verbindest du wieder mit `|`, damit du die einzelnen Tokens sehen kannst:

In [None]:
import regex as re
"|".join(re.split(r' |, |\. |: |\.$', p1))

Das sieht schon besser aus. Ein paar Tokens stimmen noch nicht ganz, so ist der `-` ein eigener Token und aus `D.C.` ist `D.C` geworden.

Betrachte nun den zweiten Absatz:

In [None]:
"|".join(re.split(r' |, |\. |: |\.$', p2))

Auch hier ist das Ergebnis ordentlich. Allerdings werden die *regulären Ausdrücke* immer komplizierter, wenn auch noch weitere Satzzeichen mit berücksichtigt werden müssen. Dafür müssen wir einen anderen Weg suchen.

## Optimierung durch Matching mit regulären Ausdrücken

Die zentrale Idee des neuen *regulären Ausdrucks* ist, nicht an einer bestimmte Stelle den Text zu *teilen* (mit `split`), sondern zu definieren, was alles in einem Objekt enthalten sein muss, damit es als Token gilt.

Du definierst dazu eine Funktion, die die Zeichenkette tokenisiert:

In [None]:
def tokenize(text):
    return re.findall(r'[\w-]*[[:alpha:]][\w-]*', text)

Das sieht erst mal unleserlich aus. Wenn du dir den Ausdruck genauer anschaust, siehst du in der Mitte `[[:alpha:]]` stehen. Das muss in jedem Token vorhanden sein und passt auf alle Buchstaben (und zwar in allen möglichen Sprachen). Es ist eine sog. POSIX-Character-Klasse. Davor kann ein Bestandteil eines Worts (`\w` passt auf Buchstaben, Ziffern und `_`) oder ein `-` in beliebiger Wiederholung stehen, danach auch.

Versuche jetzt, die Funktion anzuwenden:

In [None]:
"|".join(tokenize(p1))

Das Ergebnis sieht gut aus, allerdings hat es auch einie Schwächen. So wurden aus `D.C.` die Tokens `D` und `C` extrahiert, was natürlich nicht ganz richtig ist.

Probiere es noch mit dem zweiten Text aus:

In [None]:
"|".join(tokenize(p2))

Das Ergebnis ist nicht ganz optimal, weil c't mehrfach falsch geteilt wurde. Ansonsten ist fast alles richtig.

## Tokenisierung ist schwierig

Wie du gesehen hast, ist Tokenisierung ein ziemlich schwieriges Problem schon in unserem Sprachraum. Noch sehr viel komplexer wird es bei ostasiatischen Sprachen (*CJK*: Chinesisch, Koreanisch, Japanisch), weil diese gar keine Leerzeichen verwenden und Wortgrenzen auch nicht optisch erkennbar machen.

Zum Glück musst du dich normalerweise nicht damit beschäftigen, weil es bereits fertig Tokenisierer für fast alle Sprachen gibt, die wir uns in der nächsten Lektion anschauen.