# Tokenizer for German Texts
Learning goals:
 - Understand how a regex-based tokenizer works
 - Understand how a regex tokenizer can be adapted to text types with different properties and conventions

In [None]:
import re
pattern = r'''(?x)           # set flag (?x) to allow verbose regexps
     (?:z\.B\.|bzw\.|usw\.)  # known abbreviations ...
   | (?:\w\.)+               # abbreviations, e.g. U.S.A. or ordinals
   | \$?\d+(?:[.,‘]\d+)*[%€]? # currency/percentages, $12.40, 82% 23€
   | \w+(?:['-]\w+)*         # words with optional internal hyphens or apostrophs
   | (?:\.\.\.|---?)         # ellipsis, ASCII long hyphens
   | [.,;?!'–-—\[\]()]       # single character punctuation
   | \S+                     # catch-all for non-layout characters
   '''

def tokenize_line(string, pattern):
    """Return list of tokens according to a tokenization pattern"""
    return re.findall(pattern, string)

Rawtext corpora from Gutenberg Project sometimes have ASCII markdown for formatting (e.g. `_`)

In [None]:
max_text = """_Zweiter Streich._

Als die gute Witwe Bolte
Sich von ihrem Schmerz erholte,
Dachte sie so hin und her,
Daß es wohl das beste wär',
Die Verstorb'nen, die hienieden
Schon so frühe abgeschieden,
Ganz im stillen und in Ehren
Gut gebraten zu verzehren. --
-- Freilich war die Trauer groß,
Als sie nun so nackt und bloß
Abgerupft am Herde lagen,
Sie, die einst in schönen Tagen
Bald im Hofe, bald im Garten
Lebensfroh im Sande scharrten. --
"""

In [None]:
for t in tokenize_line(max_text, pattern): 
    print(t)

How can we fix the `_`? Try to modify the pattern above. If you cannot solve it, peek at the bottom of this notebook. 

In [None]:
other_text = """Das Staatssekretariat für Migration (SEM) bestätigt diese Angaben nicht.
Sprecherin Léa Wertheimer sagt: «Die Lage ist volatil und kurzfristig
sind verschiedene Entwicklungen möglich, was exakte Prognosen
verunmöglicht.» Sie hält fest: «Eine Hochrechnung der Eintritte
einzelner Tage auf einen Monat oder ein Quartal ist nicht seriös.» Zum
jetzigen Zeitpunkt sei lediglich klar, dass die ursprüngliche Prognose
von 29‘000 Asylgesuchen «deutlich übertroffen» wird. Das SEM korrigierte
den Wert bereits vor Wochenfrist nach oben – auf 32‘000 bis 34‘000
erwartete Gesuche.
"""

In [None]:
for t in tokenize_line(other_text, pattern): 
    print(t)

Can you improve the pattern of the tokenizer to work better on `other_text`?

Fix for the _? 
 - either preprocess before tokenization...
 - add as first regex `_ | # strictly one symbol token character`
 - or only split at the begin of a word...