# Basics of text processing

### Natural Language Processing and Information Extraction,  2021 WS
10/15/2021

Gábor Recski

## In this lecture
- Regular Expressions

- Text segmentation and normalization:
   - sentence splitting and tokenization
   - lemmatization, stemming, decompounding, morphology

## Import dependencies

In [1]:
# !pip install stanza
# !pip install nltk
# !pip install bash-kernel
# !python -m bash_kernel.install

In [2]:
import re
from collections import Counter

import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize, sent_tokenize
import stanza
stanza.download('en')

[nltk_data] Downloading package punkt to /home/jovyan/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.3.0.json:   0%|   …

2021-10-14 19:10:38 INFO: Downloading default packages for language: en (English)...
2021-10-14 19:10:39 INFO: File exists: /home/jovyan/stanza_resources/en/default.zip.
2021-10-14 19:10:43 INFO: Finished downloading models and saved to /home/jovyan/stanza_resources.


## Regular expressions

### Basics

![re1](media/re1.png)([SLP Ch.2](https://web.stanford.edu/~jurafsky/slp3/2.pdf))

In [8]:
re.findall('a', "Mary Ann stopped by Mona's")

['a', 'a']

In [3]:
text = open('data/alice_de.txt').read()
print(text[:100])

[1] Erstes Kapitel.

Hinunter in den Kaninchenbau.

Alice fing an sich zu langweilen; sie saß schon 


In [4]:
re.search('Alice', text)

<re.Match object; span=(52, 57), match='Alice'>

In [6]:
text[52:57]

'Alice'

![re2](media/re2.png)([SLP Ch.2](https://web.stanford.edu/~jurafsky/slp3/2.pdf))

In [7]:
re.search('[Kk]aninchen', text)

<re.Match object; span=(37, 46), match='Kaninchen'>

In [8]:
re.findall('[Kk]aninchen', text[:5000])

['Kaninchen', 'Kaninchen', 'Kaninchen', 'Kaninchen', 'Kaninchen', 'Kaninchen']

In [9]:
for match in re.finditer('[Kk]aninchen', text[:5000]):
    print(match.group(), match.span())

Kaninchen (37, 46)
Kaninchen (548, 557)
Kaninchen (700, 709)
Kaninchen (924, 933)
Kaninchen (1073, 1082)
Kaninchen (1453, 1462)


![re3](media/re3.png)([SLP Ch.2](https://web.stanford.edu/~jurafsky/slp3/2.pdf))

In [10]:
re.findall(' [A-Za-z][a-z][a-z] ', text[:5000])

[' den ',
 ' sie ',
 ' bei ',
 ' und ',
 ' Das ',
 ' das ',
 ' ihr ',
 ' was ',
 ' und ',
 ' gut ',
 ' sie ',
 ' und ',
 ' von ',
 ' der ',
 ' sei ',
 ' und ',
 ' als ',
 ' ein ',
 ' mit ',
 ' ihr ',
 ' war ',
 ' sie ',
 ' Ich ',
 ' sie ',
 ' ihr ',
 ' sie ',
 ' zur ',
 ' kam ',
 ' ihr ',
 ' als ',
 ' Uhr ',
 ' der ',
 ' der ',
 ' sah ',
 ' war ',
 ' nie ',
 ' ein ',
 ' mit ',
 ' und ',
 ' Uhr ',
 ' Vor ',
 ' sie ',
 ' den ',
 ' und ',
 ' zur ',
 ' ein ',
 ' der ',
 ' war ',
 ' ihm ',
 ' das ',
 ' wie ',
 ' sie ',
 ' zum ',
 ' wie ',
 ' und ',
 ' ehe ',
 ' den ',
 ' sie ',
 ' sie ',
 ' wie ',
 ' der ',
 ' sie ',
 ' sie ',
 ' und ',
 ' was ',
 ' sie ',
 ' sie ',
 ' war ',
 ' sie ',
 ' des ',
 ' und ',
 ' sie ',
 ' und ',
 ' und ',
 ' sie ',
 ' und ',
 ' Sie ',
 ' von ',
 ' der ',
 ' ein ',
 ' mit ',
 ' war ',
 ' Sie ',
 ' aus ',
 ' und ',
 ' dem ',
 ' bei ',
 ' ich ',
 ' ich ',
 ' Wie ',
 ' sie ',
 ' Ich ',
 ' ich ',
 ' von ',
 ' der ',
 ' nie ',
 ' ich ',
 ' sie ',
 ' der ',
 ' das ',


In [11]:
Counter(re.findall(' [A-Za-z][a-z][a-z] ', text)).most_common(10)

[(' und ', 659),
 (' sie ', 550),
 (' die ', 493),
 (' der ', 405),
 (' ich ', 259),
 (' das ', 212),
 (' mit ', 170),
 (' den ', 151),
 (' ist ', 138),
 (' war ', 128)]

![re4](media/re4.png)([SLP Ch.2](https://web.stanford.edu/~jurafsky/slp3/2.pdf))

![re5](media/re5.png)([SLP Ch.2](https://web.stanford.edu/~jurafsky/slp3/2.pdf))

![re6](media/re6.png)([SLP Ch.2](https://web.stanford.edu/~jurafsky/slp3/2.pdf))

In [12]:
re.findall('...', text[:100])

['[1]',
 ' Er',
 'ste',
 's K',
 'api',
 'tel',
 'Hin',
 'unt',
 'er ',
 'in ',
 'den',
 ' Ka',
 'nin',
 'che',
 'nba',
 'Ali',
 'ce ',
 'fin',
 'g a',
 'n s',
 'ich',
 ' zu',
 ' la',
 'ngw',
 'eil',
 'en;',
 ' si',
 'e s',
 'aß ',
 'sch',
 'on ']

![re7](media/re7.png)([SLP Ch.2](https://web.stanford.edu/~jurafsky/slp3/2.pdf))

In [13]:
re.findall('\w', text[:50])

['1',
 'E',
 'r',
 's',
 't',
 'e',
 's',
 'K',
 'a',
 'p',
 'i',
 't',
 'e',
 'l',
 'H',
 'i',
 'n',
 'u',
 'n',
 't',
 'e',
 'r',
 'i',
 'n',
 'd',
 'e',
 'n',
 'K',
 'a',
 'n',
 'i',
 'n',
 'c',
 'h',
 'e',
 'n',
 'b',
 'a',
 'u']

In [14]:
re.split('\s', text[:100])

['[1]',
 'Erstes',
 'Kapitel.',
 '',
 'Hinunter',
 'in',
 'den',
 'Kaninchenbau.',
 '',
 'Alice',
 'fing',
 'an',
 'sich',
 'zu',
 'langweilen;',
 'sie',
 'saß',
 'schon',
 '']

![re8](media/re8.png)([SLP Ch.2](https://web.stanford.edu/~jurafsky/slp3/2.pdf))

In [15]:
re.findall('(\w+)', text[:100])

['1',
 'Erstes',
 'Kapitel',
 'Hinunter',
 'in',
 'den',
 'Kaninchenbau',
 'Alice',
 'fing',
 'an',
 'sich',
 'zu',
 'langweilen',
 'sie',
 'saß',
 'schon']

In [16]:
Counter(re.findall('\w+', text)).most_common(20)

[('sie', 778),
 ('und', 742),
 ('die', 620),
 ('der', 477),
 ('zu', 421),
 ('Alice', 388),
 ('ich', 360),
 ('sagte', 360),
 ('es', 357),
 ('nicht', 352),
 ('das', 301),
 ('sich', 284),
 ('in', 279),
 ('war', 218),
 ('so', 213),
 ('den', 207),
 ('ein', 207),
 ('mit', 204),
 ('ist', 197),
 ('an', 182)]

In [17]:
Counter(re.findall('[^\w\s]', text)).most_common(20)

[(',', 2617),
 ('„', 1086),
 ('“', 1083),
 ('.', 1045),
 ('!', 466),
 (';', 275),
 ('–', 222),
 (':', 215),
 ('?', 208),
 ('[', 180),
 (']', 180),
 ('’', 108),
 ('(', 55),
 (')', 55),
 ('-', 33),
 ('‚', 10),
 ('‘', 10),
 ('*', 3),
 ('↑', 2)]

### Substitution and groups

In [18]:
re.sub('\s+', ' ', text[:100])

'[1] Erstes Kapitel. Hinunter in den Kaninchenbau. Alice fing an sich zu langweilen; sie saß schon '

In [19]:
print(re.sub('\s+', '\n', text[:100]))

[1]
Erstes
Kapitel.
Hinunter
in
den
Kaninchenbau.
Alice
fing
an
sich
zu
langweilen;
sie
saß
schon



In [24]:
re.findall('[^\s]+ [^\s]+ Kapitel.', text)

['[1] Erstes Kapitel.',
 '[14] Zweites Kapitel.',
 '[27] Drittes Kapitel.',
 '[39] Viertes Kapitel.',
 '[55] Fünftes Kapitel.',
 '[71] Sechstes Kapitel.',
 '[88] Siebentes Kapitel.',
 '[104] Achtes Kapitel.',
 '[121] Neuntes Kapitel.',
 '[137] Zehntes Kapitel.',
 '[150] Elftes Kapitel.',
 '[163] Zwölftes Kapitel.']

In [28]:
print(re.sub('\[([0-9]+)\] ([^\s]+) Kapitel.', '\\2 Kapitel (\\1):', text[:100]))

Erstes Kapitel (1):

Hinunter in den Kaninchenbau.

Alice fing an sich zu langweilen; sie saß schon 


In [35]:
print(re.sub('CHAPTER ([^\s.]+).\n([^\n]*)', 'Chapter \\1: \\2', text[:100]))


Chapter I: Down the Rabbit-Hole


Alice was beginning to get very tired of sitting by her sister on


In [29]:
re.findall('\[([0-9]+)\] ([^\s]+) Kapitel.', text)

[('1', 'Erstes'),
 ('14', 'Zweites'),
 ('27', 'Drittes'),
 ('39', 'Viertes'),
 ('55', 'Fünftes'),
 ('71', 'Sechstes'),
 ('88', 'Siebentes'),
 ('104', 'Achtes'),
 ('121', 'Neuntes'),
 ('137', 'Zehntes'),
 ('150', 'Elftes'),
 ('163', 'Zwölftes')]

Regular expressions are surprisingly powerful. Also, with the right implementation, they are literally as fast as you can get. That's because they are equivalent to [finite state automata (FSAs)](https://en.wikipedia.org/wiki/Finite-state_machine). Actually, every regular expression is a [regular grammar](https://en.wikipedia.org/wiki/Regular_grammar) defining a [regular language](https://en.wikipedia.org/wiki/Regular_language).

![re_xkcd](media/re_xkcd.png)([XKCD #208](https://xkcd.com/208/))

## Text segmentation

### Sentence splitting

#### How to split a text into sentences?

In [37]:
text2 = "'Of course it's only because Tom isn't home,' said Mrs. Parsons vaguely."

Naive: split on `.`, `!`, `?`, etc.

In [38]:
re.split('[.!?]', text2)

["'Of course it's only because Tom isn't home,' said Mrs",
 ' Parsons vaguely',
 '']

Better: use language-specific list of abbreviation words, collocations, etc.

In [39]:
nltk.sent_tokenize(text2)

["'Of course it's only because Tom isn't home,' said Mrs. Parsons vaguely."]

Custom lists of patterns are often necessary for special domains. 

In [40]:
text3 = "An die Stelle der Landesgesetze vom 17. Jänner 1883, n.ö.L.G. u. V.Bl. Nr. 35, vom 26. Dezember 1890, n.ö.L.G. u. V.Bl. Nr. 48, vom 17. Juni 1920 n.ö.L.G. u. V.Bl. Nr. 547, vom 4. November 1920 n.ö.L.G. u. V.Bl. Nr. 808, und vom 9. Dezember 1927, L.G.Bl. für Wien Nr. 1 ex 1928, die, soweit dieses Gesetz nichts anderes bestimmt, zugleich ihre Wirksamkeit verlieren, hat die nachfolgende Bauordnung zu treten."

In [41]:
print(text3)

An die Stelle der Landesgesetze vom 17. Jänner 1883, n.ö.L.G. u. V.Bl. Nr. 35, vom 26. Dezember 1890, n.ö.L.G. u. V.Bl. Nr. 48, vom 17. Juni 1920 n.ö.L.G. u. V.Bl. Nr. 547, vom 4. November 1920 n.ö.L.G. u. V.Bl. Nr. 808, und vom 9. Dezember 1927, L.G.Bl. für Wien Nr. 1 ex 1928, die, soweit dieses Gesetz nichts anderes bestimmt, zugleich ihre Wirksamkeit verlieren, hat die nachfolgende Bauordnung zu treten.


In [42]:
nltk.sent_tokenize(text3, language='german')

['An die Stelle der Landesgesetze vom 17.',
 'Jänner 1883, n.ö.L.G.',
 'u. V.Bl.',
 'Nr. 35, vom 26. Dezember 1890, n.ö.L.G.',
 'u. V.Bl.',
 'Nr. 48, vom 17. Juni 1920 n.ö.L.G.',
 'u. V.Bl.',
 'Nr. 547, vom 4. November 1920 n.ö.L.G.',
 'u. V.Bl.',
 'Nr. 808, und vom 9. Dezember 1927, L.G.Bl.',
 'für Wien Nr. 1 ex 1928, die, soweit dieses Gesetz nichts anderes bestimmt, zugleich ihre Wirksamkeit verlieren, hat die nachfolgende Bauordnung zu treten.']

###  Tokenization

#### How to  split text into words?

#### Naive approach: split on whitespace

In [43]:
text2.split()

["'Of",
 'course',
 "it's",
 'only',
 'because',
 'Tom',
 "isn't",
 "home,'",
 'said',
 'Mrs.',
 'Parsons',
 'vaguely.']

#### Better: separate punctuation marks

In [44]:
re.findall('(\w+|[^\w\s]+)', text2)[:30]

["'",
 'Of',
 'course',
 'it',
 "'",
 's',
 'only',
 'because',
 'Tom',
 'isn',
 "'",
 't',
 'home',
 ",'",
 'said',
 'Mrs',
 '.',
 'Parsons',
 'vaguely',
 '.']

#### Best: add some language-specific conventions:

In [45]:
nltk.word_tokenize(text2)

["'Of",
 'course',
 'it',
 "'s",
 'only',
 'because',
 'Tom',
 'is',
 "n't",
 'home',
 ',',
 "'",
 'said',
 'Mrs.',
 'Parsons',
 'vaguely',
 '.']

## Text normalization

In [31]:
words = nltk.word_tokenize(text)

In [32]:
words[:10]

['[',
 '1',
 ']',
 'Erstes',
 'Kapitel',
 '.',
 'Hinunter',
 'in',
 'den',
 'Kaninchenbau']

In [33]:
Counter(words).most_common(10)

[(',', 2617),
 ('„', 1086),
 ('“', 1083),
 ('.', 841),
 ('sie', 777),
 ('und', 742),
 ('die', 620),
 ('der', 477),
 ('!', 466),
 ('zu', 421)]

Let's get rid of punctuation

In [34]:
words = [word for word in words if re.match('\w', word)]

In [35]:
Counter(words).most_common(10)

[('sie', 777),
 ('und', 742),
 ('die', 620),
 ('der', 477),
 ('zu', 421),
 ('Alice', 388),
 ('sagte', 360),
 ('ich', 355),
 ('es', 354),
 ('nicht', 350)]

Filtering common function words is called __stopword removal__

In [36]:
from nltk.corpus import stopwords
nltk.download('stopwords')
stopwords = set(stopwords.words('german'))
print(stopwords)

{'meinen', 'bin', 'jedes', 'selbst', 'welchen', 'nur', 'dein', 'unseres', 'haben', 'eine', 'anderem', 'dich', 'zwischen', 'ein', 'musste', 'einigem', 'einiges', 'was', 'wollen', 'für', 'kein', 'vor', 'einen', 'könnte', 'mir', 'aber', 'unserem', 'euer', 'bei', 'einig', 'wir', 'etwas', 'denn', 'anderer', 'aller', 'andern', 'eures', 'manchem', 'einigen', 'hat', 'dies', 'seiner', 'warst', 'allen', 'anderen', 'allem', 'ins', 'eurem', 'waren', 'jenen', 'vom', 'hin', 'wird', 'diesen', 'meines', 'man', 'nichts', 'so', 'unser', 'als', 'du', 'da', 'alle', 'sehr', 'wollte', 'bis', 'es', 'dir', 'zur', 'anderr', 'machen', 'oder', 'sondern', 'jeden', 'mich', 'eurer', 'bist', 'wie', 'jene', 'keiner', 'hatte', 'weil', 'sein', 'solchen', 'unter', 'er', 'jenem', 'durch', 'gewesen', 'sie', 'der', 'um', 'indem', 'ohne', 'sind', 'soll', 'in', 'keine', 'einer', 'viel', 'sich', 'mein', 'sonst', 'deiner', 'jedem', 'habe', 'gegen', 'welche', 'jeder', 'welches', 'nach', 'weiter', 'einige', 'unseren', 'werde', '

[nltk_data] Downloading package stopwords to /home/jovyan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [37]:
words = [word for word in words if word.lower() not in stopwords]

In [38]:
Counter(words).most_common(20)

[('Alice', 388),
 ('sagte', 360),
 ('ganz', 79),
 ('Königin', 72),
 ('dachte', 65),
 ('sprach', 62),
 ('König', 58),
 ('fort', 53),
 ('Hutmacher', 53),
 ('Schildkröte', 53),
 ('s', 52),
 ('konnte', 51),
 ('fing', 47),
 ('sah', 47),
 ('falsche', 45),
 ('Kaninchen', 44),
 ('wohl', 44),
 ('sehen', 43),
 ('Herzogin', 42),
 ('fragte', 40)]

### Lemmatization and stemming

Words like _say_, _says_, and _said_ are all different **word forms** of the same **lemma**. Grouping them together can be useful in many applications. 

**Stemming** is the reduction of words to a common prefix, using simple rules that only work some of the time:

In [53]:
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer('german')

In [54]:
for word in ('sagen', 'sag', 'gesagt'):
    print(stemmer.stem(word, ))

sag
sag
gesagt


In [55]:
for word in ('er', 'sein', 'ihm'):
    print(stemmer.stem(word))

er
sein
ihm


**Lemmatization** is the mapping of word forms to their lemma, using either a dictionary of word forms, a grammar of how words are formed (a **morphology**), or both.

In [41]:
stanza.download('de')
nlp_de = stanza.Pipeline('de', processors='tokenize,lemma,pos')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.3.0.json:   0%|   …

2021-10-14 19:21:11 INFO: Downloading default packages for language: de (German)...
2021-10-14 19:21:12 INFO: File exists: /home/jovyan/stanza_resources/de/default.zip.
2021-10-14 19:21:18 INFO: Finished downloading models and saved to /home/jovyan/stanza_resources.
2021-10-14 19:21:18 INFO: Loading these models for language: de (German):
| Processor | Package |
-----------------------
| tokenize  | gsd     |
| mwt       | gsd     |
| pos       | gsd     |
| lemma     | gsd     |

2021-10-14 19:21:18 INFO: Use device: cpu
2021-10-14 19:21:18 INFO: Loading: tokenize
2021-10-14 19:21:18 INFO: Loading: mwt
2021-10-14 19:21:18 INFO: Loading: pos
2021-10-14 19:21:18 INFO: Loading: lemma
2021-10-14 19:21:18 INFO: Done loading processors!


In [42]:
doc_de = nlp_de(text)

To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor'). (Triggered internally at  ../aten/src/ATen/native/BinaryOps.cpp:467.)
  return torch.floor_divide(self, other)


In [43]:
for sentence in doc_de.sentences[:5]:
    for word in sentence.words:
        print(word.text + '\t' + word.lemma)
    print()

[1	[1
]	]
Erstes	erst
Kapitel	Kapitel
.	.

Hinunter	Hinunter
in	in
den	der
Kaninchenbau	Kaninchenbau
.	.

Alice	Alice
fing	fangen
an	an
sich	er|es|sie
zu	zu
langweilen	langweilen
;	;

sie	sie
saß	sitzen
schon	schon
lange	lange
bei	bei
ihrer	ihr
Schwester	Schwester
an	an
dem	der
Ufer	Ufer
und	und
hatte	haben
nichts	nichts
zu	zu
thun	than
.	.

Das	der
Buch	Buch
,	,
das	der
ihre	ihr
Schwester	Schwester
las	lesen
,	,
gefiel	gefallen
ihr	ihr
nicht	nicht
;	;



Now we can count lemmas

In [45]:
Counter(
    word.lemma for sentence in doc_de.sentences for word in sentence.words
    if word.lemma not in stopwords and re.match('\w', word.lemma)).most_common(20)

[('sagen', 430),
 ('Alice', 388),
 ('er|es|sie', 287),
 ('sehen', 143),
 ('kommen', 113),
 ('ganz', 110),
 ('Sie|sie', 108),
 ('klein', 96),
 ('denken', 79),
 ('gehen', 79),
 ('sprechen', 78),
 ('Königin', 74),
 ('müssen', 73),
 ('groß', 70),
 ('gut', 62),
 ('König', 62),
 ('fragen', 57),
 ('fort', 56),
 ('falsch', 56),
 ('fangen', 55)]

The full analysis of how a word form is built from its lemma is known as **morphological analysis**

In [46]:
for sentence in doc_de.sentences[:5]:
    for word in sentence.words:
        print('\t'.join([word.text, word.lemma, word.upos, word.feats if word.feats else '']))
    print()

[1	[1	PUNCT	
]	]	PUNCT	
Erstes	erst	ADJ	Case=Nom|Gender=Neut|Number=Sing
Kapitel	Kapitel	NOUN	Case=Nom|Gender=Neut|Number=Sing
.	.	PUNCT	

Hinunter	Hinunter	NOUN	Case=Nom|Gender=Masc|Number=Sing
in	in	ADP	
den	der	DET	Case=Acc|Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Kaninchenbau	Kaninchenbau	PROPN	Case=Acc|Gender=Masc|Number=Sing
.	.	PUNCT	

Alice	Alice	PROPN	Case=Nom|Gender=Masc|Number=Sing
fing	fangen	VERB	Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin
an	an	ADP	
sich	er|es|sie	PRON	Case=Acc|Number=Sing|Person=3|PronType=Prs|Reflex=Yes
zu	zu	PART	
langweilen	langweilen	VERB	VerbForm=Inf
;	;	PUNCT	

sie	sie	PRON	Case=Nom|Gender=Fem|Number=Sing|Person=3|PronType=Prs
saß	sitzen	VERB	Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin
schon	schon	ADV	
lange	lange	ADV	
bei	bei	ADP	
ihrer	ihr	DET	Case=Dat|Gender=Fem|Number=Sing|Person=3|Poss=Yes|PronType=Prs
Schwester	Schwester	NOUN	Case=Dat|Gender=Fem|Number=Sing
an	an	ADP	
dem	der	DET	Case=Dat|Definite=Def|Gender=Neut|

A special case of lemmatization is **decompounding**, recognizing multiple lemmas in a word

In [47]:
nlp_de('Achterbahn')

[
  [
    {
      "id": 1,
      "text": "Achterbahn",
      "lemma": "Achterbahn",
      "upos": "NOUN",
      "xpos": "NN",
      "feats": "Case=Nom|Gender=Fem|Number=Sing",
      "start_char": 0,
      "end_char": 10
    }
  ]
]

In [49]:
nlp_de('Mülleimer')

[
  [
    {
      "id": 1,
      "text": "Mülleimer",
      "lemma": "Mülleimer",
      "upos": "NOUN",
      "xpos": "NN",
      "feats": "Case=Nom|Gender=Masc|Number=Plur",
      "start_char": 0,
      "end_char": 9
    }
  ]
]

For English you might say that this is good enough... but _some languages_ allow forming compounds on the fly...

In [40]:
stanza.download('de')
nlp_de = stanza.Pipeline('de', processors='tokenize,lemma,pos')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.3.0.json:   0%|   …

2021-10-14 19:20:50 INFO: Downloading default packages for language: de (German)...
2021-10-14 19:20:52 INFO: File exists: /home/jovyan/stanza_resources/de/default.zip.
2021-10-14 19:20:57 INFO: Finished downloading models and saved to /home/jovyan/stanza_resources.
2021-10-14 19:20:57 INFO: Loading these models for language: de (German):
| Processor | Package |
-----------------------
| tokenize  | gsd     |
| mwt       | gsd     |
| pos       | gsd     |
| lemma     | gsd     |

2021-10-14 19:20:57 INFO: Use device: cpu
2021-10-14 19:20:57 INFO: Loading: tokenize
2021-10-14 19:20:57 INFO: Loading: mwt
2021-10-14 19:20:57 INFO: Loading: pos
2021-10-14 19:20:57 INFO: Loading: lemma
2021-10-14 19:20:57 INFO: Done loading processors!


In [65]:
nlp_de('Kassenidentifikationsnummer')

[
  [
    {
      "id": 1,
      "text": "Kassenidentifikationsnummer",
      "lemma": "Kassenidentifikationsnummer",
      "upos": "NOUN",
      "xpos": "NN",
      "feats": "Case=Nom|Gender=Fem|Number=Sing",
      "start_char": 0,
      "end_char": 27
    }
  ]
]

There is no good generic solution and no standard tool. There are some unsupervised approaches like [SECOS](https://github.com/riedlma/SECOS) and [CharSplit](https://github.com/dtuggener/CharSplit), and there are also full-fledged morphological analyzers that might work, like [SMOR](https://www.cis.lmu.de/~schmid/tools/SMOR/) and its extensions [zmorge](https://pub.cl.uzh.ch/users/sennrich/zmorge/) and [SMORLemma](https://github.com/rsennrich/SMORLemma).

## Examples

### Text processing with regular expressions

Load a sample text

In [56]:
text = open('data/alice_de.txt').read()
print(text[:1000])

[1] Erstes Kapitel.

Hinunter in den Kaninchenbau.

Alice fing an sich zu langweilen; sie saß schon lange bei ihrer Schwester am Ufer und hatte nichts zu thun. Das Buch, das ihre Schwester las, gefiel ihr nicht; denn es waren weder Bilder noch [2] Gespräche darin. „Und was nützen Bücher,“ dachte Alice, „ohne Bilder und Gespräche?“

Sie überlegte sich eben, (so gut es ging, denn sie war schläfrig und dumm von der Hitze,) ob es der Mühe werth sei aufzustehen und Gänseblümchen zu pflücken, um eine Kette damit zu machen, als plötzlich ein weißes Kaninchen mit rothen Augen dicht an ihr vorbeirannte.

Dies war grade nicht sehr merkwürdig; Alice fand es auch nicht sehr außerordentlich, daß sie das Kaninchen sagen hörte: „O weh, o weh! Ich werde zu spät kommen!“ (Als sie es später wieder überlegte, fiel ihr ein, daß sie sich darüber hätte wundern sollen; doch zur Zeit kam es ihr Alles ganz natürlich vor.) Aber als das Kaninchen seine Uhr aus der Westentasche zog, nach der Zeit sah und eilig fo

In [57]:
def clean_text(text):
    cleaned_text = re.sub('_','',text)
    cleaned_text = re.sub('\n', ' ', cleaned_text)
    return cleaned_text

In [58]:
text = clean_text(text)

In [59]:
print(text[:1000])

[1] Erstes Kapitel.  Hinunter in den Kaninchenbau.  Alice fing an sich zu langweilen; sie saß schon lange bei ihrer Schwester am Ufer und hatte nichts zu thun. Das Buch, das ihre Schwester las, gefiel ihr nicht; denn es waren weder Bilder noch [2] Gespräche darin. „Und was nützen Bücher,“ dachte Alice, „ohne Bilder und Gespräche?“  Sie überlegte sich eben, (so gut es ging, denn sie war schläfrig und dumm von der Hitze,) ob es der Mühe werth sei aufzustehen und Gänseblümchen zu pflücken, um eine Kette damit zu machen, als plötzlich ein weißes Kaninchen mit rothen Augen dicht an ihr vorbeirannte.  Dies war grade nicht sehr merkwürdig; Alice fand es auch nicht sehr außerordentlich, daß sie das Kaninchen sagen hörte: „O weh, o weh! Ich werde zu spät kommen!“ (Als sie es später wieder überlegte, fiel ihr ein, daß sie sich darüber hätte wundern sollen; doch zur Zeit kam es ihr Alles ganz natürlich vor.) Aber als das Kaninchen seine Uhr aus der Westentasche zog, nach der Zeit sah und eilig fo

Let's split this into sentences, then words.

In [60]:
sens = sent_tokenize(text)

In [61]:
print('\n\n'.join(sens[:5]))

[1] Erstes Kapitel.

Hinunter in den Kaninchenbau.

Alice fing an sich zu langweilen; sie saß schon lange bei ihrer Schwester am Ufer und hatte nichts zu thun.

Das Buch, das ihre Schwester las, gefiel ihr nicht; denn es waren weder Bilder noch [2] Gespräche darin.

„Und was nützen Bücher,“ dachte Alice, „ohne Bilder und Gespräche?“  Sie überlegte sich eben, (so gut es ging, denn sie war schläfrig und dumm von der Hitze,) ob es der Mühe werth sei aufzustehen und Gänseblümchen zu pflücken, um eine Kette damit zu machen, als plötzlich ein weißes Kaninchen mit rothen Augen dicht an ihr vorbeirannte.


In [62]:
toks = [word_tokenize(sen) for sen in sens]

In [63]:
print('\n\n'.join('\n'.join(sen) for sen in toks[:5]))

[
1
]
Erstes
Kapitel
.

Hinunter
in
den
Kaninchenbau
.

Alice
fing
an
sich
zu
langweilen
;
sie
saß
schon
lange
bei
ihrer
Schwester
am
Ufer
und
hatte
nichts
zu
thun
.

Das
Buch
,
das
ihre
Schwester
las
,
gefiel
ihr
nicht
;
denn
es
waren
weder
Bilder
noch
[
2
]
Gespräche
darin
.

„
Und
was
nützen
Bücher
,
“
dachte
Alice
,
„
ohne
Bilder
und
Gespräche
?
“
Sie
überlegte
sich
eben
,
(
so
gut
es
ging
,
denn
sie
war
schläfrig
und
dumm
von
der
Hitze
,
)
ob
es
der
Mühe
werth
sei
aufzustehen
und
Gänseblümchen
zu
pflücken
,
um
eine
Kette
damit
zu
machen
,
als
plötzlich
ein
weißes
Kaninchen
mit
rothen
Augen
dicht
an
ihr
vorbeirannte
.


Let's also write this to a file

In [64]:
with open('data/alice_tok_de.txt', 'w') as f:
    f.write('\n\n'.join('\n'.join(sen) for sen in toks) + '\n')

Let's try to find all names using regexes

In [65]:
def find_names(toks):
    curr_name = []
    for sen in toks:
        for tok in sen[1:]:
            if re.match('[A-Z][a-z]+', tok):
                curr_name.append(tok)
            elif curr_name:
                yield ' '.join(curr_name)
                curr_name = []
                
        if curr_name:
            yield curr_name
            
        
def count_names(toks):
    name_counter = Counter()
    
    for name in find_names(toks):
        name_counter[name] += 1
    
    for name, count in name_counter.most_common():
        print(name, count)

In [66]:
count_names(toks)

Alice 334
Ich 107
Sie 62
Hutmacher 51
Schildkröte 51
Es 49
Das 45
Und 43
Kaninchen 41
Herzogin 41
Stimme 38
Greif 38
Zeit 36
Alles 36
Kopf 36
Murmelthier 34
Maus 32
Raupe 31
Was 30
Aber 30
Thür 28
Wie 27
Du 27
Katze 26
Augen 25
Faselhase 24
Augenblick 23
Hand 23
Tone 22
Alle 20
Nein 19
Mal 18
Frage 17
Geschwornen 17
Kind 16
Ja 16
Wenn 16
Worte 15
Gesicht 15
Wabbel 15
Fall 14
Minuten 14
Ende 14
Dann 14
Nun 13
Dinah 13
Fuß 13
Geschichte 13
Dodo 13
Papagei 13
Seite 12
Kuchen 12
Arm 12
Ihr 12
Taube 12
Als 11
Katzen 11
Garten 11
Leben 11
Text 11
Quelle Korrektur 11
Schreibweise 11
Originaltext 11
Oh 11
Die 11
Platz 11
Tag 11
Uhr 10
Niemand 10
Wort 10
Luft 10
Hause 10
Er 10
Thee 10
Soldaten 10
Igel 10
Greifen 10
Tanz 10
Hals 9
Ding 9
So 9
Da 9
Wir 9
Unterhaltung 9
Gesellschaft 9
Sinn 9
Mund 9
Moral 9
Schwester 8
Haus 8
Gelegenheit 8
Worten 8
In 8
Antwort 8
Verhör 8
Fenster 8
Wer 8
Ferkel 8
Gedanken 7
Schule 7
Hier 7
Größe 7
Thränen 7
Kinder 7
Komm 7
Kinn 7
Hund 7
Spiel 7
Ach 7
Leute 7
Schlan

We can filter our tokens for stopwords:

In [67]:
toks_without_stopwords = [[tok for tok in sen if tok.lower() not in stopwords] for sen in toks]

In [68]:
print('\n\n'.join('\n'.join(sen) for sen in toks_without_stopwords[:5]))

[
1
]
Erstes
Kapitel
.

Hinunter
Kaninchenbau
.

Alice
fing
langweilen
;
saß
schon
lange
Schwester
Ufer
thun
.

Buch
,
Schwester
las
,
gefiel
;
weder
Bilder
[
2
]
Gespräche
darin
.

„
nützen
Bücher
,
“
dachte
Alice
,
„
Bilder
Gespräche
?
“
überlegte
eben
,
(
gut
ging
,
schläfrig
dumm
Hitze
,
)
Mühe
werth
sei
aufzustehen
Gänseblümchen
pflücken
,
Kette
,
plötzlich
weißes
Kaninchen
rothen
Augen
dicht
vorbeirannte
.


In [69]:
count_names(toks_without_stopwords)

Alice 307
Hutmacher 44
Schildkröte 42
Greif 38
Kaninchen 37
Zeit 32
Herzogin 32
Maus 32
Stimme 31
Murmelthier 28
Raupe 25
Augen 22
Faselhase 22
Thür 20
Kopf 19
Nein 19
Tone 19
Katze 19
Augenblick 17
Ja 16
Worte 15
Frage 15
Mal 15
Kind 15
Gesicht 14
Wabbel 14
Geschwornen 14
Minuten 12
Kuchen 12
Papagei 12
Quelle Korrektur 11
Originaltext 11
Fuß 11
Oh 11
Dodo 11
Taube 11
Majestät 11
Fall 10
Wort 10
Dinah 10
Garten 10
Geschichte 10
Tanz 10
Ding 9
Hause 9
Verhör 9
Gelegenheit 8
Niemand 8
Katzen 8
Hand 8
Leben 8
Platz 8
Thee 8
Haus 7
Seite 7
Größe 7
Komm 7
Ach 7
Wer 7
Tag 7
Pfeffer 7
Soldaten 7
Igel 7
Moral 7
Schule 6
Kopfe 6
Luft 6
Spatzen 6
Zoll 6
Worten 6
Thränen 6
Kinder 6
Gesellschaft 6
Liebe 6
Sinn 6
Antwort 6
Hals 6
Fertig 6
Leute 6
Arm 6
Schlange 6
Lackei 6
Nase 6
Ferkel 6
Uhr 6
Warum 6
Schlagt Kopf 6
Schwester 5
Brunnen 5
Traum 5
Tische 5
Schlüsselchen 5
Gedanken 5
Croquet 5
Handschuhe 5
Vielleicht 5
Verzeihung 5
Hund 5
Thiere 5
Art 5
Chor 5
Unterhaltung 5
Ende 5
Mund 5
Eier 5
Paar

Gurkenbeet 1
Wat 1
Arrum 1
Jedenfalls 1
Darauf 1
Pause 1
Thu 1
Memme 1
Griff Luft 1
Wimmern 1
Gurkenbeete 1
Rollen 1
Leiterwagen 1
Menge Stimmen 1
Leiter 1
Lehnt Ecke 1
Strick 1
Nimm 1
Schiefer Acht 1
Wessen Schuld 1
Wer Schornstein 1
Treu 1
Wabbel Schornstein 1
Stoß 1
Stimme Kaninchens 1
Fangt 1
Hecke 1
Stillschweigen 1
Stimmen 1
Haltet Kopf 1
Branntwein 1
Ersticke 1
Zuletzt 1
Dosen-Stehauf 1
Rackete 1
Sogleich 1
Zweifel 1
Schauer 1
Kieseln Fenster 1
Stille 1
Kiesel 1
Boden 1
Sturm Alice 1
Zweite 1
Armes 1
Liebkosungen 1
Hund Stäbchen 1
Jemand Fuhrmannspferde Zeck 1
Hund Reihe 1
Anläufen Stäbchen 1
Munde 1
Zunge 1
Butterblume 1
That Frage 1
Blumen Grashalmen 1
Rechte 1
Umständen 1
Fußspitzen 1
Rand Pilzes 1
Blick 1
Huhka 1
Notiz 1
Kapitel 1
Rath Raupe 1
Puppe 1
Schmetterling 1
Weshalb 1
Wichtiges 1
Huhka Munde 1
Kannst Sachen 1
Junker Tropf 1
Vater Antwort 1
Hirn 1
Muth. 1
Drum 1
Purzelbaum 1
Alte Kopfschütteln 1
Glieder Salbe 1
Groschen Courant 1
Bub 1
Gans Schnabel Klau 1
Jurist 1
B

Let's also write the stopwords into a file

In [70]:
with open('data/stopwords_de.txt', 'w') as f:
    f.write('\n'.join(sorted(stopwords)) + '\n')

Continue to [Text processing on the Linux command line](https://github.com/tuw-nlp-ie/tuw-nlp-ie-2021WS/blob/main/lectures/01_Text_processing/01b_Text_processing_Linux_command_line.ipynb)