# Tokenisierung

### Sentence tokenization

In [1]:
import nltk
from nltk.corpus import gutenberg
from pprint import pprint

In [2]:
alice = gutenberg.raw(fileids='carroll-alice.txt')
print(len(alice)) #chars

144395


In [3]:
print(alice[:100]) #zeichen

[Alice's Adventures in Wonderland by Lewis Carroll 1865]

CHAPTER I. Down the Rabbit-Hole

Alice was


In [4]:
default_st = nltk.sent_tokenize
alice_sents = default_st(text=alice)
print(len(alice_sents))

1625


In [5]:
from nltk.corpus import europarl_raw

In [6]:
german_text = europarl_raw.german.raw(fileids="ep-00-01-17.de")
print(len(german_text)) #chars
print(german_text[:100])

157171
 
Wiederaufnahme der Sitzungsperiode Ich erkläre die am Freitag , dem 17. Dezember unterbrochene Sit


In [7]:
german_sent_def = default_st(text=german_text, language="german")

In [8]:
print(len(german_sent_def))

938


In [9]:
### PunktTokenizer
german_tok = nltk.data.load(resource_url="tokenizers/punkt/german.pickle")
german_sents = german_tok.tokenize(german_text)
print(len(german_sents))
print(type(german_tok))

938
<class 'nltk.tokenize.punkt.PunktSentenceTokenizer'>


In [10]:
print(german_sent_def == german_sents)

True


In [12]:
for sent in german_sents[0:5]:
    print(sent)

 
Wiederaufnahme der Sitzungsperiode Ich erkläre die am Freitag , dem 17. Dezember unterbrochene Sitzungsperiode des Europäischen Parlaments für wiederaufgenommen , wünsche Ihnen nochmals alles Gute zum Jahreswechsel und hoffe , daß Sie schöne Ferien hatten .
Wie Sie feststellen konnten , ist der gefürchtete " Millenium-Bug " nicht eingetreten .
Doch sind Bürger einiger unserer Mitgliedstaaten Opfer von schrecklichen Naturkatastrophen geworden .
Im Parlament besteht der Wunsch nach einer Aussprache im Verlauf dieser Sitzungsperiode in den nächsten Tagen .
Heute möchte ich Sie bitten - das ist auch der Wunsch einiger Kolleginnen und Kollegen - , allen Opfern der Stürme , insbesondere in den verschiedenen Ländern der Europäischen Union , in einer Schweigeminute zu gedenken .


In [13]:
de_punkt_st = nltk.tokenize.PunktSentenceTokenizer()
sentences = de_punkt_st.tokenize(german_text)

In [14]:
len(sentences)

959

### Word tokenization

In [15]:
sentence = "The brown fox is quick and he is jumping over the lazy dog!"

default_wt = nltk.word_tokenize
print(default_wt(sentence))

['The', 'brown', 'fox', 'is', 'quick', 'and', 'he', 'is', 'jumping', 'over', 'the', 'lazy', 'dog', '!']


In [16]:
treebank_wt = nltk.TreebankWordTokenizer()
words = treebank_wt.tokenize(sentence)
words

['The',
 'brown',
 'fox',
 'is',
 'quick',
 'and',
 'he',
 'is',
 'jumping',
 'over',
 'the',
 'lazy',
 'dog',
 '!']

# Text normalization

In [17]:
import nltk
import re
import string
from pprint import pprint

In [18]:
corpus = ["The brown fox is jumping over the lazy dog!", "Hey, this is a great deal, please get your discount $199!!", "@@ You will see a **lot** of interesting things!!!!!!@@@"]


In [19]:
def tokenize_text(text):
    sentences = nltk.sent_tokenize(text)
    word_tokens = [nltk.word_tokenize(sentence) for sentence in sentences]
    return word_tokens

In [20]:
token_list = [tokenize_text(text) for text in corpus]
pprint(token_list)

[[['The', 'brown', 'fox', 'is', 'jumping', 'over', 'the', 'lazy', 'dog', '!']],
 [['Hey',
   ',',
   'this',
   'is',
   'a',
   'great',
   'deal',
   ',',
   'please',
   'get',
   'your',
   'discount',
   '$',
   '199',
   '!'],
  ['!']],
 [['@',
   '@',
   'You',
   'will',
   'see',
   'a',
   '**lot**',
   'of',
   'interesting',
   'things',
   '!',
   '!',
   '!',
   '!',
   '!',
   '!'],
  ['@', '@', '@']]]


## Dependency Parsing

In [38]:
import spacy
nlp = spacy.load("en_core_web_sm")

In [30]:
#from spacy.lang.en import English
#nlp = English()  # use directly

In [39]:
parsed_sent = nlp(u"The brown fox is quick and he is jumping over the lazy dog")

In [40]:
dep_pattern = "{left}<--{word}[{w_type}]-->{right}\n---"

In [44]:
for token in parsed_sent:
    print(dep_pattern.format(word=token.orth_, w_type=token.dep_, 
                             left=[t.orth_ for t in token.lefts], 
                             right=[t.orth_ for t in token.rights]))

[]<--The[det]-->[]
---
[]<--brown[amod]-->[]
---
['The', 'brown']<--fox[nsubj]-->[]
---
['fox']<--is[ROOT]-->['quick', 'and', 'jumping']
---
[]<--quick[acomp]-->[]
---
[]<--and[cc]-->[]
---
[]<--he[nsubj]-->[]
---
[]<--is[aux]-->[]
---
['he', 'is']<--jumping[conj]-->['over']
---
[]<--over[prep]-->['dog']
---
[]<--the[det]-->[]
---
[]<--lazy[amod]-->[]
---
['the', 'lazy']<--dog[pobj]-->[]
---
