In [1]:
from nltk import tokenize
from nltk import tag
from nltk import chunk

satz = 'Ich bin ein Student an der Hochschule Luzern. Ich liebe IT.'

## Tokenization

In [2]:
tokenize.sent_tokenize(satz)

['Ich bin ein Student an der Hochschule Luzern.', 'Ich liebe IT.']

In [3]:
word_token = tokenize.word_tokenize(satz)
word_token

['Ich',
 'bin',
 'ein',
 'Student',
 'an',
 'der',
 'Hochschule',
 'Luzern',
 '.',
 'Ich',
 'liebe',
 'IT',
 '.']

In [12]:
tagged_pos = tag.pos_tag(word_token)
tagged_pos

[('Ich', 'NNP'),
 ('bin', 'NN'),
 ('ein', 'NN'),
 ('Student', 'NNP'),
 ('an', 'DT'),
 ('der', 'NN'),
 ('Hochschule', 'NNP'),
 ('Luzern', 'NNP'),
 ('.', '.'),
 ('Ich', 'NNP'),
 ('liebe', 'VBD'),
 ('IT', 'NNP'),
 ('.', '.')]

In [16]:
tree = chunk.ne_chunk(tagged_pos)
print(tree)
tree.draw()

(S
  (GPE Ich/NNP)
  bin/NN
  ein/NN
  Student/NNP
  an/DT
  der/NN
  (PERSON Hochschule/NNP Luzern/NNP)
  ./.
  (PERSON Ich/NNP)
  liebe/VBD
  IT/NNP
  ./.)


## Stemming

In [22]:
from nltk.stem.porter import PorterStemmer
from nltk.stem.lancaster import LancasterStemmer
from nltk.stem.snowball import SnowballStemmer

porter = PorterStemmer()
lancaster = LancasterStemmer()
snowball = SnowballStemmer('german', ignore_stopwords=True)

for t in word_token:
    print(f'p: {porter.stem(t)}')
    print(f'f: {lancaster.stem(t)}')
    print(f's: {snowball.stem(t)}')

p: ich
f: ich
s: ich
p: bin
f: bin
s: bin
p: ein
f: ein
s: ein
p: student
f: stud
s: student
p: an
f: an
s: an
p: der
f: der
s: der
p: hochschul
f: hochsch
s: hochschul
p: luzern
f: luzern
s: luz
p: .
f: .
s: .
p: ich
f: ich
s: ich
p: lieb
f: lieb
s: lieb
p: IT
f: it
s: it
p: .
f: .
s: .


## Stopwords

In [19]:
from nltk.corpus import stopwords
stop_words = list(set(stopwords.words('german')))
stop_words[:5]

['einiges', 'allen', 'auch', 'über', 'meinen']

In [20]:
[t for t in word_token if not t in stop_words]

['Ich', 'Student', 'Hochschule', 'Luzern', '.', 'Ich', 'liebe', 'IT', '.']