In [74]:
import spacy
import de_core_news_sm

nlp = de_core_news_sm.load()

doc = nlp("Das ist ein Beispielsatz für eine Vorverarbeitung. Übermorgen ist schönes Wetter. Meine E-Mail lautet: max.mustermann@gmx.de?!")
spacy_words = [token.text for token in doc]
display(f"Tokenized words: {spacy_words}")

"Tokenized words: ['Das', 'ist', 'ein', 'Beispielsatz', 'für', 'eine', 'Vorverarbeitung', '.', 'Übermorgen', 'ist', 'schönes', 'Wetter', '.', 'Meine', 'E-Mail', 'lautet', ':', 'max.mustermann@gmx.de', '?', '!']"

In [62]:
import string

display(f"Punctuation symbols: {string.punctuation}")

'Punctuation symbols: !"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [63]:
tokens = [t.text for t in doc]
# python 
tokens_without_punct_python = [t for t in tokens if t not in string.punctuation]
display(f"Python based removal: {tokens_without_punct_python}")

tokens_without_punct_spacy = [t.text for t in doc if t.pos_ != 'PUNCT']
display(f"Spacy based removal: {tokens_without_punct_spacy}")

"Python based removal: ['Das', 'ist', 'ein', 'Beispielsatz', 'für', 'eine', 'Vorverarbeitung', 'Übermorgen', 'ist', 'schönes', 'Wetter', 'Meine', 'E-Mail', 'lautet', 'max.mustermann@gmx.de']"

"Spacy based removal: ['Das', 'ist', 'ein', 'Beispielsatz', 'für', 'eine', 'Vorverarbeitung', 'Übermorgen', 'ist', 'schönes', 'Wetter', 'Meine', 'E-Mail', 'lautet', 'max.mustermann@gmx.de']"

In [65]:
lemmas = [token.lemma_ for token in doc]

In [66]:
# Remove tokens that are not alphabetic 
a_lemmas = [lemma for lemma in lemmas
if lemma.isalpha() or lemma == '-PRON-'] 
# Print string after text cleaning
print(' '.join(a_lemmas))

der sein einen Beispielsatz für einen Vorverarbeitung Übermorgen sein schön Wetter Meine lauten


In [56]:
# Generate list of tokens and pos tags
pos = [(token.text, token.pos_) for token in doc] 
print(pos)

[('Das', 'PRON'), ('ist', 'AUX'), ('ein', 'DET'), ('Beispielsatz', 'NOUN'), ('für', 'ADP'), ('eine', 'DET'), ('Vorverarbeitung', 'NOUN'), ('.', 'PUNCT'), ('Übermorgen', 'VERB'), ('ist', 'AUX'), ('schönes', 'ADJ'), ('Wetter', 'NOUN'), ('.', 'PUNCT'), ('Meine', 'DET'), ('E-Mail', 'NOUN'), ('lautet', 'VERB'), (':', 'PUNCT'), ('max.mustermann@gmx.de', 'PROPN'), ('?', 'PUNCT'), ('!', 'PUNCT')]


In [75]:
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop, token.lemma_.lower())

Das der PRON PDS sb Xxx True True der
ist sein AUX VAFIN ROOT xxx True True sein
ein einen DET ART nk xxx True True einen
Beispielsatz Beispielsatz NOUN NN pd Xxxxx True False beispielsatz
für für ADP APPR mnr xxx True True für
eine einen DET ART nk xxxx True True einen
Vorverarbeitung Vorverarbeitung NOUN NN nk Xxxxx True False vorverarbeitung
. . PUNCT $. punct . False False .
Übermorgen Übermorgen VERB VVPP pd Xxxxx True False übermorgen
ist sein AUX VAFIN ROOT xxx True True sein
schönes schön ADJ ADJA nk xxxx True False schön
Wetter Wetter NOUN NN sb Xxxxx True False wetter
. . PUNCT $. punct . False False .
Meine Meine DET PPOSAT nk Xxxxx True True meine
E-Mail E-Mail NOUN NN sb X-Xxxx False False e-mail
lautet lauten VERB VVFIN ROOT xxxx True False lauten
: : PUNCT $. punct : False False :
max.mustermann@gmx.de max.mustermann@gmx.de PROPN NE oc xxx.xxxx@xxx.xx False False max.mustermann@gmx.de
? ? PUNCT $. punct ? False False ?
! ! PUNCT $. punct ! False False !


- Text: The original word text.
- Lemma: The base form of the word.
- POS: The simple UPOS part-of-speech tag.
- Tag: The detailed part-of-speech tag.
- Dep: Syntactic dependency, i.e. the relation between tokens.
- Shape: The word shape – capitalization, punctuation, digits.
- is alpha: Is the token an alpha character?
- is stop: Is the token part of a stop list, i.e. the most common words of the language?