## SpaCy-Modelle über das Notebook herunterladen

In [4]:
!python -m spacy download en # englisches Modell
!python -m spacy download de # deutsches Modell


[38;5;3m⚠ As of spaCy v3.0, shortcuts like 'en' are deprecated. Please use the
full pipeline package name 'en_core_web_sm' instead.[0m
Collecting en-core-web-sm==3.1.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.1.0/en_core_web_sm-3.1.0-py3-none-any.whl (13.6 MB)
[K     |████████████████████████████████| 13.6 MB 9.4 MB/s eta 0:00:01
Installing collected packages: en-core-web-sm
Successfully installed en-core-web-sm-3.1.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
[38;5;3m⚠ As of spaCy v3.0, shortcuts like 'de' are deprecated. Please use the
full pipeline package name 'de_core_news_sm' instead.[0m
Collecting de-core-news-sm==3.1.0
  Downloading https://github.com/explosion/spacy-models/releases/download/de_core_news_sm-3.1.0/de_core_news_sm-3.1.0-py3-none-any.whl (18.8 MB)
[K     |████████████████████████████████| 18.8 MB 10.3 MB/s eta 0:00:01


Installing collected packages: de-core-news-sm
Successfully installed de-core-news-sm-3.1.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('de_core_news_sm')


## Import von SpaCy- und NLTK-Bibliotheken und Erstellung von "Sprachverarbeitungs-Pipelines"

In [41]:
import spacy
import nltk
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')
  

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/ulizellbeck/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /Users/ulizellbeck/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to
[nltk_data]     /Users/ulizellbeck/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.


True

In [7]:
nlp_en = spacy.load("en_core_web_sm")
nlp_de = spacy.load("de_core_news_sm")

## Textumwandlung

### Segmentierung von Text in Sätze

Es geht darum, den Anfang und das Ende jedes Satzes eines Textes zu lokalisieren, um ihn segmentieren zu können.

In [8]:
# Erstellen des zu segmentierenden Textes
text_de = "UV sei nach dem Aussteigen aus ihrem PKW auf einen Stein getreten und habe seit dem Schmerzen im Bereich der rechten Fußsohle. Das hat ganz schön weh getan. Und jetzt kommt der dritte Satz."

**Mit SpaCy**

In [9]:
# Text durch die Pipeline leiten
doc_de = nlp_de(text_de)

In [10]:
# Segmentierung des Textes und Anzeige des Ergebnisses
for sent in doc_de.sents:
    print(sent)

UV sei nach dem Aussteigen aus ihrem PKW auf einen Stein getreten und habe seit dem Schmerzen im Bereich der rechten Fußsohle.
Das hat ganz schön weh getan.
Und jetzt kommt der dritte Satz.


**Mit NLTK**

In [11]:
# Import der Funktion, die die Segmentierung in Sätzen erlaubt
from nltk.tokenize import sent_tokenize

In [12]:
# Segmentierung des Textes und Anzeige des Ergebnisses
sentences = sent_tokenize(text_de, language = 'german')
for sent in sentences:
    print(sent)

UV sei nach dem Aussteigen aus ihrem PKW auf einen Stein getreten und habe seit dem Schmerzen im Bereich der rechten Fußsohle.
Das hat ganz schön weh getan.
Und jetzt kommt der dritte Satz.


### Textsegmentierung in Token

In [13]:
# Erstellung des zu tokenisierenden Satzes
text_fr = "UV sei nach dem Aussteigen aus ihrem PKW auf einen Stein getreten und habe seit dem Schmerzen im Bereich der rechten Fußsohle."

**SpaCy**

In [15]:
# Text durch die Pipeline leiten
doc_de = nlp_de(text_de)

In [16]:
# Tokenisierung des Satzes und Anzeige des Ergebnisses
words = [w.text for w in doc_de]
print(words)

['UV', 'sei', 'nach', 'dem', 'Aussteigen', 'aus', 'ihrem', 'PKW', 'auf', 'einen', 'Stein', 'getreten', 'und', 'habe', 'seit', 'dem', 'Schmerzen', 'im', 'Bereich', 'der', 'rechten', 'Fußsohle', '.', 'Das', 'hat', 'ganz', 'schön', 'weh', 'getan', '.', 'Und', 'jetzt', 'kommt', 'der', 'dritte', 'Satz', '.']


**Mit NLTK**

In [18]:
# Importieren der Tokenisierungsfunktion
from nltk.tokenize import word_tokenize

In [20]:
# Tokenisierung des Satzes und Anzeige des Ergebnisses
words = word_tokenize(text_de, language = 'german')
print(words)

['UV', 'sei', 'nach', 'dem', 'Aussteigen', 'aus', 'ihrem', 'PKW', 'auf', 'einen', 'Stein', 'getreten', 'und', 'habe', 'seit', 'dem', 'Schmerzen', 'im', 'Bereich', 'der', 'rechten', 'Fußsohle', '.', 'Das', 'hat', 'ganz', 'schön', 'weh', 'getan', '.', 'Und', 'jetzt', 'kommt', 'der', 'dritte', 'Satz', '.']


## Informationsextraktion

### Kennzeichnung von Wortarten

Diese Aufgabe besteht darin, ein Wort seiner morphosyntaktischen Klasse (Substantiv, Verb, Adjektiv, ...) zuzuordnen.

In [22]:
# Erstellung von Testsätzen, einer auf Deutsch und einer auf Englisch
text_de = "Ich gehe mit meinem Hund in den Park"
text_en = "I go to the park with my dog"

**Mit SpaCy**

In [23]:
# Durchlaufen der Sätze durch die jeweiligen Pipelines
doc_de = nlp_de(text_de)
doc_en = nlp_en(text_en)

In [25]:
# Anzeige jedes Tokens des deutschen Worts, gefolgt von seinem "Tag" 
for token in doc_de:
    print('Word : {0}, , Tag : {1}' .format(token.text, token.tag_))

Word : Ich, , Tag : PPER
Word : gehe, , Tag : VVFIN
Word : mit, , Tag : APPR
Word : meinem, , Tag : PPOSAT
Word : Hund, , Tag : NN
Word : in, , Tag : APPR
Word : den, , Tag : ART
Word : Park, , Tag : NN


In [26]:
# Anzeige jedes Tokens des englischen Worts, gefolgt von seinem "Tag" 
for token in doc_en:
    print('Word : {0}, , Tag : {1}' .format(token.text, token.tag_))

Word : I, , Tag : PRP
Word : go, , Tag : VBP
Word : to, , Tag : IN
Word : the, , Tag : DT
Word : park, , Tag : NN
Word : with, , Tag : IN
Word : my, , Tag : PRP$
Word : dog, , Tag : NN


**Mit NLTK**

In [27]:
# Importieren der Tagging-funktion
from nltk import pos_tag

In [28]:
# Tokenisierung des englischen Satzes
tokens_en = word_tokenize(text_en)

In [31]:
# Markierung von Token und Anzeige des Ergebnisses
tags_en = pos_tag(tokens_en)
print (tags_en)

[('I', 'PRP'), ('go', 'VBP'), ('to', 'TO'), ('the', 'DT'), ('park', 'NN'), ('with', 'IN'), ('my', 'PRP$'), ('dog', 'NN')]


### Named Entity Recognition (NER)

Diese besteht darin, die Wörter in einem Text zu erkennen, die kategorisierbaren Begriffen entsprechen (Namen von Personen, Orten, Organisationen, ...).

In [32]:
# Beispieltext
text_en = "Mark Elliot Zuckerberg (born May 14, 1984) is a co-founder of Facebook."

**Mit SpaCy**

In [33]:
doc_en = nlp_en(text_en)

In [34]:
for token in doc_en:
    print('Word : {0}, , Entity : {1}' .format(token.text, token.ent_type_))

Word : Mark, , Entity : PERSON
Word : Elliot, , Entity : PERSON
Word : Zuckerberg, , Entity : PERSON
Word : (, , Entity : 
Word : born, , Entity : 
Word : May, , Entity : DATE
Word : 14, , Entity : DATE
Word : ,, , Entity : DATE
Word : 1984, , Entity : DATE
Word : ), , Entity : 
Word : is, , Entity : 
Word : a, , Entity : 
Word : co, , Entity : 
Word : -, , Entity : 
Word : founder, , Entity : 
Word : of, , Entity : 
Word : Facebook, , Entity : 
Word : ., , Entity : 


**Mit NLTK**

In [35]:
from nltk import ne_chunk 

In [36]:
tokens_en = word_tokenize(text_en)

In [37]:
tags_en = pos_tag(tokens_en)

In [42]:
ner_en = ne_chunk(tags_en)
print (ner_en)

(S
  (PERSON Mark/NNP)
  (PERSON Elliot/NNP Zuckerberg/NNP)
  (/(
  born/VBN
  May/NNP
  14/CD
  ,/,
  1984/CD
  )/)
  is/VBZ
  a/DT
  co-founder/NN
  of/IN
  (GPE Facebook/NNP)
  ./.)
