## 02 Lexikalische Attribute
Dieses Notebook behandelt die lexikalischen Attribute von Token und Doc Objekten. Einige Inhalte sind Ausschnitte vom kostenlosen [spaCy Online Kurs](https://course.spacy.io/de).

### Was macht das nlp-Objekt?

Zuerst wendet spaCy den Tokenizer an, um den Text-String in ein Doc-Objekt umzuwandeln. Danach werden verschiedene Pipeline-Komponenten der Reihe nach auf das Doc angewendet. m Ende wird das verarbeitete Doc zurückgegeben, damit du mit ihm arbeiten kannst.

spaCy liefert eine Vielzahl von verschiedenen integrierten Pipeline-Komponenten mit. Hier sind einige der häufigsten, die du in deinem Projekt wahrscheinlich verwenden willst.

Der Part-of-speech Tagger legt die Attribute Token.tag und Token.pos fest.

Der Dependency Parser fügt die Attribute Token.dep und Token.head hinzu und ist außerdem verantwortlich dafür, Sätze und Nominalphrasen, auch "noun chunks" genannt, zu erkennen.

Der Named Entity Recognizer fügt die erkannten Entitäten zur Property doc.ents hinzu. Er legt außerdem Attribute für Entität-Typen der Tokens fest, die angeben, ob der Token Teil einer Entität ist.

Am Ende legt Text Classifier Kategorien fest, die auf den gesamten Text zutreffen, und fügt diese zur Property doc.cats hinzu.

Da Text-Kategorien immer sehr spezifisch sind, ist der Text Classifier nicht standardmäßig Teil der verfügbaren trainierten Pipelines. Du kannst ihn jedoch verwenden, um deine eigenen Systeme zu trainieren.

Mithilfe von der einzelnen Komponenten können einzelnen Tokens bestimmte Attribute zugewiesen werden, wie beispielsweise die Wortart oder die Beziehung zu anderen Wörtern im Satz.

In [17]:
import spacy

nlp = spacy.load("de_core_news_md")
doc = nlp("Das Leben ist wie eine Schachtel Pralinen.")

# .pos_ = Part-Of-Speech Tag 
# .dep_ = Dependency Parser Tag
for token in doc:
    print(token.text, token.pos_, token.dep_)

Das definite or indefinite article nk
Leben noun, singular or mass sb
ist finite verb, auxiliary ROOT
wie comparative conjunction cm
eine definite or indefinite article nk
Schachtel noun, singular or mass mo
Pralinen noun, singular or mass nk
. sentence-final punctuation mark punct


## Visualisierung mit displaCy

spaCy unterstützt eine Visualisierungsfunktion die es ermöglicht die lexikalischen Attribute mehrer Tokens zu überblicken.

In [7]:
from spacy import displacy

# Der Parameter style definiert die Art der Visualisierung, in diesem Fall nutzen wir die Visualisierung
# für den Dependency Parser
displacy.serve(doc, style="dep")




Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


## Named Entity Recognition
Eine der meistgenutzten Komponenten in spaCy Pipelines ist der [Named Entity Recognizer](https://spacy.io/api/entityrecognizer). Dieser fokussiert sich darauf Eigennamen zu extrahieren wie Personen, Marken, Ortschaften, Länder etc. 

Die vortrainierten deutschen Modelle besitzen einen vortrainierten NER.

In [15]:
nlp = spacy.load("de_core_news_md")
doc = nlp("Olaf Scholz ist der Bundeskanzler von Deutschland")

# Iterieren durch alle gefundenen Entitäten im Doc und geben das .text und .label Attribut aus
for ent in doc.ents:
    print(ent.text, ent.label_)

Olaf Scholz PER


## NER Visualisierung in displacy
Displacy unterstützt auch die Funktion Entitäten im Text zu visualisieren.

In [14]:
displacy.serve(doc, style="ent")


Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.
