## 02 Lexikalische Attribute
Dieses Notebook behandelt die lexikalischen Attribute von Token und Doc Objekten. Einige Inhalte sind Ausschnitte vom kostenlosen [spaCy Online Kurs](https://course.spacy.io/de).

In [39]:
# Modul um die Ergebnisse übersichtlich anzuzeigen
from prettytable import PrettyTable

### Was macht das nlp-Objekt?

Zuerst wendet spaCy den Tokenizer an, um den Text-String in ein Doc-Objekt umzuwandeln. Danach werden verschiedene Pipeline-Komponenten der Reihe nach auf das Doc angewendet. Am Ende wird das verarbeitete Doc zurückgegeben, damit du mit ihm arbeiten kannst.

Wird werden hierfür ein vor-trainiertes deutsches Sprachmodell verwenden, welches weitere Pipeline-Funktionen mitbringt die im Bereich NLP üblich sind.

In [41]:
import spacy

nlp = spacy.load("de_core_news_md")

text = "Das Leben ist wie eine Schachtel Pralinen."
doc = nlp(text)

## Part-of-Speech Tagger

Der Part-of-Speech Tagger legt für jeden Token die Wortart fest. Die Wortart, so wie mit den anderen Pipelines, wird hier nur erahnt. Das Modell wurde, im Kontext der Sprache und Grammatik, so weitgehend trainiert damit es möglichst genau die richtige Aussage über ein Token treffen kann. Das Attribut hierfür ist ".pos_" und ".tag"

[Part-of-Speech Documentation](https://spacy.io/usage/linguistic-features)

In [42]:
tabelle = PrettyTable(['Token', 'Pos', 'Detaillierte PoS'])
tabelle.align = "l"

for token in doc:
    tabelle.add_row([token.text, token.pos_, token.tag_])

print(tabelle)

+-----------+-------+------------------+
| Token     | Pos   | Detaillierte PoS |
+-----------+-------+------------------+
| Das       | DET   | ART              |
| Leben     | NOUN  | NN               |
| ist       | AUX   | VAFIN            |
| wie       | ADP   | KOKOM            |
| eine      | DET   | ART              |
| Schachtel | NOUN  | NN               |
| Pralinen  | NOUN  | NN               |
| .         | PUNCT | $.               |
+-----------+-------+------------------+


## Dependency Parser

Der Dependency Parser analysiert die grammatikalische Struktur des Text und stellt die Beziehungen her zwischen den einzelnen Tokens. Die Attribute hierfür sind ".dep" und ".head"

[Dependy Parser Documentation](https://spacy.io/api/dependencyparser/#_title)

In [54]:
tabelle = PrettyTable(['Token', 'Dependency', "Beziehung"])
tabelle.align = "l"

for token in doc:
    tabelle.add_row([token.text, token.dep_, token.head.text])

print(tabelle)

+-----------+------------+-----------+
| Token     | Dependency | Beziehung |
+-----------+------------+-----------+
| Das       | nk         | Leben     |
| Leben     | sb         | ist       |
| ist       | ROOT       | ist       |
| wie       | cm         | Schachtel |
| eine      | nk         | Schachtel |
| Schachtel | mo         | ist       |
| Pralinen  | nk         | Schachtel |
| .         | punct      | ist       |
+-----------+------------+-----------+


## Named Entity Recognition

Eine der meistgenutzten Komponenten in spaCy Pipelines ist der [Named Entity Recognizer](https://spacy.io/api/entityrecognizer). Dieser fokussiert sich darauf Eigennamen zu extrahieren wie Personen, Marken, Ortschaften, Länder etc. 

Die vortrainierten deutschen Modelle besitzen einen vortrainierten NER.


Der Named Entity Recognizer fügt erkannte Entitäten ihren Tokens zu. Alle gefundenen Entitäten können über "doc.ents" abgerufen werden. Das Attribute am Token ist hier ".ent_type_". Hierfür verwenden wir ein Beispiel welches Entitäten beinhaltet.

In [95]:
doc = nlp("Olaf Scholz ist der Bundeskanzler von Deutschland.")

tabelle = PrettyTable(['Token', 'Entität'])
tabelle.align = "l"

for token in doc:
    tabelle.add_row([token.text, token.ent_type_])

print(tabelle)

+---------------+---------+
| Token         | Entität |
+---------------+---------+
| Olaf          | PER     |
| Scholz        | PER     |
| ist           |         |
| der           |         |
| Bundeskanzler |         |
| von           |         |
| Deutschland   | LOC     |
| .             | LOC     |
+---------------+---------+


#
Am Ende legt Text Classifier Kategorien fest, die auf den gesamten Text zutreffen, und fügt diese zur Property doc.cats hinzu.

Da Text-Kategorien immer sehr spezifisch sind, ist der Text Classifier nicht standardmäßig Teil der verfügbaren trainierten Pipelines. Du kannst ihn jedoch verwenden, um deine eigenen Systeme zu trainieren.

## Visualisierung mit displaCy

spaCy unterstützt eine Visualisierungsfunktion die es ermöglicht die lexikalischen Attribute mehrer Tokens zu überblicken.

In [91]:
from spacy import displacy

# Der Parameter style definiert die Art der Visualisierung, in diesem Fall nutzen wir die Visualisierung
# für den Dependency Parser
displacy.render(doc, style="dep")

## Named Entity Recognition
Eine der meistgenutzten Komponenten in spaCy Pipelines ist der [Named Entity Recognizer](https://spacy.io/api/entityrecognizer). Dieser fokussiert sich darauf Eigennamen zu extrahieren wie Personen, Marken, Ortschaften, Länder etc. 

Die vortrainierten deutschen Modelle besitzen einen vortrainierten NER.

## NER Visualisierung in displacy
Displacy unterstützt auch die Funktion Entitäten im Text zu visualisieren.

In [99]:
displacy.render(doc, style="ent")