# Part-of-Speech-Tagging

Nach und nach wollen wir in den nächsten Schritte eine *Verarbeitungspipeline* aufbauen. Mit der Tokenisierung hast du bereits einen entscheidenen Schritt hinter dir. Die richtige Landessprache kennst du auch und kannsst daher das richtige Sprachmodell wählen.

Als nächstes wirst du jetzt den Satzbau analysieren, Wortarten und Morphologie bestimmen. Schließlich geht es über die Abhängigkeitsanalyse zur Named Entity Recognition

## Linguistische Analyse

Als Beispiel für die folgenden Aufgaben nutzt du zwei Absätze aus dem Neujahrs-Artikel von Heise:

In [None]:
p1 = "Doch das Ende des Jahres 2020 birgt auch Hoffnung, dass durch die Vakzinen \
gegen Covid-19 wieder Normalität einkehre – wie immer die auch aussehen mag \
– und wir uns um anderes Dringliches kümmern oder einfach entspannen \
können. Und dass durch den im Januar anstehenden Bewohnerwechsel im \
Weißen Haus zu Washington D.C. das offizielle Herumgetrumpel auf dem \
gesunden Menschenverstand ein Ende finden möge."

p2 = "Wir, das gesamte Team von heise online und die Redaktionen von c't, iX, \
Technology Review, Mac & i, c't Digitale Fotografie, Make:, Techstage und \
Telepolis sowie heise Security, heise Developer und heise Autos wünschen Ihnen \
ein friedliches und freudvolles Jahr 2021. Wir wünschen Ihnen, dass Sie nicht \
vergeblich hoffen und dass Ihre Vorsätze erfüllt werden, auf dass Sie gesund \
bleiben oder genesen."

Wie schon in den vorherigen Kapitel verwendest du `spacy` für die Analyse. Das Modell `de_core_news_lg` wurde mit dem sog. *TIGER Corpus* und *WikiNER* trainiert, so dass es mit ausreichender Genauigkeit arbeiten kann.

Den Code für die Analyse kennst du schon:

In [None]:
!pip install textacy
!python -m spacy download de_core_news_lg

In [None]:
import spacy

nlp = spacy.load("de_core_news_lg")
d1 = nlp(p1)
d2 = nlp(p2)

Nun interessieren wir uns nicht für die einzelnen Tokens alleine, sondern für weitergehende Informationen zu den Tokens. Jeder Token wird von `spacy` mit zusätzlichen Informationen angereichert. Dazu schreibst du nun eine kleine Funktion, die das als Pandas `DataFrame` ausgibt:

In [None]:
import pandas as pd

pd.set_option("max.rows", None)
pd.set_option('display.max_colwidth', None)

def pos_tag(d):
    res = []
    for token in d:
        res.append([token.text, token.pos_, token.tag_, token.lemma_, token.dep_ ])

    return pd.DataFrame(res, columns=["Text", "POS", "Tag", "Lemma", "Dep"])

Diese Funktion kannst du nun auf das erste `spacy`-Dokument anwenden, womit sich eine umfangreiche Tabelle ergibt:

In [None]:
pt1 = pos_tag(d1)
pt1

`POS` ist dabei der Part-of-Speech-Tag: 

|POS|Bedeutung|
|:--|:--|
|`ADJ`|Adjektiv|
|`ADP`|Adposition|
|`ADV`|Adverb|
|`AUX`|Hilfsverb|
|`CONJ`|Gleichordnende Konjunktion|
|`DET`|Artikel|
|`INTJ`|Ausruf|
|`NOUN`|Substantiv|
|`NUM`|Zahl|
|`PART`|Partikel|
|`PRON`|Pronomen|
|`PROPN`|Substantiv|
|`PUNCT`|Punktuation|
|`SCONJ`|unterordnende Konjunktion|
|`SYM`|Symbol|
|`VERB`|Verb|

Quelle: https://universaldependencies.org/docs/u/pos/

`Tag` ist deutlich detaillierter und sowohl spezifisch für `spacy` als auch für das jeweilige Modell. Details dazu findest du unter https://spacy.io/models/de. 

Du kannst dir Erklärungen außerdem mit `spacy.explain` ausgeben lassen:

In [None]:
ex = []
for tag in pt1["Tag"].unique():
    ex.append({"Tag": tag, "Explanation": spacy.explain(tag)})
pd.DataFrame(ex).sort_values("Tag").set_index("Tag")

Mithilfe von `POS` und `Tag` kannst du viele Wörter deutlich besser *qualifizieren*. Dieses Wissen wirst du in den folgenden Kapiteln anwenden, um z.B. wortartenspezifische Auswertungen durchzuführen.