# Bestimmung von Entitäten

In der Analyse natürlichsprachiger Texte spielen sog. *Entitäten* eine große Rolle. Das sind zusammengehörige Wörter, die entweder als feststehende Begriffe vorkommen (sog. *Named Entities*) oder in anderer Art und Weise zusammengehören.

Häufig drücken Entitäten durch ihre spezifische Zusammensetzung gemeinsam mehr aus als die einzelnen Wörter alleine. Deswegen ist es für die Textanalyse wichtig, die Entitäten eines Textes möglichst vollständig zu erkennen.

## Datenbasis

Wie üblich beginnst du wieder mit den beiden Absätzen aus der Neujahrsmeldung:

In [None]:
p1 = "Doch das Ende des Jahres 2020 birgt auch Hoffnung, dass durch die Vakzinen \
gegen Covid-19 wieder Normalität einkehre – wie immer die auch aussehen mag \
– und wir uns um anderes Dringliches kümmern oder einfach entspannen \
können. Und dass durch den im Januar anstehenden Bewohnerwechsel im \
Weißen Haus zu Washington D.C. das offizielle Herumgetrumpel auf dem \
gesunden Menschenverstand ein Ende finden möge."

p2 = "Wir, das gesamte Team von heise online und die Redaktionen von c't, iX, \
Technology Review, Mac & i, c't Digitale Fotografie, Make:, Techstage und \
Telepolis sowie heise Security, heise Developer und heise Autos wünschen Ihnen \
ein friedliches und freudvolles Jahr 2021. Wir wünschen Ihnen, dass Sie nicht \
vergeblich hoffen und dass Ihre Vorsätze erfüllt werden, auf dass Sie gesund \
bleiben oder genesen."

Und lässt sie durch `spacy` analysieren, das auch *Named Entities* erkennt:

In [None]:
!pip install textacy
!python -m spacy download de_core_news_lg

In [None]:
import spacy

nlp = spacy.load("de_core_news_lg")
d1 = nlp(p1)
d2 = nlp(p2)

## Visualisierung der Entitäten

mit `displacy` hat `spacy` ein tolles Modul zur Visualisierung, das du auch für *Named Entities* nutzen kannst. Schau dir die Enitäten im ersten Absatz damit an:

In [None]:
from spacy import displacy

displacy.render(d1, style="ent", jupyter=True)

Das hat schon gut funktioniert. Allerdings wurden einige Entitäten auch erkannt, die gar keine Sind (*Vakzinen*, *Bewohnerwechsel*, *Herumgetrumpel*). An der Erkennungsrate für *Named Entities* werden viele Sprachmodelle bewertet.

Schau dir noch an, was aus dem zweiten Absatz herauskommt:

In [None]:
displacy.render(d2, style="ent", jupyter=True)

Das ist deutlich besser. Die Entitäten wurden fast alle erkannt (teilweise mit den falschen *Typen*), nut *c't Digitale Fototgrafie* und *Make:* waren unbekannt.

## Kombinationen von Wortarten als Entitäten

Nicht immer genügen die die *Named Entities*. Manchmal willst du in einem Text auch zusammengehörige Begriffe finden, z.B. die Kombination aus Adjektiven und Substantiven. Das kannst du etwa zur Trenderkennung nutzen, wenn du dich z.B. für Farben oder Schnitte von Kleidungsstücken interessierst.

Diese Kombinationen kann `spacy` alleine nicht bestimmen (bzw. nur über den *Dependency Tree*). `textacy` kann das für dich erledigen:

In [None]:
import textacy.extract

spans = textacy.extract.token_matches(d1, patterns=["POS:ADJ POS:NOUN:+"])
print('|'.join([s.text for s in spans]))

In [None]:
spans = textacy.extract.token_matches(d2, patterns=["POS:ADJ POS:NOUN:+"])
print('|'.join([s.text for s in spans]))

Mit den Varianten kannst du noch ein bisschen weiter spielen. `textacy` ist ziemlich flexibel und kann für die auch andere Kombinationen ermitteln -je nachdem, was du in einem Projekt benötigst.