# √úberblick √ºber Basis-Tools: `spacy` und `textacy`

## spaCy

spaCy ist in der Zwischenzeit *das* Standard-Werkzeug f√ºr die linguistische Analyse. spaCy ist ein Open-Source-Projekt und stammt von der Berliner Firma explosion.ai

Die Sprachmodelle sind mit tiefen neuronalen Netzen aufgebaut und auf gro√üe Datenmengen trainiert. Modelle stehen f√ºr viele Sprachen zur Verf√ºgung, insbesondere auch f√ºr Deutsch.

spaCy musst du zun√§chst installieren und dazu passende Sprachmodelle herunterladen. Eine erste Analyse von Dokumenten scheint nicht viel zu ver√§ndern:

In [None]:
!pip install textacy
!python -m spacy download de_core_news_lg

In [None]:
import spacy

nlp = spacy.load("de_core_news_lg")
d1 = "Die Redaktionen der Heise Medien w√ºnschen ein friedliches und gesundes 2021."
d2 = "M√∂gen Ihre Hoffnungen erf√ºllt werden und Sie gesund bleiben oder werden."
doc = nlp(d1 + "\n" + d2)
doc

Tats√§chlich steckt in `doc` deutlich mehr, nur die Darstellung als `string` ist etwas spartanisch. Mithilfe von `pandas` kannst du die einzelnen Felder √ºbersichtlich in einer Tabelle darstellen:

In [None]:
import pandas as pd

res = []
for token in doc:
    res.append([token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
                token.is_alpha, token.is_stop])

pd.DataFrame(res, columns=["Text", "Lemma", "POS", "Tag", "Dep", "Alpha?", "Stop?"])

Neben den Grundformen (Lemmas) sind die Abh√§ngigkeiten besonders interessant. Diese lassen sich auch grafisch visualisieren. spaCy bietet hier eine sehr sch√∂ne Integration in Jupyter an:

In [None]:
from spacy import displacy

doc = nlp(d1)
displacy.render(doc, style="dep", jupyter=True)

Das sieht schon sehr nach der Satzanalyse aus, die du bestimmt noch aus der Schule noch kennst. Nur erledigt hier zum Gl√ºck der Computer das Gros der Arbeit.

spaCy kann nat√ºrlich noch viel mehr, das soll dir hier nur ein bisschen Appetit auf die weiteren Lektionen machen.

## textacy

`textacy` nutzt einige Funktionen von `spacy`, um daraus abgeleitete Informationen zu konstruieren.

Bevor du eine Funktion selbst implementierst, ist es oft sinnvoll, erst mal bei `textacy` nachzuschauen, ob es die nicht schon gibt üòä

In [None]:
import textacy

Im ersten Schritt erzeugst du hier aus einem Text eine `spacy`-Dokument:

In [None]:
de = textacy.load_spacy_lang("de_core_news_lg")
td1 = textacy.make_spacy_doc(d1, lang=de)
td1._.preview

Mit `textacy` kannst du dann sehr elegant sog *n-Gramme* (in diesem Fall Dreiwort-Kombinationen) ausrechnen.

In [None]:
list(textacy.extract.ngrams(td1, 3, filter_stops=True, filter_punct=True, filter_nums=False))

Mit `textacy` kannst du eine eigene Klasse f√ºr Statistik-Funktionen nutzen:

In [None]:
import textacy.text_stats
ts = textacy.text_stats.TextStats(td1)

Und damit z.B. die Anzahl der W√∂rter, Silben und Buchstaben z√§hlen lassen:

In [None]:
ts.n_words, ts.n_syllables, ts.n_chars

Au√üerdem kannst du berechnen, wie einfach ein Text lesbar ist, dazu gibt es verschiedene Formeln. *Flesch-Kincaid* versucht die (amerikanische) Klassenstufe zu ermitteln, f√ºr die der Text geeignet ist.

In [None]:
ts.flesch_kincaid_grade_level, ts.flesch_reading_ease

## Es gibt noch mehr

`spacy` und `textacy` k√∂nnen noch viel mehr. Hier siehst du schon, dass sich viele Routine-Aufgaben aus dem Deutschunterricht mit den Python-Bibliotheken sehr viel schneller erledigen lassen. 