# Darstellung
Auch analysierter Text lässt sich grafisch darstellen, um Sachverhalte leichter zu veranschaulichen. In diesem Abschnitt werden zwei einfache Plots gezeigt, die allein mit NLTK (mit Hilfe von matplotlib) dargestellt werden können.

## Inhaltsverzeichnis
- [Vorbereitung](#Vorbereitung)
- [Verteilungsdiagramme](#Verteilungsdiagramme)
- [Häufigkeitsdiagramme](#Häufigkeitsdiagramme)

## Vorbereitung
Laden Sie zunächst NLTK und einen Beispieltext. Vom Beispieltext entfernen Sie zusätzlich die Lizenzhinweise.

In [None]:
import nltk

In [None]:
with open('faust.txt', encoding='utf-8') as file:
    full_text = file.read()
    full_text = full_text \
        .split('*** START OF THE PROJECT GUTENBERG EBOOK FAUST: DER TRAGÖDIE ERSTER TEIL ***')[1] \
        .split('*** END OF THE PROJECT GUTENBERG EBOOK FAUST: DER TRAGÖDIE ERSTER TEIL ***')[0]

## Verteilungsdiagramme
Verteilungsdiagramme eignen sich, um die Häufung bestimmter Wörter innerhalb des Textes zu finden. Wir suchen dazu zuerst die häufigsten Wörter des geladenen Textes, indem wir zunächst diesen in Tokens umwandeln und die Stopwörter entfernen.

In [None]:
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

stopwords = set((*stopwords.words('german'), *',.!?’;()'))
all_words = [word.casefold()
             for sent in sent_tokenize(full_text)
             for word in word_tokenize(sent)
             if word.casefold() not in stopwords]

Mit der Klasse `FreqDist` lassen sich in einer Anweisung die häufigsten Wörter und deren Häufigkeit finden. Da wir nur das Wort selbst benötigen, reduzieren wir die entstehenden Tupel.

In [None]:
from nltk import FreqDist

top10 = [word for word, _ in FreqDist(all_words).most_common(10)]
top10

Die Funktion `dispersion_plot` aus dem Modul `nltk.draw` erlaubt es uns dann, ein Verteilungsdiagramm zu zeichnen. Übergeben Sie dazu als ersten Parameter eine Liste aller Wörter. Aus diesen wird dann auch die Position abgeleitet. Als zweiten Parameter übergeben Sie die Liste der Wörter, die dargestellt werden soll.

In [None]:
nltk.draw.dispersion_plot(all_words, top10)

Mit dem Parameter `ignore_case` können Sie außerdem festlegen, dass Groß- und Kleinschreibung ignoriert werden soll. In diesem Fall ist das nicht notwendig, da wir bereits alle Wörter mit der Funktion `casefold` in Kleinbuchstaben konvertiert haben.

Mit dem Parameter `title` können Sie zusätzlich den Titel des Plots beliebig abändern.

## Häufigkeitsdiagramme
Häufigkeitsdiagramme erlauben einen Einblick in die Häufigkeit einzelner Wörter und den direkten grafischen Vergleich gegenüber anderen.

Am einfachsten ist dabei die Verwendung der Klasse `FreqDist`, die zuvor zur Bestimmung der häufigsten Worte verwendet wurde. Diese stellt neben der Funktion `most_common` auch die Funktion `plot` bereit, mit der sich Häufigkeitsdiagramme erzeugen lassen. Der Parameter gibt dabei an, wie viele der häufigsten Wörter im Plot aufgeführt werden sollen.

In [None]:
frequency_distribution = FreqDist(all_words)
frequency_distribution.plot(32)

Mit dem Parameter `cumulative` können Sie zudem sehr einfach zu einer anhäufenden Darstellung wechseln.

In [None]:
frequency_distribution.plot(32, cumulative=True)