# Visualisierung
<blockquote>
    "Es gibt nur eine Breitbandverbindung ins Gehirn." <br>
    - David Kriesel
</blockquote>

Visualisierung ist immens wichtig. Denn visuell ist es uns Menschen am einfachsten möglich, komplexe Sachverhalte in kurzer Zeit zu erfassen, Zusammenhänge zu erkennen und Informationen zu verknüpfen. So können einige grundlegende Graphen einen ersten Eindruck beschleunigen und Ideen für einen tieferen Einblick geben. Spätestens aber, wenn Sie Ergebnisse präsentieren möchten und nicht nur Bewunderer von Zahlen adressieren, wird Ihnen Ihr Publikum für eine anschauliche und Interesse weckende Darstellung dankbar sein.

Dieses Kapitel beschäftigt sich mit der Bibliothek [`plotly`](https://plotly.com/python/), deren herausstechendstes Merkmal die Interaktivität der entstehenden Graphen ist. Alternativ stehen [`matplotlib`](https://matplotlib.org/) und [`seaborn`](https://seaborn.pydata.org/) zur Verfügung. Zum Laden der Daten wird weiterhin Pandas verwendet, das im vergangenen Kapitel bereits thematisiert wurde.

In [None]:
import pandas as pd
import plotly.express as px

## Ein kurzes Beispiel
Erneut laden wir den Datensatz [Disney+ Movies and TV Shows](https://www.kaggle.com/code/werador/disney-data-analysis/data).

In [None]:
df = pd.read_csv('disney_plus_titles.csv', parse_dates=['date_added'])
df = df[['title', 'release_year', 'date_added']]

df

Die ersten Fragen könnten nun lauten:
- In welchem Zeitraum wurden die meisten Werke veröffentlicht?
- In welchem Zeitraum wurden die meisten Werke zum Streaming zur Verfügung gestellt?

Natürlich lassen sich beide Fragen mit wenigen Zeilen Python-Code beantworten:

In [None]:
m = df.groupby('release_year').size()
m.idxmax(), m.loc[m.idxmax()]

In [None]:
m = df.groupby('date_added').size()
m.idxmax(), m.loc[m.idxmax()]

Wie weit diese Extremwerte herausstechen, ob weitere lokale Extremwerte existieren und ob sich aus der Betrachung vielleicht sogar kompliziertere Sachverhalte ergeben, bleibt uns verborgen. Natürlich lassen sich Durchschnitt, Median und Varianz berechnen und eventuell können Sie sogar eine Funktion an den Verlauf anpassen, für einen ersten Eindruck ist dieser Aufwand jedoch nicht unbedingt nötig.

Die Darstellung mit plotly sieht dagegen wie folgt aus. Zögern Sie nicht, die Histogramme mit der Maus zu erkunden.

In [None]:
px.histogram(df, x='release_year',
             nbins=int(df['release_year'].max() - df['release_year'].min() + 1))

In [None]:
px.histogram(df, x='date_added')

Mit einer solchen Darstellung sehen Sie schnell zusätzliche Zusammenhänge.
- Die Veröffentlichungen scheinen seit 1990 kontinuierlich zu steigen und gipfeln im bereits als Zahl festgestellten Höchstwert von 125 Produktionen im Jahr 2021. Es scheint sich dabei nicht um einen Ausreißer, sondern um eine stetige Erhöhung der Produktionskapazitäten zu handeln.
- Der Höchstwert von 722 Veröffentlichungen im Streaming am 12. November 2019 ist selbst in der Monatsdarstellung noch ein extremer Ausreißer. In der Regel erscheinen weniger als 50 Titel monatlich. ([Disney+ startete als Dienst am 12.11.2019 in den USA, Kanada und den Niederlanden.](https://de.wikipedia.org/wiki/Disney%2B))