# 08-Visualisierungen
In dieser Lektionen sollen grundliegende **Visualisierungsmöglichkeiten** mit Pandas aufgezeigt werden. Panda besitz einige Diagrammtypen die zur schnellen Überprüfung von Daten bestens geeignet sind. Natürlich gibt es außerdem die Möglichkeit komplexere Grafiken aus den Daten zu erstellen, wobei es hierbei weiterer Bibliotheken bedarf. 

--> *Mehr Informationen zu weitern Visualisierungsmöglichkeiten finden sich im Abschnitt "Tipps and Tricks"*

In [None]:
import pandas as pd

In [None]:
# Größeres Datenset einlesen
df = pd.read_csv('../src/bigdata/120-years-of-olympic-history-athletes-and-results/athlete_events.csv')
df.head()

# BuildIn Diagramme
## Das Linien Diagramm ``.plot()``

In [None]:
# Hier wollen wir die Anzahl der Teilnehmer pro Jahr (Sommerspiele) mit einem Linien Diagramm darstellen
df_teilnehmer = df.drop_duplicates(['ID', 'Year'])
df_teilnehmer = df_teilnehmer[df_teilnehmer['Season'] == 'Summer']

# funktioniert auch mit einer Series
df_teilnehmer.groupby('Year').size().plot()

In [None]:
# Schauen wir uns die Verteilung zwischen Frauen und Männern an
df_teilnehmer_mw = df_teilnehmer.groupby(['Year', 'Sex']).size()
df_teilnehmer_mw.head(10)

In [None]:
# Möchte das Geschlecht(Sex) als Spalte haben. Dafür benutzen wir unstack() 
df_teilnehmer_mw.unstack().head()

In [None]:
# Nun können wir die Daten dementsprechend plotten mit plot
df_teilnehmer_mw.unstack().plot(color=['g', 'r'])

## Das Histogramm ``.hist()``

In [None]:
# Im folgenden Abschnitt wollen wir ein Histogramm erstellen, indem dargestellt wird wie oft ein beliebiger Teilnehmer Gold gewonnen hat.
df_gold = df[df['Medal'] == 'Gold']
df_gold = df_gold[['ID', 'Medal', 'Name']].groupby(['ID', 'Name']).count()
df_gold.hist(['Medal'])

In [None]:
# Feineinstellungen, Einteilung des Histogramms
df_gold.hist(['Medal'], bins=range(3,10,1))

# Der BoxPlot ``.boxplot()``
Mit dem BoxPlot lassen sich sofort folgende statistische Werte ablesen:
* Minimum und Maximum
* Mittelwert und Median
* oberes und unteres Quantil
* Ausreißer

In [None]:
# Im folgenden wird die Verteilung von Gewicht, Alter und Größe der weiblichen Teilnehmerinnen betrachtet
df_weiblich= df[df['Sex'] == 'F']
df_weiblich.sample(5)

In [None]:
# Achtung noch können Teilnehmerinnen doppelt vorkommen
df_weiblich = df_weiblich.drop_duplicates(subset=['ID']).sort_values('Name')
df_weiblich.boxplot(['Age', 'Height', 'Weight'])

In [None]:
# ohne Extremwerte
df_weiblich.boxplot(['Weight'], showfliers=False)

## Subplots
Subplot ermöglichen mehrere kleine Grafiken in einer Reihe oder aber detalierte Einstellungen

In [None]:
# Zunächst muss matplotlib as import hinzugefügt werden
import matplotlib.pyplot as plt

In [None]:
# Als nächstes erstellen wir ein Layout mit subplots (RowCount, ColumnCount), entfernen das Grid und die Outliners
fig, ax = plt.subplots(1,3, figsize=(12, 6))

# Verwenden des jeweiligen slots über ax[1-3] 
df_weiblich.boxplot(['Age'], ax=ax[0], showfliers=False, grid=False)
df_weiblich.boxplot(['Height'], ax=ax[1], showfliers=False, grid=False)
df_weiblich.boxplot(['Weight'], ax=ax[2], showfliers=False, grid=False)

### Zusatz: Build from Scratch

In [None]:
# Vorgehen findet sich auch in der Dokumentation wieder
df_athlets = df.drop_duplicates(subset=['ID']).sort_values('Name')

w = df_athlets[df_athlets['Sex'] == 'F']['Weight'].dropna()
m = df_athlets[df_athlets['Sex'] == 'M']['Weight'].dropna()
data=[w, m]

fig, ax = plt.subplots(figsize=(5, 10))
ax.boxplot(x=data)
plt.show()

### Zusatzinformation - Mehr Einstellungen
Es gibt viele Einstellungen die vorgenommen werden können. Exemplarisch wurde dies am BoxPlot gezeigt. Hinter der boxplot, so wie hinter allen Grafiken die mit Pandas erstellt werden können, verbirgt sich die Bibliothek Matplotlib. Daher können wir alle Paramter dieser Bibliothek nutzen. 

*Beispiel:*
```python
df_weiblich.boxplot(['Weight'], ax=ax[2], showfliers=False, grid=False)
```

Der Parameter **ax** und **grid** ist aus der Dokumentation der Pandabibliothek zu entnehmen und der Parameter **showfliers** aus Matplot selber.

---

*Beispiele findest du unter anderem hier:*
* Pandas - boxplot: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.boxplot.html#pandas.DataFrame.boxplot
* Matplot - boxplot: https://matplotlib.org/api/_as_gen/matplotlib.pyplot.boxplot.html#matplotlib.pyplot.boxplot


# Tipps und Tricks

### Guide durch die Visualisierungsmöglichkeiten mit Pandas
* https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html

### Weiter Bibliotheken für Visualisierungen
* Bokeh -   https://bokeh.pydata.org/en/latest/index.html
* PyPlot -  https://matplotlib.org/3.1.0/tutorials/introductory/pyplot.html
* Seaborn - https://seaborn.pydata.org/
* ipyleaflet - https://github.com/jupyter-widgets/ipyleaflet

