# Übung 09: Visualisierungen

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv('../../src/bigdata/120-years-of-olympic-history-athletes-and-results/athlete_events.csv')
df.head()

## Teilaufgabe 1:

Schaue dir in der folgenden Übung das Datenset der olympischen Spiele genauer an:

* Plotte die Medaillen Gewinne (Summe aus Gold, Silber und Bronze) des Deutschen Teams bei den Sommerspielen im Verlaufe der Jahre
* Unterscheide zwischen Gold, Silber, Bronze Medaillen und plotte alle drei Verläufe in einem Graph
* Schau dir die Daten an und finde raus warum der Graph zwischenzeitlich abbricht. Behebe den Fehler


> **Hinweis**: Statt ``.dropna()`` kannst du auch den DataFrame mit ``df[~df['Column'].isna()]``
filtern, so dass er keine NaN Values mehr enthält. Den gleichen Effekt hat außerdem die folgende Funktion: <br>``df.dropna(subset=['Column1', 'Column2'...]``)

In [None]:
# Filtern des DataFrames und anschließenden bereinigen der Medal Spalte 
df_ger_summer = df[(df['Team'] == 'Germany') & (df['Season'] == 'Summer')]
df_ger_summer = df_ger_summer.dropna(subset=['Medal'])
df_ger_summer.groupby(['Year']).size().plot()

In [None]:
# Alternativ mit .isna()
df_ger_summer = df[(df['Team'] == 'Germany') & (df['Season'] == 'Summer')]
df_ger_summer[~df_ger_summer['Medal'].isna()].groupby(['Year']).size().plot()

In [None]:
# Auswertung
df_result = df_ger_summer[~df_ger_summer['Medal'].isna()].groupby(['Year', 'Medal']).size().unstack()
df_result.plot()

In [None]:
# Der Fehler liegt in den durch das Gruppieren produzierte NaN
df_result.head()

In [None]:
# Wir können diese Werte einfach ergänzen
df_result.fillna(0).plot()

## Teilaufgabe 2:
Erstelle zwei nebeneinander angeordnete Plots (sog. Subplots) mit der Anzahl der Teilnehmer an den Olympischen Spielen pro Jahr. Erstelle für jedes Geschlecht einen eigenen Plot. Betrachte nur die Winterspiele! Färbe die beiden Graphen in unterschiedlichen Farben ein.

In [None]:
df_winter = df[df['Season'] == 'Winter']
df_winter = df_winter.groupby(['Year', 'Sex']).size().unstack()
df_winter.head()

In [None]:
fig, ax = plt.subplots(1,2, figsize=(10, 6))
df_winter['M'].plot(ax=ax[0], color='g')
df_winter['F'].plot(ax=ax[1], color='y')

## Teilaufgabe 3: 
Schau dir im Skript an, wie man ein Diagramm from Scratch aufbaut. Vergleiche die Größenverteilung für Männer und Frauen in einem gemeinsamen Boxplot Diagramm.

In [None]:
df.drop_duplicates(subset=['ID']).sort_values('Name')

In [None]:
df_athlets = df.drop_duplicates(subset=['ID']).sort_values('Name')

w = df_athlets[df_athlets['Sex'] == 'F']['Height'].dropna()
m = df_athlets[df_athlets['Sex'] == 'M']['Height'].dropna()

data=[w, m]

fig, ax = plt.subplots(figsize=(5, 10))
ax.boxplot(x=data)

# Optional: Ändern der Labels von 1,2 -> F,M
# ax.set_xticklabels(['F','M'])

plt.show()

## Zusatzaufgabe 1:
Erstelle ein Säulendiagramm mit horizontalen Balken. Inhalt die 20 besten Teams(Länder und ihre Medailliengewinne aufgeschlüsselt in **Gold, Silber und Bronze**.<br>
https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html

Ändere die Farben der Balken entsprechend, der Medaillienfarbe. Hier findest du eine Map von bekannten **Farbnamen**.<br>
https://matplotlib.org/gallery/color/named_colors.html

In [None]:
df_medals = df[~df['Medal'].isna()].groupby(['Team', 'Medal']).size().unstack()
df_head = df_medals.sort_values(['Gold', 'Silver', 'Bronze'], ascending=False).head(20)
df_head = df_head[['Gold', 'Silver', 'Bronze']]

df_head.plot.barh(stacked=True, figsize=(10,10), color=['gold', 'silver', 'brown'])

# Optional: Invertierte Y-Achse
# ax = df_head.plot.barh(stacked=True, figsize=(10,10), color=['gold', 'silver', 'brown'])
# ax.invert_yaxis()

## Zusatzaufgabe 2:
Schau dir den Unterschied zwischen ein BoxPlot und einem ViolinPlot an.Versuche die Daten aus Teilaufgabe 1 in einem ViolinPlot darzustellen. <br>
https://matplotlib.org/gallery/statistics/boxplot_vs_violin.html#sphx-glr-gallery-statistics-boxplot-vs-violin-py

**Tipp:** Die beiden Serien müssen bevor Sie im ViolinPlot benutzt werden könnnen in einer Liste umgewandelt werden, den pyplot akzeptiert als Daten keine Serie. Google wie man eine Serie in eine Liste umwandelt.

In [None]:
fig, ax = plt.subplots(figsize=(10, 6))

# konvertieren der Serie in listen, da pyplot keine Serien unterstützt
w = df_athlets[df_athlets['Sex'] == 'F']['Height'].dropna().tolist()
m = df_athlets[df_athlets['Sex'] == 'M']['Height'].dropna().tolist()

data=[w, m]

ax.violinplot(data)

plt.show()

In [None]:
# Mit mehr Beschriftung

fig, ax = plt.subplots(figsize=(10, 6))

# Lege Positionen und Labels fest
pos   = [1, 2]
label = ['Frauen','Männer']

ax.violinplot(data, pos)

# Schreibe Labels
ax.set_xticks(pos)
ax.set_xticklabels(label)
ax.set_title('Größenverteilung der Athleten - Frauen und Männern', fontsize=15)

plt.show()