# Diagramme und Charts

Zum Leben eines Datenanalysten gehört Visualisierung und bei der Visualisierung in Python sind die Bibliotheken Matplotlib und Seaborn nicht wegzudenken. Diesen werden wir auch im Modul Datenvisualisierung später begegnen. Doch für unsere aktuelle Arbeit würden wir auch jetzt schon gerne vorzeigbare Plots produzieren.

Zum Glück hat Pandas die wichtigsten Dinge dafür bereits an Bord, denn Pandas bringt (eingeschränktere) Funktionalitäten mit, die auf Matplotlib aufbauen! 
Der Vorteil: Sie sind super leicht zu nutzen und können direkt am Dataframe oder einer Pandas Series aufgerufen werden!
Im Folgenden schauen wir uns das für ein paar klassische Arten von Plots an und nehmen hier und da auch eine kleine
designbezogene Einstellung vor.

In [None]:
import pandas as pd
import seaborn as sns

In [None]:
sns.get_dataset_names()

## Das Liniendiagramm (lineplot)

In [None]:
dow_jones = sns.load_dataset('dowjones')
dow_jones.head()

In [None]:
# So nicht!
# Als x-Achse wird nicht die Date-Spalte, sondern der Index genutzt!
dow_jones.plot();

In [None]:
# So ist besser:
dow_jones.plot(x='Date', y='Price');

In [None]:
# Oder den Index ändern und dann plotten:
dow_jones = dow_jones.set_index('Date')

In [None]:
dow_jones.head()

In [None]:
# Der Index ist nun Datum und wird automatisch genommen:
dow_jones.plot();

In [None]:
# Farbe ändern, Typ bestimmen (lineplot ist Standard!), Linienstil und -dicke:
dow_jones.plot(color='red', kind='line', ls='dashed', lw='3');

In [None]:
# Uns interessiert nur ein Ausschnitt? Kein Problem!
# Daten in Pandas mit pd.Timestamp anlegen:
start = pd.Timestamp(1929, 1, 1)
ende = pd.Timestamp(1956, 1, 1)

In [None]:
period_of_interest = dow_jones[(dow_jones.index >= start) & (dow_jones.index < ende)]

In [None]:
period_of_interest.index.max()

In [None]:
period_of_interest.plot();

Aufgabe 1:
Erzeuge eine Liste squares mit den Quadratzahlen von 0 bis 10.
Stelle aus dieser Liste eine Pandas-Series namens squares_series her.
Plotte nun die Series als Lineplot.
Mache die Linienfarbe bitte grün und setze die Liniendicke auf 5.

In [None]:
# Flugdaten laden:
flights = sns.load_dataset('flights')
flights.head()

In [None]:
flights.plot(x='month', 
             y='passengers',
             marker='o',
             markersize=2
             );

In [None]:
# Welche Jahre gibt es?
flights['year'].unique()

In [None]:
# Quizfrage: Wie kriegen wir Passagiere pro Jahr hin?



In [None]:
# Jahre als Liniendiagramm:
pass_per_year.plot(title='Passengers per Year',
                   legend=None,
                   xlabel='year',
                   ylabel='number of passengers',
                   );

## Das Säulendiagramm (barplot)

In [None]:
titanic = sns.load_dataset('titanic')
titanic.head()

In [None]:
# Wie war die Klassenverteilung auf der Titanic?
classes = titanic['class'].value_counts()
classes

In [None]:
# Als Säulendiagramm
# Standardmäßig mit absteigenden Balken
classes.plot(kind='bar');

In [None]:
# Alternative Notation:
classes.plot.bar();

In [None]:
classes_order = titanic['class'].value_counts().reindex(['First', 'Second', 'Third'])
classes_order

In [None]:
classes_order.plot(kind='bar', 
                   color='red', 
                   ec='black',
                   lw=2
                   );

Aufgabe 2:
Erstelle ein Balkendiagramm für den "alive"-Status der Passagiere.
Färbe die Balken orange ein und umgebe sie mit einer dicken violetten Linie (purple).
Bonus: Der erste Balken sollen die Überlebenden sein, der zweite Balken die Toten. Passe den Index an.

## Das Histogramm (histplot)

In [None]:
# Wie ist die Altersverteilung auf der Titanic gewesen?
# Linienplot wäre keine schöne und lesbare Lösung!
titanic['age'].plot();

In [None]:
# Histogramm teilt Daten in eine vom Nutzer definierte Anzahl von bins ein
# Es entsteht ein Balkendiagramm mit den Counts von Altersangaben, die in diese bins gehören!
# Der Standard ist eine automatische Aufteilung in 10 bins:
titanic['age'].plot(kind='hist');

In [None]:
# Es geht aber feinkörniger:
titanic['age'].plot(kind='hist',
                    bins=20);

In [None]:
# Und feinkörniger:
titanic['age'].plot(kind='hist',
                    bins=80);

In [None]:
# Bis es zu feinkörnig ist.
# Was könnte der Hintergrund für dieses Verhalten sein?
titanic['age'].plot(kind='hist',
                    bins=200);

In [None]:
# Die perfekte Anzahl von bins kann zwar nach Augenmaß ausgesucht werden.
# Aber es ist wichtig, sich bewusst zu halten, dass man damit auch Ergebnisse bewusst verfälschen kann.
# Mehr dazu im Statistik-Modul!

Aufgabe 3:
Erstelle ein Histogramm der Gewichtsverteilungen der Pinguine und 30 Balken.
Färbe die Balken grün ein.
Verleihe dem Diagramm den Titel: Häufigkeitsverteilung von Pinguinkörpermassen
Trage auf der x-Achse als Label auf: Masse (g)
Trage auf der y-Achse auf: Anzahl Pinguine

## Das Tortendiagramm (pieplot)

In [None]:
# Wie wäre es mal mit dem Blick aufs Ganze?
# Welche Anteile am Pinguin-Kuchen machen die einzelnen Arten aus?
species_counts = peng_df['species'].value_counts()
species_counts

In [None]:
# Adelie dominiert ganz klar.
# Aber es fehlen noch die Prozentangaben...
species_counts.plot(kind='pie');

In [None]:
# Mit Prozentangaben UND zur "Verdeutlichung" herausgezogenem Chinstrap sowie etwas Rotation (gegen Uhrzeigersinn):
species_counts.plot(kind='pie',
                    explode=(0, 0, 0.3),
                    autopct='%1.1f%%',
                    startangle=30,
                    ylabel='Prozent',
                    cmap='Set2'
                    );

Aufgabe 4:
Erstelle ein Tortendiagramm, das die Anteile der Klassen an der Menge aller Passagiere der Titanic darstellt.
Verleihe dem Diagramm den Titel: Passagiere nach Klassen
Auf der y-Achse soll 'Prozent' stehen.
Nimm eine Colormap, die dich anspricht und ziehe den Tortenteil mit der ersten Klasse heraus (rotiere dafür so weit,
bis du optisch zufrieden bist!)

## Das Streudiagramm (scatterplot)

In [None]:
# Mit einem Scatterplot schaut man sich den Zusammenhang einer Variable mit einer anderen an.
# Das Gewicht und die Flügellänge können ein Beispiel sein.
# Indem Pinguine als Punkte aufgetragen werden (Gewicht auf der x-Achse, Flügellänge y-Achse)
# entsteht eine Punktewolke bzw. ein Streudiagramm.
# Sieht man in dieser Wolke ein Muster, so ist das für die Datenanalyse ein gutes Zeichen
# und kann auf einen Zusammenhang hinweisen.
# Mehr dazu im Statistik-Modul!

In [None]:
# Der Zusammenhang von Masse und Flügellänge als Streudiagramm:
peng_df.plot(kind='scatter',
             x='body_mass_g',
             y='flipper_length_mm',
             ec='black',
             color='orange',
             title='Verhältnis von Masse und Flügellänge von Pinguinen',
             xlabel='Körpermasse (g)',
             ylabel='Flügellänge (mm)'
             );

Aufgabe 5:
Erstelle ein Streudiagramm, das die Schnabellänge und Schnabelbreite von Pinguinen darstellt.
Designe es ganze nach deinem Geschmack! (Titel und Beschriftungen der Achsen müssen sein!)
Gibt es einen Zusammenhang zwischen den beiden Variablen?