# Skript: Datenvisualisierung Python

### Scatterplot, Barplot, Lineplot

---


In [None]:
import seaborn as sns

In [None]:
# Heutige Datensätze:
taxis = sns.load_dataset('taxis')
flights = sns.load_dataset('flights')

In [None]:
# Anschauen:
taxis.head()

In [None]:
# Anschauen:
flights.head()

# 0. Plot-Stil

---

Mit `sns.set_style()` können wir einen generellen Plot-Stil für alle Plots des Notebooks einstellen.

Verfügbare Styles: `white`, `whitegrid`, `dark`, `darkgrid` und `ticks`

[Übersicht](https://github.com/holtzy/The-Python-Graph-Gallery/blob/master/src/notebooks/104-seaborn-themes.ipynb)

Es können auch eigene Styles definiert werden, sowie ein 'Kontext' und eine Standard-Farbpalette festgelegt werden. Dazu später mehr.

In [None]:
# Für den Rest des Notebooks festlegen:
sns.set_style('whitegrid')

In [None]:
# Beispielplot:
sns.barplot(
    taxis,
    x='payment',
    y='total',
    #    errorbar=None,
);
# Quizfrage: Was bedeuten eigentlich die Balkenhöhe/ was zeigen sie an?
# Und wofür stehen die schwarzen Striche?
# ...

In [None]:
# Anzahl Spalten:
taxis.shape[0]

In [None]:
# Anzahl Bezahlarten:
taxis['payment'].value_counts()

In [None]:
# Standardplot hat mean als Schätzer (estimator):
sns.barplot(
    taxis,
    x='payment',
    y='total',
    estimator='mean',
);
# Es gibt andere Schätzer wie median, std, sum

In [None]:
# Mit Kontext-Manager Stil nur für einen Plot festlegen:
with sns.axes_style('white'):
    sns.barplot(taxis, x='payment', y='total')

# 1. Balkendiagramme / Säulendiagramme / Barplots

---

Säulendiagramme eignen sich, um **Vergleiche zwischen Kategorien** zu visualisieren.

Sind es wenige (< 15) Kategorien, ist ein Säulendiagramm (vertikale Ausrichtung) übersichtlicher.
<br> Sind es viele (>= 15) Kategorien, ist ein Balkendiagramm (horizontale Ausrichtung) übersichtlicher.

In [None]:
taxis.head()

In [None]:
# Einfaches Säulendiagramm mit Konfidenzintervallen:
sns.barplot(taxis, x='pickup_borough', y='total');

In [None]:
# Einfaches Balkendiagramm mit Konfidenzintervallen:
sns.barplot(taxis, y='pickup_borough', x='total');

In [None]:
# Einfacher Barplot mit anderen Fehlerbalken
sns.barplot(taxis,
            x='pickup_borough',
            y='total',
            errorbar='sd');

# ci = Konfidenzintervall
# pi = Prediction Interval / Vorhersageintervall
# se = Standard Error of the Mean / Standardfehler des Mittelwertes
# sd = Standardabweichung

## Weitere Dimensionen darstellen

In [None]:
# Gruppierter Barplot
sns.barplot(
    taxis,
    x='pickup_borough',
    y='total',
    hue='payment',
);

In [None]:
# Gestapeltes Säulendiagram - am einfachsten mit Pandas möglich:
df_pivot = taxis.pivot_table(
    index='pickup_borough',
    columns='payment',
    values='total',
    aggfunc='sum'
);

In [None]:
df_pivot

In [None]:
df_pivot.plot(kind='bar', stacked=True);

## Stilisierung von Barplots

Viele Aspekte eines Diagramms können über Schlüsselwörter im Funktionsaufruf verändert werden.

Oft verwendete Wörter:

* `color`: Farbe
* `edgecolor / ec`: Randlinienfarbe
* `facecolor`: Füllfarbe
* `palette`: Farbpalette
* `linewidth` / `lw`: Randliniendicke
* `errcolor`: Farbe Fehlerbalken
* `capsize`: Länge der "Kappe" des Fehlers

Achsenbezogene Einstellungen müssen in der Regel am Achsen-Objekt, nicht im Plotaufruf eingestellt werden.

In [None]:
# Gruppierter Barplot:
sns.barplot(
    taxis,
    x='pickup_borough',
    y='total',
    palette={'yellow': 'yellow', 'green': 'green'},
    # Keys=Labels, Values=Farbtöne
    hue='color',
    ec='black',
    lw=4,
    errorbar=None
);

In [None]:
# Anpassung möglich, wenn Plot in Variabel gespeichert wird (mehr am Donnerstag):
ax = sns.barplot(
    taxis,
    x='pickup_borough',
    y='total',
    palette={'yellow': 'yellow', 'green': 'green'},
    # Keys=Labels, Values=Farbtöne
    hue='color',
    ec='black',
    lw=4,
    errorbar=None,
)

ax.set(
    ylabel='total price ($)',
    xlabel='pickup borough',
    title='Taxi prices by pickup zone and taxi color',
);

## Übungsaufgabe Barplot

Lade den 'penguins'-Datensatz und bilde den hier gezeigten Barplot nach!

![image.png](1_penguins_barplot.png)

Weitere Infos zum Anpassen von Diagrammen findest du hier:

* https://matplotlib.org/stable/gallery/color/named_colors.html
* https://www.geeksforgeeks.org/adding-value-labels-on-a-matplotlib-bar-chart/

## 2. Lineplot


---

Lineplots eignen sich, um **Veränderungen über Zeit** darzustellen. Eine Linie sollte dabei eine einzige fortlaufende Zeitreihe darstellen. Wenn mehrere Zeitreihen (z.B. Veränderung über Zeit in mehreren Ländern) dargestellt werden, sollten mehrere Linien verwendet werden. 

In [None]:
flights.head()

In [None]:
# Einfacher Lineplot
# Frage: Was sehen wir um die Linie?
sns.lineplot(flights, x='year', y='passengers');

In [None]:
# Warum es breiter wird:

In [None]:
print(flights[flights.year == 1960].passengers.min())
print(flights[flights.year == 1960].passengers.max())

In [None]:
print(flights[flights.year == 1950].passengers.min())
print(flights[flights.year == 1950].passengers.max())

In [None]:
# Das Konfidenzintervall lässt sich über n_boot steuern
sns.lineplot(flights, x='year', y='passengers', n_boot=12);

In [None]:
# Nur die Linie:
sns.lineplot(flights, x='year', y='passengers', errorbar=None);

In [None]:
# Lineplot mit bearbeiteter Linie:
sns.lineplot(
    flights,
    x='year',
    y='passengers',
    lw=2,
    errorbar='sd',
    linestyle='dashdot'
);  # solid, dashed, dotted, dashdot

In [None]:
# Gruppierter Lineplot (zu viele Linien!):
sns.lineplot(flights,
             x='year',
             y='passengers',
             hue='month');

In [None]:
# Gruppierter Lineplot mit Style (ebenfalls unübersichtlich!):
sns.lineplot(
    flights,
    x='year',
    y='passengers',
    style='month'
);

In [None]:
# Mit Hue und Style für zwei separate kategorische Gruppierungen verwenden
# Achtung: Keine Grafik, wie man sie produzieren sollte!
sns.lineplot(
    taxis,
    x='passengers',
    y='total',
    hue='payment',
    style='color',
    errorbar=None
);

In [None]:
# Marker im Lineplot einsetzen:
sns.lineplot(
    flights,
    x='year',
    y='passengers',
    marker='o',
    markersize=10,
    markerfacecolor='black'
);

# o - Kreise
# s - Vierecke
# v - Dreieck
# > - Dreiecke
# + - Plus
# x - X
# diam - Diamanten

In [None]:
# Fehlerbalken und Marker
sns.lineplot(
    flights,
    x='year',
    y='passengers',
    err_style='bars',
    marker='s',
);

# 3. Scatterplot

---

Scatterplots sind gedacht, um den **Zusammenhang zwischen zwei metrischen Variablen** darzustellen.

Zusätzliche Style-Schlüsselwörter

* `size` / `s` | `markersize` / `ms`: Markierungsgröße (Scatterplot)

In [None]:
# Einfacher Scatterplot:
sns.scatterplot(taxis,
                x='distance',
                y='total');

## Weitere Dimensionen einbringen

In [None]:
# Gruppierter Scatterplot
sns.scatterplot(
    taxis,
    x='distance',
    y='total',
    hue='payment',
);

In [None]:
sns.scatterplot(
    taxis,
    x='distance',
    y='total',
    hue='payment',
    alpha=0.5
);

In [None]:
# Gruppierter Scatterplot mit Style
sns.scatterplot(
    taxis,
    x='distance',
    y='total',
    hue='payment',
    style='payment'
);

In [None]:
# Style und Hue mit kategorischen Infos:
sns.scatterplot(
    taxis,
    x='distance',
    y='total',
    hue='payment',
    style='color'
);

In [None]:
# Numeric Hue:
sns.scatterplot(
    taxis,
    x='distance',
    y='total',
    hue='tip'
);
# Quizfrage: Was macht dieser Numeric Hue hier eigentlich?
# ...

In [None]:
# Gibt es als Tip wirklich nur diese 6 Werte? Test:
taxis.tip.unique()

In [None]:
# So viele Werte gibt es wirklich:
len(taxis.tip.unique())

In [None]:
# Hue-Farbe ändern
# Farbpaletten: https://seaborn.pydata.org/tutorial/color_palettes.html
sns.scatterplot(
    data=taxis,
    x='distance',
    y='total',
    hue='tip',
    palette='rocket'
);

In [None]:
# Quizfrage: Was ist hier passiert?
# sns.scatterplot(data=taxis,
#                 x='distance',
#                 y='total',
#                 hue='tip',
#                 palette='deep');

# Auskommentiert aus Ladezeitgründen!

In [None]:
# Notizen hier:

# Kategorische Farbpalette für sequentielle Daten
# Keine gute Idee!
# 1. Die Farbgebung der Grafik ist nicht interpretierbar
# 2. Die Legende explodiert, weil alle Einzelwerte als Kategorien verstanden werden
# 3. Die Farbpalette wiederholt sich immer wieder und ordnet damit verschiedenen Zahlenwerten dieselben Farbtöne zu!

In [None]:
# Marker selbst kontrollieren
# Liste an Markern: https://matplotlib.org/stable/api/markers_api.html
markers = {'yellow': 's', 'green': 'X'}

sns.scatterplot(
    taxis,
    x='distance',
    y='total',
    style='color',
    markers=markers
);

## Achsen stilisieren

In [None]:
# Einfacher Scatterplot mit Label, Titel, Ticks...
ax = sns.scatterplot(taxis,
                     x='distance',
                     y='total')

ax.set(xlabel='distance in miles',
       title='Scatterplot total cost vs distance',
       xticks=[4, 8, 15, 20, 40, 80],
       xlim=[0, 80]);

In [None]:
# Einfacher Scatterplot mit farbigem Gitter und farbiger Überschrift
# rc steht für runtime configuration und umfasst eine Reihe von Standard-Einstellungen
# für Plots, mit denen Matplotlib und damit auch Seaborn geladen wird.
# Durch Zugriff auf rc können diese Einstellungen geändert werden.
# Damit diese Veränderung nicht bei jedem weiteren Plot greifen, nutzen wir 'with':
with sns.axes_style(rc={'grid.color': 'red',
                        'text.color': 'green'}):
    ax = sns.scatterplot(taxis, x='distance', y='total')
    ax.set(title='Test')

## Facettierung / Plotgitter

Um mehrere Plots in einem Gitter anzuordnen kann `relplot` verwendet werden. Relplot kann Line- und Scatterplots erzeugen.

In [None]:
# FacetGrid / auftrennen in mehrere Plots
sns.relplot(
    taxis,
    x='distance',
    y='total',
    row='color',
    col='payment'
);

## Übungsaufgabe Scatterplot

Lade den `penguins` Datensatz und erstelle den gezeigten Scatterplot.

![2_penguins_plot.png](2_penguins_scatterplot.png)