# Beautiful Charts

**Inhalt:** Etwas Chart-Formatierung

**Nötige Skills:** Erste Schritte mit Pandas

**Lernziele:**
- Basic Parameter in der Plot-Funktion kennenlernen
- Intro für Ready-Made Styles und Custom Styles
- Lernen, wo man sich weiter informieren kann

## Charts in Pandas

Eine Reihe von Basic Chart-Funktionalitäten haben wir bereits kennengelernt:
- Line Plots
- Bar Charts
- Histogramme
- etc.

Wenn wir darüber hinausgehen wollen, kann es sehr schnell kompliziert werden.

Es gibt zig verschiedene Arten, wie man auf die Funktionen zugreifen kann und Charts formatieren kann.

Die Funktion, die wir bereits kennen, heisst `plot()`. Wir können sie ausgehend von einem Dataframe oder einer Serie verwenden.

Hier die offizielle Referenz dazu: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.plot.html

Eine genauere Erklärung, was `plot()` macht, je nach dem, woher man sie startet: http://jonathansoma.com/lede/algorithms-2017/classes/fuzziness-matplotlib/understand-df-plot-in-pandas/

Wichtig zu wissen: die `plot()`-Funktion baut auf der Matplotlib-Bibliothek auf:  https://matplotlib.org/index.html

Man kann diese Bibliothek auch anders verwenden - das schauen wir uns ein anderes Mal an.

## Setup

Wir importieren dieses Mal diverse Libraries:

- Pandas

In [None]:
import pandas as pd

- und Matplotlib, um auf einige Spezialfunktionen zugreifen zu können

In [None]:
import matplotlib

In [None]:
import matplotlib.pyplot as plt

In [None]:
import matplotlib.patches as mpatches

In [None]:
import matplotlib.image as mpimg

Wie immer geben wir den Befehl, den Output der plot-Funktion direkt als Bild anzuzeigen

In [None]:
%matplotlib inline

## das Beispiel

Eine Liste von Ländern mit ihrer Grösse, BIP pro Kopf und Lebenserwartung

In [None]:
path = "dataprojects/countries/countries.csv"

In [None]:
df = pd.read_csv(path)

In [None]:
df.head(3)

## Elemente eines Charts

Ein Chart besteht aus überraschend vielen Elementen.

Die meisten Programmiersprachen verwenden ähnliche Namen dafür.

Hier die Bezeichnungen bei Pandas / Matplotlib:

(Quelle: https://matplotlib.org/tutorials/introductory/usage.html#sphx-glr-tutorials-introductory-usage-py)

In [None]:
from IPython.display import display, Image

In [None]:
img = Image(filename='anatomy.png')
display(img)

## Ein simpler Scatterplot

Das hier kennen wir bereits:

In [None]:
df.plot(kind='scatter', 
        x='gdp_per_capita', 
        y='life_expectancy',
        figsize=(10,7))

## Den Chart verschönern

(oder verschlimmern, je nach dem, wie man es nimmt...)

In der Plot-Funktion selbst hat es bereits einige Parameter, mit denen wir etwas jspielen können:

In [None]:
df.plot(kind='scatter', 
        x='gdp_per_capita', 
        y='life_expectancy', 
        alpha=0.5,
        s=40,
        color='purple',
        linewidth=2,
        xlim=(-2000,52000),
        ylim=(38, 82),
        xticks=[0,10000,20000,30000,40000,50000],
        yticks=[0,40,50,60,70,80],
        figsize=(11,8),
        grid=True,
        fontsize=14, #applies to tick labels
        title='Ab einem BIP pro Kopf von 20000 steigt die Lebenserwartug nicht mehr')

Dazu gibt es noch zig weitere Einstellungen, die man im Nachhinein vornehmen kann.

Wir müssen dazu den Output der `plot()`-Funktion in einer eigenen Variable speichern.

In [None]:
#Was man mit der Pandas-Funktion alles machen kann
fig = df.plot(kind='scatter', 
        x='gdp_per_capita', 
        y='life_expectancy', 
        alpha=0.5,
        s=40,
        color='purple',
        linewidth=2,
        xlim=(-2000,52000),
        ylim=(38, 82),
        xticks=[0,10000,20000,30000,40000,50000],
        yticks=[0,40,50,60,70,80],
        figsize=(11,8),
        grid=True,
        fontsize=14, #applies to tick labels
        title='Ab einem BIP pro Kopf von 20000 steigt die Lebenserwartug nicht mehr')

#Was man separat einstellen kann: - Titel
fig.set_title('Ab einem BIP pro Kopf von 20000 steigt die Lebenserwartug nicht mehr', fontsize=18)

# - Achsenbeschriftungen
fig.set_ylabel("Lebenserwartung, in Jahren", fontsize=14)
fig.set_xlabel("BIP pro Kopf, in US-Dollar", fontsize=14)

# - Ticks ausschalten
fig.xaxis.set_ticks_position('none')
fig.yaxis.set_ticks_position('none')

# - Rahmenlinien
fig.spines['right'].set_visible(False)
fig.spines['left'].set_visible(False)
fig.spines['top'].set_visible(False)
fig.spines['bottom'].set_visible(False)

# - Hintergrundfarbe
fig.set_facecolor('#EEEEEE')

## Legende und Farben

Matplotlib/Pandas ist teils ziemlich kompliziert. Wie vorgehen, wenn wir die einzelnen Punkte entsprechend einer Kategorie einfärben wollen, zB nach dem Kontinent? Hier eine Lösung.

### Für die Farben

In [None]:
df['continent'].unique()

In [None]:
colors = {
    'Asia': 'green',
    'Europe': 'blue',
    'Africa': 'brown',
    'N. America': 'yellow',
    'S. America': 'red',
    'Oceania': 'purple'
}

In [None]:
colorlist = df['continent'].apply(lambda continent: colors[continent])

### Für die Legende

In [None]:
patches = []
for continent, color in colors.items():
    this_patch = mpatches.Patch(color=color, label=continent, alpha=0.5)
    patches.append(this_patch)

### Für die Punktegrösse

In [None]:
area = df['population'] / 400000

### Plotten

In [None]:
#Was man mit der Pandas-Funktion alles machen kann
fig = df.plot(kind='scatter', 
        x='gdp_per_capita', 
        y='life_expectancy', 
        alpha=0.5,
        s=area,
        color=colorlist,
        linewidth=2,
        xlim=(-2000,52000),
        ylim=(38, 82),
        xticks=[0,10000,20000,30000,40000,50000],
        yticks=[0,40,50,60,70,80],
        figsize=(11,8),
        grid=True,
        fontsize=14, #applies to tick labels
        title='Ab einem BIP pro Kopf von 20000 steigt die Lebenserwartug nicht mehr')

#Was man separat einstellen kann: - Titel
fig.set_title('Ab einem BIP pro Kopf von 20000 steigt die Lebenserwartug nicht mehr', fontsize=18)

# - Achsenbeschriftungen
fig.set_ylabel("Lebenserwartung, in Jahren", fontsize=14)
fig.set_xlabel("BIP pro Kopf, in US-Dollar", fontsize=14)

# - Ticks ausschalten
fig.xaxis.set_ticks_position('none')
fig.yaxis.set_ticks_position('none')

# - Rahmenlinien
fig.spines['right'].set_visible(False)
fig.spines['left'].set_visible(False)
fig.spines['top'].set_visible(False)
fig.spines['bottom'].set_visible(False)

# - Hintergrundfarbe
fig.set_facecolor('#EEEEEE')

# - Legende (this is really an ugly way to do this)
plt.legend(handles=patches, frameon=False, fontsize=14)

Hans Rosling would be so proud!! https://www.ted.com/playlists/474/the_best_hans_rosling_talks_yo

### Wichtig

Eine genaue und vollständige Liste der Parameter zu kriegen, ist so gut wie unmöglich (tell me if you find one!).

Daher, und nicht nur daher, lohnt es sich im allgemeinen nicht, allzu viel Zeit für die Formatierung von Charts aufzuwenden. Besser: Daten oder pdf evportieren und anderswo weiterbearbeiten.

Eine andere Option ist, mit einem prädefinierten Stil zu arbeiten

## Prädefinierte Stile

Diese Stile sind ziemlich praktisch. Man kann sich eine Liste davon anzeigen lassen:

In [None]:
print(plt.style.available)

Um einen bestimmten Stil zu verwenden:

In [None]:
plt.style.use('seaborn')

Umgesetzt sieht das dann so aus:

In [None]:
df.plot(kind='scatter', 
        x='gdp_per_capita', 
        y='life_expectancy',
        title='Lebenserwartung und Wohlstand')

Der neue Style bleibt so lange gespeichert, bis wir ihn wieder zurücksetzen.

In [None]:
plt.style.use('default')

## Custom Style Sheets

Wer es mit den Matplotlib wirklich wissen will, kann sich auch sein eigenes Stylesheet erstellen.

Schritt1: Erstelle eine Datei mit diesem Namen (oder irgendeinem anderen Namen):

`my_style.mplstyle`

In die Datei, schreibe die eigenen Default-Werte für bestimmte Stil-Elemente rein:

`axes.titlesize : 24
axes.labelsize : 20
lines.linewidth : 3
lines.markersize : 10
xtick.labelsize : 16
ytick.labelsize : 16
grid.color : red`

etc.

Die Dokumentation über alle möglichen Parameter gibt es hier: https://matplotlib.org/tutorials/introductory/customizing.html#sphx-glr-tutorials-introductory-customizing-py

Style laden:

In [None]:
plt.style.use('my_style.mplstyle')

Test:

In [None]:
df.plot(kind='scatter', 
        x='gdp_per_capita', 
        y='life_expectancy',
        title='Lebenserwartung und Wohlstand')

## Exportieren

Wir können einzelne Plots als Dateien exportieren. Dazu 1x diese Einstellung ausführen:

In [None]:
matplotlib.rcParams['pdf.fonttype'] = 42 #important for the fonts

Und dann exportieren.
- als pdf

In [None]:
df.plot(kind='scatter', 
        x='gdp_per_capita', 
        y='life_expectancy',
        title='Lebenserwartung und Wohlstand')
plt.savefig("Lebenserwartung-Wohlstand.pdf")

- als svg-Vektorgrafik

In [None]:
df.plot(kind='scatter', 
        x='gdp_per_capita', 
        y='life_expectancy',
        title='Lebenserwartung und Wohlstand')
plt.savefig("Lebenserwartung-Wohlstand.svg")