# Visualisierung

Visualisierung ist ein essenzieller Bestandteil der Datenanalyse (oder in Data Science). Sie hilft einen ersten Eindruck über die Daten und deren Beziehung zueinander zu erhalten. Sie dient auch dazu, Ergebnisse mit anderen zu Kommunizieren. Tatsächlich gehören gute Abbildungen zu den wichtigsten Faktoren für eine erfolgreiche Publikation.

Hier ist eine Visualisierung von Volkswirtschaftsdaten verschiedener Länder, die den [World Data Visualization Prize 2019](https://wdvp.worldgovernmentsummit.org/) gewonnen hat (https://govdna.frontwise.com).

In [None]:
%%html
<iframe src="https://govdna.frontwise.com/#layout/data/country/" width="1024" height="720"></iframe>

Um durch eine Abbildung erfolgreich Informationen zu kommunizieren, sollte man folgende Punkte im Hinterkopf behalten:

-   Prinzip der proportionalen Tinte: Die dargestellte Größe sollte proportional zur für die Darstellung benutzten Fläche sein. Beachte aber, dass Menschen Längen besser vergleichen können als Flächeninhalte!
-   überlappende Daten sichtbar machen
-   Stolpersteine bei der Verwendung von Farben:
    -   monotone Farbskalen verwenden
    -   Farbblindheit beachten! (Okabe & Ito, 2008; [color brewer](http://colorbrewer2.org/))
-   Balance zwischen Inhalt und Kontext: maximiere sinnvoll data/ink ratio
-   lesbare Beschriftung: Schriftgröße hängt vom Kommunikationsmedium ab!
-   Vermeide Linienzeichnungen, gefüllte Flächen sind besser
-   Keine 3D Zeichungen!

# Visualisierung in Python

Die weitverbreiteste Visualisierungspaket für Python ist [matplotlib](https://matplotlib.org/).

In [None]:
import numpy as np

import matplotlib.pyplot as plt

Beachte, dass wir das Modul `pyplot` des Pakets `matplotlib` importieren. Dies ist für einfachere interaktive Analysen entworfen.

## Anatomie einer Abbildung

Erstellen wir unsere erste Abbildung:

In [None]:
# Prepare the data
x = np.linspace(0, 2, 100)

# Plot the data
plt.plot(x, x, label='linear')
plt.plot(x, x**2, label='quadratic')

# Add a legend
plt.legend();

Bei diesem einfachen Beispiel haben wir unbewusst gebrauch von einer Menge eingebauten Standardverhalten gemacht, dass sich um die Erstellung aller notwendigen Komponenten der Abbildung kümmert. Um die Logik von `matplotlib` zu verstehen, ist es notwendig sich die Anatomie einer Abbildung anzuschauen:

<center>
<img src='http://members.cbio.mines-paristech.fr/~nvaroquaux/tmp/matplotlib/_images/anatomy1.png' width='70%'/>
<center/>

Die beiden wichtigsten Komponenten sind:

-   `Figure`: die gesamte Fläche (Fenster, Seite, etc.) auf die etwas gezeichnet wird.
    Es ist die Basis für alle Elemente, die wir im Folgenden betrachten. Man kann
    mehrere unabhängige Figure Instanzen erstellen und eine Figure kann mehrere 
    verschieden Sachen beinhalten.
-   `Axes`: der Bereich, auf den Daten mit Funktionen wie `plot()` oder `scatter()`
    geplottet werden. Dieser Bereich kann Koordinatenaxen mit Beschriftung (`label`) 
    und `tick`s haben. Auf einer Figure können mehrere Axes sein, also mehrere subplots.

Zu diesen beiden grundlegenden Komponenten kommen noch eine vielzahl dazu:

-   Jede Achse hat eine x-Achse und eine y-Achse, welche ticks (major und minor 
    ticklines und ticklabels) haben. Es gibt auch Axis label, title, legend und grid mit denen
    man seinen Plot anpassen kann.
-   Spines sind die Linien, die die Tickslines verbinden und den Breich, auf dem die Daten
    geplottet werden, vom Rest abgrenzen.

In [None]:
# create some data
x1, y1 = [1, 2, 3, 4], [10, 20, 25, 30]
x2, y2 = [0.3, 3.8, 1.2, 2.5], [11, 25, 9, 26]

In [None]:
# OOP API example
fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(x1, y1, color='lightblue', linewidth=3)
ax.scatter(x2, y2, color='darkgreen', marker='^')
ax.set_xlim(0.0, 4.5);

In [None]:
# state machine example
plt.plot(x1, y1, color='lightblue', linewidth=3)
plt.scatter(x2, y2, color='darkgreen', marker='^')
plt.xlim(0.0, 4.5);

Wie man sieht, ist `plt.xlim` äquivalent zu `ax.set_xlim`. Tatsächlich sind alle Methoden eines Axes Objekts als Funktionen des `pyplot` Moduls implementiert. Hat man mehrere Achen, so wird die Funktion auf die zuletzt erstellte Achse angewendet. Dadurch wird der Code für einfache Plots sauberer.

Hat man mehrere Achse, so ist es häufig besser, Axes Objekte zu verwenden. Dadurch bleibt der Code übersichtlicher und expliziter.

Um sich mit den Anpassungsmöglichkeiten vertraut zu machen, ist die beste Möglichkeit, sich die [Matplotlib gallery](https://matplotlib.org/gallery.html) anzuschauen und von den Codebeispielen zu lernen.

## Erstellen einer Abbildung

Eine Figure wird durch `plt.figure` erstellt.

In [None]:
plt.figure()

Allerdings enthält die Figure noch keine Elemente, die gezeichnet werden sollen. Um einen Plot zu erstellen, muss man erst ein Axes Objekt erzeugen. Das macht man mit `fig.add_subpot()` oder `plt.subplot`.

In [None]:
fig = plt.figure()
ax = fig.add_subplot(111);

### Was ist ein subplot?

Ein subplot ist ein Axes Objekt. Mit der Methode `fig.add_subplot(111)` erstellt man ein neues Axes Objekt in der Abbildung. Das Argument `111` bedeutet, dass wir die subplots in einem 1x1 Gitter plazieren wollen und wir die erste Axes erstellen.

Möchten wir je 3 Subplots übereinander in zwei Spalten haben (also 6 Axes insgesammt), so müssten wir für das 4. Axes Objekt folgenden Code verwenden

```python
fig.add_subplot(324)
# oder
fig.add_subplot(3, 2, 4)
```

Man kann auch Figure Objekt und alle Axes auf einmal erstellen.

```python
fig, axs = plt.subplots(3, 2)
```
`axs` ist ein 2D Array, der die einzelnen Axes Objekte enthält.

In [None]:
f, a = plt.subplots(3, 2);

Man kann sehen, dass bei vielen subplots sich die Achsenbeschriftungen überlagern. Dies kann man beheben, indem man am Schluß den Befehl `plt.tight_layout()` verwendet.

In [None]:
f, a = plt.subplots(3, 2);
plt.tight_layout()

### Wie verändere ich die Größe der Abbildung?

Da mit vielen subplots die Achsenbeschriftung immer problematischer wird, muss man die Abbildungsgröße anpassen. Diese setzt man bei erstellen des Figure Objekts durch das Argument `figsize`

In [None]:
fig = plt.figure(figsize=(10, 1))
fig.add_subplot(111);

### Plotting Routinen

Die eigentliche Visualisierng der Daten wird durch Plottingmethoden des Axes Objekts erstellt.

#### 1D Daten

Methode   |   Beschreibung
----------|---------------
[ax.plot()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.bar.html) | Line plot
[ax.scatter()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.scatter.html) | scatter plot
[ax.bar()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.bar.html)  | Vertical rectangles
[ax.barh()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.barh.html) | Horizontal rectangles
[ax.axhline()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.axhline.html) | Horizontal line across axes
[ax.axvline()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.axvline.html) | Vertical line across axes
[ax.fill()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.fill.html) | Filled polygons
[ax.fill_between()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.fill_between.html) | Fill between y-values and 0
[ax.stackplot()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.stackplot.html) | Stack plot

In [None]:
plt.figure(figsize=(12, 7))

plt.subplot(241)
x = 2*np.pi * np.arange(0, 1., .01)
plt.plot(x, np.sin(x))
plt.plot(x, np.cos(x))
plt.title("plot")

plt.subplot(242)
x = np.random.randn(50)
y = 3 * x + 1 + 2. * np.random.randn(len(x))
plt.scatter(x, y)
plt.title("scatter")

plt.subplot(243)
plt.bar([1, 2, 3], [3.4, 1.5, 5.2], tick_label=["A", "B", "C"])
plt.title("bar")

plt.subplot(244)
plt.barh([1, 2, 3], [3.4, 1.5, 5.2], tick_label=["A", "B", "C"])
plt.title("barh")

plt.subplot(245)
plt.axhline(2)
plt.axvline(2.0)
plt.title('axhline axvline')

plt.subplot(246)
x = np.cos(2*np.pi * np.arange(0, 1., 1 / 6.))
y = np.sin(2*np.pi * np.arange(0, 1., 1 / 6.))
plt.fill(x, y)
plt.title('fill')

plt.subplot(247)
x = 2*np.pi * np.arange(0, 1., .01)
plt.fill_between(x, np.sin(x), .5 * np.sin(x))
plt.title("fill_between")

plt.subplot(248)
x = 2 * np.pi * np.arange(0, 1., .01)
plt.stackplot(x, 3 * x, x**2, baseline='wiggle')
plt.title("stackplot")

plt.tight_layout()

#### 2D Daten

Methode   |   Beschreibung
----------|---------------
[ax.pcolormesh()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.pcolormesh.html) | Pseudocolor plot
[ax.contour()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.contour.html) | contour plot
[ax.contourf()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.contourf.html) | Filled contour plot
[ax.imshow()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.imshow.html) | Show image

In [None]:
x = np.linspace(-np.pi, np.pi, 20)
y = np.linspace(-np.pi, np.pi, 20)
c = np.sin(x) * np.cos(y + np.pi / 2)[:, np.newaxis]

plt.figure(figsize=(7, 7))

plt.subplot(221); plt.pcolormesh(x, y, c); plt.title('pcolormesh')
plt.subplot(222); plt.contour(x, y, c); plt.title('contour')
plt.subplot(223); plt.contourf(x, y, c); plt.title('contourf')
plt.subplot(224); plt.imshow(c); plt.title('imgshow');

plt.tight_layout()

#### Verteilungen und Vektordaten

Methode   | Beschreibung
----------|-------------
[ax.arrow()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.arrow.html) | Arrow
[ax.quiver()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.quiver.html) | 2D field of arrows
[ax.streamplot()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.streamplot.html) | 2D vector fields
[ax.hist()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.hist.html) | Histogram
[ax.boxplot()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.boxplot.html) | Boxplot
[ax.violinplot()](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.violinplot.html) | Violinplot

In [None]:
x = np.linspace(-np.pi, np.pi, 20)
y = np.linspace(-np.pi, np.pi, 20)
u = np.cos(x) * np.abs(y[:, np.newaxis] - np.pi / 2 * np.sin(x) - 1)
v = np.sin(x) * np.abs(y[:, np.newaxis] - np.pi / 2 * np.sin(x))

plt.figure(figsize=(10, 7))

plt.subplot(2, 3, 1); plt.arrow(0, 0, .5, .8, width=.03); plt.title('arrow')
plt.subplot(2, 3, 2); plt.quiver(x, y, u, v); plt.title('quiver')
plt.subplot(2, 3, 3); plt.streamplot(x, y, u, v); plt.title('streamplot')
plt.subplot(2, 3, 4); plt.hist(u.flatten()); plt.title('hist')
plt.subplot(2, 3, 5); plt.boxplot(u[:, ::4]); plt.title('boxplot')
plt.subplot(2, 3, 6); plt.violinplot(u.reshape(-1, 4), showextrema=False, showmedians=True); plt.title('violinplot');

plt.tight_layout();

#### Karten

Um Karten zu plotten brauchen wir ein zusätzliches Paket. Hier empfielt sich [cartopy](https://scitools.org.uk/cartopy/docs/latest/). Konkret müssen wir eine Kartenprojektion festlegen, hier verwenden wir [Mollweide](https://scitools.org.uk/cartopy/docs/latest/crs/projections.html#mollweide).

In [None]:
import cartopy.crs as ccrs


def sample_data(shape=(73, 145)):
    """Return ``lons``, ``lats`` and ``data`` of some fake data."""
    nlats, nlons = shape
    lats = np.linspace(-np.pi / 2, np.pi / 2, nlats)
    lons = np.linspace(0, 2 * np.pi, nlons)
    lons, lats = np.meshgrid(lons, lats)
    wave = 0.75 * (np.sin(2 * lats) ** 8) * np.cos(4 * lons)
    mean = 0.5 * np.cos(2 * lats) * ((np.sin(2 * lats)) ** 2 + 2)

    lats = np.rad2deg(lats)
    lons = np.rad2deg(lons)
    data = wave + mean

    return lons, lats, data


fig = plt.figure(figsize=(10, 5))
ax = fig.add_subplot(1, 1, 1, projection=ccrs.Mollweide())

lons, lats, data = sample_data()

ax.contourf(lons, lats, data,
            transform=ccrs.PlateCarree(),
            cmap='nipy_spectral')
ax.coastlines()
ax.set_global()

Natürlich sind das nicht alle Funktionen. Schau in der [Matplotlib gallery](https://matplotlib.org/gallery.html) nach weiteren Beispielen.

## Abbildungen anpassen

Um eine aussagekräftige (und akzeptabele) Abbildung zu erhalten fehlen noch Meta daten, wie Achsenbeschriftungen und subplot Titel, sowie möglicherweise Annotationen, also Text um bestimmte Aspekte der Abbildung zu betonen.

Alle subplot spezifischen Einstellungen sind als Eigenschaften des Axes Objekts implementiert und können über `ax.set()` gesetzt werden. Hier ist eine unvollständige Lister der verfügbaren Eigenschaften.

Property | Type | Bedeutung
---------|------|----------
alpha |float| Transparenz, zwischen 0 und 1
aspect |{'auto', 'equal'} or num| Verhältnis der Achseskalierung
facecolor |color| Farbe des Hintergrunds
frame_on |bool| Rahmen um den Datenbereich
position |[left, bottom, width, height] or Bbox| Position der Achse auf der Abbildung
rasterized |bool or None| Erzwingt Bitmap output in Vektorgraphik Formaten
title |str| Titel des subplots
xlabel |str| Beschriftung X Achse
xlim |(left: float, right: float)| Datenbereich der Achse
xscale |{"linear", "log", "symlog", "logit", ...}| Achsenskalierung
xticklabels |List[str]| Tick Beschriftung
xticks |list| Position der Ticks
ylabel |str| Beschriftung Y Achse
ylim |(bottom: float, top: float)| Datenbereich der Achse
yscale |{"linear", "log", "symlog", "logit", ...}| Achsenskalierung
yticklabels |List[str]| Tick Beschriftung
yticks |list| Position der Ticks

Diese Attribute kann man entweder über `ax.set()` setzen, oder z.B. über `ax.set_xlabel()` oder `plt.xlabel()`.

## Hinweis zu Abbildungen für Publikationen

Generell empfielt sich, für Publikationen oder Vorträge Vektorgraphiken zu erstellen. Allerdings können diese sehr groß werden, wenn die Darstellung der Daten sehr viel Struktur hat, also aus vielen Objekten besteht. Dies kann zum Beispiel der Fall sein für scatter plots mir sehr vielen Datenpunkten oder pcolormesh plots von großen Arrays. Hier empfielt es sich, im plotting Befehl, also `ax.scatter()` oder `ax.pcolormesh()` das Argument `rasterized=True` mit anzugeben. Dadurch wird nur die Darstellung der Daten in ein kompaktes Bitmap umgewandelt, die Achsenbeschriftung, Titel, etc. bleibt weiterhin eine Vektorgraphik. Das spart sehr viel Speicherplatz und stellt sicher, dass das fertige PDF Dokument flüssig darstellbar ist!

## Abbildungen abspeicher

Um die Abbildung in einem Vortrag oder einer Publikation zu verwenden, muss man sie natürlich abspeichern. Dazu verwendet man den Befehl `plt.savefig()`. Als Argument gibt man den Dateinamen an. Die Dateiendung bestimmt das verwendete Format. So kann man einen Abbildung z.B. als `png`, `jpg` oder `svg` abspeichern. Das letztere ist ein Vektorgraphik Format. Wird eine Rastergraphik erstellt, so kann man optional das Argument `dpi` angeben.

In [None]:
fig = plt.figure(figsize=(10, 5))
ax = fig.add_subplot(1, 1, 1, projection=ccrs.Mollweide())

lons, lats, data = sample_data()

ax.pcolormesh(lons, lats, data,
            transform=ccrs.PlateCarree(),
            cmap='nipy_spectral',
            rasterized=True
)
ax.coastlines()
ax.set_global()

plt.savefig('for_web.png', dpi=72)
plt.savefig('for_publication.png', dpi=300)
plt.savefig('vector.svg')