# Visualisierung

**Visualisierung** bezeichnet sowohl den Prozess, durch den abstrakte Daten und Zusammenhänge graphisch sichtbar gemacht werden (Visualisierung als abstraktes Substantiv), als auch das Ergebnis dieses Prozesses (*die* bzw. *eine* Visualisierung als konkretes Substantiv). 

Im Alltag benutzen wir zur Visualisierung oft standardisierte **Diagramme** (*charts*), die jeweils einige typische Merkmale aufweisen - Beispiele sind Balken-, Kuchen- und Liniendiagramme. 
Diagramme sind allerdings nur konkrete Instanzen abstrakterer Objekte, die **Grafiken** (*graphics*) bzw. **Graphen** (*graphs*) genannt werden. 
Grafiken lassen sich nach bestimmten Regeln aus einer begrenzten Menge von Elementen zusammensetzen (lies dazu *Bertin*, Sémiologie graphique, oder aus jüngerer Zeit *Wilkinson*, The Grammar of Graphics).
Im Programmierjargon nennt man Grafiken auch **Plots**; der Vorgang ihrer Erstellung wird als **Plotting** bezeichnet.

Die Unterscheidung zwischen Diagrammen und Grafiken ist unter anderem deshalb relevant, weil die Visualisierungsbibliotheken, die in den einzelnen Programmiersprachen zur Verfügung stehen, ganz unterschiedliche APIs (*Application Programming Interfaces*) anbieten, je nachdem, ob sie sich eher als *Charting*-Bibliotheken oder als *Graphing*-Bibliotheken verstehen. 

## Visualisierung in Python

Für Python gibt es eine Vielzahl von Bibliotheken zur Visualisierung von Daten, die alle ihre Stärken und Schwächen haben. 
Mit welcher Bibliothek man arbeiten sollte, hängt von den Anforderungen des jeweiligen Projekts ebenso ab wie von persönlichen Präferenzen.
Als potentiell interessante Bibliotheken seien genannt (in alphabetischer Reihenfolge und bewusst ohne nähere Erläuterungen):

> [`bokeh`](http://bokeh.pydata.org/en/latest/)

> [`holoviews`](http://holoviews.org/)

> [`matplotlib`](http://matplotlib.org/)

> [`plotly`](https://plot.ly/python/)

> [`seaborn`](https://seaborn.pydata.org/)

Einige Fragen, die man sich bei der Auswahl der Bibliothek stellen kann, sind:

> Stellen die Datenstrukturen, in denen ich meine Daten halte, den Zugang zu einer bestimmten Bibliothek bereits zur Verfügung?

> Sollen die Grafiken 2D oder 3D sein? Interaktiv oder statisch? Welche Arten von Grafiken werde ich voraussichtlich benötigen?

> Wie viel möchte ich selbst anpassen können bzw. müssen? Auf welchem Abstraktionsniveau möchte ich Anpassungen vornehmen?

> Wie gut ist die Bibliothek dokumentiert? Welche Lern- und Support-Ressourcen gibt es? 

> Wie sieht die API aus? Liegt mir die Syntax?

### Speziell: matplotlib

`matplotlib` ist eine der ältesten und am weitesten verbreiteten Plotting-Bibliotheken für `python`. 
Sie wurde der unter Naturwissenschaftlern verbreiteten (kommerziellen) MATLAB-Software nachempfunden, was die Syntax ein wenig *gewöhnungsbedürftig* macht. 
Wenn man die Grundprinzipien allerdings einmal verinnerlicht hat, lassen sich mit `matplotlib` schnell ansehnliche Grafiken (und sogar Animationen) erstellen. 

Die Bibliothek ist grundsätzlich auf 2D-Plotting ohne Interaktionen ausgelegt, hat aber auch eine 3D-Erweiterung;
nutzt man `matplotlib` in Jupyter Notebook, so kann man mit Widgets einzelne Interaktionen ermöglichen. 

Wenn wir die Grafiken im Notebook sehen wollen, können wir einen von zwei Modi nutzen:

> `%matplotlib inline`: statisches Inline-Plotting

> `%matplotlib notebook`: Inline-Plotting mit Interaktionsmöglichkeiten

Wir verwenden `%matplotlib notebook` und müssen dabei beachten, dass stets in die zuletzt geöffnete Grafik gezeichnet wird, solange wir diese nicht schließen oder nochmals `%matplotlib notebook` aufrufen.
Durch einen Rechtsklick auf eine einzelne Grafik öffnet sich ein Menü, mit dem man die Grafiken speichern kann.

Nachfolgend werden einige wichtige Syntaxelemente für den Umgang mit `matplotlib` in Jupyter Notebook demonstriert. 
Für einen Großteil der gezeigten Anpassungen gibt es in `matplotlib` verschiedene Wege, um ans Ziel zu kommen (wie eigentlich immer in der Programmierung!). 
Die meisten Funktionen haben viele Parameter, von denen ein Großteil optional ist. 
Insgesamt ist der Stil von `matplotlib` nicht sehr *pythonic*, was dazu führt, dass man auch als 'erfahrener' User im Regelbetrieb immer einiges nachschlagen muss. 
Die meisten Fragen haben sich andere aber bereits gestellt, sodass man mit den klassischen Recherchemethoden (Dokumentation, Google, Stackoverflow) relativ weit kommt.

In [3]:
# Import und Notebook-Modus
import matplotlib.pyplot as plt
%matplotlib notebook

# Fuer Zufallszahlen
import numpy as np

# Allgemeine Anzeigeoptionen - plt.rcParams.keys() zum Nachschlagen global setzbarer Parameter
plt.rcParams['figure.figsize'] = (8,12)           # Standard-Groesse der Grafik
plt.rcParams['font.size'] = 8                     # Standard-Schriftgroesse
plt.rcParams['font.family'] = 'Times New Roman'   # Standard-Schriftfamilie

# Figure Object und Axes
fig, (ax1, ax2, ax3) = plt.subplots(3, sharex=True, sharey=True)     # Grafik und Subplots erstellen

# Mock Data
xs1, ys1 = np.random.randint(1,200,10), np.random.randint(1,100,10)
xs2, ys2 = np.random.randint(1,200,10), np.random.randint(1,100,10)

# Scatter Chart im ersten Subplot
ax1.scatter(xs1, ys1, color='k', marker='d')      # x- und y-Koordinaten werden 
                                                  # separat mitgegeben
ax1.scatter(xs2, ys2, color='r', marker='*')      # color und marker sind optionale,
                                                  # namentlich bezeichnete Argumente
ax1.set_title('Scatter Chart', fontsize=12)       # Titel des Subplots setzen und 
                                                  # Groesse anpassen

# Line Chart im zweiten Subplot
ax2.plot(xs1, ys1, color='k')
ax2.plot(xs2, ys2, color='r')
ax2.set_title('Line Chart')

# Bar Chart im dritten Subplot
ax3.bar(xs1, ys1, color='k', alpha=0.5, label='Datensatz 1') # alpha bestimmt die Transparenz
ax3.bar(xs2, ys2, color='r', alpha=0.5, label='Datensatz 2') # label wird fuer Legende benoetigt
ax3.set_title('Bar Chart')

# Anpassungen an den Achsen
plt.xticks(range(0,201,10))                        # Markierungen auf der x-Achse
plt.yticks(range(0,101,10))                        # Markierungen auf der y-Achse
for ax in (ax1, ax2, ax3):                         # Iteration ueber alle Subplots
    ax.xaxis.set_ticks_position('both')            # x-Ticks an beiden Seiten
    ax.yaxis.set_ticks_position('both')            # y-Ticks an beiden Seiten
    ax.set_xlim(0,200)                             # x-Min und x-Max anpassen
    ax.set_ylim(0,100)                             # y-Min und y-Max anpassen

# Legende in Subplot 3    
ax3.legend(loc=2)                                  # Legende anpassen

# Globaler Titel
plt.suptitle("Klassische Charts", fontsize=14)     # Gesamt-Ueberschrift

# Layout-Anpassungen
plt.tight_layout()                                 # Anpassung des Layouts (besonders bei 
                                                   # Subplots wichtig)
plt.subplots_adjust(top=0.925, hspace=0.2)         # Weitere Anpassung fuer bessere 
                                                   # Ueberschriftenpositionierung

plt.show()                                         # Anzeige der Grafik (im Inline-Modus 
                                                   # eigentlich ueberfluessig)

<IPython.core.display.Javascript object>

### Speziell: seaborn

`seaborn` setzt auf `matplotlib` auf und bietet eine API, mit der sich leicht einige gutaussehende Standard-Charts erstellen lassen.
Das [Tutorial](http://seaborn.pydata.org/tutorial.html) ist instruktiv und vermittelt nebenbei einige Grundlagen der Visualisierung und der explorativen Statistik.
Die meisten Vorteile von `seaborn` erfährt man allerdings erst, wenn man seine Daten in den Datenstrukturen vorliegen hat, welche die Bibliothek `pandas` zur Verfügung stellt.
`pandas` gehört wie `matplotlib` zum open-source Software-Ökosystem von [SciPy](https://www.scipy.org/index.html).
Die Einarbeitung in dieses Ökosystem lohnt sich für jeden, der in größerem Stil Daten mit Python analysieren möchte.

Die Mächtigkeit von `seaborn` sei hier nur an einem Beispiel verdeutlicht, das sich auch in der Dokumentation findet.
Der darin verwendete Datensatz (`iris`) enthält Messungen zu den Blüten dreier verschiedener Spezies von Orchideen.
Dieser Datensatz wird oft verwendet, um Konzepte des *Data Mining* und des *Machine Learning* zu illustrieren, ist für die Community ein "Klassiker" und daher in `seaborn` als Beispieldatensatz verfügbar.
Für eine der unten dargestellten Abbildung vergleibare Visualisierung allein mit `matplotlib` wäre deutlich mehr Code erforderlich.

In [5]:
# Importe mit Standardabkuerzungen
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np                # im Folgenden nicht benoetigt, aber oft relevant
import pandas as pd               # im Folgenden nicht benoetigt, aber oft relevant

# Notebook-Modus
%matplotlib notebook

In [2]:
sns.set(style="ticks")            # einen von mehreren Standard-Styles auswaehlen

In [3]:
iris = sns.load_dataset("iris")   # den iris-Datensatz in einen pandas DataFrame laden
iris.head()                       # die ersten Zeilen des DataFrames ansehen (Methode auf DataFrame-Objekten)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [6]:
g = sns.PairGrid(iris, hue="species")  # Grid, um paarweise Zusammenhaenge zwischen Variablen darzustellen
g.map_diag(plt.hist)                   # Histogramme in der Diagonalen
g.map_offdiag(plt.scatter);            # Streudiagramme abseits der Diagonalen

<IPython.core.display.Javascript object>