In [None]:
%%html

<link rel="stylesheet" href="../../assets/styles/style.css">

<img src="../../assets/img/DN.png" style="float:right;width:150px">

Python - Matplotlib

# Matplotlib

[Matplotlib](https://matplotlib.org/) ist ein Modul, welches zur Visualisierung von Daten dient. Matplotlib harmoniert insbesondere mit den Modulen NumPy und Pandas aus der letzten Lektion sehr gut. Matplotlib kann sowohl NumPy Arrays als auch Pandas DataFrames visualisieren.

## Grundlegender Aufbau

Matplotlib kann man auf sehr unterschiedliche Arten und Weisen benutzen, das macht das Nachvollziehen von Beispielen aus dem Internet zuweilen etwas mühsam. Die einfachste Art und Weise funktioniert folgendermassen:

In [None]:
%matplotlib inline

import matplotlib.pyplot as plt

plt.plot([64, 32, 16, 8, 4, 2, 1])

plt.show()

Zuerst muss das Magic Command `%matplotlib inline` ausgeführt werden, damit die Visualisierungen innerhalb der Zelle wiedergegeben werden. Danach wird das Modul `matplotlib.pyplot` unter dem Namen `plt` importiert. Dies ist eine weitverbreitete Konvention. Die Angabe, was denn überhaupt geplottet werden soll wird mit dem Befehl `plt.plot()` gemacht. Dieser Funktion kann eine Liste mit Zahlen übergeben werden. Falls nur eine Liste übergeben wird, interpretiert Matplotlib die Zahlen so, dass sie als y-Werte entlang der x-Achse beginnend mit x = 0 gezeichnet werden. Mit `plt.show()` kann dann schlussendlich der Plot auch angezeigt werden.

Werden zwei Listen der Funktion `plt.plot()` übergeben, interpretiert Matplotlib diese als x- und y-Werte:

In [None]:
plt.plot([10, 20, 30, 40, 50, 60, 70], [64, 32, 16, 8, 4, 2, 1])
plt.show()

<div class="exercise">

<img src="../../assets/img/dumbbell.png" class="exercise_image">

<span class="exercise_label">Aufgabe</span> 

Erstelle einen Plot, der als y-Werte 100 Zufallszahlen zwischen 0 und 100 darstellt. Führe den Quellcode mehrere male aus, um zu prüfen, ob sich die Zufallszahlen und der Plot dementsprechend tatsächlich ändern.

<details>
<summary>Tipp</summary>
    <p>Hinweis: Es gibt verschiedene Möglichkeiten, eine Liste von Zufallszahlen zu erstellen. Nimm am besten die Funktion <code>random.randint()</code> aus dem Modul Numpy, welches es ermöglicht, nicht nur einzelne Zufallszahlen, sondern ganze Listen davon zu erstellen. Eine Beschreibung zu <code>random.randint()</code> findest du <a href="https://numpy.org/doc/stable/reference/random/generated/numpy.random.randint.html">hier</a>.</p>
</details>
</div>

In [None]:
# Beginn eigener Code



# Ende eigener Code

***

## Import von interessanteren Daten

Um möglichst schnell interessantere Daten zu visualisieren, werden nachfolgend Daten zum Verlauf der Covid19 Pandemie von offizieller Seite aufbereitet. Dafür werden CSV Daten aus dem offiziellen Portal des Bundesamts für Gesundheit geladen und in einem Pandas DataFrame gespeichert. Diese Daten resp. die dazugehörigen Metadaten sind übrigens auch im [Open Data Portal der Schweiz](https://opendata.swiss/de/dataset/covid-19-schweiz) zu finden.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

raw_data = pd.read_csv('https://www.covid19.admin.ch/api/data/20220510-t0vqb3nn/sources/COVID19Cases_geoRegion.csv', sep = ',')

# falls Abruf wegen SSL Fehler nicht klappt, Daten einfach lokal nutzen:
# raw_data = pd.read_csv('data/covid.csv', sep = ',')

Um einen Überblick über die Daten zu gewinnen, soll eine Übersicht über die ersten Zeilen und Spalten angezeigt werden.

In [None]:
display(raw_data.head(5))

Die interessanten Daten sind in den ersten Spalten zu finden: 'geoRegion' bezeichnet den Kanton resp. die ganze Schweiz, 'datum' bezeichnet den einzelnen Tag und 'entries' ist die gemeldete Anzahl von Covid Infektionen. Um mit diesen Daten besser zu arbeiten, sollen zwei DataFrames erstellt werden, eines mit Angaben zum Kanton Bern, das andere zum Kanton Zürich. Es sollen nur die Spalten 'datum' und 'entries' weiterverwendet werden:

In [None]:
# Filtern
zh_data = raw_data[raw_data.geoRegion == "ZH"]

# nur bestimmte Spalten übernehmen 
zh_data = zh_data[["datum", "entries"]]

be_data = raw_data[raw_data.geoRegion == "BE"]
be_data = be_data[["datum", "entries"]]

display(zh_data.head(5))
display(be_data.head(5))

## Line Chart

Die wohl fundamentalste Visualisierung ist das Liniendiagramm (Line Chart). Ein Liniendiagramm macht dann Sinn, wenn bestimmte Beobachtungen sich entlang einer kontinuierlichen Grösse verändern. Ein ganz typisches Beispiel ist die Zeitreihenanalyse (Time Series), bei der eine bestimmte Grösse entlang einer Zeitachse betrachtet wird.

Eine solche Zeitreihenalayse soll nun mit den Corona Daten durchgeführt werden:

In [None]:
plt.plot(zh_data["entries"])
plt.show()

'zh_data["entries"]' gibt die Spalte für die Ansteckungen aus dem DataFrame. 

Dies ist zwar keine Liste, wie folgender Code zeigt:

In [None]:
type(zh_data["entries"])

Aber wie schon erwähnt, Matplotlib arbeitet gut mit Objekten aus NumPy und Pandas zusammen, deshalb kann hier der Datentyp der `Series` sofort geplottet werden.

Wenig hilfreich ist noch die Angabe auf der x-Achse, welches die Zeilenzahl des ursprünglichen DataFrames darstellt. Aber hier soll natürlich das Datum angezeigt werden:

In [None]:
plt.plot(zh_data["datum"], zh_data["entries"])
plt.show()

Das dauert ziemlich lange und schlussendlich ist die Ausgabe nicht besonders hilfreich. Der Grund dafür ist, dass die Werte von 'Datum' für Menschen natürlich sofort als Datum erkennbar sind, der Computer weiss zuerst aber mal nicht, dass er dies als Datumswerte interpretieren soll. Das muss dem Computer zuerst mitgeteilt werden:

In [None]:
zh_data["datum"] = pd.to_datetime(zh_data["datum"])
zh_data.info()
zh_data.head(5)

Mit der Funktion `to_datetime()` können die bisherigen Strings in "echte" Zeitdaten verwandelt werden. Die Funktion `info()` liefert die Datentypen für jede Spalte eines DataFrames, wo jetzt erkennbar ist, dass die Spalte 'datum' nun ein `datetime64` Objekt ist. Bei der Darstellung über `head()` ist der Unterschied allerdings nicht sichtbar. Wenn jetzt nochmals der Plot gezeichnet wird, passt die Beschriftung der x-Achse:

In [None]:
plt.plot(zh_data["datum"], zh_data["entries"])
plt.show()

Jetzt sollt ein Plot erstellt werden, bei dem gleichzeitig die Zahlen aus Zürich und Bern sichtbar sind:

In [None]:
be_data["datum"] = pd.to_datetime(be_data["datum"])
plt.plot(zh_data["datum"], zh_data["entries"], be_data["datum"], be_data["entries"])
plt.show()

Es ist also möglich, bei der Funktion `plot()` einfach weitere x/y Datenpaare anzugeben, die dann übereinandergelegt gezeichnet werden.

Jetzt soll der Plot mit weiteren Zusatzangaben verfeinert werden:

In [None]:
plt.plot(zh_data["datum"], zh_data["entries"], be_data["datum"], be_data["entries"])
plt.suptitle("Covid Infektionen in den Kantonen ZH und BE")
plt.xlabel("Datum")
plt.ylabel("Anzahl Infektionen")
plt.legend(["ZH", "BE"])
plt.grid(color = "grey", linestyle = "--", linewidth=1)
plt.show()

Die Grösse der ausgegebenen Grafik lässt sich über `plt.rcParams['figure.figsize'] = [x, y]` anpassen:

In [None]:
plt.rcParams['figure.figsize'] = [12, 8]
plt.plot(zh_data["datum"], zh_data["entries"], be_data["datum"], be_data["entries"])
plt.suptitle("Covid Infektionen in den Kantonen ZH und BE")
plt.xlabel("Datum")
plt.ylabel("Anzahl Infektionen")
plt.legend(["ZH", "BE"])
plt.grid(color = "grey", linestyle = "--", linewidth=1)
plt.show()

Die Grafiken können einfach auf dem Computer gespeichert werden, indem mit 'Shift + Rechtsklick' auf die Grafik geklickt und dann 'Grafik speichern unter...' gewählt wird.

<div class="exercise">

<img src="../../assets/img/dumbbell.png" class="exercise_image">

<span class="exercise_label">Aufgabe</span> 

Schau dir die Daten unter [data/linedata.csv](data/linedata.csv) an. Versuche Regelmässigkeiten in den Daten zu erkennen. Zeichne die Daten dann als schön gestaltetes Liniendigramm mit den 'Monat' Werten als x-Achse und den 'Anzahl' Werten als y-Achse. Hast du eine Idee, was die Zahlen abbilden könnten? Schau dir dazu insbesondere die Werte nach September 2001 und die Werte im Frühjahr 2020 an.

<details>
<summary>Tipp</summary>
    <p>Denke daran, die Spalte 'Monat' in echte Datumswerte zu verwandeln.</p>
</details>
</div>

In [None]:
# Beginn eigener Code



# Ende eigener Code

Die Zahlen stellen die Anzahl Flugbewegungen (Starts und Landungen) ab den Flughäfen Zürich/Genf/Basel (Summe) dar. Mehr Infos zu diesen Zahlen gibt es [hier](https://www.pxweb.bfs.admin.ch/pxweb/de/px-x-1107020000_101/-/px-x-1107020000_101.px/).

***

## Scatterplot

Das **Streudiagramm** ist ein weiterer wichtiger Visualisierungstyp. Es kommt dann zum Einsatz, wenn ein allfälliger Zusammenhang (Korrelation) zwischen zwei Variablen einer Beobachtung untersucht werden soll. Beim Streudiagramm werden Wertepaare in einem x-y Koordinatensystem abgebildet. Die Werte der Variablen stehen dabei nicht in einem kontinuerlichen Zusammenhang (im Gegensatz bspw. zu einer Zeitreihe, wo die verschiedenen x-Werte (Zeiten) in einer Abfolge stehen und es deshalb Sinn macht, eine verbindende Linie zu zeichnen).

Nachfolgend sollen Daten zum Geysir "[Old Faithful](https://de.wikipedia.org/wiki/Old_Faithful)" im Yellowstone National Park untersucht werden. Eine CSV Datei ist unter [data/old_faithful.csv](data/old_faithful.csv) verfügbar. Diese beinhaltet zwei Spalten. In der einen Spalte ('duration') wird die Dauer eines Ausbruchs in Minuten angegeben, in der zweiten Spalte ('waiting') die anschliessend erfolgte Wartezeit in Minuten bis zum nächsten Ausbruch.

Die Frage ist nun, ob diese zwei Grössen in irgendeinem Zusammenhang stehen. Dies kann versucht werden, indem die zwei Spalten angezeigt werden:

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

old_faithful = pd.read_csv("data/old_faithful.csv", sep = ";")

display(old_faithful.head(50))

Es ist ziemlich schwierig, eine so grosse Anzahl Zahlen auf einen Blick zu erfassen und Muster zu erkennen. Viel einfacher geht es mit einer Visualisierung:

In [None]:
plt.scatter(old_faithful["duration"], old_faithful["waiting"])
plt.show()

Mit diesem Streuplot wird sofort klar, dass es zwei "Cluster" gibt, die sich dadurch auszeichnen, dass bei einem kurzen Ausbruch tendentiell eine kurze Wartezeit folgt, während nach einem langen Ausbruch auch eine lange Wartezeit folgt.

Sollen bei einem Streudiagramm mehrere Datensätze gleichzeitig in einem Diagramm abgebildet werden, kann die `plt.scatter()` Funktion einfach mehrmals mit unterschiedlichen Daten aufgerufen werden. Innerhalb der gleichen Zelle werden dann alle Daten in einem Diagramm dargestellt.

# Schlussaufgabe

<div class="exercise">

<img src="../../assets/img/dumbbell.png" class="exercise_image">

<span class="exercise_label">Aufgabe</span> 

Erstelle ein verfeinertes Streudiagramm basierend auf den [Old Faithful Daten](data/old_faithful.csv). Und zwar sollen die beiden Cluster farblich unterschieden werden. Nimm eine sinnvolle Ausbruchszeit, um die Daten in kurze resp. lange Ausbrüche zu gliedern. Beschrifte ausserdem dein Diagramm und zeichne ein Gitter hinter die Daten.
</div>

In [None]:
# Beginn eigener Code



# Ende eigener Code

***

# Credits

* [Daten zu Flugbewegungen](https://www.pxweb.bfs.admin.ch/pxweb/de/px-x-1107020000_101/-/px-x-1107020000_101.px/)
* [Old Faithful Daten](https://www.stat.cmu.edu/~larry/all-of-statistics/=data/faithful.dat)
