# Woche 07 - Visualisierung mit Matplotlib

Die Visualisierung der Daten gehört zu den wichtigsten Schritten der Datenanalyse. Oft vermittelt die Visualisierung bereits wichtige Erkenntnisse über die Daten. Zu dem Modul Pandas gehören bereits Methoden zur grafischen Darstellung der Daten, wie z.B. ``.plot(kind='line')`` oder ``.plot(kind='bar')``. 

In [None]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.rand(7), index=['Mo','Di','Mi','Do','Fr','Sa','So'])
df.plot(kind='bar')

Diese Methoden basieren auf einem weiteren Python-Modul, nämlich **Matplotlib**. Matplotlib werden wir immer dann verwenden, wenn Grafiken komplexer werden (z.B. mehrere Visualisierungen in einer Grafik) oder wir Grafiken ästhetisch ansprechend für Publikationen oder Präsentationen aufbereiten wollen.

In diesem Jupyter-Notebook erarbeiten wir uns die Lernziele
* Einführung in Matplotlib
* Darstellung von Funktionen als Liniendiagramm bzw. xy-Diagramm
* Darstellung von Messwerten als Balkendiagramm
* Streudiagramme

<div class="alert alert-block alert-info">
<b>Weiterführendes Zusatzmaterial:</b>
    
<li>Matplotlib-Seite: <a href=https://matplotlib.org>https://matplotlib.org</a> </li>
<li>Buch Van der Plas: Data Science mit Python, Kapitel 4</li>
<li>Code mit FloW: <a href=https://www.youtube.com/playlist?list=PL10piHcP2kVIzC10q0wNpmmmzgsnTg4CY>YouTube-Playlist "Matplotlib verstehen"</a></li>
</div>

## Einführung in Matplotlib

Wichtig: zunächst müssen Sie sicherstellen, dass die folgenden Modul installiert sind:

* matplotlib
* matplotlib-base
* numpy
* pandas

Überprüfen Sie daher, welche Python-Pakete derzeit installiert sind und installieren Sie ggf. fehlende Pakete nach.

Öffnen Sie dazu den Anaconda-Navigator und klicken Sie auf Environments:
![Screenshot Anaconda-Navigator](part07_fig_screenshot01.png)

Klicken Sie dann auf Ihre Umgebung (wahrscheinlich benutzen Sie `base (root)` und anschließend wechseln Sie von `Installed` zu `All`, siehe nachfolgenden Screenshot:

![Screenshot Wechsel All](part07_fig_screenshot02.png)

Zuletzt suchen Sie die fehlenden Pakete und installieren diese durch Aktivieren der Checkbox und anschließendem Bestätigen `Apply` nach:

![Screenshot Installieren](part07_fig_screenshot03.png)

Jetzt kann es mit dem Darstellen von mathematischen Funktionen losgehen.

## Liniendiagramme oder xy-Diagramme oder Linienplots

Eine der häufigsten Darstellungen von mathematischen Funktionen ist das Liniendiagramm oder das sogenannte xy-Diagramm. Zu jedem x-Wert wird der entsprechende y-Wert (enweder ein Messwert oder ein Funktionswert) als Punkt in ein Koordinatensystem mit x- und y-Achse eingetragen und die Punkte werden mit einer geraden Linie verbunden.

Erzeugen wir uns eine Liste mit x-Werten und dazugehörigen y-Werten als Listen.

In [None]:
x = [-2, -1, 0, 1, 2]
y = [4, 1, 0, 1, 4]

Danach lassen wir den Interpreter diese Werte zeichnen. Dazu benötigen wir das Modul `matplotlib`, genauer gesagt nur einen Teil dieses Moduls namens `pylab`. Daher laden wir es zuerst mit

```python
import matplotlib.pylab as plt
```

Üblicherweise wird dieses Modul mit ``plt`` abgekürzt. Danach kommt die Funktion zum Zeichen der Werte `plot(x,y)`.

In [None]:
import matplotlib.pylab as plt

plt.plot(x,y)

PS: Ohne Strichpunkt/Semikolon gibt Jupyter-Lab noch Objekttyp und Referenz des Speicherplatzes aus. In einem normalen Python-Skript würde das nicht passieren. Sie können diese Angabe durch den Strichpunkt/Semikolon in der letzten Zeile unterdrücken.

Aber zurück zum Plot, sieht ziemlich krakelig aus. Eigentlich sollte dies eine Parabel im Intervall $[-2,2]$ werden. Mit nur 5 Punkten und der Tatsache, dass diese 5 Punkte mit geraden Linien verbunden werden, sieht es etwas unschön aus. Besser wird es mit mehr Punkten, aber die wollen wir jetzt nicht von Hand erzeugen. Wir verwenden das Modul `numpy` für numerisches Python, das wir wieder einmal zuerst Laden müssen:

```python
import numpy as np
```

Die Funktion `np.linspace(a,b, Anzahl)` erzeugt Punkte im Intervall $[a,b]$ je nach eingestellter Anzahl.

In [None]:
import numpy as np

x = np.linspace(-2, 2, 10) 
y = x**2

plt.plot(x,y);

Schon besser, aber noch ein paar mehr Punkte wären noch schöner...

In [None]:
x = np.linspace(-2, 2, 1000) 
y = x**2

plt.plot(x,y);

Nächstes Thema, Beschriftungen. Mit den Funktionen `plt.xlabel()`und `plt.ylabel()` beschriften Sie die x- und y-Achse.

In [None]:
x = np.linspace(-10,10,200)
y = np.sin(x)

plt.plot(x,y)
plt.xlabel('Zeit in Sekunden')
plt.ylabel('Stromstärke in Ampere');

Fehlt noch ein Titel für unsere Grafik, das erledigt die Funktion `title()`:

In [None]:
x = np.linspace(-10,10,200)
y = np.sin(x)

plt.plot(x,y);
plt.xlabel('Zeit in Sekunden')
plt.ylabel('Stromstärke in Ampere')
plt.title('Wechselstrom');

Zuletzt soll unser Plot gespeichert werden. Es stehen mehrere Grafikformate zur Verfügung. Mehr Details finden Sie auf der Internetseite [Dokumentation savefig](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.savefig.html).

Ein typisches Ausgabeformat ist eine Rastergrafik wie z.B. png. Das erreichen Sie durch den folgenden Funktionsaufruf:

In [None]:
x = np.linspace(-10,10,200)
y = np.sin(x)

plt.plot(x,y)
plt.xlabel('Zeit in Sekunden')
plt.ylabel('Stromstärke in Ampere')
plt.title('Wechselstrom')
plt.savefig('plot_stromstaerke.png', dpi=300);

**Mini-Übung**   
Bitte plotten Sie folgende Funktionen: 
    
<li>lineare Funktion, z.B. $f(x) = 7x + 2$</li>
<li>Sinus,</li>
<li>Kosinus,</li>
<li>Exponentialfunktion und</li> 
<li>Wurzelfunktion.</li>

Verändern Sie auch das Definitionsgebiet der Funktionen, also das Intervall für $x$. (Bei welcher Funktion müssen Sie besonders auf das Defiitionsgebiet der Funktion achten?)

In [None]:
# Hier Ihr Code:


Matplotlib bietet zwei Schnittstellen an, die Funktionen und Methoden des Moduls zu benutzen. Die erste Schnittstelle ist *zustandsorientiert*, die zweite *objektorientiert*.

Bei der zustandsorientierten Schnittstelle werden Funktionen benutzt, die auf das aktuelle Objekt wirken. In dem letzten Beispiel wurde mit ``plt.plot(x,y)`` ein Liniendiagramm erzeugt und mit der dann anschließenden Funktion ``plt.xlabel('Zeit in Sekunden')`` eine Beschriftung für das aktuelle Objekt gesetzt. Wenn beispielsweise mehrere Plots in einer Grafik gegenübergestellt werden, ist es schwierig zuzuordnen, was gerade das aktuelle Objekt ist. Daher hilft die zweite Matplotlib-Schnittstelle, die objektorientierte Schnittstelle, mehrere Objekte auseinanderzuhalten.

Zunächst erzeuugen wir das Grafik-Objekt bestehend aus einer Figure (=Grafik als Ganzes) und Axes (=Achsen) explizit mit der Funktion ``plt.subplots()``und speichern diese in entsprechenden Variablen für Figure und Axes:

```
fig, ax = plt.subplots() .
```


Dann verwenden wir Methoden, das Grafikobjekt zu manipulieren. Beispielsweise fügen wir den Achsen einen Linienplot und Beschriftungen hinzu.

In [None]:
# data
x = np.linspace(-10,10,200)
y = np.sin(x)

# plot
fig, ax = plt.subplots()

ax.plot(x,y)
ax.set_xlabel('Zeit in Sekunden')
ax.set_ylabel('Stromstärke in Ampere')
ax.set_title('Wechselstrom');

Mit der objektorientierten Schnittstelle können wir nun zwei Linendiagramme in einer Grafik gezielt kontrollieren. Mit Hilfe der Funktion ``plt.subplots(nrows=1, ncols=1)`` können wir beispielsweise Plots in einem Raster zeugen, das eine Zeile (nrows = number of rows) und zwei Spalten (ncols = number of columns) hat. Die Variable ``ax`` beinhaltet dann ein Array aus axes-Objekten, auf die mit Indizes von 0, 1, ... zugegriffen kann.


In [None]:
# data
x = np.linspace(-10,10,200)
y_left  = np.sin(x)
y_right = np.cos(x)

# plot
fig, ax = plt.subplots(nrows=1, ncols=2)

ax[0].plot(x,y_left)
ax[1].plot(x,y_right)
ax[0].set_xlabel('Zeit in Sekunden')
ax[1].set_xlabel('Zeit in Sekunden');

## Balkendiagramme

Mit der Funktion `bar()` kann ein Balkendiagramm erstellt werden. Nehmen wir mal an, wir möchten auswerten, wie viele Nutzer/innen in Moodle auf die Jupyter Notebooks zum Download zugegriffen haben:

| Woche | Anzahl Nutzer/innen |
| --- | --- |
| 2 | 14 |
| 3 | 12 |
| 4 | 10 |
| 5 | 10 |
| 6 | 9  |

Packen wir das in zwei Vektoren x und y:

In [None]:
# data
x = [2,3,4,5,6]
y = [14,12,10,10,9]

# bar plot 
fig, ax = plt.subplots()
ax.bar(x,y);

Natürlich funktionieren auch hier die Funktionen `xlabel()`, `ylabel()` und `title()`:

In [None]:
# data
x = [2,3,4,5,6]
y = [14,12,10,10,9]

# bar plot
fig, ax = plt.subplots()
ax.bar(x,y)
ax.set_xlabel('Woche')
ax.set_ylabel('Anzahl Nutzer/innen')
ax.set_title('Zugriff auf Jupyter Notebooks zum Download WiSe 2021/22');

**Mini-Übung**   

Hier ist eine Tabelle mit den Zugriffszahlen auf das MATLAB Live Script in der Vorlesung angewandte Informatik im Sommersemester 2021. Bitte stellen Sie die Daten als Balkendiagramm inklusive Beschriftungen dar.

|Woche |Anzahl Nutzer/innen|
| --- | --- |
| 3 | 9  |
| 4 | 17 |
| 5 | 15 |
| 6 | 10 |
| 7 | 11 |

In [None]:
# Hier Ihr Code:


## Streudiagramme

Bei Streudiagrammen werden nicht die Punkte $(x_1,y_2)$ mit $(x_2,y_2)$ mit $(x_3,y_3)$ usw. durch Linien verbunden, sondern jeder Punkt selbst wird an der Stelle seiner Koordinaten eingezeichnet. Ob dazu ein Punkt, Kreis, Dreieck oder Quadrat oder ein anderes Symbol verwendet wird, bleibt dem Anwender überlassen. Streudiagramme heißen im Englischen Scatter-Plot, daher lautet die entsprechende Matplotlib-Methode auch ``.scatter()``.

In [None]:
# data
x = np.linspace(-2*np.pi, 2*np.pi, 50)
y = np.sin(x)

# scatter plot
fig, ax = plt.subplots()
ax.scatter(x,y);


Über die Option ``marker= `` lässt sich das Symbol einstellen, mit dem das Streudiagramm erzeugt wird. Wie Sie sehen, ist ein ausgefüllter Kreis voreingestellt. Lesen Sie auf der Internetseite 

> https://matplotlib.org/stable/api/markers_api.html#module-matplotlib.markers

nach, welche Marker-Symbole existieren. Probieren Sie einige der Symbole hier aus:



In [None]:
# data
x = np.linspace(-2*np.pi, 2*np.pi, 50)
y = np.sin(x)

# scatter plot
fig, ax = plt.subplots()
ax.scatter(x,y, marker='x');

Für bekannte Funktionen wie Sinus oder Kosinus würde man Liniendiagramme verwenden. Streudiagramme eignen sich eher für die Visualisierung einzelner Messungen. Wenn Sie beispielsweise an jeden Wochentag die Temperatur an zwei Orten messen, bietet es sich an, beide Messreihen in einem Streudiagramm zu visualisieren. Dazu sollten Sie unterschiedliche Marker und unterschiedliche Farben verwenden.

In [None]:
# data
x  = ['Mo', 'Di', 'Mi', 'Do', 'Fr', 'Sa', 'So']
y1 = np.random.uniform(15,23,7)
y2 = np.random.uniform(15,23,7)

# scatter plots
fig, ax = plt.subplots()
ax.scatter(x, y1, marker='+')
ax.scatter(x, y2, marker='.');

Dann ist es aber auch gut, die Visualisierung zu beschriften. Dazu kennzeichnet man jeden einzelnen Plot-Aufruf mit einem sogenannten Label, z.B.

```python
ax.scatter(x,y1, label='Messung1')
```
Zuletzt verwendet man die Methode `ax.legend()`, die eine Legende mit allen Label-Einträgen erzeugt, bei denen die Farben der Kurven und die Marker korrekt zu den Namen (Labels) zugeordnet werden.

In [None]:
# data
x  = ['Mo', 'Di', 'Mi', 'Do', 'Fr', 'Sa', 'So']
y1 = np.random.uniform(15,23,7)
y2 = np.random.uniform(15,23,7)

# scatter plots
fig, ax = plt.subplots()
ax.scatter(x, y1, marker='+', label='Frankfurt')
ax.scatter(x, y2, marker='.', label='Offenbach')
ax.legend();

Die Scatter-Plots bieten die Möglichkeit, zusätzliche Informationen mit zu visualisieren. Bei einem Liniendiagramm wird jedem x-Wert ein y-Wert zugeordnet. Problematisch wird es, wenn wir ein Skalarfeld visualisieren wollen. Beispielsweise möchten wir in einem Raum an jeder x-Koordinate und jeder y-Koordinate die Temperatur messen. Mit einem Scatterplot können wir jetzt zu jedem $(x,y)$ die Temperatur über die Farbe des Markers darstellen. 

Dazu gibt es mehrere Möglichkeiten. Zum einen können wir uns ein Array basteln, dass die Farben enthält. Auf der Seite 

> https://matplotlib.org/stable/gallery/color/named_colors.html

finden Sie die Namen der wichtigsten Farben. Mit ``.scatter(x,y, c='r')`` färben Sie beispielsweise alle Marker rot ein.


In [None]:
# data
x = np.random.uniform(0, 5, 10)
y = np.random.uniform(0, 2, 10)
T = np.random.uniform(15,23,10)

# scatter plots
fig, ax = plt.subplots()
ax.scatter(x, y, marker='o', c='r');

Mit der Option ``c='aqua'`` wird es grell:

In [None]:
# data
x = np.random.uniform(0, 5, 10)
y = np.random.uniform(0, 2, 10)
T = np.random.uniform(15,23,10)

# scatter plots
fig, ax = plt.subplots()
ax.scatter(x, y, marker='o', c='aqua');

Die zweite Möglichkeit ist, eine Farbskala zu nehmen. Alle Werte werden dann dieser Farbskala zugeordnet. Der minimale Wert bekommt den linken Wert der Farbskala, der maximale Wert den rechten.

Farbskala heißen im Englischen colormaps. Auf der Internetseite 

> https://matplotlib.org/stable/gallery/color/colormap_reference.html

finden Sie eine Übersicht über mögliche Farbskalen. Schauen wir uns an, wie sich die Farbe der Marker beim Sinus verändert, wenn wir als Farbskala 'viridis' wählen. Dazu setzen wir die Option ``cmap='viridis'``:

In [None]:
# data
x = np.linspace(-2*np.pi, 2*np.pi, 50)
y = np.sin(x)

# scatter plots
fig, ax = plt.subplots()
ax.scatter(x, y, marker='o', c=y, cmap='viridis');


Und im Winter sieht es mit der Farbskala ``cmap='winter'`` so aus:

In [None]:
# data
x = np.linspace(-2*np.pi, 2*np.pi, 50)
y = np.sin(x)

# scatter plots
fig, ax = plt.subplots()
ax.scatter(x, y, marker='o', c=y, cmap='winter');

Wenn die Größe der Marker modifiziert werden soll, gibt es die Option ``s`` wie size. Entweder wird die Größe konstant auf einen Wert gesetzt, also ``s = 50``, oder die Größe variiert. Dann muss ``s`` ein Array zugewiesen werden. 

In [None]:
# data
x = np.random.uniform(0, 5, 10)
y = np.random.uniform(0, 2, 10)
T = np.random.uniform(5,25,10)
my_size = np.random.uniform(500,2000,10)

# scatter plots
fig, ax = plt.subplots()
ax.scatter(x, y, s=my_size, c=T);

In diesem Fall wurde die Farbskala aus den Temperaturwerten erzeugt. Wir können aber auch händisch eine Farbskala basteln, indem wir ein Array mit den Farben zusammenstellen. Beispielsweise wollen wir nun die ersten drei Werte rot, die nächsten drei Werte grün und die letzten vier Werte blau färben.

In [None]:
meine_farben = ['red', 'red', 'red', 'green', 'green', 'green', 'blue', 'blue', 'blue', 'blue']

x = np.linspace(1,10, 10)
y = np.random.uniform(0, 2, 10)

# scatter plots
fig, ax = plt.subplots()
ax.scatter(x, y, s=50, c=meine_farben);

**Mini-Übung:**   

Stellen Sie die Sinus-Funktion im Intervall $[-4\pi,4\pi]$ als Scatter-Plot dar. Dabei sollen negative Funktionswerte blau eingefärbt werden und positive Funktionswerte rot. Setzen Sie zusätzlich an Nullstellen einen schwarzen Diamanten.     


In [None]:
# Hier Ihr Code


# Aufgaben zur Vertiefung 

<div class="alert alert-block alert-success"><b>Aufgabe 7.1</b></br>
Laden Sie die Datei 20211125_RKI_Nowcast.csv (Quelle: <a href=https://github.com/robert-koch-institut/SARS-CoV-2-Nowcasting_und_-R-Schaetzung/blob/main/Nowcast_R_aktuell.csv download>RKI-Daten</a>). Analysieren Sie die Daten zuerst mit Pandas.
<li>Was enthält die Tabelle an Daten? Index und Columns?</li>
<li>Lesen auf den <a href=https://github.com/robert-koch-institut/SARS-CoV-2-Nowcasting_und_-R-Schaetzung>RKI-Seiten</a> nach, wofür die Columns-Abkürzungen stehen. Welche Spalte steht für die Neuerkrankungen? Welche Spalte enthält den R-Wert?</li>
<li>Stellen Sie die Anzahl an Neuerkrankungen als Liniendiagramm dar.</li>
<li>Stellen Sie die Anzahl der Neuerkrankungen des Monats August 2021 als Balkendiagramm dar.</li>
<li>Stellen Sie die Anzahl der Neuerkrankungen für das Jahr 2021 als Streudiagramm dar. Färben Sie Marker rot, wenn der R-Wert des gleichen Tages >= 1 ist und ansonsten blau.
Beschriften Sie bei allen drei Diagrammen die x- und die y-Achse und versehen Sie die Diagramme mit aussagekräftigen Titeln.
</div>



<div class="alert alert-block alert-success"><b>Aufgabe 7.2</b></br>
Laden Sie die Datei bundesliga_top7_offensive.csv aus dem Verzeichnis part07_visualisierung. Beantworten Sie anhand dieses Datensatzes folgende Fragen:
<li> Wie viele Fußballvereine sind in dem Datensatz enthalten? Nach welcher Spalte müssen Sie dazu schauen? Recherchieren Sie im Internet nach der pandas-Funktion pandas.unique(). Wie können Sie diese Funktion hier einsetzen?
<li> Erzeugen Sie ein Pandas-Series-Objekt mit den Vereinsnamen als Index und der Anzahl der Fußballspielder dieses Clubs. Wie viele Spieler spielen im Durchschnitt bei einem Verein? Sortieren Sie die Vereine absteigend und plotten Sie die Anzahl der Spieler pro Verein.
<li> Wie international ist Bayern München? Zählen Sie die verschiedenen Nationen der Spieler.
</div>

