# Woche 08 - Visualisierung (Teil 2)

Im letzten Kapitel haben wir uns bereits mit der Visualisierung von Funktionen und Messwerten beschäftigt. Wir haben die wichtigsten Plots kennengelernt, nämlich Liniendiagramme (Lineplots), Balkendiagramme (Barplots) und Streudiagramme (Scatterplots).

In diesem Jupyter-Notebook erarbeiten wir die Visualisierung von Funktionen und Messwerten. Wir beschäftigen uns mit
* Visualisierung von Fehlerbalken
* Histogrammen
* Dichtediagrammen
* Styling von Grafiken

## Visualisierung von Fehlerbalken

Bei allen Messungen treten Messfehler auf. Manchmal weiß man von Anfang an, welchen Messfehler das Messgerät hat. Ein anderes Mal hat man beispielsweise eine Messung zehnmal wiederholt und möchte nun den Mittelwert als Datenpunkt und die Standardabweichung der Messergebnisse als Fehlerbalken visualisieren. Durch die Angabe eines Fehlerbalkens kann man dem Betrachter eine Zusatzinformation mitteilen. Für die Darstellung von Fehlerbalken stellt das Matplotlib-Modul die Methode ``errorbar()`` zur Verfügung. Mehr Informationen gibt es auf der Hilfeseite

> https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.errorbar.html

Als erstes importieren wir das Numpy-Modul und das Matplotlib-Modul. Direkt nach dem Import des Matplotlib-Moduls lernen wir einen neuen Befehl lennen, nämlich ``plt.style.use('seaborn-whitegrid')``. Dieser Befehl hat nichts mit Fehlerbalken zu tun, sondern mit Styling. Darauf kommen wir später zurück.

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('seaborn-darkgrid')
import numpy as np

Als erstes erzeugen wir uns ein x-Array mit 50 Einträgen von 0 bis 10. Im y-Array speichern wir nun den Sinus, also y = sin(x). Aber zu jedem x-Wert addieren wir noch eine kleine Störung, die normalverteilt mit einen Mittelwert 0 und einer Standardabweichung von $\sigma = 0.5$ ist. Dadurch erzeugen wir nicht einen glatten Sinus, sondern einen verrauschten Sinus. 

Danach visualisieren wir die Datenpunkte $(x,y)$. An jedem Punkt stellen wir zusätzlich die für alle Punkte gleiche, konstante Standardweichung $\sigma$ über die Option ``yerr`` dar. Der Befehl lautet

```
ax.errorbar(x, y, yerr=sigma, fmt='.k');
```

Dabei steht die zweite Option ``fmt = '.k'``für die Formatierung Datenpunkt und Fehlerbalken. 

Führen Sie die nachfolgende Zelle mehrmals aus. 
* Wie verändert sich der verrauschte Sinus bei mehrfacher Ausführung? 
* Ändern Sie auch den Wert von ``scale``. Was passiert bei keinen Werten wie 0.01 und 0.1, was bei großen Werten wie 10?
* Probieren Sie andere Formatierungen aus.

In [None]:
# generate data y = sin(x) + normal distribution with mean 0 and standard deviation sigma 
sigma = 0.5
x = np.linspace(0, 10, 50)
y = np.sin(x) + sigma * np.random.randn(50)

# plot data
fig, ax = plt.subplots()
ax.errorbar(x, y, yerr=sigma, fmt='.k');

Die obige Darstellung ist schnell erzeugt, aber ästhetischer und besser interpretierbar wird die Grafik, wenn wir noch ein wenig an den Optionen herumschrauben. Van der Plas empfiehlt beispielsweise die folgenden Optionen in seinem Buch "Data Science mit Python", S. 

In [None]:
# generate data y = sin(x) + normal distribution with mean 0 and standard deviation sigma 
sigma = 0.5
x = np.linspace(0, 10, 50)
y = np.sin(x) + sigma * np.random.randn(50)

# plot data
fig, ax = plt.subplots()
ax.errorbar(x, y, yerr=sigma, fmt='o', color='black', ecolor='lightgray', elinewidth=3, capsize=0);

Durch die Option ``ecolor`` wird die Farbe des Fehlerbalkens spezifiziert. Standardmäßig verwendet Matplotlib die gleiche Farbe für den Datenpunkt wie für den Fehlerbalken. Die Linienstärke der Feherbalken wird durch die Option ``elinewidth`` gesteuert und wird in der Einheit Points angegeben. Mit der Option ``capsize`` wird die Länge der Kanten oben und unten von den Fehlerbalken spezifiziert, ebenfalls in der Einheit Points.  

## Visualisierung von Pandas-Datenobjekten (Series oder DataFrames)

Aber wie kombinieren wir jetzt die Funktionalitäten des Pandas-Moduls mit denen des Matplotlib-Moduls? Der grundlegende Datentyp für Matplotlib ist das NumPy-Array und auch in den Pandas-Datenobjekten stecken im Kern NumPy-Arrays. Wenn wir also Pandas-Objekte visualisieren wollen, extrahieren wir die Datn als NumPy-Arrays und plotten dann diese mit Matploblib.

* ``.index`` liefert den Zeilenindex
* ``.columns`` liefert die Spaltennamen 
* ``.values`` liefert die Werten in der Tabelle als NumPy-Array

Hier ein Beispiel:

In [None]:
import pandas as pd

alter = pd.Series({"Alice" : 25, "Bob" : 22, "Charlie" : 30, "Dora": 43})
stadt = pd.Series({"Alice" : "Mannheim", "Bob" : "Frankfurt", "Charlie" : "Ludwigshafen", "Dora" : "Kaiserslautern"})
personen = pd.DataFrame({'Alter': alter, 'Wohnort': stadt})

print('Datentyp personen: ', type(personen) )
print('Inhalt personen: ', personen)
print('\n')

print('Datentyp personen.index: ', type(personen.index))
print('Inhalt personen.index', personen.index)
print('\n')

print('Datentyp personen.columns: ', type(personen.columns))
print('Inhalt personen.columns', personen.columns)
print('\n')

print('Datentyp personen.values: ', type(personen.values))
print('Inhalt personen.values', personen.values)
print('\n')

So kann man direkt die Daten aus einem Pandas-Dataframe extrahieren und visualisieren.

In [None]:
x = personen.index
y = personen.loc[:, 'Alter'].values

fig, ax = plt.subplots()
ax.bar(x,y)
ax.set_ylabel('Alter')
ax.set_title('Personen aus meinem Adressbuch');


**Mini_Übung**   

Importieren Sie die Datei `data_sterbefaelle_2020.csv` mit 
> pd.read_csv('part08_data/data_sterbefaelle_2020.csv', index_col=0)

(Quelle: <a href=https://www.destatis.de/DE/Themen/Gesellschaft-Umwelt/Bevoelkerung/Sterbefaelle-Lebenserwartung/Tabellen/sonderauswertung-sterbefaelle.xlsx?__blob=publicationFile>destatista.de</a>).

* Der Datensatz enthält Sterbefälle des Jahres 2020. Welcher Zeilenindex (index) und welche Spaltennamen (columns) sind in dem Datensatz enthalten?
* Verschaffen Sie sich einen groben Überblick über die Daten (min, max, mean, std).
* Bilden Sie für jeden Monat die Summe aller Gestorbenen.
* Visualisieren Sie mit einem Plot (welcher Diagrammtyp?) die Anzahl der Verstorbenen für die Monate Januar bis Dezember.
* In welchem Monat sind am wenigten Menschen gestorben, wann die meisten?
* Bilden Sie nun für jede Altersklasse den Mittelwert und die Standardabweichung.
* Stellen Sie nun in einem Diagramm den Mittelwert für die Altersklassen mit der Standardabweichung als Fehlerbalken dar.

In [None]:
# Hier Ihr Code



## Histogramme

Das erste Histogramm, das Ihnen wahrscheinlich begegnet ist, ist der Notenspiegel in der Schule gewesen. Für jedes Merkmal (hier = Note) des Datensatzes (hier = Klasse) wird die Anzahl der Schülerinnen und Schüler angegeben, die diese Note erreicht haben. Eine typische Klassenarbeit könnte beispielsweise so aussehen:

|1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---| --- |
| 2 | 4  | 8  | 6  | 3  | 1 |

Ein Histogramm ist eine Visualisierung einer solchen Tabelle. Dabei werden in der Regel Balken benutzt. Auf der x-Achse sind also die Merkmale aufgetragen und auf der y-Achse finden wir die Anzahl der Merkmale in dem Datensatz. Die Anzahl kann dabei in absoluten Zahlen angegeben werden oder in relativen (Prozent).  

So sieht das Histogramm des Notenspiegels aus:


In [None]:
# data
x = np.arange(1,7)
y = np.array([2,4,8,6,3,1])

# plot
fig, ax = plt.subplots()
ax.bar(x,y)
ax.set_xlabel('Note')
ax.set_ylabel('Anzahl')
ax.set_title('Erdkunde-Test, Klasse 7b');

Diese Analysemethode wird sehr häufig eingesetzt. Daher stellen alle drei Module Matplotlib, Numpy und Pandas Methoden für Histogramme zur Verfügung:

* Matplotlib-Histogramm: https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.hist.html
* Numpy-Histogramm: https://numpy.org/doc/stable/reference/generated/numpy.histogram.html
* Pandas-Histogramm: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.hist.html

Da wir ohnehin das Histogramm visualisieren wollen, überspringen wir das Numpy-Histogramm und wenden uns gleich dem Matplotlib-Histogramm zu, das auch die Basis für das Pandas-Histogramm bildet.

Um die Optionen des Histogramms kennenzulernen, erzeugen wir zunächst eine sehr kleine Klasse mit 10 Schülerinnen und Schülern und würfeln ihre Noten zufällig aus. Und nein, in der Klausur werde ich nicht würfeln ;-)

In [None]:
# draw randomly grades
from random import randint, seed
seed(3)
grades = [randint(1, 6) for _ in range(10)]

print('gewürfelte Noten: ', grades)

Danach verwenden wir die Methode ``.hist()``, um ein Histogramm zu zeichnen.

In [None]:
# plot histogram
fig, ax = plt.subplots()
ax.hist(grades)
ax.set_xlabel('Note')
ax.set_ylabel('Anzahl Schüler:innen')
ax.set_title('Klassenarbeit');

Die Darstellung sieht etwas ungewohnt aus. Mit den Optionen ``bins=``, ``align=`` und ``rwidth=`` wirkt das Histogramm gleich ein wenig vertrauter. 

In [None]:
# generate custom bins
my_bins = [1,2,3,4,5,6,7]

# plot improved histogram
fig, ax = plt.subplots()
ax.hist(grades, bins=my_bins, align='left', rwidth=0.8)
ax.set_xlabel('Note')
ax.set_ylabel('Anzahl Schüler:innen')
ax.set_title('Klassenarbeit');

**Mini-Übung**   
Lesen Sie die Dokumentation der <a href="https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.hist.html">Matplotlib-hist-Funktion</a>. Beantworten Sie anschließend folgende Fragen:
<ul>
    <li>Was sind Bins?</li>
    <li>Welche Bins werden von Matplotlib gewählt, wenn die Option bins auf eine Zahl gesetzt wird, also z.B. <kbd>bins=10</kbd>?</li>
    <li>Welche Bins werden von Matplotlib benutzt, wenn die Option bins auf ein Array gesetzt wird, z.B. <kbd>bins=[1,2,3,4,5,6,7]</kbd>?</li>
    <li>Welche drei Einstellmöglichkeiten gibt es für die Option <kbd>align</kbd>? Probieren Sie alle drei in der vorhergehenden Zelle aus. Welche gefällt Ihnen anm besten?</li>
    <li>Welche Werte dürfen für die Option <kbd>rwidth</kbd> eingesetzt werden? Welcher Wert gefällt Ihnen persönlich am besten? Probieren Sie aus.</li> 
</ul>


In [None]:
# Hier Ihr Code



Nicht immer ist die Klasseneinteilung, also die Bins, vorher schon klar. Beispielsweise könnten wir die Körpergröße der teilnehmenden Studierenden dieser Vorlesung analysieren wollen. Und dabei sind wir bei der Einteilung in Bins frei. Beispielsweise könnten wir zwei Bins, nämlich $< 120~cm$ und $\geq 120~cm$ wählen. So richtig viel verrät uns diese Aufteilung über die Verteilung der Körpergröße jedoch nicht, denn wahrscheinlich sind alle in der letzten Bin. Aber stattdessen Millimeterschrittezu wählen, wäre zuviel des Guten. Daher beschäftigen wir uns als Nächstes mit der Wahl der Bin-Größe im Verhältnis zu den gegebenen Daten.

Im Folgenden erzeugen wir zunächst einmal 1000 normalverteilte Zufallszahlen mit Mittelwert 0 und Standardabweichung 1. Bei (0,1)-normalverteilten Zufallszahlen wissen wir, dass
* 68.27 % aller Zahlen zwischen -1 und 1 liegen,
* 95.45 % aller Zahlen zwischen -2 und 2 liegen und
* 99.73 % aller Zahlen zwischen -3 und 3 liegen.
Wenn wir jetzt 100 Bins wählen, wird eine Bin ca. 0.06 breit sein. Wir tragen jetzt die Anzahl der x, die in eine Bin fällt, im Histogram auf:

In [None]:
# fix random seed and draw N = 10000 normally distributed random numbers
N = 10000
rand = np.random.RandomState(0)
x = rand.randn(N)

# plot histogram with 100 bins
fig, ax = plt.subplots()
ax.hist(x, bins=100);

Ändern Sie bitte in der folgenden Code-Zelle die Anzahl der Zufallszahlen. Probieren Sie z.B. N = 10, 100, 1000 oder 100000000 aus. Ab wann erkennen Sie die Gauß-Kurve? Gibt es eine Anzahl N von Punkten, ab der sich die Kurve nicht mehr ändert?

In [None]:
# variation of N
N = 10
rand = np.random.RandomState(0)
x = rand.randn(N)

# plot histogram with 100 bins
fig, ax = plt.subplots()
ax.hist(x, bins=100);

In der Praxis ist es nicht so einfach, die Anzahl der Daten zu vergrößern. Daher probieren wir als nächstes das Umgekehrte. Wir bleiben bei $N=1000$ Zufallszahlen, aber spielen mit der Anzahl der Bins und der Bingröße herum. Verändern Sie die Anzahl der Bins von 6, 10, 50, 100, 250, 1000, 10000. Was beobachten Sie?

In [None]:
# fixed N = 1000
N = 1000
rand = np.random.RandomState(0)
x = rand.randn(N)

# variation of bins 
number_bins = 6
fig, ax = plt.subplots()
ax.hist(x, bins=number_bins);

**Mini-Übung**   
Lesen Sie die mit ausgelieferte Datei <kbd>data_airbnb_berlin.csv</kbd> ein, die ursprünglich aus dem Kaggle-Datensatz <a href="https://www.kaggle.com/brittabettendorf/berlin-airbnb-data">https://www.kaggle.com/brittabettendorf/berlin-airbnb-data</a> stammt.
<ul>
    <li>Verschaffen Sie sich einen ersten Überblick. Was enthält die Datei für Daten?</li>
    <li>In welcher Spalte stehen die Preise?</li>
    <li>Welches ist der minimale Preis, was muss maximal bezahlt werden?</li>
    <li>Erzeugen Sie ein Histogramm der Preise mit der Standardeinstellung <kbd>bins=10</kbd>. Was fällt Ihnen auf?</li>
    <li>Was könnten sinnvolle Intervalle sein? Teilen Sie den Datensatz in zwei Datensätzen bei einer plausiblem Preisgrenze. Visualisieren Sie beide Datensätze getrennt mit einer passenden Bin-Einteilung. Versehen Sie beide Histogramme mit Achsen- und Titelbeschriftungen.</li>
</ul>
</div>

In [None]:
# Hier Ihr Code


# Aufgaben zur Vertiefung



<div class="alert alert-block alert-success"><b>Aufgabe 8.1</b></br>
Laden Sie die Datei spotify.csv aus dem part08_data. Die Datei enthält die Anzahl von Streams ausgewählter Songs. Beantworten Sie anhand dieses Datensatzes folgende Fragen:
<li>Was enthält die Tabelle an Daten genau? Wie lautet der Zeilenindex (index) und wie die Spaltennamen (columns)?</li>
<li>Welcher Zeitraum wird abgedeckt?</li>
<li>Filtern Sie Daten eines Monats heraus, den Monat dürfen Sie sich aussuchen.</li>
<li>Bilden Sie von den Streams die Mittelwerte der Songs. Welcher Song wurde im Mittel in diesem Monat am häufigsten gestreamt?</li>     
<li>Visualisieren Sie die Streams pro Tag in diesem Monat. Was fällt Ihnen auf?</li>
</div>



<div class="alert alert-block alert-success"><b>Aufgabe 8.2</b></br>
Laden Sie die Datei drinks.csv aus dem part08_data (Quelle: https://www.kaggle.com/mysarahmadbhat/alcohol-consumption). Die Datei enthält die Anzahl von Streams ausgewählter Songs. Beantworten Sie anhand dieses Datensatzes folgende Fragen:
<li>Was enthält die Tabelle an Daten genau? Wie lautet der Zeilenindex (index) und wie die Spaltennamen (columns)? Wie viele Einträge gibt es?</li>
<li>Wie oft wird durchschnittlich pro Jahr Bier, Spirituosen oder Wein serviert?</li>
<li>Wie viele Liter puren Alkohol wird durchschnittlich getrunken?</li>
<li>In welchem Land wird am wenigsten Alkohol getrunken, in welchem am meisten?</li>    
<li>In welchem Land wird am wenigsten Bier getrunken, in welchem am meisten? Wie sieht es mit Wein und Spirituosen aus?</li>
<li>Listen Sie die Ländern auf, in denen weniger als 25 % der durchschnittlichen Alkoholmenge getrunken? </li>
<li>Suchen Sie sich 10 Länder aus und filtern Sie den Datensatz nach diesen Ländern. Visualisieren Sie anschließend Bier-, Spirituosen-, Wein in einem Plot und Gesamtmenge an Alkohol rechts daneben. Führen Sie passende Beschriftungen ein.</li>
</div>

