# Daten visualisieren

Ab eine gewissen Datenmenge und Datenkomplexität, sind diese ohne grafische Visualisierungen nur schwer oder gar nicht zu verstehen. Python bietet eine Reihe von Visualisierungsbibliotheken, von denen wir wir uns zwei in aller Kürze ansehen werden. Es sollte klar sein, dass wir dabei nur die absoluten Grundlagen behandeln können. Die einzelnen Bibliotheken bieten noch viel mehr Möglichkeiten. Wir beginnen mit der bekanntesten Bibliothek 'matplotlib' und sehen uns danach die Möglichkeiten an, die Pandas selbt bietet (wobei Pandas im Hintergrund natürlich andere Bibliotheken nutzt).

## matplotlib - Diagrammtypen

Im Folgenden finden Sie ein paar einfache Beispiele mit [matplotlib](https://matplotlib.org/), die v.a. jenen helfen sollen, die noch wenig Erfahrung mit der Visualisierung mit Python und *matplotlib* haben.

### Balkendigramme
<a class="anchor" id="balkendiagramme"></a>

Balkendiagramme sind eine häufig verwendet Art von Diagrammen. Man sieht sie etwa bei der Darstellung von Umfragen im Netz, in Zeitungen und Zeitschriften. In einem Balkendiagramm werden waagrechte Rechtecke (Balken) auf der y-Achse dargestellt (`matplotlib.pyplot.bar`) (oder gekippt auf der x-Achse mit `matplotlib.pyplot.barh`). Jeder Balken repräsentiert eine bestimmte Kategorie, und seine Höhe steht für den Wert oder die Häufigkeit, die mit dieser Kategorie verbunden ist. Beispiele sind:
- Prüfungsresultate (wie oft wurde jede Note vergeben)
- Wahlergebnisse

Hinweis: Falls die folgende Codezelle einen Fehler verursacht, müssen Sie `matplotlib` noch installieren. Geben Sie dazu entweder auf der Kommandozeile diesen Befehl ein:
`pip install matplotlib` oder verwenden Sie ein Jupyter Magic in einer Codezelle: `%pip install matplotlib`.

In [None]:
# uncomment the next line to install matplotlib if necessary
# %pip install matplotlib  
import matplotlib.pyplot as plt
# show generated diagrams inline in the notebook
%matplotlib inline  

Erzeugen wir zunächst ein paar Beispieldaten in Form von zwei Listen: `books` sind 5 Buchtitel, `sales` sind die Verkaufszahlen für diese Bücher.

In [None]:
books = ['Don Quijote', 'Decameron', 'Mephisto', 'Die Pest', 'Die Kapuzinergruft']
sales = [10, 12, 15, 11, 12]

Erzeugen wir nun das einfachste Balkendiagramm:

In [None]:
plt.bar(books, sales)

Fügen wir nun noch ein paar Beschriftungen ein, um das Diagramm besser verständlich zu machen:

In [None]:
plt.bar(books, sales)
plt.title('Weltliteratur')
plt.ylabel('in Mio.')
plt.show()

Bei Bedarf können wir das Diagramm auch um 90 Grad drehen. Wir verwenden statt der `bar()` Funktion nun `barh()` (horizontal bar).

In [None]:
plt.barh(books, sales)
plt.title('Weltliteratur')
plt.xlabel('in Mio.')

Mit einem einfachen `plt.savefig('balkendiagramm_horizontal.jpg')` können wir bei Bedarf das Diagramm nach seiner Erzeugung auch ein eine externe Datei speichern:

In [None]:
plt.barh(books, sales)
plt.title('Weltliteratur')
plt.xlabel('in Mio.')
plt.savefig('../output/balkendiagramm_horizontal.jpg')

### Einfaches Liniendiagramm
<a class="anchor" id="liniendiagramme"></a>

Ein Liniendiagramm zeigt die Veränderungen einer stetigen Variable im Zeitverlauf. Dabei wird die Zeit auf der x-Achse dargestellt, und die stetige Variable (z. B. Gewicht, Temperatur) auf der y-Achse. Einfache Beispiele wären: 
- Gewichtsveränderung über Monate
- das BIP pro Jahr
- Besucherzahlen

Erzeugen wir zuerst wieder ein paar Beispieldaten. Wir haben einige Jahre und die nach Land organisierten Besucherzahlen für diese Jahre:

In [None]:
years = ['2020', '2021', '2022', '2023', '2024']
austria = [3486, 3665, 3317, 3499, 3546]
germany = [3376, 3799, 3414, 3552, 3472]
italy = [3564, 3533, 3517, 3225, 3326]

Dann zeichnen wir für jedes Land eine Linie in einer unterschiedlichen Farbe:

In [None]:
plt.plot(years, austria, color='red', marker='o', linestyle='solid', label="Österreich")
plt.plot(years, germany, color='blue', marker='o', linestyle='solid', label="Deutschland")
plt.plot(years, italy, color='green', marker='o', linestyle='solid', label="Italien")
plt.title('Besucher pro Jahr')
plt.xlabel('Jahr')
plt.ylabel('Besucher')
plt.legend(loc="upper right")
plt.show()

Wir haben nun ein paar zusätzliche Argumente an die `plot()` Funktion übergeben:

  * `color=` legt die Farbe der Linie fest. Sie können vordefinierte Farben verwenden oder z.B. RGB-Werte. Details dazu finden Sie hier: 
    https://matplotlib.org/stable/users/explain/colors/colors.html#colors-def
  * `marker=` legt fest, wie die einzelnen Punkte markiert werden. Hier verwenden wir 'o', also Kreise. Weiter
     Möglichkeiten wären etwa 's' für 'square' oder 'X' für ein 'x'. Details hier:
     https://matplotlib.org/stable/api/_as_gen/matplotlib.markers.MarkerStyle.html#matplotlib.markers.MarkerStyle
  * `linestyle=`  legt die Art der Line fest. Häufige Werte sind `solid`, '--', oder ':'. Alle möglichen Styles finden Sie hier:
    https://matplotlib.org/stable/api/_as_gen/matplotlib.lines.Line2D.html#matplotlib.lines.Line2D.set_linestyle
  * `label=` legt die Bezeichnung in der Legende fest

### Histogramm
<a class="anchor" id="histogramme"></a>

Ein Histogramm ist eine grafische Darstellungsform, in der die absolute oder relative Häufigkeitsverteilung eines in Klassen eingeteilten Datensatzes in einem speziellen Säulendiagramm veranschaulicht wird. Einfache Beispiele wären:
- die Altersverteilung einer Gruppe
- Verkaufszahlen für verschiedene Produkte

Wir erzeugen zuerst wieder Daten (`ages`). Das sind z.B. die Altersangaben die Besucher bei einer Veranstaltung gemacht haben.

In [None]:
ages = [
    47, 18, 69, 50, 45, 34, 27, 44, 58, 35, 36, 45, 31, 36, 32, 40, 65,
    73, 30, 58, 33, 35, 54, 34, 31, 38, 20, 53, 28, 41, 37, 66, 23,76, 
    25, 78, 41, 58, 63, 41, 17, 82, 49, 52, 20, 75, 20, 88, 23, 21, 28, 
    51, 29, 11
]

Die beste Art so etwas wie die Altersverteilung darzustellen, ist ein Histogramm. `matplotlib.pyplot` stellt dafür eine eigene Funktion bereit: `hist()`. Dieser übergeben wir die Daten (also die Liste der Altersangaben und legen fest, in wie viele 'Bins', also Intervalle die Daten aufgeteilt werden sollen. Beginnen wir einmal mit 10 Bins. Wir teilen also alle Altersangaben in 10 gleich breite Altersklassen auf:

In [None]:
plt.hist(ages, bins=10)

Wir können die Datstellung verbessern, indem wir den Balken einen Rahmen geben:

In [None]:
plt.hist(ages, bins=10, edgecolor='black')

Je mehr Bins wir erzeugen, desto schmäler werden die zusammengefassten Wertbereiche:

In [None]:
plt.hist(ages, bins=20, edgecolor='black')
plt.title('Altersklassen der Besucher')
plt.xlabel('Alter')
plt.ylabel('Anzahl Besucher')

### Scatterplot
<a class="anchor" id="scatterplot"></a>

Ein Scatterplot ist eine grafische Darstellung, bei der Punkte im Koordinatensystem platziert werden. Jeder Punkt repräsentiert ein **Wertepaar zweier Variablen** – eine auf der x-Achse und eine auf der y-Achse. Beispiele wären:
- Körpermasseindex (BMI) **und** Fettanteil
- Anzahl von Freunden **und** verbrachte Zeit in Minuten in sozialen Medien

In [None]:
friends = [70, 65, 72, 63, 71, 67, 60, 62]
minutes = [172, 170, 205, 120, 210, 140, 105, 145]
labels = ['Anna', 'Berthold', 'Claudia', 'Detlef', 'Erika', 'Franz', 'Gisela', 'Henriette']  # z.B. Display Namen

In [None]:
plt.scatter(friends, minutes)

# Jeden Punkt beschriften
for label, friend_count, minute_count in zip(labels, friends, minutes):
    plt.annotate(label,  # Name der Person
                xy=(friend_count, minute_count), # Position des zu annotierenden Datenpunkts
                xytext=(8, -4), # offset für den Text: 8 Punkte nach rechts 4 Punkte nach unten
                textcoords='offset points')  # offset relativ zum Datenpunkt 
    
plt.title('Minuten täglich / Anzahl von Freunden')
plt.xlabel('Anzahl Freunde')
plt.ylabel('verbrachte Zeit in Minuten')

Das ist jetzt so zu interpretieren, dass z.B. Gisela nur wenig Zeit mit sozialen Medien vergeudet, aber dafür auch nur relativ wenige Online-Freunde hat. Erika und Claudia hingegeben führen bei der Zahl der Freund und der Zeit, die sie im Netz verbringen. Scatterplots sind also ein sehr guter Weg, Zusammenhänge zu visualisieren.

### Boxplots
<a class="anchor" id="violinplots"></a>

Ein Boxplot ist ein Diagramm, das die wichtigsten robusten Lage- und Streuungsmaße übersichtlich darstellt. Es zeigt das **Minimum**, das **untere Quartil**, den **Median**, das **obere Quartil** und das **Maximum** (vgl. dazu auch *describe*-Methode von *pandas DataFrames*). Es geht also darum, zu zeigen, in welchem Bereich die Daten liegen und wie sie sich verteilen.

Beispiele sind:
- Gehaltsverteilung
- Temperaturverlauf
- Verkaufszahlen für verschiedene Produktkategorien

In [None]:
temperatures = [ -3, 1, -2, -3, 1, 5, 0, 4, 3, 12, 9, 10, 3, 2]
plt.boxplot(temperatures)

Die Visualisierung ist nun so zu interpretieren:

  *  Die *Box* wird oben und unten begrenzt durch das obere und untere Quartil. Das ist also der
     Bereich, in dem 50% der Daten liegen.
  *  Der farbige, horizontale Strich ist der Median. Liegt dieser relativ mittig, hat man eine
     symetrische Verteilung, ist er nach oben oder unten verschoben, ist die
     Verteilung asymetrisch.
  *  Oben und unten ragen die so genannten *Antennen* heraus. Sie kennzeichnen die Werte, die
     außerhalb der 50 Prozent liegen, also unterhalb der ersten Quartils und oberhalb des
     dritten Quartils (oder trivial gesagt: die ersten 25% der Werte und dier letzten 25% der Werte).
     Häufig werden hier nur Werte berückichtigt, die in dem Bereich liegen, der dem 1,5-fachen des
     Interquartilsabstands (IQA) entspricht, als dem Abstand im Kasten (25 bis 75% der Werte). 
  * Außerhalb der Antennen liegende Daten werden als "Ausreißer" in Punktform eingezeichnet.
  

Besonders gut geeignet sind Boxplots, um unterschiedliche Datensätze zu vergleichen. Verwenden wir dazu als Beispiel die Temperaturen aus drei Jahren.

In [None]:
temperatures_2023 = [ -3, 1, -2, -3, 1, 5, 0, 4, 3, 12, 9, 10, 3, 2]
temperatures_2024 = [ -5, -5, -3, -4, -2, 0, 1, 2, 2, 0, 2, 8, 1, 2]
temperatures_2025 = [ 3, 2, 4, 6, 5, 2, 1, -2, -5, -8, -1, 2, 2, 0]
plt.boxplot([temperatures_2023, temperatures_2024, temperatures_2025])

Machen wie das Diagramm etwas besser lesbar:

In [None]:
plt.boxplot([temperatures_2023, temperatures_2024, temperatures_2025])
plt.grid(axis="y")
plt.ylabel("Grad Celsius")
plt.xticks([1, 2, 3], ['2023', '2024', '2025'])
plt.xlabel("Jahr")

### Weitere Möglichkeiten

Was wir hier gesehen haben, war nur ein kleine Ausschnitt dessen, was man mit Matplotlib machen kann.  Ich verweise auf die Dokumentation zu Matplotlib unter
https://matplotlib.org/stable/.

Matplotlib ist die bekannteste, aber bei weitem nicht einzige Bibliothek zur Datenvisualisierung in Python. Sehr bekannt sind etwas auch [Seaborn](https://seaborn.pydata.org/), das auf Matplotlib basiert, oder [Plotly](https://plotly.com/python/). Auch Pandas bietet eigene Visualisierungen, die aber weitgehend eine etwas vereinfachte Schnittstelle zu Matplotlib darstellen. Wir sehen uns im nächsten Abschnitt ein paar Beispiele an.

Sehr interessant ist auch die [Python Graph Gallery](https://python-graph-gallery.com/all-charts/), wo sich hunderte Beispiele für Visualisierungen mit Python finden.


## Daten direkt mit Pandas visualisieren

Pandas stellt einige auf Matplotlib basierende Diagrammtypen bereit. Der Hauptunterschied ist, dass die Pandas-Visualisierungen direkt mit den Pandas Typen (z.B. DataFrame) umgeen können. Auch die Bedienung ist in der Regel etwas einfacher (und dafür weniger mächtig) als direkt mit Matplotlib. Wir gehen hier nur einige wenige Beispiel durch. Die Dokumentation finden sie unter 
https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html.

### Ein Series Objekt als Liniendiagramm

In [None]:
import random
import pandas as pd

# generate 100 random integers in the range from 1 to 200
values = random.sample(range(1, 200), 100)
ser = pd.Series(values)

# now we plot the Series
ser.plot()

Aus einem DataFrame können wir mehrere Linien generieren.

In [None]:
# Generate 3 times 10 random numbers between 1 and 40
s1 = random.sample(range(1, 40), 10)
s2 = random.sample(range(1, 40), 10)
s3 = random.sample(range(1, 40), 10)
df = pd.DataFrame({
    "Tag 1": s1,
    "Tag 2": s2,
    "Tag 3": s3
})
df.plot(ylabel="Temperaturen", xlabel="Messungen")


### Boxplot

Erzeugen wir zwei Datenreihen, die sich nur durch den letzten Wert unterscheiden:

In [None]:
import pandas as pd
df = pd.DataFrame({
    'Datenreihe_1': [1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5],
    'Datenreihe_2': [1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 5, 5, 10]
                  })

In [None]:
df.describe()

In [None]:
df.boxplot()

## Lizenz

This notebook is based on a notebook created by Fabio Tosques part of the course [Grundlagen der Programmierung](https://github.com/gvasold/gdp) held by [Gunter Vasold](https://online.uni-graz.at/kfu_online/wbForschungsportal.cbShowPortal?pPersonNr=51488) at Graz University 2017&thinsp;ff. 

<p>
    It is licensed under <a href="https://creativecommons.org/licenses/by-nc-sa/4.0">CC BY-NC-SA 4.0</a>
</p>

<table>
    <tr>
    <td>
        <img style="height:22px" 
             src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1"/></li>
    </td>
    <td>
    <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/nc.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
             src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1" /></li>
    </td>
</tr>
</table>