<a href="https://colab.research.google.com/github/AlexKressner/Logistik_Data_Analyst/blob/main/G1_Matplotlib_Data_Visualization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Übersicht
1. [Indexing und Slicing von DataFrames](#slicing_indexing)
    1. [Erstes Arbeiten mit Indizes](#einführung_indizes)
    1. [Slicing](#slicing)
1. [Datenvisualisierung](#datenvisualisierung)
    1. [Erste einfache Visualisierungsformen](#erste_visualisierungen)
        1. [Histogramm](#einführung_hist)
        1. [Säulendiagramm](#einführung_bar)
        1. [Liniendiagramm](#einführung_line)
    1. [Weitere nützliche Funktionen](#weitere_funktionen)
    1. [Exkurs: Umgang mit fehlenden Daten](#missing)
    1. [Deep Dive Datenvisualisierung](#deep_dive)
        1. [Anpassen von Grafikelementen](#grafik_elemente)
        1. [Weitere Abbildungsformen](#weitere_abbildungen)
        1. [Weitere Packages zur Visualisierung](#vis_bib)
        1. [Abbildungen speichern](#vis_speichern)

# Übungsaufgaben
- [Visualisierung - Verkaufszahlen Walmart](#walmart)
- [Visualisierung - Fifa Worldcup](#fifa)
- [Visualisierung - Sales-Report](#report)

# 1. Indexing und Slicing von DataFrames <a class="anchor" id="slicing_indexing"></a>
Wir laden erneut die Tabelle der Fussballbundesliga und betrachten noch einmal die drei Elemente eines pandas DataFrames:

In [None]:
# import pandas
import pandas as pd

In [None]:
tabelle = [
    [1, "Bayern", 28, 21, 3, 4, 85, 29, 56, 66],
    [2, "Dortmund", 28, 18, 3, 7, 68, 42, 26, 57],
    [3, "Leverkusen", 28, 15, 6, 7, 68, 42, 26, 51],
    [4, "RB Leipzig", 28, 14, 6, 8, 61, 31, 30, 48],
    [5, "Freiburg", 28, 12, 9, 7, 44, 33, 11, 45],
    [6, "Hoffenheim", 28, 13, 5, 10, 50, 42, 8, 44],
]

In [None]:
spalten_namen = [
    "Rang", "Mannschaft", "Spiele", "Siege", 
    "Unentschieden", "Niederlagen", 
    "Tore_+", "Tore_-", "Tordifferenz", 
    "Punkte"
]

In [None]:
tabelle = pd.DataFrame(tabelle, columns=spalten_namen)
tabelle

**1. Werte in der Tabelle:** Hierbei handelt es sich um die eigentlichen Daten, die in den Zeilen und Spalten stehen.

In [None]:
tabelle.values

**2. Spalten:** 

In [None]:
tabelle.columns

**3. Indizes:**

In [None]:
tabelle.index

## 1.1 Arbeiten mit Indizes <a class="anchor" id="einführung_indizes"></a>
Wir werden uns in diesem Kapitel nur kurz mit der Funktionsweise von Indizes befassen. Dies hat insbesondere einen Grund: Das Arbeiten mit Indizes zum Filern/Ausschneiden von Elementen eines DataFrames folgt einer Syntax, die ihre eigenen Besonderheiten hat. Letztendlich können Sie aber mit den Ihnen aus dem Kapitel **Subsetting** bekannten Methoden die gleichen Ergebnisse erzielen. 

Mit der Methode `.set_index()` setzen Sie einen Index für den DataFrame.

In [None]:
tabelle_indexed = tabelle.set_index("Mannschaft")
tabelle_indexed.index

Wenn Sie nun die Tabelle `tabelle` mit der Tabelle `tabelle_indexed` vergleichen und auf die Indizes achten, erkennen Sie einen Unterschied: Bei der ersten Tabelle (`tabelle`) wurde automatisch ein numerischer Index `0-5` (ohne Name) vergeben. Bei der zweiten Tabelle (`tabelle_indexed`) haben Sie nun explizit einen Index (`Mannschaft`) definiert. Dementsprechend sehen Sie nun die einzelnen Mannschaften als Indexwerte.

In [None]:
tabelle_indexed

**Frage:** Können Sie erklären, wie das Ergebnis der nachfolgenden Code-Zelle zustande kommt? Schauen Sie sich das Ergebnis von `tabelle_indexed.sort_index()` an und überlegen Sie wie der Aufruf `.loc[]` wirkt!

In [None]:
tabelle_indexed.sort_index().loc["Dortmund":"Hoffenheim"]

Mit der Methode `.reset_index()` setzen Sie den Index wieder zurück! Diese Methode werden Sie noch mehrfach nutzen!

In [None]:
tabelle_indexed.reset_index()

**Frage:** Was passiert wenn Sie bei der Methode `.reset_index()` das Argument `drop=True` übergeben?

## 1.2 Slicing <a class="anchor" id="slicing"></a>
Mithilfe von Slicing erhalten Sie "Ausschnitte" eines DataFrames (vgl. Subsetting vorherige Vorlesung). Wir gehen hier kurz auf weitere noch nicht behandelte Methoden für das Slicing ein.

**Slicing bei Listen**

In [None]:
l = [10,15,20,25,30,35]

In [None]:
l[1], l[2:], l[2:4]

**Slicing bei DataFrames**

In [None]:
tabelle[:2]

In [None]:
tabelle[1:3][["Rang","Mannschaft"]]

In [None]:
tabelle[0][["Rang","Mannschaft"]]

**Slicing von DataFrames mit `.iloc[]`**

**Frage:** Wie erklären Sie sich die Ausgabe der nachfolgenden Code-Zelle?

In [None]:
tabelle.iloc[0:2,:2]

In [None]:
tabelle.iloc[0,:2]

# 2. Datenvisualisierung <a class="anchor" id="visualisierung"></a>
Für die Visualisierung nutzen wir das Package `matplotlib` und die Funktionalitäten rundum `pyplot`. Dazu importieren wir zunächst das Package (ggf. müssen Sie dieses noch mithilfe von `pip3 install matplotlib` installieren). Es ist üblich `matplotlib.pyplot` als `plt` zu importieren.

In [None]:
import matplotlib.pyplot as plt

## 2.1 Erste einfache Visualisierungsformen <a class="anchor" id="erste_visualisierungen"></a>
Wir laden erneut den [Fifa World Cup](https://www.kaggle.com/datasets/abecklas/fifa-world-cup) Datensatzes aus einer csv-Datei. Anschließend wenden wir die `.plot()` Methode auf diesen DataFrame an. Über das Argument `kind` kann z.B. gesteuert werden, welche Art von Diagramm erzeugt wird. 

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
data = pd.read_csv("/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenvisualisierung_mit_Matplotlib/WorldCupMatches.txt")
data = data.astype({"Datetime": "M", "RoundID": "O", "MatchID": "O"}, errors='raise') 
data.dropna(inplace=True)

In [None]:
data.head()

### 2.1.1 Histogramm <a class="anchor" id="einführung_hist"></a>
Ein Histogramm ist eine grafische Darstellung der Häufigkeitsverteilung kardinal skalierter Merkmale. Es erfordert die Einteilung der Daten in Klassen (englisch bins), die eine konstante oder variable Breite haben können. Es werden direkt nebeneinanderliegende Rechtecke von der Breite der jeweiligen Klasse gezeichnet, deren Flächeninhalte die (relativen oder absoluten) Klassenhäufigkeiten darstellen. Die Höhe jedes Rechtecks stellt dann die (relative oder absolute) Häufigkeitsdichte dar, also die (relative oder absolute) Häufigkeit dividiert durch die Breite der entsprechenden Klasse. (Quelle: Wikipedia)

In [None]:
data["Attendance"].plot(kind="hist")
plt.show()

Mit dem Argument `bins` geben Sie an, in wie viele verschiedene Klassen die Daten eingeteilt werden. **Frage:** Was ist der Default-Wert für `bins`, d.h. wenn kein Argument beim Aufruf der Methode `.plot()` übergeben wird?

In [None]:
data["Attendance"].plot(kind="hist", bins=100)
plt.show()

### 2.1.2 Säulendiagramm <a class="anchor" id="einführung_bar"></a>
Das Säulendiagramm, bei schmalen Säulen auch Stabdiagramm genannt, ist ein Diagramm zur vergleichenden Darstellung, das durch auf der x-Achse senkrecht stehende, nicht aneinandergrenzende Säulen (Rechtecke mit bedeutungsloser Breite) die Häufigkeitsverteilung einer diskreten (Zufalls-)Variablen veranschaulicht. Das Säulendiagramm eignet sich besonders, um wenige Ausprägungen (bis ca. 15) zu veranschaulichen.(Quelle: Wikipedia)

In [None]:
mean_attendance_by_year = data.groupby("Year")["Attendance"].mean()

In [None]:
mean_attendance_by_year.plot(kind="bar", grid=True)
plt.show()

In [None]:
mean_attendance_by_year.plot(kind="bar", 
                             title="Mittlere Anzahl von Zuschauern",
                             xlabel="Jahr",
                             ylabel="Zuschauer"
                            )
plt.show()

### 2.1.3 Liniendiagramm <a class="anchor" id="einführung_line"></a>
Ein Liniendiagramm, auch Kurvendiagramm, ist die graphische Darstellung des funktionellen Zusammenhangs zweier (bei zweidimensionaler Darstellung) oder dreier (bei dreidimensionaler Darstellung) Merkmale als Diagramm in Linienform, wodurch Veränderungen bzw. Entwicklungen (etwa innerhalb eines bestimmten Zeitabschnitts) dargestellt werden können. (Quelle: Wikipedia)

**Frage:** Wie ist das Ergebnis der nachfolgenden Code-Zelle zu verstehen?

In [None]:
data.groupby("Year").size()

In [None]:
spiele = data.groupby("Year").size().reset_index()
spiele.head(3)

Mit der Methode `.rename()` können Sie beispielsweise die Namen von Spalten eines Dataframes ändern. Die Systematik ist die folgende: `"alter Spaltenname":"neuer Spaltenname"`!

In [None]:
spiele.rename(columns={"Year":"Jahr",0:"Spiele"}, inplace=True)

In [None]:
spiele.plot(kind="line",
            x="Jahr",
            y="Spiele"
            )
plt.show()

Liniendiagramm mit Rotation der x-Achse um 45 Grad (`rot=45`) und Anzeige sämtlicher Jahre, in denen Weltmeisterschaften gespielt wurden. Für letzteres nutzen Sie den Parameter `xticks`. Dieser erwartet eine Liste, die alle auf der x-Achse anzuzeigenden Elemente enthält. Mit dem Aufruf `data.Year.unique()` erhalten wir genau eine Liste, die alle Jahre an denen Weltmeisterschaften gespielt wurde.

In [None]:
spiele.plot(kind="line",
            x="Jahr",
            y="Spiele",
            rot=45,
            xticks=data.Year.unique(),
            legend=False
            )
plt.show()

## 2.2 Weitere nützliche Funktionalitäten <a class="anchor" id="weitere_funktionen"></a>



In [None]:
# Hinzufügen einer Legende
data[data.Year==2014]["Attendance"].plot(kind="hist")
data[data.Year==2010]["Attendance"].plot(kind="hist")
plt.legend(["Zuschauer 2014","Zuschauer 2010"])
plt.show()

In [None]:
# Transparenz
data[data.Year==2014]["Attendance"].plot(kind="hist", alpha=0.7, bins=20)
data[data.Year==2010]["Attendance"].plot(kind="hist", alpha=0.7, bins=20)
plt.legend(["Zuschauer 2014","Zuschauer 2010"])
plt.show()

In [None]:
# Veränderung der Diagrammgröße
data[data.Year==2014]["Attendance"].plot(kind="hist", figsize=(7.5,5))
plt.show()

### Aufgabe: Visualisierungen - Verkaufszahlen Walmart <a class="anchor" id="walmart"></a>

Sie erhalten einen Datensatz der Einzelhandelskette Walmart (Auszug aus diesem [Datensatz](https://www.kaggle.com/competitions/walmart-recruiting-store-sales-forecasting/data)). Dieser enthält Verkaufszahlen für jeden Laden (`store`) mit seinen verschiedenen Kategorien (`department`), z.B. Gemüse oder Tiefkühlware. Die wöchentlichen Verkaufszahlen (`weekly_sales`) sind in Dollar angegeben. Der jeweilige Freitag einer Woche ist über die Spalte `date` gekennzeichnet. Die Spalten `is_holiday`, `temperature_c`, `fuel_price_usd_per_l`und `unemployment` enthalten weitere Informationen, die für diese Woche aufgenommen wurden und vermutlich einen Einfluss auf die Verkaufszahlen haben. Wir laden zunächst wieder die Daten:

In [None]:
df = pd.read_csv("/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenvisualisierung_mit_Matplotlib/sales_data.txt", index_col=0)
# Löschen der Spalte "type". "inplace=True" ist gleichbedeutend mit "df = df.drop(columns=["type"])"
df.drop(columns=["type"], inplace=True)
# Transformation der Datentypen
df = df.astype({"store":"O", "department":"O", "date":"M"})
df.head()

Bitte berarbeiten Sie nun die folgenden Aufgaben:
1. Erstellen Sie ein Histogramm, welches die gesamten wöchentlichen Verkaufszahlen zeigt!
1. In den Daten sehen Sie auch den Kraftstoffpreis (Dollar/l). Dieser wird individuell je Store und Woche berechnet und ergibt sich aus den Kraftstoffpreise naheliegender Tankstellen. Ermitteln Sie den durchschnittlichen wöchentlichen Kraftstoffpreis (Dollar/l) über alle Stores und tragen Sie diesen in einem Liniendiagramm ab (x-Achse: Wochen mit aufsteigender Sortierung, y-Achse: Kraftstoffpreis). Sie müssen dazu auf die Methode `groupby()` zurückgreifen. Schauen Sie sich bitte auch nochmals die Verwendung der `reset_index()` Methode an, die wir bei der Erstellung von [Liniendiagrammen](#einführung_line) benutzt haben.
1. Vergleichen Sie die wöchentlichen Verkaufszahlen von Store 14 und 19 mit zwei Histogrammen. Passen Sie bitte die Größe des Diagramm für eine bessere Lesbarkeit an!
1. Welcher Store hatte im Betrachtungszeitraum die besten Verkaufszahlen?
1. Stellen Sie für diesen Store die durchschnittlichen Verkaufzahlen für 10 umsatzstärksten Abteilungen (`department`) in einem Säulendiagramm dar!

## 2.3 Exkurs: Umgang mit fehlenden Daten <a class="anchor" id="missing"></a>
In realen Datensätzen werden Sie regelmäßig mit fehlenden Daten zu tun haben. Pandas stellt diverse Methoden zur Verfügung um Datensätze zu bereinigen. Diese schauen wir uns in einem Überblick kurz an!

In [None]:
data = pd.read_csv("/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenvisualisierung_mit_Matplotlib/beispiel_fehlende_daten.txt",index_col=0)
data

Sie sehen in der Tabelle in den Spalten `weekly_sales` und `temperature_c` Zellen mit dem Wert `NaN`. Über `NaN = Not a Number` wird das Fehlen eines Wertes angezeigt. Mit der Funktion `isna()` können Sie prüfen, ob ein Wert fehlt. Ist ein Wert fehlend, wird der boolsche Ausdruck `true` zurückgegeben.

In [None]:
data.isna()

In [None]:
# In welchen Spalten gibt es fehlende Werte
data.isna().any()

**Frage:** Bitte erläutern Sie, wie die nachfolgende Ausgabe zustande kommt! Wie ist das Zusammenspiel der Funktion `.isna()` mit der Funktion `.sum()`?

In [None]:
# Wie viele fehlende Werte gibt es in einer Spalte
data.isna().sum()

Haben Sie fehlende Werte in Spalten identifiziert, müssen Sie entscheiden wie Sie mit diesen weiter verfahren wollen. Sie haben die Möglichkeit Zeilen mit fehlenden Werten zu löschen (`drop_na()`) oder die fehlenden Werte zu ersetzen (`fillna()`).

In [None]:
#Zeilen mit fehleden Werten löschen
data.dropna()

**Frage:** Was passiert, wenn Sie das Argument `inplace` beim Aufruf von `drop_na()` gleich `True` setzen?

In [None]:
#Auffüllen fehlender Werte mit 0
data.fillna(0)

**Frage:** Wie werden die fehlenden Werte bei den folgenden Aufrufen aufgefüllt?

In [None]:
data.fillna(method="bfill")

In [None]:
data.fillna(method="ffill")

In [None]:
data["weekly_sales"] = data["weekly_sales"].fillna(data["weekly_sales"].mean())
data

**Frage:** Wie ersetzen Sie die fehlenden Werte bei der Temperatur durch den Median?

## 2.4 Deep Dive Datenvisualisierung <a class="anchor" id="deep_dive"></a>
Wir haben in [Kapitel 2.1](#erste_visualisierungen) erste Visualisierungen erstellt. In den folgenden Unterkapiteln werden wir sehen, wie sich jedes einzelne Elemente einer Grafik individuell anpassen lässt. Um dies zu erreichen, müssen wir mit den einzelnen Objekten einer Grafik interagieren. Dies sind `fig` (Objekt, welches die eigentlich Grafik darstellt) und `ax` (Objekt, welches die Daten enthält, die gezeichnet werden sollen):

In [None]:
fig, ax = plt.subplots()
# Zeigt die Grafik ohne Daten
plt.show()

Wir laden an dieser Stelle die Daten, die wir anschließend plotten. Es handelt sich um historische Aktienkurse zu den Unternehmen Tesla, BMW und Volkswagen. Diese können Sie beispielweise unter https://de.finance.yahoo.com laden.

In [None]:
data = pd.read_csv("/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenvisualisierung_mit_Matplotlib/aktienkurse_vw_tesla_bmw.txt", index_col=0)
data.head()

In [None]:
# Wir wählen nur die ersten 5 Zeilen des DataFrame mit Filterung auf "Tesla"
tesla = data[data.Name=="Tesla"][0:5]

In [None]:
fig, ax = plt.subplots()
ax.plot(tesla["Date"],
        tesla["Close"])
plt.show()

### 2.4.1 Anpassen von Grafikelemten <a class="anchor" id="grafik_elemente"></a>

Kenntlichmachen von Datenpunkten über **Marker**. Eine komplette Übersicht zu allen unterstützten Marker-Typen finden Sie [hier](https://matplotlib.org/stable/api/markers_api.html).

In [None]:
fig, ax = plt.subplots()
ax.plot(tesla["Date"],
        tesla["Close"],
        marker="o"
       )
plt.show()

Veränderung des Linientyps mithilfe von **Linestyle**. Weitere Linientypen finden Sie [hier](https://matplotlib.org/3.0.3/gallery/lines_bars_and_markers/line_styles_reference.html)

In [None]:
fig, ax = plt.subplots()
ax.plot(tesla["Date"],
        tesla["Close"],
        marker="o",
        linestyle="--" 
       )
plt.show()

Über das Argument **Color** können Sie die Farbe wählen, in der die gezeigte Kurve abgetragen werden soll. Eine Übersicht zur Verwendung von Farben finden Sie in folgendem [Cheat Sheet](https://matplotlib.org/cheatsheets/_images/cheatsheets-2.png).

In [None]:
fig, ax = plt.subplots()
ax.plot(tesla["Date"],
        tesla["Close"],
        marker="o",
        linestyle="--",
        color="r"        
       )
ax.grid(color="k",linestyle="--", alpha=0.5)
plt.show()

Für das `ax` Objekt stehen unzählige Methoden zur Verfügung. Sehr hilfreich sind insbesondere die `.set_` Methoden zur Gestaltung einzelner Elemente einer Abbildung.

In [None]:
fig, ax = plt.subplots()
ax.plot(tesla["Date"],
        tesla["Close"]
       )
ax.set_xlabel("Datum")
ax.set_ylabel("Aktienkurs in $")
ax.set_title("Aktienkurs Tesla")
plt.show()

Die grundlegende Erscheinung von Abbildungen können Sie über die Wahl eines geeigneten Plot-Styles festlegen. Eine Übersicht zu den unterschiedlichen Styles findet sich [hier](http://tonysyu.github.io/raw_content/matplotlib-style-gallery/gallery.html). Sie können sich auch die Liste aller verfügbaren Styles durch den Aufruf `plt.style.available` anzeigen lassen. Beachten Sie, dass ein gewählter Style anschließend für alle Abbildungen angewendet wird. Über `plt.style.use('default')` wechseln Sie wieder zum ursprünglichen Style.

In [None]:
plt.style.available

In [None]:
plt.style.use('seaborn')
fig, ax = plt.subplots()
ax.plot(tesla["Date"],
        tesla["Close"]
       )
plt.show()

Über den Parameter `figsize` können Sie eingangs die Größe der angezeiten Abbildung festlegen. Zudem können Sie die Achsenbezeichnungen und die entsprechenden Formatierungen (Schriftgröße etc.) definieren.

In [None]:
fig, ax = plt.subplots(figsize=(8, 4))
ax.plot(tesla["Date"],
        tesla["Close"]
       )

ax.set_xlabel("Datum")
ax.xaxis.label.set_fontsize(18)
ax.tick_params(axis="x", labelsize=14)

ax.set_ylabel("Aktienkurs in $")
ax.yaxis.label.set_fontsize(18)
ax.tick_params(axis="y", labelsize=12)

ax.set_title("Aktienkurs Tesla")
ax.title.set_fontsize(20)
ax.title.set_fontweight("bold")

plt.show()

Sie können wir bereits im vorausgegangenen Teil gezeigt mehrere Linien in einer Abbildung abtragen. Dafür definieren Sie einfach die entsprechenden Datenobjekte. In der Abbildung unten ist zudem eine Legende und eine angepasste x-Achse eingefügt.

In [None]:
fig, ax = plt.subplots(figsize=(8, 4))

#BMW
ax.plot(
    data[data.Name=="BMW"]["Date"],
    data[data.Name=="BMW"]["Close"],
    color="b"
)
#VW
ax.plot(
    data[data.Name=="VW"]["Date"],
    data[data.Name=="VW"]["Close"],
    color="r"
)
ax.legend(["BMW","VW"]) # Hinzufügen einer Legende
ax.set_xticks(range(0, len(data[data.Name=="VW"])+1, 50)) # Es wird immer nur das 50-igste Label auf der x-Achse angezeigt
plt.show()

### 2.4.2 Weitere Abbildungsformen <a class="anchor" id="weitere_abbildungen"></a>

In [None]:
data.head()

Wir erzeugen hier drei neue DataFrames - für `BMW (bmw)`, `VW (vw)` und `Tesla (tesla)` und stellen das Handelvolumen in Mio. $ dar!

In [None]:
bmw = data[data.Name=="BMW"][0:10]
vw = data[data.Name=="VW"][0:10]
tesla = data[data.Name=="Tesla"][0:10]
bmw.Volume = bmw.Volume/1000000 * bmw.Close
vw.Volume = vw.Volume/1000000 * vw.Close
tesla.Volume = tesla.Volume/1000000 * tesla.Close

Nachfolgend erstellen wir einen sogenannten **Stacked Bar Chart**, der das Handelsvolumen je Unternehmen in einer individuellen Farbe zu einem Datum als Balkendiagramm darstellt.

In [None]:
fig, ax = plt.subplots()

# Daten
ax.bar(bmw["Date"], bmw["Volume"], label="BMW")
ax.bar(vw["Date"], vw["Volume"], bottom=bmw["Volume"], label="VW")
ax.bar(tesla["Date"], tesla["Volume"], bottom=bmw["Volume"]+vw["Volume"], label="Tesla")

# Formatierung
ax.set_xlabel("Datum")
ax.xaxis.set_tick_params(rotation=45)

ax.set_ylabel("Handelsvolumen in Mio. $")
ax.yaxis.get_major_formatter().set_scientific(False)


ax.set_title("Aktienkurs Tesla")
ax.legend()
plt.show()

**Box-Plot:** Der Box-Plot (auch Box-Whisker-Plot oder deutsch Kastengrafik) ist ein Diagramm, das zur grafischen Darstellung der Verteilung eines mindestens ordinalskalierten Merkmals verwendet wird. Es fasst dabei verschiedene robuste Streuungs- und Lagemaße in einer Darstellung zusammen. Ein Box-Plot soll schnell einen Eindruck darüber vermitteln, in welchem Bereich die Daten liegen und wie sie sich über diesen Bereich verteilen. Deshalb werden alle Werte der sogenannten Fünf-Punkte-Zusammenfassung, also der Median, die zwei Quartile und die beiden Extremwerte, dargestellt. (Quelle Wikipedia)

In [None]:
plt.style.use('seaborn-pastel')

In [None]:
fig, ax = plt.subplots()

ax.boxplot(
    [
    data[data.Name=="Tesla"]["Close"],
    data[data.Name=="BMW"]["Close"],
    data[data.Name=="VW"]["Close"],
    ],
    labels=["Tesla","BMW","VW"]
)
ax.set_title("Boxplot Aktienkurse")
plt.show()

### 2.4.3 Weitere Packages zur Visualisierung <a class="anchor" id="vis_bib"></a>

Es gibt neben matplotlib viele weitere Grafikbibliotheken. Für die Erstellung von Abbildungen ist ebenfalls das Package [seaborn](https://seaborn.pydata.org) zu empfehlen, welches auf `matplotlib` aufbaut. Bekannte Packages für die Erstellung interaktive Grafikelemente sind [plotly](https://www.google.com/search?client=safari&rls=en&q=plotly&ie=UTF-8&oe=UTF-8) oder [bokeh](https://bokeh.org). Für die Visualisierung von Geodaten eigenen sich insbesondere Bibliotheken wie [geoplot](https://residentmario.github.io/geoplot/) oder [Folium](https://python-visualization.github.io/folium/). Zu letzerer ein kleines Beispiel.

In [None]:
# Installation der Bibliothek
!pip3 install folium -q

In [None]:
import folium
from folium.plugins import MarkerCluster

In [None]:
# Definieren Sie die Koordinaten, auf die die angezeigte Karte zentriert werden soll 
boulder_coords = [48.7733, 9.1705]

# Erstellen der Karte
my_map = folium.Map(location = boulder_coords, zoom_start = 17)

# Definition der anzuzeigenden Orte
DHBW_Stuttgart_P50 = [48.77339899255643, 9.170520554965648]
DHBW_Stuttgart_RB = [48.77355514872834, 9.171110410914274]

# Hinzufügen der Orte auf die Karte
folium.Marker(DHBW_Stuttgart_P50, popup = 'DHBW-Stuttgart').add_to(my_map)
folium.Marker(DHBW_Stuttgart_RB, popup = 'DHBW-Stuttgart').add_to(my_map)

# Anzeigen der interaktiven Karte
my_map

Sie können die oben gezeigte Karte als HTML-Dokument exportieren und z.B. als Mailanhang versenden!

In [None]:
my_map.save("/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenvisualisierung_mit_Matplotlib/my_map.html")

### 2.4.4 Abbildungen speichern <a class="anchor" id="vis_speichern"></a>
Sie haben die Möglichkeit Abbildungen in diversen Bildformaten zu speichern und können dabei beispielsweise die Bildqualität definieren.

In [None]:
path = "/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenvisualisierung_mit_Matplotlib/"

In [None]:
fig, ax = plt.subplots()

#BMW
ax.plot(
    data[data.Name=="BMW"]["Date"],
    data[data.Name=="BMW"]["Close"],
    color="b"
)
#VW
ax.plot(
    data[data.Name=="VW"]["Date"],
    data[data.Name=="VW"]["Close"],
    color="r"
)
ax.legend(["BMW","VW"]) # Hinzufügen einer Legende
ax.set_xticks(range(0, len(data[data.Name=="VW"])+1, 50)) # Es wird immer nur das 50-igste Label auf der x-Achse angezeigt

fig.savefig(path+"verlauf_aktien.png") # hohe Qualität
fig.savefig(path+"verlauf_aktien.jpg") # geringere Qualität
fig.savefig(path+"verlauf_aktien.svg") # editierbare support vector grafic
fig.savefig(path+"verlauf_aktien.png", dpi=300) # Steuerung der Auflösung
fig.savefig(path+"verlauf_aktien.pdf")

Folgendes Beispiel zeigt Ihnen, wie Sie Abbildungen in einer PDF-Datein speichern können. Dazu greifen wir auf die sogeannte `backends` Funktionalität von `matplotlib` zurück und wählen dabei das `backend_pdf`. Mit dem Aufruf `matplotlib.backends.backend_pdf.PdfPages("booklet_aktienkurse.pdf")` wird nun eine PDF-Datei mit Namen `booklet_aktienkurse` erstellt. Innerhalb des `for` loops werden nun die einzelnen Grafiken erstellt und in der PDF gespeichert.

In [None]:
import matplotlib.backends.backend_pdf

plt.style.use('seaborn')

# Erstellen einer PDF
pdf = matplotlib.backends.backend_pdf.PdfPages(path+"booklet_aktienkurse.pdf")

# For-Loop zum erstellen der individuellen Grafiken
for name in data.Name.unique():
    fig, ax = plt.subplots()
    
    ax.plot(
        data[data.Name==name]["Date"],
        data[data.Name==name]["Close"],
        color="g"
    )

    ax.set_xlabel("Datum")
    ax.xaxis.label.set_fontsize(16)
    ax.tick_params(axis="x", labelsize=12)
    ax.set_xticks(range(0, len(data[data.Name=="VW"])+1, 50)) # Es wird immer nur das 50-igste Label auf der x-Achse angezeigt
    
    ax.set_ylabel("Aktienkurs [Dollar]")
    ax.yaxis.label.set_fontsize(16)
    ax.tick_params(axis="y", labelsize=12)

    ax.set_title(f"Aktienkurs von {name}")
    ax.title.set_fontsize(18)
    ax.title.set_fontweight("bold")
    
    plt.close() # Verhindert das Anzeigen der erstellten Grafiken
    pdf.savefig(fig) # Speichert die Grafik im PDF-Dokument
    
pdf.close()

## Aufgabe: Visualisierung Fifa World Cup <a class="anchor" id="fifa"></a>

In [None]:
data = pd.read_csv("/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenvisualisierung_mit_Matplotlib/WorldCupMatches.txt")
data.dropna(inplace=True)
data.head()

Bitte berarbeiten Sie nun die folgenden Aufgaben:
1. Erstellen Sie ein Liniendiagramm, welches für jedes Jahr einer WM die durchschnittlich pro Spiel erzielten Tore einer Partie darstellt. Bitte stellen Sie die einzelnen Datenpunkte über Marker dar. Die Linie im Diagramm sollte gestrichelt und in roter Farbe abgetragen sein. Achten Sie zudem auf korrekte Achsenbeschriftungen und einen Abbildungstitel. Stellen Sie abschließend sicher, dass die Grafik gut lesbar ist.
1. Erstellen Sie ebenfalls ein Liniendiagramm, welches die durchschnittliche Anzahl der Zuschauer je Weltmeisterschaft darstellt.
1. Erstellen Sie ein Histogramm, welches die durchschnittliche Anzahl von Toren in Spielen der deutschen und italienischen Mannschaft in allen Weltmeisterschaftsspielen darstellt. Schauen Sie sich dafür z.B. nochmal das Unterkapitel zu den [weiteren nützlichen Funktionen](#weitere_funktionen) an.


## Aufgabe: Erstellung Sales-Report <a class="anchor" id="report"></a>
Erneut betrachten wir den Salesdatensatz von Walmart. Sie sind aufgefordert einen Sales-Report zu erstellen. Dieser soll im ersten Berichtsblatt die Gesamtumsätze eines jeden Stores darstellen. Dafür soll ein Säulendiagramm genutzt werden, welches die Umsätze in Tausend \$ zeigt und absteigend sortiert ist. Die anschließenden Berichtsblätter sollen für jeden Store die monatlichen Gesamtumsätze (ebenfalls in Tausend \$) im Zeitverlauf zeigen. Bitte erstellen Sie den Report als PDF-Dokument. Orientieren Sie sich bei der automatisierten Erstellung an dem Bespiel zuvor.

In [None]:
df = pd.read_csv("/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenvisualisierung_mit_Matplotlib/sales_data.txt", index_col=0)
# Löschen der Spalte "type". "inplace=True" ist gleichbedeutend mit "df = df.drop(columns=["type"])"
df.drop(columns=["type"], inplace=True)
# Transformation der Datentypen
df = df.astype({"store":"O", "department":"O", "date":"M"})
# Wir beschränken die Daten auf 2010
df = df[df.date.dt.year==2010]

In [None]:
drive.flush_and_unmount()