<a href="https://colab.research.google.com/github/AlexKressner/KI_Logistik_Python/blob/main/G1_Data_Visualization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Übersicht
1. [Erste Visualisierungsformen](#erste_visualisierungen)
  1. [Histogramm](#einführung_hist)
  1. [Säulendiagramm](#einführung_bar)
  1. [Liniendiagramm](#einführung_line)
1. [Weitere nützliche Funktionen](#weitere_funktionen)

# Übungsaufgaben
- [Visualisierung - Verkaufszahlen Walmart](#walmart)

# Setup
Für die Visualisierung nutzen wir das Package `matplotlib` und die Funktionalitäten rundum `pyplot`. Dazu importieren wir zunächst das Package (ggf. müssen Sie dieses noch mithilfe von `pip3 install matplotlib` installieren). Es ist üblich `matplotlib.pyplot` als `plt` zu importieren.

In [None]:
import matplotlib.pyplot as plt

Zusätzlich müssen wir erneut das Package `pandas` laden.

In [None]:
import pandas as pd

## 1 Erste Visualisierungsformen <a class="anchor" id="erste_visualisierungen"></a>
Wir laden erneut den [Fifa World Cup](https://www.kaggle.com/datasets/abecklas/fifa-world-cup) Datensatzes aus einer csv-Datei. Anschließend wenden wir die `.plot()` Methode auf diesen DataFrame an. Über das Argument `kind` kann z.B. gesteuert werden, welche Art von Diagramm erzeugt wird. 

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
data = pd.read_csv("/content/drive/MyDrive/WorldCupMatches.txt")
data = data.astype({"Datetime": "M", "RoundID": "O", "MatchID": "O"}, errors='raise') 
data.dropna(inplace=True)

In [None]:
data.head()

### 1.1 Histogramm <a class="anchor" id="einführung_hist"></a>
Ein Histogramm ist eine grafische Darstellung der Häufigkeitsverteilung kardinal skalierter Merkmale. Es erfordert die Einteilung der Daten in Klassen (englisch bins), die eine konstante oder variable Breite haben können. Es werden direkt nebeneinanderliegende Rechtecke von der Breite der jeweiligen Klasse gezeichnet, deren Flächeninhalte die (relativen oder absoluten) Klassenhäufigkeiten darstellen. Die Höhe jedes Rechtecks stellt dann die (relative oder absolute) Häufigkeitsdichte dar, also die (relative oder absolute) Häufigkeit dividiert durch die Breite der entsprechenden Klasse. (Quelle: Wikipedia)

In [None]:
data["Attendance"].plot(kind="hist")
plt.show()

Mit dem Argument `bins` geben Sie an, in wie viele verschiedene Klassen die Daten eingeteilt werden. **Frage:** Was ist der Default-Wert für `bins`, d.h. wenn kein Argument beim Aufruf der Methode `.plot()` übergeben wird?

In [None]:
data["Attendance"].plot(kind="hist", bins=25)
plt.show()

Über Argumente wie `color` oder `edgecolor` lässt sich die farbliche Darstellung einer Grafik steuern. Eine Übersicht zu den verfügbaren Grafiken finden Sie [hier](https://matplotlib.org/stable/gallery/color/named_colors.html).

In [None]:
data["Attendance"].plot(kind="hist", 
                        bins=20,
                        color="c",
                        edgecolor='k',
                        )
plt.show()

Ein Übersicht zu den Standardargumenten zur Übergabe an die Funktion `plot()` finden Sie in der Online-Dokumentation von `pandas` unter folgendem [Link](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html).

Das folgende Beispiel zeigt, wie Sie mehrere Histogramm für einzelne Spalten gleichzeitig erstellen. Zunächst wählen Sie die relevanten Spalten des DataFrames `data` aus, d.h. `[["Half-time Home Goals", "Half-time Away Goals"]]` und rufen im Anschluss direkt die Funktion zur Erstellung eines Histogramms auf `hist()`. Zu letzterer finden Sie die Dokumentation [hier](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.hist.html).

In [None]:
data[["Half-time Home Goals", "Half-time Away Goals"]].hist(bins=10)
plt.show()

### 1.2 Säulendiagramm <a class="anchor" id="einführung_bar"></a>
Das Säulendiagramm, bei schmalen Säulen auch Stabdiagramm genannt, ist ein Diagramm zur vergleichenden Darstellung, das durch auf der x-Achse senkrecht stehende, nicht aneinandergrenzende Säulen (Rechtecke mit bedeutungsloser Breite) die Häufigkeitsverteilung einer diskreten (Zufalls-)Variablen veranschaulicht. Das Säulendiagramm eignet sich besonders, um wenige Ausprägungen (bis ca. 15) zu veranschaulichen.(Quelle: Wikipedia)

In [None]:
mean_attendance_by_year = data.groupby("Year")["Attendance"].mean()

In [None]:
mean_attendance_by_year.plot(kind="bar", grid=True)
plt.show()

In [None]:
mean_attendance_by_year.plot(kind="bar", 
                             title="Mittlere Anzahl von Zuschauern",
                             xlabel="Jahr",
                             ylabel="Zuschauer",
                             grid=True
                            )
plt.show()

### 1.3 Liniendiagramm <a class="anchor" id="einführung_line"></a>
Ein Liniendiagramm, auch Kurvendiagramm, ist die graphische Darstellung des funktionellen Zusammenhangs zweier (bei zweidimensionaler Darstellung) oder dreier (bei dreidimensionaler Darstellung) Merkmale als Diagramm in Linienform, wodurch Veränderungen bzw. Entwicklungen (etwa innerhalb eines bestimmten Zeitabschnitts) dargestellt werden können. (Quelle: Wikipedia)

**Frage:** Wie ist das Ergebnis der nachfolgenden Code-Zelle zu verstehen?

In [None]:
spiele = data.groupby("Year").size()
spiele.head()

In [None]:
spiele.plot(kind="line",
            xlabel="Jahr",
            ylabel="Spiele"
            )
plt.show()

Liniendiagramm mit Rotation der x-Achse um 45 Grad (`rot=45`) und Anzeige sämtlicher Jahre, in denen Weltmeisterschaften gespielt wurden. Für letzteres nutzen Sie den Parameter `xticks`. Dieser erwartet eine Liste, die alle auf der x-Achse anzuzeigenden Elemente enthält. Mit dem Aufruf `data.Year.unique()` erhalten wir genau eine Liste, die alle Jahre an denen Weltmeisterschaften gespielt wurde.

In [None]:
data.Year.unique()

In [None]:
spiele.plot(kind="line",
            xlabel="Jahr",
            ylabel="Spiele",
            rot=50,
            xticks=data.Year.unique(),
            legend=False,
            )
plt.show()

Weitere hilfreiche Argumente zur Steuerung der Darstellung finden Sie in der nachfolgenden Code-Zeile. Übersicht zu [Markern](https://matplotlib.org/stable/api/markers_api.html) und [Linestyles](
https://matplotlib.org/stable/gallery/lines_bars_and_markers/linestyles.html)

In [None]:
spiele.plot(kind="line",
            title="Mittlere Anzahl von Spielen einer WM von 1930 bis 2014",
            xlabel="Jahr",
            ylabel="Spiele",
            rot=50,
            xticks=data.Year.unique(),
            legend=False,
            grid=True,
            color="r",
            linestyle="--",
            linewidth=1.5,
            marker="o"
            )
plt.show()

## 2 Weitere nützliche Funktionalitäten <a class="anchor" id="weitere_funktionen"></a>



In [None]:
# Mehrere Grafikelemente in einer Abbildung
data[data.Year==2014]["Attendance"].plot(kind="hist")
data[data.Year==2010]["Attendance"].plot(kind="hist")
plt.legend(["Zuschauer 2014","Zuschauer 2010"])
plt.show()

In [None]:
# Transparenz
data[data.Year==2014]["Attendance"].plot(kind="hist", alpha=0.5, bins=20, edgecolor="k")
data[data.Year==2010]["Attendance"].plot(kind="hist", alpha=0.5, bins=20, edgecolor="k")
plt.legend(["Zuschauer 2014","Zuschauer 2010"])
plt.show()

In [None]:
# Veränderung der Diagrammgröße
data[data.Year==2014]["Attendance"].plot(kind="hist", 
                                         figsize=(6,4),
                                         color="c",
                                         edgecolor="k",
                                         )
plt.show()

### Aufgabe: Visualisierungen - Verkaufszahlen Walmart <a class="anchor" id="walmart"></a>

Sie erhalten einen Datensatz der Einzelhandelskette Walmart (Auszug aus diesem [Datensatz](https://www.kaggle.com/competitions/walmart-recruiting-store-sales-forecasting/data)). Dieser enthält Verkaufszahlen für jeden Laden (`store`) mit seinen verschiedenen Kategorien (`department`), z.B. Gemüse oder Tiefkühlware. Die wöchentlichen Verkaufszahlen (`weekly_sales`) sind in Dollar angegeben. Der jeweilige Freitag einer Woche ist über die Spalte `date` gekennzeichnet. Die Spalten `is_holiday`, `temperature_c`, `fuel_price_usd_per_l`und `unemployment` enthalten weitere Informationen, die für diese Woche aufgenommen wurden und vermutlich einen Einfluss auf die Verkaufszahlen haben. Wir laden zunächst wieder die Daten:

In [None]:
df = pd.read_csv("/content/drive/MyDrive/KI_LOG_mit_PYTHON/sales_data.txt", index_col=0)
# Löschen der Spalte "type". "inplace=True" ist gleichbedeutend mit "df = df.drop(columns=["type"])"
df.drop(columns=["type"], inplace=True)
# Transformation der Datentypen
df = df.astype({"store":"O", "department":"O", "date":"M"})
df.head()

Bitte berarbeiten Sie nun die folgenden Aufgaben:
1. Erstellen Sie ein Histogramm, welches die gesamten wöchentlichen Verkaufszahlen zeigt!
1. In den Daten sehen Sie auch den Kraftstoffpreis (Dollar/l). Dieser wird individuell je Store und Woche berechnet und ergibt sich aus den Kraftstoffpreise naheliegender Tankstellen. Ermitteln Sie den durchschnittlichen wöchentlichen Kraftstoffpreis (Dollar/l) über alle Stores und tragen Sie diesen in einem Liniendiagramm ab (x-Achse: Wochen mit aufsteigender Sortierung, y-Achse: Kraftstoffpreis). Sie müssen dazu auf die Methode `groupby()` zurückgreifen. Schauen Sie sich bitte auch nochmals die Verwendung der `reset_index()` Methode an, die wir bei der Erstellung von [Liniendiagrammen](#einführung_line) benutzt haben.
1. Vergleichen Sie die wöchentlichen Verkaufszahlen von Store 14 und 19 mit zwei Histogrammen. Passen Sie bitte die Größe des Diagramm für eine bessere Lesbarkeit an!
1. Welcher Store hatte im Betrachtungszeitraum die besten Verkaufszahlen?
1. Stellen Sie für diesen Store die durchschnittlichen Verkaufzahlen für die 10 umsatzstärksten Abteilungen (`department`) in einem Säulendiagramm dar!