<a href="https://colab.research.google.com/github/AlexKressner/Logistik_Data_Analyst/blob/main/G2_Pandas_Data_Analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Übersicht
1. [Einführung Pandas](#einführung_pandas)
    1. [DataFrames](#dataframes)
    2. [Erste Methoden zur Datenexploration](#exploration)
    3. [Sortieren](#sortieren)
    4. [Subsetting](#subsetting)
    5. [Neue Spalten](#neue_spalte)
2. [Aggregation von Daten](#aggregation)
    1. [Erste deskriptive Parameter & Summierung](#parameter)
    1. [Zählen](#zaehlen)
    1. [Gruppierungen und Aggregationen](#gruppierung)
    1. [Pivottabellen](#pivot)

# Übungsaufgaben
- [Erste Exploration DataFrame - Fifa World Cup](#aufgabe_exploration)
- [Sortieren und Subsetting - Fifa World Cup](#subset_sort)
- [Statistische Parameter & Summen - Fifa World Cup](#parameter_summen)
- [Aggregationen - Verkaufszahlen Walmart](#walmart)

# 1. Einführung Pandas <a class="anchor" id="einführung_pandas"></a>
Pandas ist eines der weltweit bekanntesten Packages für Python und wird zur Lösung diverser Aufgaben im Bereich der Datenverarbeitung eingesetzt - von der Datenmanipulation bis hin zu ausgefeilten Datenanalysen. Wir beschäftigen uns intensiv mit dem Konzept des DataFrames, wie man diesen zum Zwecker Datenanalyse erstellt, filtert, transformiert etc. Wir werden dabei immer wieder auf realte Datensätze zurückgreifen und auch bereits erste Visualisierungen erzeugen.

## 1.1 DataFrames <a class="anchor" id="dataframes"></a>
In einem DataFrame speichern Sie tabellarische Daten, die Sie anschließend mit diversen Methoden transformieren können. Das folgende Beispiel erzeugt einen DataFrame aus zwei Listen. Die erste Liste enthält Teile der aktuellen Tabelle der 1. Fussballbundesliga. Es handelt sich um eine Liste aus Listen. Jede Liste in der Liste `tabelle` stellt einen Tabelleneintrag (Zeile) mit den zugehörigen Daten dar. Die Liste `spalten_namen` enthält - wie der Name bereits sagt - die Spaltennamen der Tabelle.

In [None]:
# import pandas
import pandas as pd

In [None]:
tabelle = [
    [1, "Bayern", 28, 21, 3, 4, 85, 29, 56, 66],
    [2, "Dortmund", 28, 18, 3, 7, 68, 42, 26, 57],
    [3, "Leverkusen", 28, 15, 6, 7, 68, 42, 26, 51],
    [4, "RB Leipzig", 28, 14, 6, 8, 61, 31, 30, 48],
    [5, "Freiburg", 28, 12, 9, 7, 44, 33, 11, 45],
    [6, "Hoffenheim", 28, 13, 5, 10, 50, 42, 8, 44],
]

In [None]:
spalten_namen = [
    "Rang", "Mannschaft", "Spiele", "Siege", 
    "Unentschieden", "Niederlagen", 
    "Tore_+", "Tore_-", "Tordifferenz", 
    "Punkte"
]

Nachfolgend erzeugen wir den DataFrame, der die Bundesligatabelle darstellt. 

In [None]:
tabelle = pd.DataFrame(tabelle, columns=spalten_namen)
tabelle

Wir können einen DataFrame auch mit entsprechenden Methodenaufrufen in seine einzelnen konstitutiven Komponente zerlegen ("Attributen"):

In [None]:
tabelle.values

In [None]:
tabelle.columns

In [None]:
tabelle.index

## 1.2 Erste Methoden zur Datenexploration <a class="anchor" id="exploration"></a>
Für die erste Exploration von Daten in einem pandas DataFrame stehen viele nützliche Methoden zur Verfügung. Sie können sich eine Übersicht verschaffen, wenn Sie in einer Code-Zelle den DataFrame `tabelle` eingeben und anschließend einen Punkt (`.`) setzen. Mit der Eingabe `tabelle.` werden Ihnen automatisch alle verfügbaren Funktionen angezeigt.

In [None]:
# Gibt Ihnen den "Kopf" des DataFrames zurück, d.h. die ersten 5 Zeilen
tabelle.head()

In [None]:
# Zeigt Ihnen Informationen zu den einzelnen Spalten
tabelle.info()

**Frage:** Was machen die folgenden beiden Funktionen?

In [None]:
tabelle.shape

In [None]:
tabelle.describe()

### Aufgabe: Erste Exploration DataFrame <a class="anchor" id="aufgabe_exploration"></a>
Für die Aufgabe laden wir zunächst einen Teil des [Fifa World Cup](https://www.kaggle.com/datasets/abecklas/fifa-world-cup) Datensatzes aus einer csv-Datei. Wenden Sie anschließend die zuvor eingeführten Methoden auf den neuen DataFrame an, um sich ein erstes Bild zu den Daten zu verschaffen.

Sie müssen zunächst Ihren persönlichen Google-Drive Account laden. Dies gelingt wie folgt: Sie müssen entsprechende Berechtigungen genehmigen. Weitere Hinweise dazu [hier](https://colab.research.google.com/notebooks/io.ipynb#scrollTo=XDg9OBaYqRMd)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
data = pd.read_csv("/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenverarbeitung_mit_Pandas/WorldCupMatches.csv")
data.dropna(inplace=True)

## 1.3 Sortieren <a class="anchor" id="sortieren"></a>
Mit der Methode `sort_values` können Sie DataFrames nach Belieben sortieren.

In [None]:
tabelle.sort_values("Tore_+")

**Frage**: Sie sehen, dass die Methode `sort_values` die Werte einer Spalte aufsteigend sortiert. Wie können Sie die Werte absteigend sortieren?

Mit der Funktion `sort_values` können Sie einen DataFrame auch nach mehreren Spalten sortieren. **Frage**: Bitte erläutern Sie nach welcher Systematik die Sortierung im unten gezeigten Beispiel erfolgt!

In [None]:
tabelle.sort_values(["Unentschieden","Tore_+"])

Für den Fall, dass die Sortierung nach mehreren Spalten erfolgen soll, kann ebenfalls individuell für jede Spalte eine Sortierungsvorschrift definiert werden.

In [None]:
tabelle.sort_values(["Unentschieden","Tore_+"], ascending=[True,False])

## 1.4 Subsetting <a class="anchor" id="subsetting"></a>
Mit "Subsetting" können Sie Teile eines DataFrames "ausschneiden"!

### Subsetting von Spalten

In [None]:
# Einzelne Spalte - Variante 1
tabelle["Mannschaft"]

In [None]:
# Einzelne Spalte - Variante 2
tabelle.Mannschaft

**Frage:** Wie zeigen Sie nur die ersten drei Mannschaften an? Wie zeigen Sie nur die letzte Mannschaft an?

In [None]:
# Mehrere Spalten
tabelle[["Mannschaft", "Tore_+"]]
# oder
spalten_namen = ["Mannschaft", "Tore_+"]
tabelle[spalten_namen]

So wie zuvor können Sie erneut nach einzelnen Zeilen des DataFrames filtern. Wir werden uns nachfolgend und in einem späteren Kapitel noch intensiver damit befassen.

In [None]:
tabelle[spalten_namen][:3]

### Subsetting von Zeilen

Sie haben die Möglichkeit auf die Werte einer Spalte direkt logische Operationen anzuwenden. Im Ergebnis erhalten Sie nur die Zeilen des DataFrames, die die definierte Bedingung erfüllen. Mit der Anweisung `tabelle["Tore_+"]>65` wird beispielweise für jeden Eintrag in der Spalte `Tore_+` geprüft, ob der entsprechende Wert größer `65` ist. Die Rückgabewerte dieser Prüfung sind zunächst boolsche Werte und geben an, ob die Bedingung wahr oder falsch ist.

In [None]:
tabelle["Tore_+"]>65

Das Ergebnis der obigen Prüfung können Sie nun zum Filtern des DataFrames wie folgt einsetzen:

In [None]:
tabelle[tabelle["Tore_+"]>65]

**Frage:** Wie filtern Sie auf die Mannschaft `Dortmund`?

Sie haben zudem die Möglichkeit einen Dataframe nach mehreren Bedingungen zu filtern. Möchten Sie beispielsweise nur Mannschaften haben, die mehr als 65 Tore geschossen und gleichzeitig nicht mehr als 4 Unentschieden haben, braucht es folgende Anweisung:

In [None]:
# "&" ist das logische "UND"
tabelle[(tabelle["Tore_+"]>65) & (tabelle["Unentschieden"]<=4)]

**Frage:** Was ist der Rückgabewert der folgenden Anweisung und welche Bedeutung hat das Zeichen `|`?

```Python
tabelle[(tabelle["Tore_+"]>65) | (tabelle["Tordifferenz"]>=30)]
```

Eine weitere sehr nützliche Methode für das Subsetting ist `.isin([])`. Möchten Sie beispielsweise nach den Mannschaften `Hoffenheim` und `Leverkusen` filtern, gelingt dies wie folgt:

In [None]:
tabelle[tabelle["Mannschaft"].isin(["Hoffenheim","Leverkusen"])]

### Aufgabe: Sortieren und Subsetting <a class="anchor" id="subset_sort"></a>

Wir betrachten erneut den Fifa World Cup Datensatz - wir hatten diesen bereits zuvor geladen und unter der Variablen `data` als DataFrame gespeichert. Bitte bearbeiten Sie die folgenden Aufgaben:
1. Wählen Sie aus dem DataFrame die Spalten `"Referee"`, `"Assistant 1"` und `"Assistant 2"` aus. 
1. Sortieren Sie die Spiele absteigend nach der Zuschaueranzahl. Welches war das Spiel mit den meisten Zuschauern? 
1. Filtern Sie den DataFrame auf alle Spiele mit Zuschauern zwischen 35.000 und 36.000 Zuschauern.
1. Wie viele Spiele zwischen 35.000 und 36.000 Zuschauern gab es in der Historie? Sie können dazu z.B. die Funktion `shape` oder `len` nutzen. Geben Sie zudem an, in welchen Städten (Spalte `City`) diese Spiele stattgefunden haben. Dabei hilft Ihnen die Methode `unique()`.
1. Filtern Sie den DataFrame auf die Spiele, bei denen entweder Deutschland (Kürzel: `FRG` & `GER`) oder England (Kürzel: `ENG`) teilgenommen haben.
1. Filtern Sie den DataFrame auf die Spiele, bei denen Deutschland gegen England gespielt hat.

## 1.5 Hinzufügen neuer Spalten <a class="anchor" id="neue_spalte"></a>

**Neue Spalte mit Wert:** Wir erzeugen einen neuen DataFrame `df` und fügen eine neue Spalte ein, die in jeder Zeile immer den gleichen Wert hat:

In [None]:
df = pd.DataFrame([[1,1,1],[2,2,2],[3,3,3]], columns=["Spalte1","Spalte2","Spalte3"])
df

In [None]:
df["Spalte4"]=4
df

**Neue Spalte mit berechneten Werten:** Wir können beliebige arithmetische Operationen auf Spalten (mit numerischen Werten) anwenden und daraus neue Spalten erzeugen.

In [None]:
# Variante 1
tabelle["Tore_pro_Spiel"] = tabelle["Tore_+"]/28

# Variante 2 (besser)
tabelle["Tore_pro_Spiel"] = tabelle["Tore_+"]/tabelle["Spiele"]
tabelle

**Frage:** Wie fügen Sie eine neue Spalte ein, die für jede Mannschaft die Gegentore pro Spiel darstellt?

# 2. Aggregation von Daten <a class="anchor" id="aggregation"></a>

## 2.1 Erste deskriptive Parameter & Summierung <a class="anchor" id="parameter"></a>

In [None]:
# Mittelwert
tabelle["Tore_+"].mean()

In [None]:
# Median
tabelle["Tore_+"].median()

In [None]:
# Standardsabweichung
tabelle["Tore_+"].std()

Es besteht die Möglichkeit, dass Sie Methoden zur Berechnung von statistischen Parametern auf mehrere Spalten gleichzeitig anwenden:

Berechnung des Mittelwertes für die beiden Spalten `Tore_+` und `Tore_-`:

In [None]:
tabelle[["Tore_+","Tore_-"]].mean()

Die Anzahl aller geschossenen Tore berechnet Ihnen die Methode `sum()`:

In [None]:
tabelle["Tore_+"].sum()

**Frage:** Was macht die Funktion `cumsum`? Sehen Sie sich dazu die Ausgabe in der unteren Code-Zellen genauer an.

In [None]:
tabelle["cumsum"] = tabelle["Tore_+"].cumsum()
tabelle

**Frage**: Wie lassen sich die kummulativen Häufigkeiten asl Prozent darstellen? Denken Sie nochmals an den Abschnitt, in dem wir beliebige arithmetische Operationen für einzelne Spalten durchgeführt haben!

### Aufgabe: Parameter und Summen - Fifa World Cup <a class="anchor" id="parameter_summen"></a>

Wir betrachten erneut die Daten zur Fussballweltmeisterschaft und laden diese wie folgt:

In [None]:
df = pd.read_csv("/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenverarbeitung_mit_Pandas/WorldCupMatches.csv")
# Transformation der Spalten in passende Datentypen mit der Funktion ".astype", Numpy-Datentypen unter https://www.w3schools.com/python/numpy/numpy_data_types.asp
df = df.astype({"Datetime": "M", "RoundID": "O", "MatchID": "O"}, errors='raise') 
df.head()

Bitte bearbeiten Sie die folgenden Aufgaben:
1. In welchem Jahreszeitraum wurden die Daten zu den verschiedenen Fussballweltmeisterschaften erhoben? 
1. Was ist die durchschnittliche Zuschauerzahl bei einem Weltmeisterschaftsspiel?
1. Welches war das Spiel mit den meisten/ wenigsten Zuschauern? Nutzen Sie hierzu die `max()` und `min()` Methoden!
1. Wie viele Menschen haben im Erhebungszeitraum Spiele einer Fussballweltmeisterschaft gesehen? Nutzen Sie die `sum()` Methode!
1. Fügen Sie eine neue Spalte ein, die die Anzahl der geschossenen Tore bei jedem Weltmeisterschaftsspiel berechnet! Schauen Sie sich dazu nochmals das Kapitel zum Einfügen neuer Spalten an!
1. Welches ist das Spiel mit den meisten Toren?
1. Wie viele Tore fallen im Schnitt bei einem Spiel der Fussballweltmeisterschaft?
1. Fallen in einem Spiel im Mittel mehr Tore in der ersten oder zweiten Halbzeit?


### 2.2 Zählen <a class="anchor" id="zaehlen"></a>
Wir bleiben beim Fifa World Cup Datensatz. Enthalten Spalten kategoriale Werte interessiert man sich z.B. dafür, wie häufig eine Kategorie auftritt. Pandas stellt dafür die Funktion `value_counts` bereit:

In [None]:
df["City"].value_counts()

**Frage:** Was macht der Parameter `normalize` und `ascending` in der Funktion `value_counts`?

### 2.3 Gruppierungen und Aggregationen <a class="anchor" id="gruppierung"></a>

Wenn wir uns erneut mit dem Fifa World Cup Datensatz beschäftigen, könnten wir uns dafür interessieren, wie viele Zuschauer im Mittel bei einem Spiel einer jeden Mannschaft anwesend waren - für den Fall, dass die Mannschaft ein Heimspiel hatte. Mit den bisherigen Methoden können wir dies bereits berechnen, hier am Beispiel der deutschen, englischen und französischen Nationalmannschaft:

In [None]:
zuschauer_de = df[df["Home Team Initials"].isin(["FRG","GER"])]
zuschauer_it = df[df["Home Team Initials"] == "ITA"]
zuschauer_fr = df[df["Home Team Initials"] == "FRA"]

In [None]:
zuschauer_de_mean = zuschauer_de["Attendance"].mean()
zuschauer_it_mean = zuschauer_it["Attendance"].mean()
zuschauer_fr_mean = zuschauer_fr["Attendance"].mean()
zuschauer_de_mean, zuschauer_it_mean, zuschauer_fr_mean

Wie Sie erkennen, ist diese Art der Berechnung bei einer Vielzahl von Mannschaften extrem mühsam. Pandas stellt glücklicherweise Methoden bereit, die Ihnen die Arbeit enorm erleichtern, insbesondere die `groupby` Funktion.

Wir können beispielsweise die mittlere Anzahl von Zuschauern je Mannschaft berechnen (für den Fall eines Heimspiels), wenn wir zunächst die Daten nach Mannschaft gruppieren (`df.groupby("Home Team Initials")`), dann nur die Anzahl der Zuschauer weiter betrachten (`df.groupby("Home Team Initials")["Attendance"]`) und abschließend je Mannschaft den Mittelwert der Zuschauer berechnen:

In [None]:
df.groupby("Home Team Initials")["Attendance"].mean()

In [None]:
# Mit Sortierung
zuschauer_team = df.groupby("Home Team Initials")["Attendance"].mean().sort_values(ascending=False)
zuschauer_team

Sie haben die Möglichkeit mit der Funktion `groupby` auch Gruppierungen auf mehrere Spalten durchzuführen. Zum Beispiel können wir für jede Mannschaftspaarung die durchschnittliche Anzahl von Zuschauern berechnen:

In [None]:
paarungen = df.groupby(["Home Team Initials","Away Team Initials"])["Attendance"].mean()
paarungen

**Frage:** Welches sind die Mannschaftspaarungen mit den meisten und wenigsten Zuschauern? Verwenden Sie dazu die `sort_values` Methode!

Mithilfe der Methode `agg` können Sie gleichzeitig mehrere Aggregationsfunktionen berechnen lassen. Dazu übergeben Sie an die Funktion `agg` eine Liste, die die relevanten Funktionen als String enthält:

In [None]:
df.groupby("Home Team Initials")["Attendance"].agg(["min","mean","max"])

### Exkurs: Export von DataFrames
Genauso wie Sie Daten aus Dateien in einen DataFrame einlesen können - z.B. aus csv-Dateien über `pd.read_csv()` - können Sie natürlich auch Dateien aus DataFrames erzeugen (csv, xlsx, etc.). Mit der Funktion `DataFrame.to_csv()` schreiben Sie den DataFrame in eine csv. Bitte denken Sie daran, dass Sie `DataFrame` durch die von Ihnen genutzte Variable ersetzen. Hierzu ein kleines Bespiel anhand der Fifa World Cup Datensatzes - später noch mehr zum Lesen und Schreiben von Daten:

**1. Überlegung:** In welches [Verzeichnis](https://de.wikipedia.org/wiki/Verzeichnisstruktur) möchte ich meine Datei schreiben? Der "Weg" zum Verzeichnis heißt Pfad! 

In [None]:
path = "/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenverarbeitung_mit_Pandas/"

In [None]:
path

**2. Überlegung:** Unter welchem Namen und in welchem Format möchte ich die Datei abspeichern?

In [None]:
file_name = "spiele_auswertungen.csv"

**3. Export DataFrame:** Sie speichern nun die Kennzahlen zu den einzelnen Teams in einer Variablen. Anschließend verwenden Sie die Funktion `DataFrame.to_csv()` und übergeben den gesamten Dateipfad als Argument! 

In [None]:
data = df.groupby("Home Team Initials")["Attendance"].agg(["min","mean","max"])

In [None]:
path, file_name

In [None]:
file_path = path + file_name
file_path

In [None]:
data.to_csv(file_path)

### 2.4 Pivottabellen <a class="anchor" id="pivot"></a>
Sie kennen vermutlich Pivottabellen aus Excel. Diese lassen sich auch sehr leicht in pandas erzeugen. Dazu verwenden wir die Methode `pivot_table`. Die Ergebnisse sind analog zu denen aus den vorherigen Abschnitten, wenn wir `groupby` mit entsprechenden Aggreagationsmethoden aufrufen. Die Darstellung unterscheidet sich allerdings ein wenig.

In [None]:
# Mittelwert der Zuschauer für jede Mannschaft, wenn diese die Heimmannschaft war
df.pivot_table(values="Attendance", index="Home Team Initials", aggfunc="mean")

In [None]:
# Min, Max und Mittelwert der Zuschauer für jede Mannschaft, wenn diese die Heimmannschaft war
df.pivot_table(values="Attendance", index="Home Team Initials", aggfunc=["min","mean","max"])

In [None]:
# Min, Max und Mittelwert der Zuschauer für jede Mannschaftspaarung
df.pivot_table(values="Attendance", 
               index="Home Team Initials", 
               aggfunc="mean",
               columns="Away Team Initials",
               fill_value=0,
               margins=True
              )

### Aufgabe: Aggregation - Verkaufszahlen Walmart <a class="anchor" id="walmart"></a>

Sie erhalten einen Datensatz der Einzelhandelskette Walmart (Auszug aus diesem [Datensatz](https://www.kaggle.com/competitions/walmart-recruiting-store-sales-forecasting/data)). Dieser enthält Verkaufszahlen für jeden Laden (`store`) mit seinen verschiedenen Kategorien (`department`), z.B. Gemüse oder Tiefkühlware. Die wöchentlichen Verkaufszahlen (`weekly_sales`) sind in Dollar angegeben. Der jeweilige Freitag einer Woche ist über die Spalte `date` gekennzeichnet. Die Spalten `is_holiday`, `temperature_c`, `fuel_price_usd_per_l`und `unemployment` enthalten weitere Informationen, die für diese Woche aufgenommen wurden und vermutlich einen Einfluss auf die Verkaufszahlen haben. Wir laden zunächst wieder die Daten:

In [None]:
df = pd.read_csv("/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenverarbeitung_mit_Pandas/sales_data.txt", index_col=0)
# Löschen der Spalte "type". "inplace=True" ist gleichbedeutend mit "df = df.drop(columns=["type"])"
df.drop(columns=["type"], inplace=True)
# Transformation der Datentypen
df = df.astype({"store":"O", "department":"O", "date":"M"})
df.head()

Bitte berarbeiten Sie nun die folgenden Aufgaben:
1. In welchem Zeitraum wurden die Daten erhoben?
1. Welchen Gesamtumsatz hat Walmart im Betrachtungszeitraum realisiert? 
1. Berechnen Sie für jeden Store die Gesamtumsätze im Betrachtungszeitraum! Nutzen Sie die `groupby` und anschließend die `sum` Methode!
1. Was ist der durchschnittliche Gesamtumsatz eines Stores? Sie können auf der Lösung zur Aufgabe zuvor aufbauen. Nutzen Sie zusätzlich die `mean` Funktion!
1. Erstellen Sie eine Pivottabelle, die die wöchentlichen Umsätze zeigt und dabei unterscheidet, ob in der Woche Ferientage lagen oder eben nicht! Nutzen Sie dafür die Methode `pivot_table`!
1. Fügen Sie eine neue Spalte ein, die angibt, ob der Kraftstoffpreis pro Liter in einer Woche größer gleich 0.9 Dollar war. Erzeugen Sie anschließend eine Pivottabelle, die die Verkaufszahlen in Abhängigkeit des Kraftstoffpreises - kleiner 0.9 Dollar vs. größer gleich 0.9 Dollar - wiedergibt!
1. Wie können Sie das Ergebnis aus der vorherigen Aufgabe in einer csv-Datei speichern?

In [None]:
drive.flush_and_unmount()