<a href="https://colab.research.google.com/github/AlexKressner/Business_Intelligence/blob/main/Pandas_Intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Übersicht
1. [Einführung Pandas](#einführung_pandas)
    1. [DataFrames](#dataframes)
    1. [Erste Methoden zur Datenexploration](#exploration)
    1. [Optionen beim Laden von Daten](#laden)
    1. [Sortieren](#sortieren)
    1. [Subsetting](#subsetting)
    1. [Neue Spalten](#neue_spalte)
2. [Aggregation von Daten](#aggregation)
    1. [Erste deskriptive Parameter & Summierung](#parameter)
    1. [Zählen](#zaehlen)
    1. [Gruppierungen und Aggregationen](#gruppierung)
    1. [Pivottabellen](#pivot)
    1. [Funktion transform](#transform)

# Übungsaufgaben
- [Erste Exploration DataFrame - Rossmann Store Sales](#aufgabe_exploration)
- [Sortieren und Subsetting - Rossmann Store Sales](#subset_sort)
- [Statistische Parameter & Summen - Rossmann Store Sales](#parameter_summen)
- [Aggregationen - Verkaufszahlen Walmart](#walmart)

# 1. Einführung Pandas <a class="anchor" id="einführung_pandas"></a>
Pandas ist eines der bekanntesten Packages für Python und wird zur Lösung diverser Aufgaben im Bereich der Datenverarbeitung eingesetzt - von der einfachen Datenmanipulation bis hin zu ausgefeilten Datenanalysen. Wir beschäftigen uns intensiv mit dem Datenobjekt "DataFrames" und wie man mit diesem im Rahmen der Datenanalyse arbeitet, d.h. erstellt, filtert, transformiert etc. Pandas verfügt über eine hervorragende Dokumentation, die Sie unter folgendem [Link](https://pandas.pydata.org) finden.

## 1.1 DataFrames <a class="anchor" id="dataframes"></a>
Ein [DataFrame](https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframe) speichert Daten in tabellarischer Form, ähnlicher einer Excel- oder SQL-Tabelle. Das folgende Beispiel erzeugt einen DataFrame aus zwei Listen. Die erste Liste enthält Teile der aktuellen Tabelle der 1. Fussballbundesliga. Es handelt sich um eine Liste aus Listen. Jede Liste in der Liste `tabelle` stellt einen Tabelleneintrag (Zeile) mit den zugehörigen Daten dar. Die Liste `spalten_namen` enthält - wie der Name bereits sagt - die Spaltennamen der Tabelle.

In [155]:
# import pandas
import pandas as pd

In [156]:
# Einstellungen zum Anzeigen von DataFrames etc.
pd.options.display.float_format = "{:.1f}".format
pd.options.display.max_columns = 100
pd.options.display.max_rows = 1000

In [157]:
tabelle = [
    [1, "Leverkusen", 19, 15, 4, 0, 50, 14, 36, 49],
    [2, "Bayer", 19, 15, 2, 2, 56, 18, 38, 47],
    [3, "VfB Stuttgart", 19, 12, 1, 6, 43, 25, 18, 37],
    [4, "Dortmund", 19, 10, 6, 3, 40, 26, 14, 36],
    [5, "RB Leipzig", 19, 10, 3, 6, 42, 26, 16, 33],
    [6, "Eintracht Frankfurt", 19, 8, 7, 4, 30, 22, 8, 31],
]

In [158]:
spalten_namen = [
    "Rang", "Mannschaft", "Spiele", "Siege",
    "Unentschieden", "Niederlagen",
    "Tore_+", "Tore_-", "Tordifferenz",
    "Punkte"
]

Nachfolgend erzeugen wir den DataFrame, der die Bundesligatabelle darstellt.

In [159]:
tabelle = pd.DataFrame(tabelle, columns=spalten_namen)
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
3,4,Dortmund,19,10,6,3,40,26,14,36
4,5,RB Leipzig,19,10,3,6,42,26,16,33
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31


Wir können einen DataFrame auch mit entsprechenden Methodenaufrufen in seine einzelnen Komponenten zerlegen ("Attribute"):

In [160]:
tabelle.values

array([[1, 'Leverkusen', 19, 15, 4, 0, 50, 14, 36, 49],
       [2, 'Bayer', 19, 15, 2, 2, 56, 18, 38, 47],
       [3, 'VfB Stuttgart', 19, 12, 1, 6, 43, 25, 18, 37],
       [4, 'Dortmund', 19, 10, 6, 3, 40, 26, 14, 36],
       [5, 'RB Leipzig', 19, 10, 3, 6, 42, 26, 16, 33],
       [6, 'Eintracht Frankfurt', 19, 8, 7, 4, 30, 22, 8, 31]],
      dtype=object)

In [161]:
tabelle.columns

Index(['Rang', 'Mannschaft', 'Spiele', 'Siege', 'Unentschieden', 'Niederlagen',
       'Tore_+', 'Tore_-', 'Tordifferenz', 'Punkte'],
      dtype='object')

In [162]:
tabelle.index

RangeIndex(start=0, stop=6, step=1)

## 1.2 Erste Methoden zur Datenexploration <a class="anchor" id="exploration"></a>
Für die erste Exploration von Daten in einem pandas DataFrame stehen viele nützliche Methoden zur Verfügung. Sie können sich eine Übersicht verschaffen, wenn Sie in einer Code-Zelle den DataFrame `tabelle` eingeben und anschließend einen Punkt (`.`) setzen. Mit der Eingabe `tabelle.` werden Ihnen automatisch alle verfügbaren Funktionen angezeigt.

In [163]:
# Gibt Ihnen den "Kopf" des DataFrames zurück, d.h. die ersten 5 Zeilen
tabelle.tail(2)

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
4,5,RB Leipzig,19,10,3,6,42,26,16,33
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31


In [164]:
# Zeigt Ihnen Informationen zu den einzelnen Spalten
tabelle.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Rang           6 non-null      int64 
 1   Mannschaft     6 non-null      object
 2   Spiele         6 non-null      int64 
 3   Siege          6 non-null      int64 
 4   Unentschieden  6 non-null      int64 
 5   Niederlagen    6 non-null      int64 
 6   Tore_+         6 non-null      int64 
 7   Tore_-         6 non-null      int64 
 8   Tordifferenz   6 non-null      int64 
 9   Punkte         6 non-null      int64 
dtypes: int64(9), object(1)
memory usage: 608.0+ bytes


**Frage:** Was machen die folgenden beiden Funktionen?

In [165]:
tabelle.shape

(6, 10)

In [166]:
tabelle.describe()

Unnamed: 0,Rang,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
count,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0
mean,3.5,19.0,11.7,3.8,3.5,43.5,21.8,21.7,38.8
std,1.9,0.0,2.9,2.3,2.3,8.9,4.9,12.4,7.4
min,1.0,19.0,8.0,1.0,0.0,30.0,14.0,8.0,31.0
25%,2.2,19.0,10.0,2.2,2.2,40.5,19.0,14.5,33.8
50%,3.5,19.0,11.0,3.5,3.5,42.5,23.5,17.0,36.5
75%,4.8,19.0,14.2,5.5,5.5,48.2,25.8,31.5,44.5
max,6.0,19.0,15.0,7.0,6.0,56.0,26.0,38.0,49.0


### Aufgabe: Erste Exploration DataFrame <a class="anchor" id="aufgabe_exploration"></a>
Für die Aufgabe verwenden wir den [Rossmann Store Sales](https://www.kaggle.com/competitions/rossmann-store-sales/overview) Datensatz. Die Daten befinden sich im Github-Repo, welches wir in unsere Arbeitsumgebung laden (`git clone`). Wenden Sie anschließend die zuvor eingeführten Methoden auf den neuen DataFrame an, um sich ein erstes Bild zu den Daten zu verschaffen.

In [167]:
! git clone https://github.com/AlexKressner/Business_Intelligence

fatal: destination path 'Business_Intelligence' already exists and is not an empty directory.


In [168]:
FOLDER = "Business_Intelligence/Daten/Rossmann"

In [169]:
sales = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";")

In [170]:
sales.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,31.07.15,5263,555,1,1,0,1
1,2,5,31.07.15,6064,625,1,1,0,1
2,3,5,31.07.15,8314,821,1,1,0,1
3,4,5,31.07.15,13995,1498,1,1,0,1
4,5,5,31.07.15,4822,559,1,1,0,1


**Fragen**
1. Wie viele Zeilen und Spalten hat der DataFrame?
1. Was ist der durchschnittliche Tagesumsatz eines Stores?
1. Was war die größte Anzahl von Kunden, die einen Store an einem Tag besucht haben?
1. Welchen Datentyp haben die einzelnen Spalten? Sind die Datentypen sinnvoll?

In [171]:
# Frage1
sales.shape[0]

158829

In [172]:
# Frage2/3
sales.describe()

Unnamed: 0,Store,DayOfWeek,Sales,Customers,Open,Promo,SchoolHoliday
count,158829.0,158829.0,158829.0,158829.0,158829.0,158829.0,158829.0
mean,557.0,4.0,5940.9,627.1,0.8,0.4,0.2
std,321.9,2.0,3940.6,461.4,0.4,0.5,0.4
min,1.0,1.0,0.0,0.0,0.0,0.0,0.0
25%,278.0,2.0,3885.0,410.0,1.0,0.0,0.0
50%,556.0,4.0,5964.0,609.0,1.0,0.0,0.0
75%,836.0,6.0,8112.0,828.0,1.0,1.0,0.0
max,1115.0,7.0,41551.0,5458.0,1.0,1.0,1.0


In [173]:
sales.dtypes

Store             int64
DayOfWeek         int64
Date             object
Sales             int64
Customers         int64
Open              int64
Promo             int64
StateHoliday     object
SchoolHoliday     int64
dtype: object

## 1.3 Optionen beim Laden von Daten <a class="anchor" id="laden"></a>
Mit den Methoden `pd.read_...` lassen sich Daten aus unterschiedlichen Dateiformaten laden. Es gibt eine Vielzahl von Parametern, mit denen Sie das Laden von Daten gezielt steuern können. Wir gehen hier auf einige wichtige Parameter ein. Eine Übersicht zu `pd.read_csv()` finden Sie [hier](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).

Über den Parameter `sep` definieren Sie das Zeichen mit dem Spalten im Ursprungsdokument voneinander getrennt werden. Bei csv-Dateien im deutschsprachigen Raum gilt häufig `sep=";"` im angelsäsischen Raum hingegen `sep=","`. Der Default ist `sep=","`.

Gelegentlich müssen wir auch definieren, wie Dezimalzahlen und Tausender im Ursprungsdokument dargestellt werden.

In [174]:
sales = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";", decimal=".", thousands=",")

Über den Parameter `usecols` definieren Sie, welche Spalten gelesen werden sollen.

In [175]:
sales_customers = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";", usecols=["Sales","Customers","Date"])

In [176]:
sales_customers.head()

Unnamed: 0,Date,Sales,Customers
0,31.07.15,5263,555
1,31.07.15,6064,625
2,31.07.15,8314,821
3,31.07.15,13995,1498
4,31.07.15,4822,559


Ebenfalls sehr wichtig ist der Parameter `dtype`. Über diesen steuern Sie den Datentyp, der für eine Spalte verwendet wird. Eine Übersicht zu den Datentypen finden Sie [hier](https://pbpython.com/pandas_dtypes.html)

In [177]:
dtypes= {
    "Store":"str",
    "DayOfWeek":"str",
    "Open":"str",
    "Promo":"str",
    "StateHoliday":"str",
    "SchoolHoliday":"str",
}

In [178]:
sales = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";")

In [179]:
sales.dtypes

Store             int64
DayOfWeek         int64
Date             object
Sales             int64
Customers         int64
Open              int64
Promo             int64
StateHoliday     object
SchoolHoliday     int64
dtype: object

In [180]:
f"{FOLDER}/sales_short.csv"

'Business_Intelligence/Daten/Rossmann/sales_short.csv'

In [181]:
sales = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";", dtype=dtypes)

In [182]:
sales.dtypes

Store            object
DayOfWeek        object
Date             object
Sales             int64
Customers         int64
Open             object
Promo            object
StateHoliday     object
SchoolHoliday    object
dtype: object

Regelmäßig müssen Sie auch Spalten lesen, deren Eintragungen vom Datentyp Datum sind. Hierbei hilft Ihnen der Parameter `parse_dates` über den Sie in Form einer Liste die Spalten definieren, die Datumsangaben enthalten.

In [183]:
sales = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";", dtype=dtypes, parse_dates=["Date"])

In [184]:
sales.dtypes

Store                    object
DayOfWeek                object
Date             datetime64[ns]
Sales                     int64
Customers                 int64
Open                     object
Promo                    object
StateHoliday             object
SchoolHoliday            object
dtype: object

In [185]:
sales.head(2)

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,2015-07-31,5263,555,1,1,0,1
1,2,5,2015-07-31,6064,625,1,1,0,1


## 1.4 Sortieren <a class="anchor" id="sortieren"></a>
Mit der Methode `sort_values` können Sie DataFrames nach Belieben sortieren.

In [186]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
3,4,Dortmund,19,10,6,3,40,26,14,36
4,5,RB Leipzig,19,10,3,6,42,26,16,33
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31


In [187]:
tabelle.sort_values("Tore_+")

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31
3,4,Dortmund,19,10,6,3,40,26,14,36
4,5,RB Leipzig,19,10,3,6,42,26,16,33
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47


**Frage**: Sie sehen, dass die Methode `sort_values` die Werte einer Spalte aufsteigend sortiert. Wie können Sie die Werte absteigend sortieren?

In [188]:
tabelle.sort_values("Tore_+", ascending=False)

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
1,2,Bayer,19,15,2,2,56,18,38,47
0,1,Leverkusen,19,15,4,0,50,14,36,49
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
4,5,RB Leipzig,19,10,3,6,42,26,16,33
3,4,Dortmund,19,10,6,3,40,26,14,36
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31


Mit der Funktion `sort_values` können Sie einen DataFrame auch nach mehreren Spalten sortieren. **Frage**: Bitte erläutern Sie nach welcher Systematik die Sortierung im unten gezeigten Beispiel erfolgt!

In [189]:
tabelle.sort_values(["Unentschieden","Tore_+"])

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
1,2,Bayer,19,15,2,2,56,18,38,47
4,5,RB Leipzig,19,10,3,6,42,26,16,33
0,1,Leverkusen,19,15,4,0,50,14,36,49
3,4,Dortmund,19,10,6,3,40,26,14,36
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31


Für den Fall, dass die Sortierung nach mehreren Spalten erfolgen soll, kann ebenfalls individuell für jede Spalte eine Sortierungsvorschrift definiert werden.

In [190]:
tabelle.sort_values(["Unentschieden","Tore_+"], ascending=[True,False])

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
1,2,Bayer,19,15,2,2,56,18,38,47
4,5,RB Leipzig,19,10,3,6,42,26,16,33
0,1,Leverkusen,19,15,4,0,50,14,36,49
3,4,Dortmund,19,10,6,3,40,26,14,36
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31


## 1.5 Subsetting <a class="anchor" id="subsetting"></a>
Mit "Subsetting" können Sie Teile eines DataFrames "ausschneiden"!

### Subsetting von Spalten

In [191]:
# Einzelne Spalte - Variante 1
tabelle["Mannschaft"]

0             Leverkusen
1                  Bayer
2          VfB Stuttgart
3               Dortmund
4             RB Leipzig
5    Eintracht Frankfurt
Name: Mannschaft, dtype: object

In [192]:
# Einzelne Spalte - Variante 2
tabelle.Mannschaft

0             Leverkusen
1                  Bayer
2          VfB Stuttgart
3               Dortmund
4             RB Leipzig
5    Eintracht Frankfurt
Name: Mannschaft, dtype: object

**Frage:** Wie zeigen Sie nur die ersten drei Mannschaften an? Wie zeigen Sie nur die letzte Mannschaft an?

In [193]:
tabelle.head(3)

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37


In [194]:
tabelle.tail(1)

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31


So wie zuvor können Sie erneut nach einzelnen Zeilen des DataFrames filtern. Wir werden uns nachfolgend und in einem späteren Kapitel noch intensiver damit befassen.

In [195]:
spalten_namen

['Rang',
 'Mannschaft',
 'Spiele',
 'Siege',
 'Unentschieden',
 'Niederlagen',
 'Tore_+',
 'Tore_-',
 'Tordifferenz',
 'Punkte']

In [196]:
spalten_namen = ["Rang","Mannschaft", "Tore_+"]

In [197]:
# Variante 1
tabelle[spalten_namen][:3]

Unnamed: 0,Rang,Mannschaft,Tore_+
0,1,Leverkusen,50
1,2,Bayer,56
2,3,VfB Stuttgart,43


In [198]:
# Variante 2
tabelle.loc[:2,spalten_namen]

Unnamed: 0,Rang,Mannschaft,Tore_+
0,1,Leverkusen,50
1,2,Bayer,56
2,3,VfB Stuttgart,43


In [199]:
tabelle.head(3)

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37


In [200]:
tabelle.head(1)

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49


In [201]:
# Variante 3
tabelle.iloc[:3,[0,5,6]]

Unnamed: 0,Rang,Niederlagen,Tore_+
0,1,0,50
1,2,2,56
2,3,6,43


### Subsetting von Zeilen

Sie haben die Möglichkeit auf die Werte einer Spalte direkt logische Operationen anzuwenden. Im Ergebnis erhalten Sie nur die Zeilen des DataFrames, die die definierte Bedingung erfüllen. Mit der Anweisung `tabelle["Tore_+"]>65` wird beispielweise für jeden Eintrag in der Spalte `Tore_+` geprüft, ob der entsprechende Wert größer `65` ist. Die Rückgabewerte dieser Prüfung sind zunächst boolsche Werte und geben an, ob die Bedingung wahr oder falsch ist.

In [202]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
3,4,Dortmund,19,10,6,3,40,26,14,36
4,5,RB Leipzig,19,10,3,6,42,26,16,33
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31


In [203]:
tabelle["Tore_+"]>=50

0     True
1     True
2    False
3    False
4    False
5    False
Name: Tore_+, dtype: bool

Das Ergebnis der obigen Prüfung können Sie nun zum Filtern des DataFrames wie folgt einsetzen:

In [204]:
# Variante 1
tabelle[tabelle["Tore_+"]>=50]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47


In [205]:
# Variante 2 mit Auswahl von Spalten
tabelle.loc[tabelle["Tore_+"]>=50,["Mannschaft","Tore_+"]]

Unnamed: 0,Mannschaft,Tore_+
0,Leverkusen,50
1,Bayer,56


**Frage:** Wie filtern Sie auf die Mannschaft `Dortmund`?

In [206]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
3,4,Dortmund,19,10,6,3,40,26,14,36
4,5,RB Leipzig,19,10,3,6,42,26,16,33
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31


In [207]:
tabelle["Mannschaft"]

0             Leverkusen
1                  Bayer
2          VfB Stuttgart
3               Dortmund
4             RB Leipzig
5    Eintracht Frankfurt
Name: Mannschaft, dtype: object

In [208]:
tabelle["Mannschaft"]=="Dortmund"

0    False
1    False
2    False
3     True
4    False
5    False
Name: Mannschaft, dtype: bool

In [209]:
tabelle[tabelle["Mannschaft"]=="Dortmund"]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
3,4,Dortmund,19,10,6,3,40,26,14,36


Sie haben zudem die Möglichkeit einen Dataframe nach mehreren Bedingungen zu filtern. Möchten Sie beispielsweise nur Mannschaften haben, die mehr oder genau 50 Tore geschossen und gleichzeitig nicht mehr als 4 Unentschieden haben, braucht es folgende Anweisung:

In [210]:
tabelle[tabelle["Tore_+"]>=50]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47


In [211]:
# "&" ist das logische "UND"
tabelle[~(tabelle["Tore_+"]>=50)]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
3,4,Dortmund,19,10,6,3,40,26,14,36
4,5,RB Leipzig,19,10,3,6,42,26,16,33
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31


**Frage:** Was ist der Rückgabewert der folgenden Anweisung und welche Bedeutung hat das Zeichen `|`?

```Python
tabelle[(tabelle["Tore_+"]>=50) | (tabelle["Tordifferenz"]>=18)]
```

In [212]:
tabelle[(tabelle["Tore_+"]>=50) | (tabelle["Tordifferenz"]>=18)]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37


Eine weitere sehr nützliche Methode für das Subsetting ist `.isin([])`. Möchten Sie beispielsweise nach den Mannschaften `Dortmund` und `Leverkusen` filtern, gelingt dies wie folgt:

In [213]:
tabelle[tabelle["Mannschaft"].isin(["Dortmund","Leverkusen"])]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
3,4,Dortmund,19,10,6,3,40,26,14,36


### Aufgabe: Sortieren und Subsetting <a class="anchor" id="subset_sort"></a>

Wir betrachten erneut den Rossmann Store Sales Datensatz - wir hatten diesen bereits zuvor geladen und unter der Variablen `sales` als DataFrame gespeichert. Bitte bearbeiten Sie die folgenden Aufgaben:
1. Wählen Sie aus dem DataFrame die Spalten `"Date"`, `"Sales"` und `"Customers"` aus.
1. Sortieren Sie die Sales absteigend. Welcher Store hatte den höchsten Umsatz an einem Tag? Was ist das entsprechende Datum?
1. Filtern Sie den DataFrame auf Tagesumsätze zwischen 4.000\$ und 8.000\$.
1. Wie viele Tage mit Tagesumsätzen zwischen 4.000\$ und 8.000\$ sind im Datensatz enthalten? Sie können dazu z.B. die Funktion `shape` oder `len` nutzen. --> Paare (Store-Datum)
1. Filtern Sie den DataFrame auf die Stores `1`, `3` und `5`.
1. Filtern Sie den DataFrame auf die Stores `1`, `3` und `5` und zeigen Sie nur solche Zeilen an, die einen Mindesttagesumsatz von 7.500\$ aufweisen.

In [214]:
# Frage1
sales[["Date","Sales","Customers"]]

Unnamed: 0,Date,Sales,Customers
0,2015-07-31,5263,555
1,2015-07-31,6064,625
2,2015-07-31,8314,821
3,2015-07-31,13995,1498
4,2015-07-31,4822,559
...,...,...,...
158824,2015-11-03,3882,336
158825,2015-11-03,6735,735
158826,2015-11-03,7933,1059
158827,2015-11-03,6273,774


In [215]:
# Frage2
sales.sort_values("Sales",ascending=False).head(1)[["Store","Date","Sales"]]

Unnamed: 0,Store,Date,Sales
44393,909,2015-06-22,41551


In [216]:
#Frage3
sales[(sales["Sales"]>=4000) & (sales["Sales"]<=8000)].sort_values("Sales")

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
49060,1,3,2015-06-17,4000,476,1,1,0,0
46277,563,6,2015-06-20,4000,553,1,0,0,0
95462,688,4,2015-07-05,4000,393,1,1,0,0
2471,242,3,2015-07-29,4000,357,1,1,0,1
43505,21,1,2015-06-22,4000,425,1,0,0,0
...,...,...,...,...,...,...,...,...,...
5446,987,1,2015-07-27,8000,926,1,1,0,1
116039,80,6,2015-04-18,8000,662,1,0,0,0
152746,1107,2,2015-03-17,8000,807,1,1,0,0
77063,129,6,2015-05-23,8000,1038,1,0,0,0


In [217]:
#Frage4
sales[(sales["Sales"]>=4000) & (sales["Sales"]<=8000)].shape[0]
len(sales[(sales["Sales"]>=4000) & (sales["Sales"]<=8000)])

76305

In [218]:
#Frage5
sales[sales.Store.isin(["1","3","5"])].head()
sales[(sales.Store=="1")|(sales.Store=="3")|(sales.Store=="5")].head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,2015-07-31,5263,555,1,1,0,1
2,3,5,2015-07-31,8314,821,1,1,0,1
4,5,5,2015-07-31,4822,559,1,1,0,1
1115,1,4,2015-07-30,5020,546,1,1,0,1
1117,3,4,2015-07-30,8977,823,1,1,0,1


In [219]:
#Frage6
sales[(sales.Store.isin(["1","3","5"])) & (sales["Sales"]>=7500)].head()
sales[((sales.Store=="1")|(sales.Store=="3")|(sales.Store=="5")) & (sales["Sales"]>=7500)].head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
2,3,5,2015-07-31,8314,821,1,1,0,1
1117,3,4,2015-07-30,8977,823,1,1,0,1
2232,3,3,2015-07-29,7610,716,1,1,0,1
3347,3,2,2015-07-28,8864,818,1,1,0,1
4462,3,1,2015-07-27,8107,768,1,1,0,1


## 1.6 Hinzufügen neuer Spalten <a class="anchor" id="neue_spalte"></a>

**Neue Spalte mit Wert:** Wir erzeugen einen neuen DataFrame `df` und fügen eine neue Spalte ein, die in jeder Zeile immer den gleichen Wert hat:

In [220]:
df = pd.DataFrame([[1,1,1],[2,2,2],[3,3,3]], columns=["Spalte1","Spalte2","Spalte3"])
df

Unnamed: 0,Spalte1,Spalte2,Spalte3
0,1,1,1
1,2,2,2
2,3,3,3


In [221]:
#df["Spalte4"]=[1,2,3]
df["Spalte4"]=4
df

Unnamed: 0,Spalte1,Spalte2,Spalte3,Spalte4
0,1,1,1,4
1,2,2,2,4
2,3,3,3,4


**Neue Spalte mit berechneten Werten:** Wir können beliebige arithmetische Operationen auf Spalten (mit numerischen Werten) anwenden und daraus neue Spalten erzeugen.

In [222]:
tabelle.head()

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
3,4,Dortmund,19,10,6,3,40,26,14,36
4,5,RB Leipzig,19,10,3,6,42,26,16,33


In [223]:
tabelle["Neue_Spalte"] = tabelle["Punkte"]/2
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Neue_Spalte
0,1,Leverkusen,19,15,4,0,50,14,36,49,24.5
1,2,Bayer,19,15,2,2,56,18,38,47,23.5
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37,18.5
3,4,Dortmund,19,10,6,3,40,26,14,36,18.0
4,5,RB Leipzig,19,10,3,6,42,26,16,33,16.5
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31,15.5


In [224]:
# Variante 1
tabelle["Tore_pro_Spiel"] = tabelle["Tore_+"]/19

# Variante 2 (besser)
tabelle["Tore_pro_Spiel"] = tabelle["Tore_+"]/tabelle["Spiele"]
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Neue_Spalte,Tore_pro_Spiel
0,1,Leverkusen,19,15,4,0,50,14,36,49,24.5,2.6
1,2,Bayer,19,15,2,2,56,18,38,47,23.5,2.9
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37,18.5,2.3
3,4,Dortmund,19,10,6,3,40,26,14,36,18.0,2.1
4,5,RB Leipzig,19,10,3,6,42,26,16,33,16.5,2.2
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31,15.5,1.6


**Frage:** Wie fügen Sie eine neue Spalte ein, die für jede Mannschaft die Gegentore pro Spiel darstellt?

In [225]:
tabelle["Gegentore_pro_Spiel"] = tabelle["Tore_-"]/tabelle.Spiele

In [227]:
#tabelle = tabelle.drop(columns=["ABC"])

In [228]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Neue_Spalte,Tore_pro_Spiel,Gegentore_pro_Spiel
0,1,Leverkusen,19,15,4,0,50,14,36,49,24.5,2.6,0.7
1,2,Bayer,19,15,2,2,56,18,38,47,23.5,2.9,0.9
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37,18.5,2.3,1.3
3,4,Dortmund,19,10,6,3,40,26,14,36,18.0,2.1,1.4
4,5,RB Leipzig,19,10,3,6,42,26,16,33,16.5,2.2,1.4
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31,15.5,1.6,1.2


# 2. Aggregation von Daten <a class="anchor" id="aggregation"></a>

## 2.1 Erste deskriptive Parameter & Summierung <a class="anchor" id="parameter"></a>

In [229]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Neue_Spalte,Tore_pro_Spiel,Gegentore_pro_Spiel
0,1,Leverkusen,19,15,4,0,50,14,36,49,24.5,2.6,0.7
1,2,Bayer,19,15,2,2,56,18,38,47,23.5,2.9,0.9
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37,18.5,2.3,1.3
3,4,Dortmund,19,10,6,3,40,26,14,36,18.0,2.1,1.4
4,5,RB Leipzig,19,10,3,6,42,26,16,33,16.5,2.2,1.4
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31,15.5,1.6,1.2


In [230]:
# Mittelwert
tabelle["Tore_+"].mean()

43.5

In [231]:
# Median
tabelle["Tore_+"].median()

42.5

In [232]:
# Standardsabweichung
tabelle["Tore_+"].std()

8.893818077743664

Es besteht die Möglichkeit, dass Sie Methoden zur Berechnung von statistischen Parametern auf mehrere Spalten gleichzeitig anwenden:

Berechnung des Mittelwertes für die beiden Spalten `Tore_+` und `Tore_-`:

In [233]:
tabelle[["Tore_+","Tore_-","Tordifferenz","Punkte"]].median()

Tore_+         42.5
Tore_-         23.5
Tordifferenz   17.0
Punkte         36.5
dtype: float64

Die Anzahl aller geschossenen Tore berechnet Ihnen die Methode `sum()`:

In [234]:
tabelle["Tore_+"].sum()

261

**Frage:** Was macht die Funktion `cumsum`? Sehen Sie sich dazu die Ausgabe in der unteren Code-Zellen genauer an.

In [235]:
tabelle["cumsum"] = tabelle["Tore_+"].cumsum()
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Neue_Spalte,Tore_pro_Spiel,Gegentore_pro_Spiel,cumsum
0,1,Leverkusen,19,15,4,0,50,14,36,49,24.5,2.6,0.7,50
1,2,Bayer,19,15,2,2,56,18,38,47,23.5,2.9,0.9,106
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37,18.5,2.3,1.3,149
3,4,Dortmund,19,10,6,3,40,26,14,36,18.0,2.1,1.4,189
4,5,RB Leipzig,19,10,3,6,42,26,16,33,16.5,2.2,1.4,231
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31,15.5,1.6,1.2,261


**Frage**: Wie lassen sich die kummulativen Häufigkeiten als Prozent darstellen? Denken Sie nochmals an den Abschnitt, in dem wir beliebige arithmetische Operationen für einzelne Spalten durchgeführt haben!

In [242]:
tabelle["Tore_+_cumsum_prozent"] = 100 * tabelle["cumsum"]/261
#alternativ
tabelle["Tore_+_cumsum_prozent"] = 100 * tabelle["Tore_+"].cumsum()/tabelle["Tore_+"].sum()

In [243]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Neue_Spalte,Tore_pro_Spiel,Gegentore_pro_Spiel,cumsum,Tore_+_cumsum_prozent
0,1,Leverkusen,19,15,4,0,50,14,36,49,24.5,2.6,0.7,50,19.2
1,2,Bayer,19,15,2,2,56,18,38,47,23.5,2.9,0.9,106,40.6
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37,18.5,2.3,1.3,149,57.1
3,4,Dortmund,19,10,6,3,40,26,14,36,18.0,2.1,1.4,189,72.4
4,5,RB Leipzig,19,10,3,6,42,26,16,33,16.5,2.2,1.4,231,88.5
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31,15.5,1.6,1.2,261,100.0


### Aufgabe: Parameter und Summen - Rossmann Store Sales <a class="anchor" id="parameter_summen"></a>

Wir betrachten erneut die Daten von Rossmann:

In [None]:
sales.head()

Bitte bearbeiten Sie die folgenden Aufgaben:
1. Über welchen Zeitraum wurde die Salesdaten von Rossmann erhoben?
1. Was ist der durchschnittliche Tagesumsatz eines Rossmann Stores?
1. An welchen Tagen (`Date`) konnte die kleinsten und größten Tagesumsätze beobachtet werden? Nutzen Sie hierzu die `max()` und `min()` Methoden!
1. Was ist der gesamte Umsatz von Rossmann über alle Stores im Beobachtungszeitraum? Nutzen Sie die `sum()` Methode!
1. Fügen Sie eine neue Spalte ein, die den mittleren Tagesumsatz pro Kunde darstellt! Schauen Sie sich dazu nochmals das Kapitel zum Einfügen neuer Spalten an!
1. An wie viel Tagen gab es Promotionen?
1. Wie hoch liegt der mittlere Tageumsatz von Store `262`, wenn keine Promotionen laufen?
1. Wie hoch liegt der mittlere Tageumsatz von Store `262`, wenn Promotionen laufen?


In [244]:
#Frage1
sales["Date"].min(), sales["Date"].max()

(Timestamp('2015-01-04 00:00:00'), Timestamp('2015-12-07 00:00:00'))

In [245]:
#In schön
date_min = sales["Date"].min()
date_max = sales["Date"].max()
print(f"Die Daten wurden über den Zeitraum {date_min} bis {date_max} erhoben!")

Die Daten wurden über den Zeitraum 2015-01-04 00:00:00 bis 2015-12-07 00:00:00 erhoben!


In [247]:
#Frage2
sales["Sales"].mean().round(0)

5941.0

In [249]:
#Frage3
min_sales = sales["Sales"].min()
max_sales = sales["Sales"].max()
min_sales, max_sales

(0, 41551)

In [257]:
sales[sales["Sales"]==min_sales]["Date"].unique()
sales[sales["Sales"]==max_sales]["Date"].unique()

array(['2015-06-22T00:00:00.000000000'], dtype='datetime64[ns]')

In [259]:
#Frage4
sales["Sales"].sum()

943580977

In [261]:
#Frage5
sales["Mittlerer_Umsatz_pro_Kunde"] = sales["Sales"] / sales["Customers"]
sales.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday,Mittlerer_Umsatz_pro_Kunde
0,1,5,2015-07-31,5263,555,1,1,0,1,9.5
1,2,5,2015-07-31,6064,625,1,1,0,1,9.7
2,3,5,2015-07-31,8314,821,1,1,0,1,10.1
3,4,5,2015-07-31,13995,1498,1,1,0,1,9.3
4,5,5,2015-07-31,4822,559,1,1,0,1,8.6


In [266]:
#Frage6
sales[sales["Promo"]=="1"]["Date"].nunique()

55

In [273]:
# Frage7
sales[(sales["Store"]=="262") & (sales["Promo"]=="0")]["Sales"].mean()

21104.875

In [274]:
#Frage8
sales[(sales["Store"]=="262") & (sales["Promo"]=="1")]["Sales"].mean()

21985.072727272727

## 2.2 Zählen <a class="anchor" id="zaehlen"></a>
Wir bleiben beim Rossmann Datensatz. Enthalten Spalten kategoriale Werte interessiert man sich z.B. dafür, wie häufig eine Kategorie auftritt. Pandas stellt dafür die Funktion `value_counts` bereit:

In [275]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Neue_Spalte,Tore_pro_Spiel,Gegentore_pro_Spiel,cumsum,Tore_+_cumsum_prozent
0,1,Leverkusen,19,15,4,0,50,14,36,49,24.5,2.6,0.7,50,19.2
1,2,Bayer,19,15,2,2,56,18,38,47,23.5,2.9,0.9,106,40.6
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37,18.5,2.3,1.3,149,57.1
3,4,Dortmund,19,10,6,3,40,26,14,36,18.0,2.1,1.4,189,72.4
4,5,RB Leipzig,19,10,3,6,42,26,16,33,16.5,2.2,1.4,231,88.5
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31,15.5,1.6,1.2,261,100.0


In [276]:
tabelle["Unentschieden"].value_counts()

4    1
2    1
1    1
6    1
3    1
7    1
Name: Unentschieden, dtype: int64

In [277]:
sales["Store"].value_counts()

1       143
330     143
343     143
342     143
341     143
       ... 
706     142
707     142
708     142
709     142
1115    142
Name: Store, Length: 1115, dtype: int64

**Frage:** Was macht die Parameter `normalize` und `ascending` in der Funktion `value_counts`?

In [283]:
tabelle["Unentschieden"].value_counts(normalize=True, ascending=True) * 100

4   16.7
2   16.7
1   16.7
6   16.7
3   16.7
7   16.7
Name: Unentschieden, dtype: float64

## 2.3 Gruppierungen und Aggregationen <a class="anchor" id="gruppierung"></a>

Wenn wir uns in die Lage eines zentralen Controllings versetzen, so interessieren und natürlich die Umsätze eine jeden Stores. Zum Beispiel könnten wir fragen, wie die mittleren Tagesumsätze je Store ausfallen, um anschließend die einzelnen Filialen miteinander zu vergleichen. Mit den bisherigen Methoden können wir solche Rechnung machen:

In [None]:
sales_store1 = sales[sales.Store=="1"]
sales_store262 = sales[sales.Store=="262"]
sales_store159 = sales[sales.Store=="159"]


In [None]:
sales_store1.head()

In [None]:
mean_sales_store1 = sales_store1.Sales.mean()
mean_sales_store262 = sales_store262.Sales.mean()
mean_sales_store159 = sales_store159.Sales.mean()
mean_sales_store1, mean_sales_store262, mean_sales_store159

In [None]:
sales.Store.unique()

Sie können unmittelbar erkennen, dass diese Art der Berechnung bei einer Vielzahl von Stores extrem mühsam ist. Pandas stellt glücklicherweise Methoden bereit, die Ihnen die Arbeit enorm erleichtern, insbesondere die `groupby` Funktion.

Wir können beispielsweise ganz leicht den mittleren Tagesumsatz je Store berechnen, wenn wir zunächst die Daten nach Stores gruppieren (`sales.groupby("Store")`), anschließend die Spalte `Sales` auswählen (`sales.groupby("Store")["Sales"]`) und abschließend je Store den den mittleren Tagesumsatz berechnen:

In [None]:
sales["Store"].value_counts()

In [None]:
sales[sales.Store==1]["Sales"].mean()

In [None]:
sales.groupby("Store")["Sales"].mean()

In [None]:
# Mit Sortierung
sales.groupby("Store")["Sales"].mean().sort_values(ascending=False).head()

Sie haben die Möglichkeit mit der Funktion `groupby` auch Gruppierungen auf mehrere Spalten durchzuführen. Zum Beispiel können wir für jeden Store und Wochentag den mittleren Tagesumsatz berechnen:

In [None]:
sales.groupby(["Store","DayOfWeek"])["Sales"].mean()

Mit dem Befehl `reset_index()` wird der Index des DataFrames wieder als Spalte gesetzt!

In [None]:
sales.groupby(["Store","DayOfWeek"])["Sales"].mean().reset_index()

Mithilfe der Methode `agg` können Sie gleichzeitig mehrere Aggregationsfunktionen berechnen lassen. Dazu übergeben Sie an die Funktion `agg` eine Liste, die die relevanten Funktionen als String enthält:

In [None]:
sales.groupby(["Store","DayOfWeek"])["Sales"].agg(["min","mean","max","std"])

## 2.4 Pivottabellen <a class="anchor" id="pivot"></a>
Sie kennen vermutlich Pivottabellen aus Excel. Diese lassen sich auch sehr leicht in pandas erzeugen. Dazu verwenden wir die Methode `pivot_table`. Die Ergebnisse sind analog zu denen aus den vorherigen Abschnitten, wenn wir `groupby` mit entsprechenden Aggreagationsmethoden aufrufen. Die Darstellung unterscheidet sich allerdings ein wenig.

In [None]:
# Mittelwert des Tagesumsatzes je Store
sales.pivot_table(values="Sales", index="Store", aggfunc="mean")
# ist identisch mit
#sales.groupby("Store")["Sales"].mean()

In [None]:
# Min, Max und Mittelwert des Tagesumsatzes je Store
sales.pivot_table(values="Sales", index="Store", aggfunc=["min","mean","max"])

In [None]:
# Min, Max und Mittelwert des mittleren Tagesumsatzes je Wochentag
sales.pivot_table(values="Sales",
               index="Store",
               aggfunc="mean",
               columns="DayOfWeek",
               fill_value="-",
               margins=True
              )

## 2.5 Die Funktion `transform` <a class="anchor" id="transform"></a>
Sie haben gesehen, dass bei Verwendung der Funktion `groupby` ein neuer DataFrame entsteht, der so viele Zeilen hat wie es verschiedene Gruppen gibt. Es kommt regelmäßig vor, dass Sie Berechnungen auf gruppierten Daten machen möchten, das berechnete Ergebnis aber wieder dem urspünglichen DataFrame in Form einer neuen Spalte hinzufügen wollen.

Beispielsweise interessiert Sie, ob der Tagesumsatz über dem durchschnittlichen Tagesumsatz eines Stores liegt. Sie müssen es also schaffen, für jeden Store den durchschnittlichen Tagesumsatz zu berechnen und diesen anschließend mit jedem der einzelnen Tagesumsätze vergleichen.

In [None]:
# Hier wird nur der mittlere Tagesumsatz je Store zurückgegeben
sales.groupby("Store",sort=False)["Sales"].mean().head()

In [None]:
# hier wird der mittlere Tagesumsatz je Store berechnet und
# anschließend für jede Zeile des ursprünglichen DataFrames passend zurückgegeben
sales.groupby("Store")["Sales"].transform("mean")

In [None]:
sales["MeanStoreSales"] = sales.groupby("Store")["Sales"].transform("mean")
sales.head()

In [None]:
sales["SalesAboveMean"] = sales["Sales"] > sales["MeanStoreSales"]
sales.head()

Eine Übersicht zu den diversen Funktionen mit denen Sie DataFrames manipulieren können, finden Sie [hier](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf).

### Aufgabe: Data Wrangling & Aggregation - Verkaufszahlen Walmart <a class="anchor" id="walmart"></a>

Wir beschäftigen uns im folgenden mit einem Datensatz von Walmart. Dieser wurde 2020 von Walmart auf Kaggle veröffentlicht. Das Ziel des Wettbewerbs bestand darin, ML-Verfahren zu entwickeln, die bestmöglich die Verkäufe von einzelnen Produkten in Walmart-Filialen in den nächsten 28 Tagen vorhersagen. Nähere Informationen zum Wettbewerb finden Sie [hier](https://www.kaggle.com/competitions/m5-forecasting-accuracy/overview/description).

Bevor wir zu den eigentlichen Aufgaben kommen, müssen zunächst zwei verschiedene Datensätze laden und geeignet aufbereiten und miteinander verbinden (joins).

In [None]:
FOLDER = "Business_Intelligence/Daten/Walmart"

In [None]:
sales = pd.read_csv(f"{FOLDER}/sales.csv", index_col=0)

In [None]:
sales.head()

Die Salesdaten wie oben angezeigt, liegen im sogenannten Wide-Format vor. In den späteren Anwendungen des maschinellen Lernens werden wir regelmäßig mit dem sogenannten Long-Format arbeiten. Für eine Umwandlung in das Long-Format können wir die Funktion `melt` verwenden. Unter folgendem [Link](https://pandas.pydata.org/docs/user_guide/reshaping.html#reshaping-melt) finden Sie auch nochmal detailliertere Erklärungen zu dieser und anderen Funktionen.

In [None]:
sales = sales.melt(
    id_vars=["id","item_id","dept_id", "cat_id", "store_id", "state_id"],
    var_name="day",
    value_name="demand"
    )

In [None]:
sales.head()

In der Datei `calendar` finden Sie nähere Informationen zu den einzelnen Verkaufsdaten, d.h. Datum, Wochentag, Jahr, etc. Die beiden DataFrame lassen sich über die Spalte `day` (`sales`) und `d` (`calendar`) miteinander verknüpfen. Wir werden einen Left-Join verwenden, um beide Datensätze zu verbinden. Dies gelingt über die Funktion `merge` und der Definition entsprechender Parameter.

In [None]:
calendar = pd.read_csv(f"{FOLDER}/calendar.csv")
calendar.head(10)

In [None]:
# merge sales und calendar
sales = pd.merge(sales, calendar, how="left", left_on="day", right_on="d")
sales.drop(columns=["d"], inplace=True)
sales.head()

Bitte berarbeiten Sie nun die folgenden Aufgaben:
1. In welchem Zeitraum wurden die Daten erhoben?
1. Wie viele verschiedene Stores gibt es im Datensatz?
1. Berechnen Sie den durschnittlichen Tagesabsatz (in Stück) für jeden Artikel? Nutzen Sie die `groupby` und anschließend die `mean` Methode!
1. Berechnen Sie für jeden Artikel den durchschnittlichen Tagesabsatz und fügen Sie diesen dem ursprünglichen DataFrame `sales` als neue Spalte hinzu. Nutzen Sie dazu die Funktion `transform`.
1. Fügen Sie anschließend eine neue Spalte hinzu, die den Tagesabsatz ins Verhältnis zum durchschnittlichen Tagesabsatz setzt.
1. **ENDGEGNERFRAGE:** Fügen Sie eine neue Spalte ein, die den Absatz des Vortages eines Artikels darstellt. Nutzen Sie die Funktionen `transform` & `shift` i.V.m. einer `lambda`-Funktion.
1. **ENDGEGNERFRAGE**: Fügen Sie eine neue Spalte ein, die den mittleren Absatz der letzten 3 Tage eines Artikels darstellt. Nutzen Sie die Funktionen `transform` & `shift`, `rolling` i.V.m. einer `lambda`-Funktion.