<a href="https://colab.research.google.com/github/AlexKressner/Business_Intelligence/blob/main/Pandas_Intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Übersicht
1. [Einführung Pandas](#einführung_pandas)
    1. [DataFrames](#dataframes)
    1. [Erste Methoden zur Datenexploration](#exploration)
    1. [Optionen beim Laden von Daten](#laden)
    1. [Sortieren](#sortieren)
    1. [Subsetting](#subsetting)
    1. [Neue Spalten](#neue_spalte)
2. [Aggregation von Daten](#aggregation)
    1. [Erste deskriptive Parameter & Summierung](#parameter)
    1. [Zählen](#zaehlen)
    1. [Gruppierungen und Aggregationen](#gruppierung)
    1. [Pivottabellen](#pivot)
    1. [Funktion transform](#transform)

# Übungsaufgaben
- [Erste Exploration DataFrame - Rossmann Store Sales](#aufgabe_exploration)
- [Sortieren und Subsetting - Rossmann Store Sales](#subset_sort)
- [Statistische Parameter & Summen - Rossmann Store Sales](#parameter_summen)
- [Aggregationen - Verkaufszahlen Walmart](#walmart)

# 1. Einführung Pandas <a class="anchor" id="einführung_pandas"></a>
Pandas ist eines der bekanntesten Packages für Python und wird zur Lösung diverser Aufgaben im Bereich der Datenverarbeitung eingesetzt - von der einfachen Datenmanipulation bis hin zu ausgefeilten Datenanalysen. Wir beschäftigen uns intensiv mit dem Datenobjekt "DataFrames" und wie man mit diesem im Rahmen der Datenanalyse arbeitet, d.h. erstellt, filtert, transformiert etc. Pandas verfügt über eine hervorragende Dokumentation, die Sie unter folgendem [Link](https://pandas.pydata.org) finden.

## 1.1 DataFrames <a class="anchor" id="dataframes"></a>
Ein [DataFrame](https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframe) speichert Daten in tabellarischer Form, ähnlicher einer Excel- oder SQL-Tabelle. Das folgende Beispiel erzeugt einen DataFrame aus zwei Listen. Die erste Liste enthält Teile der aktuellen Tabelle der 1. Fussballbundesliga. Es handelt sich um eine Liste aus Listen. Jede Liste in der Liste `tabelle` stellt einen Tabelleneintrag (Zeile) mit den zugehörigen Daten dar. Die Liste `spalten_namen` enthält - wie der Name bereits sagt - die Spaltennamen der Tabelle.

In [1]:
# import pandas
import pandas as pd

In [2]:
# Einstellungen zum Anzeigen von DataFrames etc.
pd.options.display.float_format = "{:.1f}".format
pd.options.display.max_columns = 100
pd.options.display.max_rows = 1000

In [3]:
tabelle = [
    [1, "Leverkusen", 19, 15, 4, 0, 50, 14, 36, 49],
    [2, "Bayer", 19, 15, 2, 2, 56, 18, 38, 47],
    [3, "VfB Stuttgart", 19, 12, 1, 6, 43, 25, 18, 37],
    [4, "Dortmund", 19, 10, 6, 3, 40, 26, 14, 36],
    [5, "RB Leipzig", 19, 10, 3, 6, 42, 26, 16, 33],
    [6, "Eintracht Frankfurt", 19, 8, 7, 4, 30, 22, 8, 31],
]

In [4]:
spalten_namen = [
    "Rang",
    "Mannschaft",
    "Spiele",
    "Siege",
    "Unentschieden",
    "Niederlagen",
    "Tore_+",
    "Tore_-",
    "Tordifferenz",
    "Punkte",
]

Nachfolgend erzeugen wir den DataFrame, der die Bundesligatabelle darstellt.

In [5]:
tabelle = pd.DataFrame(tabelle, columns=spalten_namen)
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
3,4,Dortmund,19,10,6,3,40,26,14,36
4,5,RB Leipzig,19,10,3,6,42,26,16,33
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31


Wir können einen DataFrame auch mit entsprechenden Methodenaufrufen in seine einzelnen Komponenten zerlegen ("Attribute"):

In [6]:
tabelle.values

array([[1, 'Leverkusen', 19, 15, 4, 0, 50, 14, 36, 49],
       [2, 'Bayer', 19, 15, 2, 2, 56, 18, 38, 47],
       [3, 'VfB Stuttgart', 19, 12, 1, 6, 43, 25, 18, 37],
       [4, 'Dortmund', 19, 10, 6, 3, 40, 26, 14, 36],
       [5, 'RB Leipzig', 19, 10, 3, 6, 42, 26, 16, 33],
       [6, 'Eintracht Frankfurt', 19, 8, 7, 4, 30, 22, 8, 31]],
      dtype=object)

In [7]:
tabelle.columns

Index(['Rang', 'Mannschaft', 'Spiele', 'Siege', 'Unentschieden', 'Niederlagen',
       'Tore_+', 'Tore_-', 'Tordifferenz', 'Punkte'],
      dtype='object')

In [8]:
tabelle.index

RangeIndex(start=0, stop=6, step=1)

## 1.2 Erste Methoden zur Datenexploration <a class="anchor" id="exploration"></a>
Für die erste Exploration von Daten in einem pandas DataFrame stehen viele nützliche Methoden zur Verfügung. Sie können sich eine Übersicht verschaffen, wenn Sie in einer Code-Zelle den DataFrame `tabelle` eingeben und anschließend einen Punkt (`.`) setzen. Mit der Eingabe `tabelle.` werden Ihnen automatisch alle verfügbaren Funktionen angezeigt.

In [9]:
# Gibt Ihnen den "Kopf" des DataFrames zurück, d.h. die ersten 5 Zeilen
tabelle.head()

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
3,4,Dortmund,19,10,6,3,40,26,14,36
4,5,RB Leipzig,19,10,3,6,42,26,16,33


In [10]:
# Zeigt Ihnen Informationen zu den einzelnen Spalten
tabelle.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Rang           6 non-null      int64 
 1   Mannschaft     6 non-null      object
 2   Spiele         6 non-null      int64 
 3   Siege          6 non-null      int64 
 4   Unentschieden  6 non-null      int64 
 5   Niederlagen    6 non-null      int64 
 6   Tore_+         6 non-null      int64 
 7   Tore_-         6 non-null      int64 
 8   Tordifferenz   6 non-null      int64 
 9   Punkte         6 non-null      int64 
dtypes: int64(9), object(1)
memory usage: 612.0+ bytes


**Frage:** Was machen die folgenden beiden Funktionen?

In [11]:
tabelle.shape  # (#rows, #columns)

(6, 10)

In [12]:
tabelle.describe()  # statistics for each column

Unnamed: 0,Rang,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
count,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0
mean,3.5,19.0,11.7,3.8,3.5,43.5,21.8,21.7,38.8
std,1.9,0.0,2.9,2.3,2.3,8.9,4.9,12.4,7.4
min,1.0,19.0,8.0,1.0,0.0,30.0,14.0,8.0,31.0
25%,2.2,19.0,10.0,2.2,2.2,40.5,19.0,14.5,33.8
50%,3.5,19.0,11.0,3.5,3.5,42.5,23.5,17.0,36.5
75%,4.8,19.0,14.2,5.5,5.5,48.2,25.8,31.5,44.5
max,6.0,19.0,15.0,7.0,6.0,56.0,26.0,38.0,49.0


### Aufgabe: Erste Exploration DataFrame <a class="anchor" id="aufgabe_exploration"></a>
Für die Aufgabe verwenden wir den [Rossmann Store Sales](https://www.kaggle.com/competitions/rossmann-store-sales/overview) Datensatz. Die Daten befinden sich im Github-Repo, welches wir in unsere Arbeitsumgebung laden (`git clone`). Wenden Sie anschließend die zuvor eingeführten Methoden auf den neuen DataFrame an, um sich ein erstes Bild zu den Daten zu verschaffen.

In [13]:
#! git clone https://github.com/AlexKressner/Business_Intelligence

In [14]:
FOLDER = "Daten/Rossmann"

In [15]:
sales = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";")

In [16]:
sales.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,31.07.15,5263,555,1,1,0,1
1,2,5,31.07.15,6064,625,1,1,0,1
2,3,5,31.07.15,8314,821,1,1,0,1
3,4,5,31.07.15,13995,1498,1,1,0,1
4,5,5,31.07.15,4822,559,1,1,0,1


In [17]:
sales["StateHoliday"].value_counts()

0    152488
a      4111
b      2230
Name: StateHoliday, dtype: int64

**Fragen**
1. Wie viele Zeilen und Spalten hat der DataFrame?
1. Was ist der durchschnittliche Tagesumsatz eines Stores?
1. Was war die größte Anzahl von Kunden, die einen Store an einem Tag besucht haben?
1. Welchen Datentyp haben die einzelnen Spalten? Sind die Datentypen sinnvoll?

In [18]:
import numpy as np

print("1.")
shape_values = ["rows", "colums"]
i = 0
for x in sales.shape:
    print(f"The Sales Table has {x} {shape_values[i]}.")
    i += 1

print(f"\n2.\nThe average daily revenue per Store is: {np.mean(sales['Sales']):.2f}.")

print(
    f"\n3.\nThe maximum # customers in a single store per day is: {np.max(sales['Customers'])}."
)

print(
    f"\n4.\nThe datatypes are:\n{sales.dtypes}.\n\nShould set categories like ´StateHoliday´ and ´SchoolHoliday´ to ´category´\nand ´Date´ should be in ´datetime´"
)

1.
The Sales Table has 158829 rows.
The Sales Table has 9 colums.

2.
The average daily revenue per Store is: 5940.86.

3.
The maximum # customers in a single store per day is: 5458.

4.
The datatypes are:
Store             int64
DayOfWeek         int64
Date             object
Sales             int64
Customers         int64
Open              int64
Promo             int64
StateHoliday     object
SchoolHoliday     int64
dtype: object.

Should set categories like ´StateHoliday´ and ´SchoolHoliday´ to ´category´
and ´Date´ should be in ´datetime´


## 1.3 Optionen beim Laden von Daten <a class="anchor" id="laden"></a>
Mit den Methoden `pd.read_...` lassen sich Daten aus unterschiedlichen Dateiformaten laden. Es gibt eine Vielzahl von Parametern, mit denen Sie das Laden von Daten gezielt steuern können. Wir gehen hier auf einige wichtige Parameter ein. Eine Übersicht zu `pd.read_csv()` finden Sie [hier](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).

Über den Parameter `sep` definieren Sie das Zeichen mit dem Spalten im Ursprungsdokument voneinander getrennt werden. Bei csv-Dateien im deutschsprachigen Raum gilt häufig `sep=";"` im angelsäsischen Raum hingegen `sep=","`. Der Default ist `sep=","`.

Gelegentlich müssen wir auch definieren, wie Dezimalzahlen und Tausender im Ursprungsdokument dargestellt werden.

In [19]:
sales = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";", decimal=".", thousands=",")

Über den Parameter `usecols` definieren Sie, welche Spalten gelesen werden sollen.

In [20]:
sales_customers = pd.read_csv(
    f"{FOLDER}/sales_short.csv", sep=";", usecols=["Sales", "Customers", "Date"]
)

In [21]:
sales_customers.head()

Unnamed: 0,Date,Sales,Customers
0,31.07.15,5263,555
1,31.07.15,6064,625
2,31.07.15,8314,821
3,31.07.15,13995,1498
4,31.07.15,4822,559


Ebenfalls sehr wichtig ist der Parameter `dtype`. Über diesen steuern Sie den Datentyp, der für eine Spalte verwendet wird. Eine Übersicht zu den Datentypen finden Sie [hier](https://pbpython.com/pandas_dtypes.html)

In [22]:
dtypes = {
    "Store": "str",
    "DayOfWeek": "str",
    "Open": "str",
    "Promo": "str",
    "StateHoliday": "str",
    "SchoolHoliday": "str",
}

In [23]:
sales = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";")

In [24]:
sales.dtypes

Store             int64
DayOfWeek         int64
Date             object
Sales             int64
Customers         int64
Open              int64
Promo             int64
StateHoliday     object
SchoolHoliday     int64
dtype: object

In [25]:
sales = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";", dtype=dtypes)

In [26]:
sales.dtypes

Store            object
DayOfWeek        object
Date             object
Sales             int64
Customers         int64
Open             object
Promo            object
StateHoliday     object
SchoolHoliday    object
dtype: object

Regelmäßig müssen Sie auch Spalten lesen, deren Eintragungen vom Datentyp Datum sind. Hierbei hilft Ihnen der Parameter `parse_dates` über den Sie in Form einer Liste die Spalten definieren, die Datumsangaben enthalten.

In [27]:
sales = pd.read_csv(
    f"{FOLDER}/sales_short.csv", sep=";", dtype=dtypes, parse_dates=["Date"]
)

In [28]:
sales.dtypes

Store                    object
DayOfWeek                object
Date             datetime64[ns]
Sales                     int64
Customers                 int64
Open                     object
Promo                    object
StateHoliday             object
SchoolHoliday            object
dtype: object

In [29]:
sales.head(2)

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,2015-07-31,5263,555,1,1,0,1
1,2,5,2015-07-31,6064,625,1,1,0,1


## 1.4 Sortieren <a class="anchor" id="sortieren"></a>
Mit der Methode `sort_values` können Sie DataFrames nach Belieben sortieren.

In [30]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
3,4,Dortmund,19,10,6,3,40,26,14,36
4,5,RB Leipzig,19,10,3,6,42,26,16,33
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31


In [31]:
tabelle.sort_values("Tore_+")

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31
3,4,Dortmund,19,10,6,3,40,26,14,36
4,5,RB Leipzig,19,10,3,6,42,26,16,33
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47


**Frage**: Sie sehen, dass die Methode `sort_values` die Werte einer Spalte aufsteigend sortiert. Wie können Sie die Werte absteigend sortieren?

In [32]:
tabelle.sort_values("Tore_+", ascending=False)

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
1,2,Bayer,19,15,2,2,56,18,38,47
0,1,Leverkusen,19,15,4,0,50,14,36,49
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
4,5,RB Leipzig,19,10,3,6,42,26,16,33
3,4,Dortmund,19,10,6,3,40,26,14,36
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31


Mit der Funktion `sort_values` können Sie einen DataFrame auch nach mehreren Spalten sortieren. **Frage**: Bitte erläutern Sie nach welcher Systematik die Sortierung im unten gezeigten Beispiel erfolgt!

In [33]:
tabelle.sort_values(["Unentschieden", "Tore_+"])

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
1,2,Bayer,19,15,2,2,56,18,38,47
4,5,RB Leipzig,19,10,3,6,42,26,16,33
0,1,Leverkusen,19,15,4,0,50,14,36,49
3,4,Dortmund,19,10,6,3,40,26,14,36
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31


Für den Fall, dass die Sortierung nach mehreren Spalten erfolgen soll, kann ebenfalls individuell für jede Spalte eine Sortierungsvorschrift definiert werden.

In [34]:
tabelle.sort_values(["Unentschieden", "Tore_+"], ascending=[True, False])

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
1,2,Bayer,19,15,2,2,56,18,38,47
4,5,RB Leipzig,19,10,3,6,42,26,16,33
0,1,Leverkusen,19,15,4,0,50,14,36,49
3,4,Dortmund,19,10,6,3,40,26,14,36
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31


## 1.5 Subsetting <a class="anchor" id="subsetting"></a>
Mit "Subsetting" können Sie Teile eines DataFrames "ausschneiden"!

### Subsetting von Spalten

In [35]:
# Einzelne Spalte - Variante 1
tabelle["Mannschaft"]

0             Leverkusen
1                  Bayer
2          VfB Stuttgart
3               Dortmund
4             RB Leipzig
5    Eintracht Frankfurt
Name: Mannschaft, dtype: object

In [36]:
# Einzelne Spalte - Variante 2
tabelle.Mannschaft

0             Leverkusen
1                  Bayer
2          VfB Stuttgart
3               Dortmund
4             RB Leipzig
5    Eintracht Frankfurt
Name: Mannschaft, dtype: object

**Frage:** Wie zeigen Sie nur die ersten drei Mannschaften an? Wie zeigen Sie nur die letzte Mannschaft an?

In [37]:
print(tabelle["Mannschaft"].iloc[:3].to_list())
print(tabelle["Mannschaft"].iloc[-1])

['Leverkusen', 'Bayer', 'VfB Stuttgart']
Eintracht Frankfurt


So wie zuvor können Sie erneut nach einzelnen Zeilen des DataFrames filtern. Wir werden uns nachfolgend und in einem späteren Kapitel noch intensiver damit befassen.

In [38]:
# Variante 1
tabelle[spalten_namen][:3]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37


In [39]:
# Variante 2
tabelle.loc[:2, spalten_namen]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37


In [40]:
tabelle.head(3)

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37


In [41]:
# Variante 3
tabelle.iloc[:3, [1, 6, 7]]

Unnamed: 0,Mannschaft,Tore_+,Tore_-
0,Leverkusen,50,14
1,Bayer,56,18
2,VfB Stuttgart,43,25


### Subsetting von Zeilen

Sie haben die Möglichkeit auf die Werte einer Spalte direkt logische Operationen anzuwenden. Im Ergebnis erhalten Sie nur die Zeilen des DataFrames, die die definierte Bedingung erfüllen. Mit der Anweisung `tabelle["Tore_+"]>65` wird beispielweise für jeden Eintrag in der Spalte `Tore_+` geprüft, ob der entsprechende Wert größer `65` ist. Die Rückgabewerte dieser Prüfung sind zunächst boolsche Werte und geben an, ob die Bedingung wahr oder falsch ist.

In [42]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
3,4,Dortmund,19,10,6,3,40,26,14,36
4,5,RB Leipzig,19,10,3,6,42,26,16,33
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31


In [43]:
tabelle["Tore_+"] > 65

0    False
1    False
2    False
3    False
4    False
5    False
Name: Tore_+, dtype: bool

Das Ergebnis der obigen Prüfung können Sie nun zum Filtern des DataFrames wie folgt einsetzen:

In [44]:
# Variante 1
tabelle[tabelle["Tore_+"] > 65]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte


In [45]:
# Variante 2 mit Auswahl von Spalten
tabelle.loc[tabelle["Tore_+"] > 65, ["Mannschaft", "Tore_+"]]

Unnamed: 0,Mannschaft,Tore_+


**Frage:** Wie filtern Sie auf die Mannschaft `Dortmund`?

In [46]:
tabelle.loc[tabelle["Mannschaft"] == "Dortmund"]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
3,4,Dortmund,19,10,6,3,40,26,14,36


Sie haben zudem die Möglichkeit einen Dataframe nach mehreren Bedingungen zu filtern. Möchten Sie beispielsweise nur Mannschaften haben, die mehr als 65 Tore geschossen und gleichzeitig nicht mehr als 4 Unentschieden haben, braucht es folgende Anweisung:

In [47]:
# "&" ist das logische "UND"
tabelle[(tabelle["Tore_+"] > 65) & (tabelle["Unentschieden"] <= 4)]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte


**Frage:** Was ist der Rückgabewert der folgenden Anweisung und welche Bedeutung hat das Zeichen `|`?

```Python
tabelle[(tabelle["Tore_+"]>65) | (tabelle["Tordifferenz"]>=30)]
```

**Answer:** logical operator `or`

Eine weitere sehr nützliche Methode für das Subsetting ist `.isin([])`. Möchten Sie beispielsweise nach den Mannschaften `Dortmund` und `Leverkusen` filtern, gelingt dies wie folgt:

In [48]:
tabelle[tabelle["Mannschaft"].isin(["Dortmund", "Leverkusen"])]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
3,4,Dortmund,19,10,6,3,40,26,14,36


### Aufgabe: Sortieren und Subsetting <a class="anchor" id="subset_sort"></a>

Wir betrachten erneut den Rossmann Store Sales Datensatz - wir hatten diesen bereits zuvor geladen und unter der Variablen `sales` als DataFrame gespeichert. Bitte bearbeiten Sie die folgenden Aufgaben:
1. Wählen Sie aus dem DataFrame die Spalten `"Date"`, `"Sales"` und `"Customers"` aus.
1. Sortieren Sie die Sales absteigend. Welcher Store hatte den höchsten Umsatz an einem Tag? Was ist das entsprechende Datum?
1. Filtern Sie den DataFrame auf Tagesumsätze zwischen 4.000\$ und 8.000\$.
1. Wie viele Tage mit Tagusätzen zwischen 4.000\$ und 8.000\$ sind im Datensatz enthalten? Sie können dazu z.B. die Funktion `shape` oder `len` nutzen.
1. Filtern Sie den DataFrame auf die Stores `1`, `3` und `5`.
1. Filtern Sie den DataFrame auf die Stores `1`, `3` und `5` und zeigen Sie nur solche Zeilen an, die einen Mindesttagesumsatz von 7.500\$ aufweisen.

In [49]:
def get_column_values_for_max_value(df: pd.DataFrame, target: str, col_max: str) -> str:
    return str(df.loc[df[col_max].idxmax(), target])


def slice_rows_sales_between(
    df: pd.DataFrame, min_val: int | float = 0, max_val: int | float = np.inf
) -> pd.DataFrame:
    test = (df["Sales"] > min_val) & (df["Sales"] < max_val)
    return df[test]


def slice_rows_column_values_in(
    df: pd.DataFrame, col: str, val_list: list
) -> pd.DataFrame:
    return df[df[col].isin(val_list)]


sliced_sales = sales[["Date", "Sales"]].sort_values("Sales", ascending=False)
subsample_df = slice_rows_column_values_in(sales, "Store", ["1", "3", "5"])
max_sales_date = str(get_column_values_for_max_value(sales, "Date", "Sales")).split()[0]

print(f'1.\n{sales[["Date", "Sales", "Customers"]].head()}')
print(
    f"\n2.\n{sliced_sales.head()}\n\nThe store with the most sales is {get_column_values_for_max_value(sales, 'Store', 'Sales')} on {max_sales_date}"
)
print(f"\n4.\n{slice_rows_sales_between(sales, 4_000, 8_000).head()}")
print(f"\n5.\n{subsample_df.head()}")
print(f"\n6.\n{slice_rows_sales_between(subsample_df, min_val=7_500).head()}")

1.
        Date  Sales  Customers
0 2015-07-31   5263        555
1 2015-07-31   6064        625
2 2015-07-31   8314        821
3 2015-07-31  13995       1498
4 2015-07-31   4822        559

2.
             Date  Sales
44393  2015-06-22  41551
132946 2015-03-04  38722
101726 2015-01-05  38484
87231  2015-05-14  38367
74966  2015-05-25  35159

The store with the most sales is 909 on 2015-06-22

4.
  Store DayOfWeek       Date  Sales  Customers Open Promo StateHoliday  \
0     1         5 2015-07-31   5263        555    1     1            0   
1     2         5 2015-07-31   6064        625    1     1            0   
4     5         5 2015-07-31   4822        559    1     1            0   
5     6         5 2015-07-31   5651        589    1     1            0   
9    10         5 2015-07-31   7185        681    1     1            0   

  SchoolHoliday  
0             1  
1             1  
4             1  
5             1  
9             1  

5.
     Store DayOfWeek       Date  Sales  Cust

## 1.6 Hinzufügen neuer Spalten <a class="anchor" id="neue_spalte"></a>

**Neue Spalte mit Wert:** Wir erzeugen einen neuen DataFrame `df` und fügen eine neue Spalte ein, die in jeder Zeile immer den gleichen Wert hat:

In [50]:
df = pd.DataFrame(
    [[1, 1, 1], [2, 2, 2], [3, 3, 3]], columns=["Spalte1", "Spalte2", "Spalte3"]
)


df

Unnamed: 0,Spalte1,Spalte2,Spalte3
0,1,1,1
1,2,2,2
2,3,3,3


In [51]:
df["Spalte6"] = 6
df

Unnamed: 0,Spalte1,Spalte2,Spalte3,Spalte6
0,1,1,1,6
1,2,2,2,6
2,3,3,3,6


**Neue Spalte mit berechneten Werten:** Wir können beliebige arithmetische Operationen auf Spalten (mit numerischen Werten) anwenden und daraus neue Spalten erzeugen.

In [52]:
tabelle.head()

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Leverkusen,19,15,4,0,50,14,36,49
1,2,Bayer,19,15,2,2,56,18,38,47
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37
3,4,Dortmund,19,10,6,3,40,26,14,36
4,5,RB Leipzig,19,10,3,6,42,26,16,33


In [53]:
tabelle["Neue_Spaten"] = tabelle["Punkte"] / 2
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Neue_Spaten
0,1,Leverkusen,19,15,4,0,50,14,36,49,24.5
1,2,Bayer,19,15,2,2,56,18,38,47,23.5
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37,18.5
3,4,Dortmund,19,10,6,3,40,26,14,36,18.0
4,5,RB Leipzig,19,10,3,6,42,26,16,33,16.5
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31,15.5


In [54]:
tabelle["Tore_+"] / tabelle["Spiele"]

0   2.6
1   2.9
2   2.3
3   2.1
4   2.2
5   1.6
dtype: float64

In [55]:
# Variante 1
tabelle["Tore_pro_Spiel"] = tabelle["Tore_+"] / 15

# Variante 2 (besser)
tabelle["Tore_pro_Spiel"] = tabelle["Tore_+"] / tabelle["Spiele"]
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Neue_Spaten,Tore_pro_Spiel
0,1,Leverkusen,19,15,4,0,50,14,36,49,24.5,2.6
1,2,Bayer,19,15,2,2,56,18,38,47,23.5,2.9
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37,18.5,2.3
3,4,Dortmund,19,10,6,3,40,26,14,36,18.0,2.1
4,5,RB Leipzig,19,10,3,6,42,26,16,33,16.5,2.2
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31,15.5,1.6


**Frage:** Wie fügen Sie eine neue Spalte ein, die für jede Mannschaft die Gegentore pro Spiel darstellt?

In [56]:
tabelle["GegentoreProSpiel"] = tabelle["Tore_-"].div(tabelle["Spiele"])

# 2. Aggregation von Daten <a class="anchor" id="aggregation"></a>

## 2.1 Erste deskriptive Parameter & Summierung <a class="anchor" id="parameter"></a>

In [57]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Neue_Spaten,Tore_pro_Spiel,GegentoreProSpiel
0,1,Leverkusen,19,15,4,0,50,14,36,49,24.5,2.6,0.7
1,2,Bayer,19,15,2,2,56,18,38,47,23.5,2.9,0.9
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37,18.5,2.3,1.3
3,4,Dortmund,19,10,6,3,40,26,14,36,18.0,2.1,1.4
4,5,RB Leipzig,19,10,3,6,42,26,16,33,16.5,2.2,1.4
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31,15.5,1.6,1.2


In [58]:
# Mittelwert
tabelle["Tore_+"].mean()

43.5

In [59]:
# Median
tabelle["Tore_+"].median()

42.5

In [60]:
# Standardsabweichung
tabelle["Tore_+"].std()

8.893818077743664

Es besteht die Möglichkeit, dass Sie Methoden zur Berechnung von statistischen Parametern auf mehrere Spalten gleichzeitig anwenden:

Berechnung des Mittelwertes für die beiden Spalten `Tore_+` und `Tore_-`:

In [61]:
tabelle[["Tore_+", "Tore_-", "Tordifferenz"]].mean()

Tore_+         43.5
Tore_-         21.8
Tordifferenz   21.7
dtype: float64

Die Anzahl aller geschossenen Tore berechnet Ihnen die Methode `sum()`:

In [62]:
tabelle["Tore_+"].sum()

261

**Frage:** Was macht die Funktion `cumsum`? Sehen Sie sich dazu die Ausgabe in der unteren Code-Zellen genauer an.

In [63]:
tabelle["cumsum"] = tabelle["Tore_+"].cumsum()
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Neue_Spaten,Tore_pro_Spiel,GegentoreProSpiel,cumsum
0,1,Leverkusen,19,15,4,0,50,14,36,49,24.5,2.6,0.7,50
1,2,Bayer,19,15,2,2,56,18,38,47,23.5,2.9,0.9,106
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37,18.5,2.3,1.3,149
3,4,Dortmund,19,10,6,3,40,26,14,36,18.0,2.1,1.4,189
4,5,RB Leipzig,19,10,3,6,42,26,16,33,16.5,2.2,1.4,231
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31,15.5,1.6,1.2,261


**Frage**: Wie lassen sich die kummulativen Häufigkeiten als Prozent darstellen? Denken Sie nochmals an den Abschnitt, in dem wir beliebige arithmetische Operationen für einzelne Spalten durchgeführt haben!

In [64]:
tabelle["cumsum_perc"] = tabelle["cumsum"] * 100 / tabelle["cumsum"].sum()

### Aufgabe: Parameter und Summen - Rossmann Store Sales <a class="anchor" id="parameter_summen"></a>

Wir betrachten erneut die Daten von Rossmann:

In [65]:
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 158829 entries, 0 to 158828
Data columns (total 9 columns):
 #   Column         Non-Null Count   Dtype         
---  ------         --------------   -----         
 0   Store          158829 non-null  object        
 1   DayOfWeek      158829 non-null  object        
 2   Date           158829 non-null  datetime64[ns]
 3   Sales          158829 non-null  int64         
 4   Customers      158829 non-null  int64         
 5   Open           158829 non-null  object        
 6   Promo          158829 non-null  object        
 7   StateHoliday   158829 non-null  object        
 8   SchoolHoliday  158829 non-null  object        
dtypes: datetime64[ns](1), int64(2), object(6)
memory usage: 10.9+ MB


Bitte bearbeiten Sie die folgenden Aufgaben:
1. Über welchen Zeitraum wurde die Salesdaten von Rossmann erhoben?
1. Was ist der durchschnittliche Tagesumsatz eines Rossmann Stores?
1. An welchem Tag konnte der kleinste und größte Tagesumsatz beobachtet werden? Nutzen Sie hierzu die `max()` und `min()` Methoden!
1. Was ist der gesamte Umsatz von Rossmann über alle Stores im Beobachtungszeitraum? Nutzen Sie die `sum()` Methode!
1. Fügen Sie eine neue Spalte ein, die den mittleren Tagesumsatz pro Kunde darstellt! Schauen Sie sich dazu nochmals das Kapitel zum Einfügen neuer Spalten an!
1. An wie viel Tagen gab es Promotionen?
1. Wie hoch liegt der mittlere Tageumsatz von Store `262`, wenn keine Promotionen laufen?
1. Wie hoch liegt der mittlere Tageumsatz von Store `262`, wenn Promotionen laufen?


In [66]:
import re


def get_date_string(date, pattern: str) -> str:
    reg_match = re.search(pattern, date)
    return reg_match.group(1)


def get_date_min_max_rev(
    df: pd.DataFrame, min_rev: bool = True, max_rev: bool = True
) -> dict:
    date_pattern = r"\b(\d{4}-\d{2}-\d{2})\b"
    min_max_dict = {}
    if min_rev == True:
        min_max_dict["min_rev_date"] = get_date_string(
            str(df[df["Sales"] == sales["Sales"].min()]["Date"]), date_pattern
        )
    if max_rev == True:
        min_max_dict["max_rev_date"] = get_date_string(
            str(df[df["Sales"] == df["Sales"].max()]["Date"]), date_pattern
        )
    return min_max_dict


sales_min_max_dict = get_date_min_max_rev(sales)
min_date = sales["Date"].min()
max_date = sales["Date"].max()
sales["avg_sales_customer"] = sales["Sales"] / sales["Customers"]
avg_sales_per_shop_promotion = (
    sales.groupby(
        ["Store", "Promo"],
    )["Sales"]
    .mean()
    .reset_index()
)


def get_sales_store_promo(df: pd.DataFrame, store: str, promo: str) -> float:
    filtered_df = df[(df["Store"] == store) & (df["Promo"] == promo)]
    return float(min(filtered_df["Sales"].values))


store = "262"

print(
    f"1.\nThe data is from {min_date} to {max_date}. This spans {str(max_date - min_date).split(' ')[:1][0]} days."
)
print(f"\n2.\nThe average revenue of a Rossmann store is {sales['Sales'].mean():.2f}.")
print(
    f"\n3.\nThe date with the highest revenue is {sales_min_max_dict['max_rev_date']} and with the lowest revenue {sales_min_max_dict['min_rev_date']}"
)
print(f"\n4.\nRossmans total revenue over the timeframe is {sales['Sales'].sum()}.")
print(
    f"\n5.\nThe appended with the average daily sales per customer is\n{sales.head()}"
)
print(
    f"\n6.\nThe average revenue without promotion in store {store} {get_sales_store_promo(avg_sales_per_shop_promotion, store, '0'):.2f}"
)
print(
    f"\n7.\nThe average revenue with promotion in store {store} {get_sales_store_promo(avg_sales_per_shop_promotion, store, '1'):.2f}"
)

1.
The data is from 2015-01-04 00:00:00 to 2015-12-07 00:00:00. This spans 337 days.

2.
The average revenue of a Rossmann store is 5940.86.

3.
The date with the highest revenue is 2015-06-22 and with the lowest revenue 2015-07-31

4.
Rossmans total revenue over the timeframe is 943580977.

5.
The appended with the average daily sales per customer is
  Store DayOfWeek       Date  Sales  Customers Open Promo StateHoliday  \
0     1         5 2015-07-31   5263        555    1     1            0   
1     2         5 2015-07-31   6064        625    1     1            0   
2     3         5 2015-07-31   8314        821    1     1            0   
3     4         5 2015-07-31  13995       1498    1     1            0   
4     5         5 2015-07-31   4822        559    1     1            0   

  SchoolHoliday  avg_sales_customer  
0             1                 9.5  
1             1                 9.7  
2             1                10.1  
3             1                 9.3  
4          

## 2.2 Zählen <a class="anchor" id="zaehlen"></a>
Wir bleiben beim Rossmann Datensatz. Enthalten Spalten kategoriale Werte interessiert man sich z.B. dafür, wie häufig eine Kategorie auftritt. Pandas stellt dafür die Funktion `value_counts` bereit:

In [67]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Neue_Spaten,Tore_pro_Spiel,GegentoreProSpiel,cumsum,cumsum_perc
0,1,Leverkusen,19,15,4,0,50,14,36,49,24.5,2.6,0.7,50,5.1
1,2,Bayer,19,15,2,2,56,18,38,47,23.5,2.9,0.9,106,10.8
2,3,VfB Stuttgart,19,12,1,6,43,25,18,37,18.5,2.3,1.3,149,15.1
3,4,Dortmund,19,10,6,3,40,26,14,36,18.0,2.1,1.4,189,19.2
4,5,RB Leipzig,19,10,3,6,42,26,16,33,16.5,2.2,1.4,231,23.4
5,6,Eintracht Frankfurt,19,8,7,4,30,22,8,31,15.5,1.6,1.2,261,26.5


In [68]:
tabelle["Unentschieden"].value_counts()

4    1
2    1
1    1
6    1
3    1
7    1
Name: Unentschieden, dtype: int64

In [69]:
sales["Store"].value_counts()

1       143
330     143
343     143
342     143
341     143
       ... 
706     142
707     142
708     142
709     142
1115    142
Name: Store, Length: 1115, dtype: int64

**Frage:** Was macht die Parameter `normalize` und `ascending` in der Funktion `value_counts`?

In [70]:
# normalize rel. frequecy -> %
# ascending sorts results

## 2.3 Gruppierungen und Aggregationen <a class="anchor" id="gruppierung"></a>

Wenn wir uns in die Lage eines zentralen Controllings versetzen, so interessieren und natürlich die Umsätze eine jeden Stores. Zum Beispiel könnten wir fragen, wie die mittleren Tagesumsätze je Store ausfallen, um anschließend die einzelnen Filialen miteinander zu vergleichen. Mit den bisherigen Methoden können wir solche Rechnung machen:

In [71]:
sales_store1 = sales[sales.Store == "1"]
sales_store262 = sales[sales.Store == "262"]
sales_store159 = sales[sales.Store == "159"]

In [72]:
sales_store1.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday,avg_sales_customer
0,1,5,2015-07-31,5263,555,1,1,0,1,9.5
1115,1,4,2015-07-30,5020,546,1,1,0,1,9.2
2230,1,3,2015-07-29,4782,523,1,1,0,1,9.1
3345,1,2,2015-07-28,5011,560,1,1,0,1,8.9
4460,1,1,2015-07-27,6102,612,1,1,0,1,10.0


In [73]:
mean_sales_store1 = sales_store1.Sales.mean()
mean_sales_store262 = sales_store262.Sales.mean()
mean_sales_store159 = sales_store159.Sales.mean()
mean_sales_store1, mean_sales_store262, mean_sales_store159

(3686.671328671329, 21443.412587412586, 6426.55944055944)

In [74]:
sales.Store.unique()

array(['1', '2', '3', ..., '1113', '1114', '1115'], dtype=object)

Sie können unmittelbar erkennen, dass diese Art der Berechnung bei einer Vielzahl von Stores extrem mühsam ist. Pandas stellt glücklicherweise Methoden bereit, die Ihnen die Arbeit enorm erleichtern, insbesondere die `groupby` Funktion.

Wir können beispielsweise ganz leicht den mittleren Tagesumsatz je Store berechnen, wenn wir zunächst die Daten nach Stores gruppieren (`sales.groupby("Store")`), anschließend die Spalte `Sales` auswählen (`sales.groupby("Store")["Sales"]`) und abschließend je Store den den mittleren Tagesumsatz berechnen:

In [75]:
sales["Store"].value_counts()

1       143
330     143
343     143
342     143
341     143
       ... 
706     142
707     142
708     142
709     142
1115    142
Name: Store, Length: 1115, dtype: int64

In [76]:
sales[sales.Store == 1]["Sales"].mean()

nan

In [77]:
sales.groupby("Store")["Sales"].mean()

Store
1      3686.7
10     4919.1
100    6838.4
1000   6116.7
1001   4852.3
        ...  
995    8075.4
996    6092.3
997    4198.5
998    3767.0
999    7687.6
Name: Sales, Length: 1115, dtype: float64

In [78]:
# Mit Sortierung
sales.groupby("Store")["Sales"].mean().sort_values(ascending=False).head()

Store
262    21443.4
1114   18690.4
562    18016.3
817    17123.2
842    16572.3
Name: Sales, dtype: float64

Sie haben die Möglichkeit mit der Funktion `groupby` auch Gruppierungen auf mehrere Spalten durchzuführen. Zum Beispiel können wir für jeden Store und Wochentag den mittleren Tagesumsatz berechnen:

In [79]:
sales.groupby(["Store", "DayOfWeek"])["Sales"].mean()

Store  DayOfWeek
1      1           4469.3
       2           4516.2
       3           4396.6
       4           3912.0
       5           3815.2
                    ...  
999    3           9119.9
       4           9019.7
       5           8625.0
       6           5850.6
       7              0.0
Name: Sales, Length: 7805, dtype: float64

Mit dem Befehl `reset_index()` wird der Index des DataFrames wieder als Spalte gesetzt!

In [80]:
sales.groupby(["Store", "DayOfWeek"])["Sales"].mean().reset_index()

Unnamed: 0,Store,DayOfWeek,Sales
0,1,1,4469.3
1,1,2,4516.2
2,1,3,4396.6
3,1,4,3912.0
4,1,5,3815.2
...,...,...,...
7800,999,3,9119.9
7801,999,4,9019.7
7802,999,5,8625.0
7803,999,6,5850.6


Mithilfe der Methode `agg` können Sie gleichzeitig mehrere Aggregationsfunktionen berechnen lassen. Dazu übergeben Sie an die Funktion `agg` eine Liste, die die relevanten Funktionen als String enthält:

In [81]:
sales.groupby(["Store", "DayOfWeek"])["Sales"].agg(["min", "mean", "max", "std"])

Unnamed: 0_level_0,Unnamed: 1_level_0,min,mean,max,std
Store,DayOfWeek,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1,0,4469.3,6714,1770.8
1,2,3037,4516.2,6206,846.9
1,3,3319,4396.6,6816,919.8
1,4,0,3912.0,6574,1592.5
1,5,0,3815.2,5384,1401.2
...,...,...,...,...,...
999,3,6312,9119.9,11848,1796.8
999,4,0,9019.7,12471,2779.8
999,5,0,8625.0,11709,3250.8
999,6,4931,5850.6,8312,858.0


## 2.4 Pivottabellen <a class="anchor" id="pivot"></a>
Sie kennen vermutlich Pivottabellen aus Excel. Diese lassen sich auch sehr leicht in pandas erzeugen. Dazu verwenden wir die Methode `pivot_table`. Die Ergebnisse sind analog zu denen aus den vorherigen Abschnitten, wenn wir `groupby` mit entsprechenden Aggreagationsmethoden aufrufen. Die Darstellung unterscheidet sich allerdings ein wenig.

In [82]:
# Mittelwert des Tagesumsatzes je Store
sales.pivot_table(values="Sales", index="Store", aggfunc="mean")
# ist identisch mit
# sales.groupby("Store")["Sales"].mean()

Unnamed: 0_level_0,Sales
Store,Unnamed: 1_level_1
1,3686.7
10,4919.1
100,6838.4
1000,6116.7
1001,4852.3
...,...
995,8075.4
996,6092.3
997,4198.5
998,3767.0


In [83]:
# Min, Max und Mittelwert des Tagesumsatzes je Store
sales.pivot_table(values="Sales", index="Store", aggfunc=["min", "mean", "max"])

Unnamed: 0_level_0,min,mean,max
Unnamed: 0_level_1,Sales,Sales,Sales
Store,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,0,3686.7,6816
10,0,4919.1,8565
100,0,6838.4,12329
1000,0,6116.7,11052
1001,0,4852.3,12900
...,...,...,...
995,0,8075.4,14801
996,0,6092.3,15086
997,0,4198.5,10289
998,0,3767.0,6994


In [84]:
# Min, Max und Mittelwert des mittleren Tagesumsatzes je Wochentag
sales.pivot_table(
    values="Sales",
    index="Store",
    aggfunc="mean",
    columns="DayOfWeek",
    fill_value="-",
    margins=True,
)

DayOfWeek,1,2,3,4,5,6,7,All
Store,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,4469.3,4516.2,4396.6,3912.0,3815.2,4644.1,0.0,3686.7
10,6168.9,6300.7,5840.0,5471.4,5364.8,5192.1,0.0,4919.1
100,8496.3,7822.3,7807.3,7186.6,7398.9,9063.4,0.0,6838.4
1000,7403.1,7697.3,7233.1,6376.9,6668.2,7397.4,0.0,6116.7
1001,6886.4,6879.8,5780.6,5823.6,4997.3,3543.0,0.0,4852.3
...,...,...,...,...,...,...,...,...
996,9109.0,8565.3,7147.8,6914.1,6147.7,4718.1,0.0,6092.3
997,5912.1,5095.2,4687.1,4440.4,4574.3,4649.8,0.0,4198.5
998,4672.3,4809.5,4522.5,4064.4,4114.6,4153.2,0.0,3767.0
999,10808.9,10275.4,9119.9,9019.7,8625.0,5850.6,0.0,7687.6


## 2.5 Die Funktion `transform` <a class="anchor" id="transform"></a>
Sie haben gesehen, dass bei Verwendung der Funktion `groupby` ein neuer DataFrame entsteht, der so viele Zeilen hat wie es verschiedene Gruppen gibt. Es kommt regelmäßig vor, dass Sie Berechnungen auf gruppierten Daten machen möchten, das berechnete Ergebnis aber wieder dem urspünglichen DataFrame in Form einer neuen Spalte hinzufügen wollen.

Beispielsweise interessiert Sie, ob der Tagesumsatz über dem durchschnittlichen Tagesumsatz eines Stores liegt. Sie müssen es also schaffen, für jeden Store den durchschnittlichen Tagesumsatz zu berechnen und diesen anschließend mit jedem der einzelnen Tagesumsätze vergleichen.

In [85]:
# Hier wird nur der mittlere Tagesumsatz je Store zurückgegeben
sales.groupby("Store", sort=False)["Sales"].mean().head()

Store
1   3686.7
2   4166.5
3   5786.4
4   8221.2
5   3861.9
Name: Sales, dtype: float64

In [86]:
# hier wird der mittlere Tagesumsatz je Store berechnet und
# anschließend für jede Zeile des ursprünglichen DataFrames passend zurückgegeben
sales.groupby("Store")["Sales"].transform("mean")

0        3686.7
1        4166.5
2        5786.4
3        8221.2
4        3861.9
          ...  
158824   4596.2
158825   6807.3
158826   7562.5
158827   5840.3
158828   4878.2
Name: Sales, Length: 158829, dtype: float64

In [87]:
sales["MeanStoreSales"] = sales.groupby("Store")["Sales"].transform("mean")
sales.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday,avg_sales_customer,MeanStoreSales
0,1,5,2015-07-31,5263,555,1,1,0,1,9.5,3686.7
1,2,5,2015-07-31,6064,625,1,1,0,1,9.7,4166.5
2,3,5,2015-07-31,8314,821,1,1,0,1,10.1,5786.4
3,4,5,2015-07-31,13995,1498,1,1,0,1,9.3,8221.2
4,5,5,2015-07-31,4822,559,1,1,0,1,8.6,3861.9


In [88]:
sales["SalesAboveMean"] = sales["Sales"] > sales["MeanStoreSales"]
sales.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday,avg_sales_customer,MeanStoreSales,SalesAboveMean
0,1,5,2015-07-31,5263,555,1,1,0,1,9.5,3686.7,True
1,2,5,2015-07-31,6064,625,1,1,0,1,9.7,4166.5,True
2,3,5,2015-07-31,8314,821,1,1,0,1,10.1,5786.4,True
3,4,5,2015-07-31,13995,1498,1,1,0,1,9.3,8221.2,True
4,5,5,2015-07-31,4822,559,1,1,0,1,8.6,3861.9,True


Eine Übersicht zu den diversen Funktionen mit denen Sie DataFrames manipulieren können, finden Sie [hier](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf).

### Aufgabe: Data Wrangling & Aggregation - Verkaufszahlen Walmart <a class="anchor" id="walmart"></a>

Wir beschäftigen uns im folgenden mit einem Datensatz von Walmart. Dieser wurde 2020 von Walmart auf Kaggle veröffentlicht. Das Ziel des Wettbewerbs bestand darin, ML-Verfahren zu entwickeln, die bestmöglich die Verkäufe von einzelnen Produkten in Walmart-Filialen in den nächsten 28 Tagen vorhersagen. Nähere Informationen zum Wettbewerb finden Sie [hier](https://www.kaggle.com/competitions/m5-forecasting-accuracy/overview/description).

Bevor wir zu den eigentlichen Aufgaben kommen, müssen zunächst zwei verschiedene Datensätze laden und geeignet aufbereiten und miteinander verbinden (joins).

In [89]:
FOLDER = "Daten/Walmart"

In [90]:
sales = pd.read_csv(f"{FOLDER}/sales.csv", index_col=0)

In [91]:
sales.head()

Unnamed: 0,id,item_id,dept_id,cat_id,store_id,state_id,d_1,d_2,d_3,d_4,d_5,d_6,d_7,d_8,d_9,d_10,d_11,d_12,d_13,d_14,d_15,d_16,d_17,d_18,d_19,d_20,d_21,d_22,d_23,d_24,d_25,d_26,d_27,d_28,d_29,d_30,d_31,d_32,d_33,d_34,d_35,d_36,d_37,d_38,d_39,d_40,d_41,d_42,d_43,d_44,...,d_1892,d_1893,d_1894,d_1895,d_1896,d_1897,d_1898,d_1899,d_1900,d_1901,d_1902,d_1903,d_1904,d_1905,d_1906,d_1907,d_1908,d_1909,d_1910,d_1911,d_1912,d_1913,d_1914,d_1915,d_1916,d_1917,d_1918,d_1919,d_1920,d_1921,d_1922,d_1923,d_1924,d_1925,d_1926,d_1927,d_1928,d_1929,d_1930,d_1931,d_1932,d_1933,d_1934,d_1935,d_1936,d_1937,d_1938,d_1939,d_1940,d_1941
10992,FOODS_2_018_CA_4_evaluation,FOODS_2_018,FOODS_2,FOODS,CA_4,CA,1,0,0,0,0,0,0,0,3,0,0,0,1,2,0,0,0,0,0,0,3,0,0,0,0,1,0,0,0,2,1,0,0,0,0,2,0,0,2,0,0,2,1,3,...,1,0,0,0,0,1,0,2,0,0,1,2,0,1,0,0,1,0,0,1,1,1,0,2,1,0,0,0,1,0,0,0,1,0,1,0,1,0,0,0,1,1,1,0,0,0,1,0,0,2
28257,HOUSEHOLD_1_257_WI_3_evaluation,HOUSEHOLD_1_257,HOUSEHOLD_1,HOUSEHOLD,WI_3,WI,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,1,1,0,0,2,2,2,1,1,1,1,0,2,2,1,1,2,0,1,1,1,2,1,0,1,1,2,0,0,3,2,1,0,1,3,3,0,2,1,2,3,3,0,0,2,0,0,0,0
7220,HOUSEHOLD_2_026_CA_3_evaluation,HOUSEHOLD_2_026,HOUSEHOLD_2,HOUSEHOLD,CA_3,CA,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,1,0,1
27610,HOBBIES_1_174_WI_3_evaluation,HOBBIES_1_174,HOBBIES_1,HOBBIES,WI_3,WI,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0
7020,HOUSEHOLD_1_365_CA_3_evaluation,HOUSEHOLD_1_365,HOUSEHOLD_1,HOUSEHOLD,CA_3,CA,1,4,0,2,2,1,0,1,4,2,0,0,0,2,2,2,0,0,3,2,1,4,1,3,0,1,0,2,2,2,1,2,1,1,0,2,3,0,1,1,2,2,2,0,...,0,0,1,1,0,3,3,1,0,1,1,0,2,3,1,1,2,2,0,1,2,1,1,1,1,0,2,0,0,0,1,0,0,1,1,1,0,2,0,1,0,1,1,1,0,1,1,1,1,2


Die Salesdaten wie oben angezeigt, liegen im sogenannten Wide-Format vor. In den späteren Anwendungen des maschinellen Lernens werden wir regelmäßig mit dem sogenannten Long-Format arbeiten. Für eine Umwandlung in das Long-Format können wir die Funktion `melt` verwenden. Unter folgendem [Link](https://pandas.pydata.org/docs/user_guide/reshaping.html#reshaping-melt) finden Sie auch nochmal detailliertere Erklärungen zu dieser und anderen Funktionen.

In [92]:
sales = sales.melt(
    id_vars=["id", "item_id", "dept_id", "cat_id", "store_id", "state_id"],
    var_name="day",
    value_name="demand",
)

In [93]:
sales.head()

Unnamed: 0,id,item_id,dept_id,cat_id,store_id,state_id,day,demand
0,FOODS_2_018_CA_4_evaluation,FOODS_2_018,FOODS_2,FOODS,CA_4,CA,d_1,1
1,HOUSEHOLD_1_257_WI_3_evaluation,HOUSEHOLD_1_257,HOUSEHOLD_1,HOUSEHOLD,WI_3,WI,d_1,0
2,HOUSEHOLD_2_026_CA_3_evaluation,HOUSEHOLD_2_026,HOUSEHOLD_2,HOUSEHOLD,CA_3,CA,d_1,0
3,HOBBIES_1_174_WI_3_evaluation,HOBBIES_1_174,HOBBIES_1,HOBBIES,WI_3,WI,d_1,0
4,HOUSEHOLD_1_365_CA_3_evaluation,HOUSEHOLD_1_365,HOUSEHOLD_1,HOUSEHOLD,CA_3,CA,d_1,1


In der Datei `calendar` finden Sie nähere Informationen zu den einzelnen Verkaufsdaten, d.h. Datum, Wochentag, Jahr, etc. Die beiden DataFrame lassen sich über die Spalte `day` (`sales`) und `d` (`calendar`) miteinander verknüpfen. Wir werden einen Left-Join verwenden, um beide Datensätze zu verbinden. Dies gelingt über die Funktion `merge` und der Definition entsprechender Parameter.

In [94]:
calendar = pd.read_csv(f"{FOLDER}/calendar.csv")
calendar.head(10)

Unnamed: 0,date,wm_yr_wk,weekday,wday,month,year,d,event_name_1,event_type_1,event_name_2,event_type_2,snap_CA,snap_TX,snap_WI
0,2011-01-29,11101,Saturday,1,1,2011,d_1,,,,,0,0,0
1,2011-01-30,11101,Sunday,2,1,2011,d_2,,,,,0,0,0
2,2011-01-31,11101,Monday,3,1,2011,d_3,,,,,0,0,0
3,2011-02-01,11101,Tuesday,4,2,2011,d_4,,,,,1,1,0
4,2011-02-02,11101,Wednesday,5,2,2011,d_5,,,,,1,0,1
5,2011-02-03,11101,Thursday,6,2,2011,d_6,,,,,1,1,1
6,2011-02-04,11101,Friday,7,2,2011,d_7,,,,,1,0,0
7,2011-02-05,11102,Saturday,1,2,2011,d_8,,,,,1,1,1
8,2011-02-06,11102,Sunday,2,2,2011,d_9,SuperBowl,Sporting,,,1,1,1
9,2011-02-07,11102,Monday,3,2,2011,d_10,,,,,1,1,0


In [95]:
# merge sales und calendar
sales = pd.merge(sales, calendar, how="left", left_on="day", right_on="d")
sales.drop(columns=["d"], inplace=True)
sales.head()

Unnamed: 0,id,item_id,dept_id,cat_id,store_id,state_id,day,demand,date,wm_yr_wk,weekday,wday,month,year,event_name_1,event_type_1,event_name_2,event_type_2,snap_CA,snap_TX,snap_WI
0,FOODS_2_018_CA_4_evaluation,FOODS_2_018,FOODS_2,FOODS,CA_4,CA,d_1,1,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0
1,HOUSEHOLD_1_257_WI_3_evaluation,HOUSEHOLD_1_257,HOUSEHOLD_1,HOUSEHOLD,WI_3,WI,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0
2,HOUSEHOLD_2_026_CA_3_evaluation,HOUSEHOLD_2_026,HOUSEHOLD_2,HOUSEHOLD,CA_3,CA,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0
3,HOBBIES_1_174_WI_3_evaluation,HOBBIES_1_174,HOBBIES_1,HOBBIES,WI_3,WI,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0
4,HOUSEHOLD_1_365_CA_3_evaluation,HOUSEHOLD_1_365,HOUSEHOLD_1,HOUSEHOLD,CA_3,CA,d_1,1,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0


Bitte berarbeiten Sie nun die folgenden Aufgaben:
1. In welchem Zeitraum wurden die Daten erhoben?
1. Wie viele verschiedene Stores gibt es im Datensatz?
1. Berechnen Sie den durschnittlichen Tagesabsatz (in Stück) für jeden Artikel? Nutzen Sie die `groupby` und anschließend die `mean` Methode!
1. Berechnen Sie für jeden Artikel den durchschnittlichen Tagesabsatz und fügen Sie diesen dem ursprünglichen DataFrame `sales` als neue Spalte hinzu. Nutzen Sie dazu die Funktion `transform`.
1. Fügen Sie anschließend eine neue Spalte hinzu, die den Tagesabsatz ins Verhältnis zum durchschnittlichen Tagesabsatz setzt.
1. **ENDGEGNERFRAGE:** Fügen Sie eine neue Spalte ein, die den Absatz des Vortages eines Artikels darstellt. Nutzen Sie die Funktionen `transform` & `shift` i.V.m. einer `lambda`-Funktion.
1. **ENDGEGNERFRAGE**: Fügen Sie eine neue Spalte ein, die den mittleren Absatz der letzten 3 Tage eines Artikels darstellt. Nutzen Sie die Funktionen `transform` & `shift`, `rolling` i.V.m. einer `lambda`-Funktion.

In [96]:
sales["date"] = pd.to_datetime(sales["date"])
sales.sort_values(by="date", inplace=True, ascending=True)
start_date = sales["date"].min()
end_date = sales["date"].max()
num_stores = sales["store_id"].nunique()
avg_item_demand = sales.groupby("item_id")["demand"].mean().reset_index().head()
sales["item_avg_demand"] = sales.groupby("item_id")["demand"].transform("mean")
sales["daily_demand_mean_ratio"] = sales["demand"] / sales["item_avg_demand"]
sales["last_days_demand"] = sales.groupby("item_id")["demand"].transform(
    lambda x: x.shift(1)
)
sales["3d_rolling_demand"] = sales.groupby("item_id")["demand"].transform(
    lambda x: x.shift(1).rolling(window=3).mean()
)

print(f"1.\nThe data ist from {start_date} to {end_date}.")
print(f"\n2.\nThe number of stores ist {num_stores}.")
print(f"\n3.\nThe average daily demand is:\n{avg_item_demand}")
print(
    f"\n4.\nThe table appended with the avg daily demand is:\n{sales[['date','item_id','item_avg_demand']].head()}"
)
print(
    f"\n5.\nThe table appended with the avg daily demand ratio is:\n{sales[['date','item_id','daily_demand_mean_ratio']].head()}"
)
print(
    f"\n6.\nThe table appended with the last days demand is:\n{sales[['date','item_id','demand','last_days_demand']].tail()}"
)
print(
    f"\n6.\nThe table appended with the 3d rolling demand is:\n{sales[['date','item_id','demand','3d_rolling_demand']].tail()}"
)

1.
The data ist from 2011-01-29 00:00:00 to 2016-05-22 00:00:00.

2.
The number of stores ist 10.

3.
The average daily demand is:
       item_id  demand
0  FOODS_1_002     0.8
1  FOODS_1_003     0.5
2  FOODS_1_009     0.2
3  FOODS_1_011     0.2
4  FOODS_1_023     2.4

4.
The table appended with the avg daily demand is:
          date      item_id  item_avg_demand
0   2011-01-29  FOODS_2_018              0.8
658 2011-01-29  FOODS_3_151              0.4
659 2011-01-29  FOODS_2_013              1.9
660 2011-01-29  FOODS_2_337              0.1
661 2011-01-29  FOODS_3_711              3.6

5.
The table appended with the avg daily demand ratio is:
          date      item_id  daily_demand_mean_ratio
0   2011-01-29  FOODS_2_018                      1.2
658 2011-01-29  FOODS_3_151                      0.0
659 2011-01-29  FOODS_2_013                      1.1
660 2011-01-29  FOODS_2_337                      0.0
661 2011-01-29  FOODS_3_711                      1.1

6.
The table appended with the