<a href="https://colab.research.google.com/github/AlexKressner/Vorlesung-Business-Intelligence-Anwendungen/blob/main/Pandas_Intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Übersicht
1. [Einführung Pandas](#einführung_pandas)
    1. [DataFrames](#dataframes)
    1. [Erste Methoden zur Datenexploration](#exploration)
    1. [Optionen beim Laden von Daten](#laden)
    1. [Sortieren](#sortieren)
    1. [Subsetting](#subsetting)
    1. [Neue Spalten](#neue_spalte)
2. [Aggregation von Daten](#aggregation)
    1. [Erste deskriptive Parameter & Summierung](#parameter)
    1. [Zählen](#zaehlen)
    1. [Gruppierungen und Aggregationen](#gruppierung)
    1. [Pivottabellen](#pivot)
    1. [Funktion transform](#transform)

# Übungsaufgaben
- [Erste Exploration DataFrame - Rossmann Store Sales](#aufgabe_exploration)
- [Sortieren und Subsetting - Rossmann Store Sales](#subset_sort)
- [Statistische Parameter & Summen - Rossmann Store Sales](#parameter_summen)
- [Aggregationen - Verkaufszahlen Walmart](#walmart)

# 1. Einführung Pandas <a class="anchor" id="einführung_pandas"></a>
Pandas ist eines der bekanntesten Packages für Python und wird zur Lösung diverser Aufgaben im Bereich der Datenverarbeitung eingesetzt - von der einfachen Datenmanipulation bis hin zu ausgefeilten Datenanalysen. Wir beschäftigen uns intensiv mit dem Datenobjekt "DataFrames" und wie man mit diesem im Rahmen der Datenanalyse arbeitet, d.h. erstellt, filtert, transformiert etc. Pandas verfügt über eine hervorragende Dokumentation, die Sie unter folgendem [Link](https://pandas.pydata.org) finden.

## 1.1 DataFrames <a class="anchor" id="dataframes"></a>
Ein [DataFrame](https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframe) speichert Daten in tabellarischer Form, ähnlicher einer Excel- oder SQL-Tabelle. Das folgende Beispiel erzeugt einen DataFrame aus zwei Listen. Die erste Liste enthält Teile der aktuellen Tabelle der 1. Fussballbundesliga. Es handelt sich um eine Liste aus Listen. Jede Liste in der Liste `tabelle` stellt einen Tabelleneintrag (Zeile) mit den zugehörigen Daten dar. Die Liste `spalten_namen` enthält - wie der Name bereits sagt - die Spaltennamen der Tabelle.

In [None]:
# import pandas
import pandas as pd

In [None]:
# Einstellungen zum Anzeigen von DataFrames etc.
pd.options.display.float_format = "{:.1f}".format
pd.options.display.max_columns = 100
pd.options.display.max_rows = 1000

In [None]:
tabelle = [
    [1, "Bayern", 15, 21, 3, 4, 85, 29, 56, 66],
    [2, "Dortmund", 15, 18, 3, 7, 68, 42, 26, 57],
    [3, "Leverkusen", 15, 15, 6, 7, 68, 42, 26, 51],
    [4, "RB Leipzig", 15, 14, 6, 8, 61, 31, 30, 48],
    [5, "Freiburg", 15, 12, 9, 7, 44, 33, 11, 45],
    [6, "Hoffenheim", 15, 13, 5, 10, 50, 42, 8, 44],
]

In [None]:
spalten_namen = [
    "Rang", "Mannschaft", "Spiele", "Siege", 
    "Unentschieden", "Niederlagen", 
    "Tore_+", "Tore_-", "Tordifferenz", 
    "Punkte"
]

Nachfolgend erzeugen wir den DataFrame, der die Bundesligatabelle darstellt. 

In [None]:
tabelle = pd.DataFrame(tabelle, columns=spalten_namen)
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,15,21,3,4,85,29,56,66
1,2,Dortmund,15,18,3,7,68,42,26,57
2,3,Leverkusen,15,15,6,7,68,42,26,51
3,4,RB Leipzig,15,14,6,8,61,31,30,48
4,5,Freiburg,15,12,9,7,44,33,11,45
5,6,Hoffenheim,15,13,5,10,50,42,8,44


Wir können einen DataFrame auch mit entsprechenden Methodenaufrufen in seine einzelnen Komponenten zerlegen ("Attribute"):

In [None]:
tabelle.values

array([[1, 'Bayern', 15, 21, 3, 4, 85, 29, 56, 66],
       [2, 'Dortmund', 15, 18, 3, 7, 68, 42, 26, 57],
       [3, 'Leverkusen', 15, 15, 6, 7, 68, 42, 26, 51],
       [4, 'RB Leipzig', 15, 14, 6, 8, 61, 31, 30, 48],
       [5, 'Freiburg', 15, 12, 9, 7, 44, 33, 11, 45],
       [6, 'Hoffenheim', 15, 13, 5, 10, 50, 42, 8, 44]], dtype=object)

In [None]:
tabelle.columns

Index(['Rang', 'Mannschaft', 'Spiele', 'Siege', 'Unentschieden', 'Niederlagen',
       'Tore_+', 'Tore_-', 'Tordifferenz', 'Punkte'],
      dtype='object')

In [None]:
tabelle.index

RangeIndex(start=0, stop=6, step=1)

## 1.2 Erste Methoden zur Datenexploration <a class="anchor" id="exploration"></a>
Für die erste Exploration von Daten in einem pandas DataFrame stehen viele nützliche Methoden zur Verfügung. Sie können sich eine Übersicht verschaffen, wenn Sie in einer Code-Zelle den DataFrame `tabelle` eingeben und anschließend einen Punkt (`.`) setzen. Mit der Eingabe `tabelle.` werden Ihnen automatisch alle verfügbaren Funktionen angezeigt.

In [None]:
# Gibt Ihnen den "Kopf" des DataFrames zurück, d.h. die ersten 5 Zeilen
tabelle.head()

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,15,21,3,4,85,29,56,66
1,2,Dortmund,15,18,3,7,68,42,26,57
2,3,Leverkusen,15,15,6,7,68,42,26,51
3,4,RB Leipzig,15,14,6,8,61,31,30,48
4,5,Freiburg,15,12,9,7,44,33,11,45


In [None]:
# Zeigt Ihnen Informationen zu den einzelnen Spalten
tabelle.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Rang           6 non-null      int64 
 1   Mannschaft     6 non-null      object
 2   Spiele         6 non-null      int64 
 3   Siege          6 non-null      int64 
 4   Unentschieden  6 non-null      int64 
 5   Niederlagen    6 non-null      int64 
 6   Tore_+         6 non-null      int64 
 7   Tore_-         6 non-null      int64 
 8   Tordifferenz   6 non-null      int64 
 9   Punkte         6 non-null      int64 
dtypes: int64(9), object(1)
memory usage: 608.0+ bytes


**Frage:** Was machen die folgenden beiden Funktionen?

In [None]:
tabelle.shape

(6, 10)

In [None]:
tabelle.describe()

Unnamed: 0,Rang,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
count,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0
mean,3.5,15.0,15.5,5.3,7.2,62.7,36.5,26.2,51.8
std,1.9,0.0,3.4,2.3,1.9,14.6,6.2,17.1,8.4
min,1.0,15.0,12.0,3.0,4.0,44.0,29.0,8.0,44.0
25%,2.2,15.0,13.2,3.5,7.0,52.8,31.5,14.8,45.8
50%,3.5,15.0,14.5,5.5,7.0,64.5,37.5,26.0,49.5
75%,4.8,15.0,17.2,6.0,7.8,68.0,42.0,29.0,55.5
max,6.0,15.0,21.0,9.0,10.0,85.0,42.0,56.0,66.0


### Aufgabe: Erste Exploration DataFrame <a class="anchor" id="aufgabe_exploration"></a>
Für die Aufgabe verwenden wir den [Rossmann Store Sales](https://www.kaggle.com/competitions/rossmann-store-sales/overview) Datensatz. Die entsprechenden csv-Dateien finden Sie in Teams. Laden Sie diese bitte in Ihren Google-Drive. Wenden Sie anschließend die zuvor eingeführten Methoden auf den neuen DataFrame an, um sich ein erstes Bild zu den Daten zu verschaffen.

Sie müssen zunächst Ihren persönlichen Google-Drive Account laden. Dies gelingt wie folgt: Sie müssen entsprechende Berechtigungen genehmigen. Weitere Hinweise dazu [hier](https://colab.research.google.com/notebooks/io.ipynb#scrollTo=XDg9OBaYqRMd)

In [None]:
# Notebook mit dem Google-Drive verbinden
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Dokumente und Ordner im Drive anzeigen
! ls /content/drive/MyDrive/

 auswertung.csv			    image_clustering
'Colab Notebooks'		    Produktionsplanungsproblem.ipynb
 DHBW				    sales_pivot.csv
 Fallstudie_Crypto_Ciglevic.ipynb  'Warengruppen Bewertung.gform'
 Fallstudie_Rossmann.ipynb	    WorldCupMatches.txt


In [None]:
PATH = "/content/drive/MyDrive/DHBW/BI/Daten/Rossmann/"

In [None]:
sales = pd.read_csv(PATH + "sales.csv")

  exec(code_obj, self.user_global_ns, self.user_ns)


**Fragen**
1. Wie viele Zeilen und Spalten hat der DataFrame?
1. Was ist der durchschnittliche Tagesumsatz eines Stores?
1. Was war die größte Anzahl von Kunden, die einen Store an einem Tag besucht haben?
1. Welchen Datentyp haben die einzelnen Spalten? Sind die Datentypen sinnvoll?

## 1.3 Optionen beim Laden von Daten <a class="anchor" id="laden"></a>
Mit den Methoden `pd.read_...` lassen sich Daten aus unterschiedlichen Dateiformaten laden. Es gibt eine Vielzahl von Parametern, mit denen Sie das Laden von Daten gezielt steuern können. Wir gehen hier auf einige wichtige Parameter ein. Eine Übersicht zu `pd.read_csv()` finden Sie [hier](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).

Über den Parameter `sep` definieren Sie das Zeichen mit dem Spalten im Ursprungsdokument von einander getrennt werden. Bei csv-Dateien im deutschsprachigen Raum gilt häufig `sep=";"` im angelsäsischen Raum hingegen `sep=","`. Der Default ist `sep=","`.

In [None]:
sales = pd.read_csv(PATH + "sales.csv", sep=",")

Gelegentlich müssen wir auch definieren, wie Dezimalzahlen und Tausender im Ursprungsdokument dargestellt werden.

In [None]:
sales = pd.read_csv(PATH + "sales.csv", sep=",", decimal=".", thousands=",")

Über den Parameter `usecols` definieren Sie, welche Spalten gelesen werden sollen.

In [None]:
sales_customers = pd.read_csv(PATH + "sales.csv", usecols=["Sales","Customers"])

Ebenfalls sehr wichtig ist der Parameter `dtype`. Über diesen steuern Sie den Datentyp, der für eine Spalte verwendet wird. Eine Übersicht zu den Datentypen finden Sie [hier](https://pbpython.com/pandas_dtypes.html)

In [None]:
dtypes= {
    "Store":"str",
    "DayOfWeek":"str",
    "Open":"str",
    "Promo":"str",
    "StateHoliday":"str",
    "SchoolHoliday":"str",
}

In [None]:
sales = pd.read_csv(PATH + "sales.csv", dtype=dtypes)

In [None]:
sales.dtypes

Store            object
DayOfWeek        object
Date             object
Sales             int64
Customers         int64
Open             object
Promo            object
StateHoliday     object
SchoolHoliday    object
dtype: object

Regelmäßig müssen Sie auch Spalten lesen, deren Eintragungen vom Datentyp Datum sind. Hierbei hilft Ihnen der Parameter `parse_dates` über den Sie in Form einer Liste die Spalten definieren, die Datumsangaben enthalten.

In [None]:
sales = pd.read_csv(PATH + "sales.csv", dtype=dtypes, parse_dates=["Date"])

In [None]:
sales.dtypes

Store                    object
DayOfWeek                object
Date             datetime64[ns]
Sales                     int64
Customers                 int64
Open                     object
Promo                    object
StateHoliday             object
SchoolHoliday            object
dtype: object

In [None]:
sales.head(2)

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,2015-07-31,5263,555,1,1,0,1
1,2,5,2015-07-31,6064,625,1,1,0,1


## 1.4 Sortieren <a class="anchor" id="sortieren"></a>
Mit der Methode `sort_values` können Sie DataFrames nach Belieben sortieren.

In [None]:
tabelle.sort_values("Tore_+")

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
4,5,Freiburg,15,12,9,7,44,33,11,45
5,6,Hoffenheim,15,13,5,10,50,42,8,44
3,4,RB Leipzig,15,14,6,8,61,31,30,48
1,2,Dortmund,15,18,3,7,68,42,26,57
2,3,Leverkusen,15,15,6,7,68,42,26,51
0,1,Bayern,15,21,3,4,85,29,56,66


**Frage**: Sie sehen, dass die Methode `sort_values` die Werte einer Spalte aufsteigend sortiert. Wie können Sie die Werte absteigend sortieren?

Mit der Funktion `sort_values` können Sie einen DataFrame auch nach mehreren Spalten sortieren. **Frage**: Bitte erläutern Sie nach welcher Systematik die Sortierung im unten gezeigten Beispiel erfolgt!

In [None]:
tabelle.sort_values(["Unentschieden","Tore_+"])

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
1,2,Dortmund,15,18,3,7,68,42,26,57
0,1,Bayern,15,21,3,4,85,29,56,66
5,6,Hoffenheim,15,13,5,10,50,42,8,44
3,4,RB Leipzig,15,14,6,8,61,31,30,48
2,3,Leverkusen,15,15,6,7,68,42,26,51
4,5,Freiburg,15,12,9,7,44,33,11,45


Für den Fall, dass die Sortierung nach mehreren Spalten erfolgen soll, kann ebenfalls individuell für jede Spalte eine Sortierungsvorschrift definiert werden.

In [None]:
tabelle.sort_values(["Unentschieden","Tore_+"], ascending=[True,False])

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,15,21,3,4,85,29,56,66
1,2,Dortmund,15,18,3,7,68,42,26,57
5,6,Hoffenheim,15,13,5,10,50,42,8,44
2,3,Leverkusen,15,15,6,7,68,42,26,51
3,4,RB Leipzig,15,14,6,8,61,31,30,48
4,5,Freiburg,15,12,9,7,44,33,11,45


## 1.5 Subsetting <a class="anchor" id="subsetting"></a>
Mit "Subsetting" können Sie Teile eines DataFrames "ausschneiden"!

### Subsetting von Spalten

In [None]:
# Einzelne Spalte - Variante 1
tabelle["Mannschaft"]

0        Bayern
1      Dortmund
2    Leverkusen
3    RB Leipzig
4      Freiburg
5    Hoffenheim
Name: Mannschaft, dtype: object

In [None]:
# Einzelne Spalte - Variante 2
tabelle.Mannschaft

0        Bayern
1      Dortmund
2    Leverkusen
3    RB Leipzig
4      Freiburg
5    Hoffenheim
Name: Mannschaft, dtype: object

**Frage:** Wie zeigen Sie nur die ersten drei Mannschaften an? Wie zeigen Sie nur die letzte Mannschaft an?

In [None]:
# Mehrere Spalten
tabelle[["Mannschaft", "Tore_+"]]
# oder
spalten_namen = ["Mannschaft", "Tore_+"]
tabelle[spalten_namen]

Unnamed: 0,Mannschaft,Tore_+
0,Bayern,85
1,Dortmund,68
2,Leverkusen,68
3,RB Leipzig,61
4,Freiburg,44
5,Hoffenheim,50


So wie zuvor können Sie erneut nach einzelnen Zeilen des DataFrames filtern. Wir werden uns nachfolgend und in einem späteren Kapitel noch intensiver damit befassen.

In [None]:
# Variante 1
tabelle[spalten_namen][:3]

Unnamed: 0,Mannschaft,Tore_+
0,Bayern,85
1,Dortmund,68
2,Leverkusen,68


In [None]:
# Variante 2
tabelle.loc[:2,spalten_namen]

Unnamed: 0,Mannschaft,Tore_+
0,Bayern,85
1,Dortmund,68
2,Leverkusen,68


In [None]:
# Variante 3
tabelle.iloc[:2,[1,6]]

Unnamed: 0,Mannschaft,Tore_+
0,Bayern,85
1,Dortmund,68


### Subsetting von Zeilen

Sie haben die Möglichkeit auf die Werte einer Spalte direkt logische Operationen anzuwenden. Im Ergebnis erhalten Sie nur die Zeilen des DataFrames, die die definierte Bedingung erfüllen. Mit der Anweisung `tabelle["Tore_+"]>65` wird beispielweise für jeden Eintrag in der Spalte `Tore_+` geprüft, ob der entsprechende Wert größer `65` ist. Die Rückgabewerte dieser Prüfung sind zunächst boolsche Werte und geben an, ob die Bedingung wahr oder falsch ist.

In [None]:
tabelle["Tore_+"]>65

0     True
1     True
2     True
3    False
4    False
5    False
Name: Tore_+, dtype: bool

Das Ergebnis der obigen Prüfung können Sie nun zum Filtern des DataFrames wie folgt einsetzen:

In [None]:
# Variante 1
tabelle[tabelle["Tore_+"]>65]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,15,21,3,4,85,29,56,66
1,2,Dortmund,15,18,3,7,68,42,26,57
2,3,Leverkusen,15,15,6,7,68,42,26,51


In [None]:
# Variante 2 mit Auswahl von Spalten
tabelle.loc[tabelle["Tore_+"]>65,["Mannschaft","Tore_+"]]

Unnamed: 0,Mannschaft,Tore_+
0,Bayern,85
1,Dortmund,68
2,Leverkusen,68


**Frage:** Wie filtern Sie auf die Mannschaft `Dortmund`?

Sie haben zudem die Möglichkeit einen Dataframe nach mehreren Bedingungen zu filtern. Möchten Sie beispielsweise nur Mannschaften haben, die mehr als 65 Tore geschossen und gleichzeitig nicht mehr als 4 Unentschieden haben, braucht es folgende Anweisung:

In [None]:
# "&" ist das logische "UND"
tabelle[(tabelle["Tore_+"]>65) & (tabelle["Unentschieden"]<=4)]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,15,21,3,4,85,29,56,66
1,2,Dortmund,15,18,3,7,68,42,26,57


**Frage:** Was ist der Rückgabewert der folgenden Anweisung und welche Bedeutung hat das Zeichen `|`?

```Python
tabelle[(tabelle["Tore_+"]>65) | (tabelle["Tordifferenz"]>=30)]
```

Eine weitere sehr nützliche Methode für das Subsetting ist `.isin([])`. Möchten Sie beispielsweise nach den Mannschaften `Hoffenheim` und `Leverkusen` filtern, gelingt dies wie folgt:

In [None]:
tabelle[tabelle["Mannschaft"].isin(["Hoffenheim","Leverkusen"])]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
2,3,Leverkusen,15,15,6,7,68,42,26,51
5,6,Hoffenheim,15,13,5,10,50,42,8,44


### Aufgabe: Sortieren und Subsetting <a class="anchor" id="subset_sort"></a>

Wir betrachten erneut den Rossmann Store Sales Datensatz - wir hatten diesen bereits zuvor geladen und unter der Variablen `sales` als DataFrame gespeichert. Bitte bearbeiten Sie die folgenden Aufgaben:
1. Wählen Sie aus dem DataFrame die Spalten `"Date"`, `"Sales"` und `"Customers"` aus. 
1. Sortieren Sie die Sales absteigend. Welcher Store hatte den höchsten Umsatz an einem Tag? Was ist das entsprechende Datum? 
1. Filtern Sie den DataFrame auf Tagesumsätze zwischen 4.000\$ und 8.000\$.
1. Wie viele Tage mit Tagusätzen zwischen 4.000\$ und 8.000\$ sind im Datensatz enthalten? Sie können dazu z.B. die Funktion `shape` oder `len` nutzen.
1. Filtern Sie den DataFrame auf die Stores `1`, `3` und `5`.
1. Filtern Sie den DataFrame auf die Stores `1`, `3` und `5` und zeigen Sie nur solche Zeilen an, die einen Mindesttagesumsatz von 7.500\$ aufweisen.

## 1.6 Hinzufügen neuer Spalten <a class="anchor" id="neue_spalte"></a>

**Neue Spalte mit Wert:** Wir erzeugen einen neuen DataFrame `df` und fügen eine neue Spalte ein, die in jeder Zeile immer den gleichen Wert hat:

In [None]:
df = pd.DataFrame([[1,1,1],[2,2,2],[3,3,3]], columns=["Spalte1","Spalte2","Spalte3"])
df

Unnamed: 0,Spalte1,Spalte2,Spalte3
0,1,1,1
1,2,2,2
2,3,3,3


In [None]:
df["Spalte5"]=5
df

Unnamed: 0,Spalte1,Spalte2,Spalte3,Spalte5
0,1,1,1,5
1,2,2,2,5
2,3,3,3,5


**Neue Spalte mit berechneten Werten:** Wir können beliebige arithmetische Operationen auf Spalten (mit numerischen Werten) anwenden und daraus neue Spalten erzeugen.

In [None]:
# Variante 1
tabelle["Tore_pro_Spiel"] = tabelle["Tore_+"]/28

# Variante 2 (besser)
tabelle["Gegentore_pro_Spiel"] = tabelle["Tore_-"]/tabelle["Spiele"]
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Tore_pro_Spiel,Gegentore_pro_Spiel
0,1,Bayern,15,21,3,4,85,29,56,66,3.0,1.9
1,2,Dortmund,15,18,3,7,68,42,26,57,2.4,2.8
2,3,Leverkusen,15,15,6,7,68,42,26,51,2.4,2.8
3,4,RB Leipzig,15,14,6,8,61,31,30,48,2.2,2.1
4,5,Freiburg,15,12,9,7,44,33,11,45,1.6,2.2
5,6,Hoffenheim,15,13,5,10,50,42,8,44,1.8,2.8


**Frage:** Wie fügen Sie eine neue Spalte ein, die für jede Mannschaft die Gegentore pro Spiel darstellt?

# 2. Aggregation von Daten <a class="anchor" id="aggregation"></a>

## 2.1 Erste deskriptive Parameter & Summierung <a class="anchor" id="parameter"></a>

In [None]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Tore_pro_Spiel,Gegentore_pro_Spiel
0,1,Bayern,15,21,3,4,85,29,56,66,3.0,1.9
1,2,Dortmund,15,18,3,7,68,42,26,57,2.4,2.8
2,3,Leverkusen,15,15,6,7,68,42,26,51,2.4,2.8
3,4,RB Leipzig,15,14,6,8,61,31,30,48,2.2,2.1
4,5,Freiburg,15,12,9,7,44,33,11,45,1.6,2.2
5,6,Hoffenheim,15,13,5,10,50,42,8,44,1.8,2.8


In [None]:
# Mittelwert
tabelle["Tore_+"].mean()

62.666666666666664

In [None]:
# Median
tabelle["Tore_+"].median()

64.5

In [None]:
# Standardsabweichung
tabelle["Tore_+"].std()

14.610498508492674

Es besteht die Möglichkeit, dass Sie Methoden zur Berechnung von statistischen Parametern auf mehrere Spalten gleichzeitig anwenden:

Berechnung des Mittelwertes für die beiden Spalten `Tore_+` und `Tore_-`:

In [None]:
tabelle[["Tore_+","Tore_-"]].mean()

Tore_+   62.7
Tore_-   36.5
dtype: float64

Die Anzahl aller geschossenen Tore berechnet Ihnen die Methode `sum()`:

In [None]:
tabelle["Tore_+"].sum()

376

**Frage:** Was macht die Funktion `cumsum`? Sehen Sie sich dazu die Ausgabe in der unteren Code-Zellen genauer an.

In [None]:
tabelle["cumsum"] = tabelle["Tore_+"].cumsum()
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Tore_pro_Spiel,Gegentore_pro_Spiel,cumsum
0,1,Bayern,15,21,3,4,85,29,56,66,3.0,1.9,85
1,2,Dortmund,15,18,3,7,68,42,26,57,2.4,2.8,153
2,3,Leverkusen,15,15,6,7,68,42,26,51,2.4,2.8,221
3,4,RB Leipzig,15,14,6,8,61,31,30,48,2.2,2.1,282
4,5,Freiburg,15,12,9,7,44,33,11,45,1.6,2.2,326
5,6,Hoffenheim,15,13,5,10,50,42,8,44,1.8,2.8,376


**Frage**: Wie lassen sich die kummulativen Häufigkeiten asl Prozent darstellen? Denken Sie nochmals an den Abschnitt, in dem wir beliebige arithmetische Operationen für einzelne Spalten durchgeführt haben!

### Aufgabe: Parameter und Summen - Rossmann Store Sales <a class="anchor" id="parameter_summen"></a>

Wir betrachten erneut die Daten von Rossmann:

In [None]:
sales.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,2015-07-31,5263,555,1,1,0,1
1,2,5,2015-07-31,6064,625,1,1,0,1
2,3,5,2015-07-31,8314,821,1,1,0,1
3,4,5,2015-07-31,13995,1498,1,1,0,1
4,5,5,2015-07-31,4822,559,1,1,0,1


Bitte bearbeiten Sie die folgenden Aufgaben:
1. Über welchen Zeitraum wurde die Salesdaten von Rossmann erhoben?
1. Was ist der durchschnittliche Tagesumsatz eines Rossmann Stores?
1. An welchem Tag konnte der kleinste und größte Tagesumsatz beobachtet werden? Nutzen Sie hierzu die `max()` und `min()` Methoden!
1. Was ist der gesamte Umsatz von Rossmann über alle Stores im Beobachtungszeitraum? Nutzen Sie die `sum()` Methode!
1. Fügen Sie eine neue Spalte ein, die den mittleren Tagesumsatz pro Kunde darstellt! Schauen Sie sich dazu nochmals das Kapitel zum Einfügen neuer Spalten an!
1. An wie viel Tagen gab es Promotionen?
1. Wie hoch liegt der mittlere Tageumsatz von Store `262`, wenn keine Promotionen laufen?
1. Wie hoch liegt der mittlere Tageumsatz von Store `262`, wenn Promotionen laufen?


## 2.2 Zählen <a class="anchor" id="zaehlen"></a>
Wir bleiben beim Rossmann Datensatz. Enthalten Spalten kategoriale Werte interessiert man sich z.B. dafür, wie häufig eine Kategorie auftritt. Pandas stellt dafür die Funktion `value_counts` bereit:

In [None]:
sales["Store"].value_counts()

1      942
726    942
708    942
709    942
713    942
      ... 
159    758
637    758
636    758
633    758
155    758
Name: Store, Length: 1115, dtype: int64

**Frage:** Was macht die Parameter `normalize` und `ascending` in der Funktion `value_counts`?

## 2.3 Gruppierungen und Aggregationen <a class="anchor" id="gruppierung"></a>

Wenn wir uns in die Lage eines zentralen Controllings versetzen, so interessieren und natürlich die Umsätze eine jeden Stores. Zum Beispiel könnten wir fragen, wie die mittleren Tagesumsätze je Store ausfallen, um anschließend die einzelnen Filialen miteinander zu vergleichen. Mit den bisherigen Methoden können wir solche Rechnung machen:

In [None]:
sales_store1 = sales[sales.Store=="1"]
sales_store262 = sales[sales.Store=="262"]
sales_store159 = sales[sales.Store=="159"]


In [None]:
sales_store1.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,2015-07-31,5263,555,1,1,0,1
1115,1,4,2015-07-30,5020,546,1,1,0,1
2230,1,3,2015-07-29,4782,523,1,1,0,1
3345,1,2,2015-07-28,5011,560,1,1,0,1
4460,1,1,2015-07-27,6102,612,1,1,0,1


In [None]:
mean_sales_store1 = sales_store1.Sales.mean()
mean_sales_store262 = sales_store262.Sales.mean()
mean_sales_store159 = sales_store159.Sales.mean()
mean_sales_store1, mean_sales_store262, mean_sales_store159

(3945.704883227176, 20718.51592356688, 6368.579155672824)

Sie können unmittelbar erkennen, dass diese Art der Berechnung bei einer Vielzahl von Stores extrem mühsam ist. Pandas stellt glücklicherweise Methoden bereit, die Ihnen die Arbeit enorm erleichtern, insbesondere die `groupby` Funktion.

Wir können beispielsweise ganz leicht den mittleren Tagesumsatz je Store berechnen, wenn wir zunächst die Daten nach Stores gruppieren (`sales.groupby("Store")`), anschließend die Spalte `Sales` auswählen (`sales.groupby("Store")["Sales"]`) und abschließend je Store den den mittleren Tagesumsatz berechnen:

In [None]:
sales.groupby("Store")["Sales"].mean()

Store
1      3945.7
10     4634.4
100    6367.3
1000   6115.5
1001   4500.0
        ...  
995    7671.1
996    5300.6
997    4276.4
998    3560.8
999    7604.4
Name: Sales, Length: 1115, dtype: float64

In [None]:
# Mit Sortierung
sales.groupby("Store")["Sales"].mean().sort_values(ascending=False)

Store
262    20718.5
817    18108.1
562    17969.6
1114   17200.2
251    15814.1
         ...  
841     2461.4
208     2443.8
198     2407.9
543     2313.5
307     2244.5
Name: Sales, Length: 1115, dtype: float64

Sie haben die Möglichkeit mit der Funktion `groupby` auch Gruppierungen auf mehrere Spalten durchzuführen. Zum Beispiel können wir für jeden Store und Wochentag den mittleren Tagesumsatz berechnen:

In [None]:
sales.groupby(["Store","DayOfWeek"])["Sales"].mean()

Store  DayOfWeek
1      1           4946.1
       2           4650.9
       3           4454.5
       4           4094.6
       5           4516.4
                    ...  
999    3           8697.0
       4           8895.3
       5           9400.5
       6           5777.2
       7              0.0
Name: Sales, Length: 7805, dtype: float64

Mithilfe der Methode `agg` können Sie gleichzeitig mehrere Aggregationsfunktionen berechnen lassen. Dazu übergeben Sie an die Funktion `agg` eine Liste, die die relevanten Funktionen als String enthält:

In [None]:
sales.groupby("Store")["Sales"].agg(["min","mean","max"]).head()

Unnamed: 0_level_0,min,mean,max
Store,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0,3945.7,9528
10,0,4634.4,9534
100,0,6367.3,22609
1000,0,6115.5,12459
1001,0,4500.0,13656


### Exkurs: Export von DataFrames
Genauso wie Sie Daten aus Dateien in einen DataFrame einlesen können - z.B. aus csv-Dateien über `pd.read_csv()` - können Sie natürlich auch Dateien aus DataFrames erzeugen (csv, xlsx, etc.). Mit der Funktion `DataFrame.to_csv()` schreiben Sie den DataFrame in eine csv. Bitte denken Sie daran, dass Sie `DataFrame` durch die von Ihnen genutzte Variable ersetzen. Hierzu ein kleines Bespiel anhand des Rossmann Datensatzes - später noch mehr zum Lesen und Schreiben von Daten:

**1. Überlegung:** In welches [Verzeichnis](https://de.wikipedia.org/wiki/Verzeichnisstruktur) möchte ich meine Datei schreiben? Der "Weg" zum Verzeichnis heißt Pfad! 

In [None]:
path = "/content/drive/MyDrive/"

In [None]:
path

'/content/drive/MyDrive/'

**2. Überlegung:** Unter welchem Namen und in welchem Format möchte ich die Datei abspeichern?

In [None]:
file_name = "filial_auswertungen.csv"

**3. Export DataFrame:** Sie speichern nun die mittleren Tagesumsätze der Stores in einer Variablen. Anschließend verwenden Sie die Funktion `DataFrame.to_csv()` und übergeben den gesamten Dateipfad als Argument! 

In [None]:
data = sales.groupby("Store")["Sales"].agg(["min","mean","max"])
data.head()

Unnamed: 0_level_0,min,mean,max
Store,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0,3945.7,9528
10,0,4634.4,9534
100,0,6367.3,22609
1000,0,6115.5,12459
1001,0,4500.0,13656


In [None]:
path, file_name

('/content/drive/MyDrive/', 'filial_auswertungen.csv')

In [None]:
file_path = path + file_name
file_path

'/content/drive/MyDrive/filial_auswertungen.csv'

In [None]:
data.to_csv(file_name)

## 2.4 Pivottabellen <a class="anchor" id="pivot"></a>
Sie kennen vermutlich Pivottabellen aus Excel. Diese lassen sich auch sehr leicht in pandas erzeugen. Dazu verwenden wir die Methode `pivot_table`. Die Ergebnisse sind analog zu denen aus den vorherigen Abschnitten, wenn wir `groupby` mit entsprechenden Aggreagationsmethoden aufrufen. Die Darstellung unterscheidet sich allerdings ein wenig.

In [None]:
# Mittelwert des Tagesumsatzes je Store
sales.pivot_table(values="Sales", index="Store", aggfunc="mean")
# ist identisch mit 
#sales.groupby("Store")["Sales"].mean()

Unnamed: 0_level_0,Sales
Store,Unnamed: 1_level_1
1,3945.7
10,4634.4
100,6367.3
1000,6115.5
1001,4500.0
...,...
995,7671.1
996,5300.6
997,4276.4
998,3560.8


In [None]:
# Min, Max und Mittelwert des Tagesumsatzes je Store
sales.pivot_table(values="Sales", index="Store", aggfunc=["min","mean","max"])

Unnamed: 0_level_0,min,mean,max
Unnamed: 0_level_1,Sales,Sales,Sales
Store,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,0,3945.7,9528
10,0,4634.4,9534
100,0,6367.3,22609
1000,0,6115.5,12459
1001,0,4500.0,13656
...,...,...,...
995,0,7671.1,19326
996,0,5300.6,18465
997,0,4276.4,12169
998,0,3560.8,7465


In [None]:
# Min, Max und Mittelwert des mittleren Tagesumsatzes je Wochentag
sales.pivot_table(values="Sales", 
               index="Store", 
               aggfunc="mean",
               columns="DayOfWeek",
               fill_value="-",
               margins=True
              )

DayOfWeek,1,2,3,4,5,6,7,All
Store,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,4946.1,4650.9,4454.5,4094.6,4516.4,4943.0,0.0,3945.7
10,6264.0,5730.1,5219.4,5024.0,5355.0,4827.8,0.0,4634.4
100,8074.9,7024.3,6971.7,6510.7,7634.3,8342.3,0.0,6367.3
1000,7698.4,7430.5,7052.4,6174.5,6876.2,7568.7,0.0,6115.5
1001,6642.0,5879.5,5194.9,5191.1,5168.2,3398.6,0.0,4500.0
...,...,...,...,...,...,...,...,...
996,8033.7,6874.0,6055.2,6004.8,5986.6,4122.4,0.0,5300.6
997,6077.3,4951.4,4629.1,4503.4,5109.6,4648.1,0.0,4276.4
998,4720.0,4374.3,4100.4,3755.0,4174.6,3785.1,0.0,3560.8
999,11025.2,9391.0,8697.0,8895.3,9400.5,5777.2,0.0,7604.4


## 2.5 Die Funktion `transform` <a class="anchor" id="transform"></a>
Sie haben gesehen, dass bei Verwendung der Funktion `groupby` ein neuer DataFrame entsteht, der so viele Zeilen hat wie es verschiedene Gruppen gibt. Es kommt regelmäßig vor, dass Sie Berechnungen auf gruppierten Daten machen möchten, das berechnete Ergebnis aber wieder dem urspünglichen DataFrame in Form einer neuen Spalte hinzufügen wollen. 

Beispielsweise interessiert Sie, ob der Tagesumsatz über dem durchschnittlichen Tagesumsatz eines Stores liegt. Sie müssen es also schaffen, für jeden Store den durchschnittlichen Tagesumsatz zu berechnen und diesen anschließend mit jedem der einzelnen Tagesumsätze vergleichen.

In [None]:
# Hier wird nur der mittlere Tagesumsatz je Store zurückgegeben
sales.groupby("Store")["Sales"].mean()

Store
1      3945.7
10     4634.4
100    6367.3
1000   6115.5
1001   4500.0
        ...  
995    7671.1
996    5300.6
997    4276.4
998    3560.8
999    7604.4
Name: Sales, Length: 1115, dtype: float64

In [None]:
# hier wird der mittlere Tagesumsatz je Store berechnet und 
# anschließend für jede Zeile des ursprünglichen DataFrames passend zurückgegeben 
sales.groupby("Store")["Sales"].transform("mean")

0          3945.7
1          4123.0
2          5741.3
3          8021.8
4          3867.1
            ...  
1017204    4343.0
1017205    8465.3
1017206    5516.2
1017207   17200.2
1017208    5225.3
Name: Sales, Length: 1017209, dtype: float64

In [None]:
sales["MeanStoreSales"] = sales.groupby("Store")["Sales"].transform("mean")
sales.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday,MeanStoreSales
0,1,5,2015-07-31,5263,555,1,1,0,1,3945.7
1,2,5,2015-07-31,6064,625,1,1,0,1,4123.0
2,3,5,2015-07-31,8314,821,1,1,0,1,5741.3
3,4,5,2015-07-31,13995,1498,1,1,0,1,8021.8
4,5,5,2015-07-31,4822,559,1,1,0,1,3867.1


In [None]:
sales["SalesAboveMean"] = sales["Sales"] > sales["MeanStoreSales"]
sales.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday,MeanStoreSales,SalesAboveMean
0,1,5,2015-07-31,5263,555,1,1,0,1,3945.7,True
1,2,5,2015-07-31,6064,625,1,1,0,1,4123.0,True
2,3,5,2015-07-31,8314,821,1,1,0,1,5741.3,True
3,4,5,2015-07-31,13995,1498,1,1,0,1,8021.8,True
4,5,5,2015-07-31,4822,559,1,1,0,1,3867.1,True


Eine Übersicht zu den diversen Funktionen mit denen Sie DataFrames manipulieren können, finden Sie [hier](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf).

### Aufgabe: Data Wrangling & Aggregation - Verkaufszahlen Walmart <a class="anchor" id="walmart"></a>

Wir beschäftigen uns im folgenden mit einem Datensatz von Walmart. Dieser wurde 2020 von Walmart auf Kaggle veröffentlicht. Das Ziel des Wettbewerbs bestand darin, ML-Verfahren zu entwickeln, die bestmöglich die Verkäufe von einzelnen Produkten in Walmart-Filialen in den nächsten 28 Tagen vorhersagen. Nähere Informationen zum Wettbewerb finden Sie [hier](https://www.kaggle.com/competitions/m5-forecasting-accuracy/overview/description). 

Bevor wir zu den eigentlichen Aufgaben kommen, müssen zunächst drei verschiedene Datensätze laden und geeignet aufbereiten und miteinander verbinden (joins).

In [None]:
# Laden der Salesdaten (wir laden hier nur die ersten 100 Produkte mit entsprechenden Bedarfszeitreihen)
sales = pd.read_csv("/content/drive/MyDrive/DHBW/BI/Daten/Walmart/sales.csv", nrows=100)
sales.head()

Unnamed: 0,id,item_id,dept_id,cat_id,store_id,state_id,d_1,d_2,d_3,d_4,d_5,d_6,d_7,d_8,d_9,d_10,d_11,d_12,d_13,d_14,d_15,d_16,d_17,d_18,d_19,d_20,d_21,d_22,d_23,d_24,d_25,d_26,d_27,d_28,d_29,d_30,d_31,d_32,d_33,d_34,d_35,d_36,d_37,d_38,d_39,d_40,d_41,d_42,d_43,d_44,...,d_1892,d_1893,d_1894,d_1895,d_1896,d_1897,d_1898,d_1899,d_1900,d_1901,d_1902,d_1903,d_1904,d_1905,d_1906,d_1907,d_1908,d_1909,d_1910,d_1911,d_1912,d_1913,d_1914,d_1915,d_1916,d_1917,d_1918,d_1919,d_1920,d_1921,d_1922,d_1923,d_1924,d_1925,d_1926,d_1927,d_1928,d_1929,d_1930,d_1931,d_1932,d_1933,d_1934,d_1935,d_1936,d_1937,d_1938,d_1939,d_1940,d_1941
0,HOBBIES_1_001_CA_1_evaluation,HOBBIES_1_001,HOBBIES_1,HOBBIES,CA_1,CA,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,1,0,4,2,3,0,1,2,0,0,0,1,1,3,0,1,1,1,3,0,1,1,0,0,0,2,0,3,5,0,0,1,1,0,2,1,2,2,1,0,2,4,0,0,0,0,3,3,0,1
1,HOBBIES_1_002_CA_1_evaluation,HOBBIES_1_002,HOBBIES_1,HOBBIES,CA_1,CA,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,2,1,1,0,0,0,0,0
2,HOBBIES_1_003_CA_1_evaluation,HOBBIES_1_003,HOBBIES_1,HOBBIES,CA_1,CA,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,1,0,0,0,1,0,0,0,0,0,1,2,2,1,2,1,1,1,0,1,1,1,0,0,1,1,0,2,1,0,0,0,0,2,1,3,0,0,1,0,1,0,2,0,0,0,2,3,0,1
3,HOBBIES_1_004_CA_1_evaluation,HOBBIES_1_004,HOBBIES_1,HOBBIES,CA_1,CA,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,2,0,1,0,...,2,1,3,1,0,2,5,4,2,0,3,0,1,0,5,4,1,0,1,3,7,2,0,0,1,2,4,1,6,4,0,0,0,2,2,4,2,1,1,1,1,1,0,4,0,1,3,0,2,6
4,HOBBIES_1_005_CA_1_evaluation,HOBBIES_1_005,HOBBIES_1,HOBBIES,CA_1,CA,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,4,0,1,0,1,0,1,1,2,0,1,1,2,1,1,0,1,1,2,2,2,4,1,0,2,3,1,0,3,2,3,1,1,3,2,3,2,2,2,2,0,0,0,2,1,0,0,2,1,0


In [None]:
sales.shape

(100, 1947)

Die Salesdaten wie oben angezeigt, liegen im sogenannten Wide-Format vor. In den späteren Anwendungen des maschinellen Lernens werden wir regelmäßig mit dem sogenannten Long-Format arbeiten. Für eine Umwandlung in das Long-Format können wir die Funktion `melt` verwenden. Unter folgendem [Link](https://pandas.pydata.org/docs/user_guide/reshaping.html#reshaping-melt) finden Sie auch nochmal detailliertere Erklärungen zu dieser und anderen Funktionen.

In [None]:
sales = sales.melt(
    id_vars=["id","item_id","dept_id", "cat_id", "store_id", "state_id"],
    var_name="day",
    value_name="demand"
    )

In [None]:
sales.head()

Unnamed: 0,id,item_id,dept_id,cat_id,store_id,state_id,day,demand
0,HOBBIES_1_001_CA_1_evaluation,HOBBIES_1_001,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0
1,HOBBIES_1_002_CA_1_evaluation,HOBBIES_1_002,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0
2,HOBBIES_1_003_CA_1_evaluation,HOBBIES_1_003,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0
3,HOBBIES_1_004_CA_1_evaluation,HOBBIES_1_004,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0
4,HOBBIES_1_005_CA_1_evaluation,HOBBIES_1_005,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0


In der Datei `calendar` finden Sie nähere Informationen zu den einzelnen Verkaufsdaten, d.h. Datum, Wochentag, Jahr, etc. Die beiden DataFrame lassen sich über die Spalte `day` (`sales`) und `d` (`calendar`) miteinander verknüpfen. Wir werden einen Left-Join verwenden, um beide Datensätze zu verbinden. Dies gelingt über die Funktion `merge` und der Definition entsprechender Parameter. 

In [None]:
calendar = pd.read_csv("/content/drive/MyDrive/DHBW/BI/Daten/Walmart/calendar.csv")
calendar.head(10)

Unnamed: 0,date,wm_yr_wk,weekday,wday,month,year,d,event_name_1,event_type_1,event_name_2,event_type_2,snap_CA,snap_TX,snap_WI
0,2011-01-29,11101,Saturday,1,1,2011,d_1,,,,,0,0,0
1,2011-01-30,11101,Sunday,2,1,2011,d_2,,,,,0,0,0
2,2011-01-31,11101,Monday,3,1,2011,d_3,,,,,0,0,0
3,2011-02-01,11101,Tuesday,4,2,2011,d_4,,,,,1,1,0
4,2011-02-02,11101,Wednesday,5,2,2011,d_5,,,,,1,0,1
5,2011-02-03,11101,Thursday,6,2,2011,d_6,,,,,1,1,1
6,2011-02-04,11101,Friday,7,2,2011,d_7,,,,,1,0,0
7,2011-02-05,11102,Saturday,1,2,2011,d_8,,,,,1,1,1
8,2011-02-06,11102,Sunday,2,2,2011,d_9,SuperBowl,Sporting,,,1,1,1
9,2011-02-07,11102,Monday,3,2,2011,d_10,,,,,1,1,0


In [None]:
# merge sales und calendar
sales = pd.merge(sales, calendar, how="left", left_on="day", right_on="d")
sales.drop(columns=["d"], inplace=True)
sales.head()

Unnamed: 0,id,item_id,dept_id,cat_id,store_id,state_id,day,demand,date,wm_yr_wk,weekday,wday,month,year,event_name_1,event_type_1,event_name_2,event_type_2,snap_CA,snap_TX,snap_WI
0,HOBBIES_1_001_CA_1_evaluation,HOBBIES_1_001,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0
1,HOBBIES_1_002_CA_1_evaluation,HOBBIES_1_002,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0
2,HOBBIES_1_003_CA_1_evaluation,HOBBIES_1_003,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0
3,HOBBIES_1_004_CA_1_evaluation,HOBBIES_1_004,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0
4,HOBBIES_1_005_CA_1_evaluation,HOBBIES_1_005,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0


Weiterhin laden wir die Datei `sell_prices.csv`, die den Verkaufspreis eines Artikels in einem Store an einem Datum wiedergibt. Über `merge` verknüpfen wir erneut die Daten.

In [None]:
sell_prices = pd.read_csv("/content/drive/MyDrive/DHBW/BI/Daten/Walmart/sell_prices.csv")
sell_prices.head()

Unnamed: 0,store_id,item_id,wm_yr_wk,sell_price
0,CA_1,HOBBIES_1_001,11325,9.6
1,CA_1,HOBBIES_1_001,11326,9.6
2,CA_1,HOBBIES_1_001,11327,8.3
3,CA_1,HOBBIES_1_001,11328,8.3
4,CA_1,HOBBIES_1_001,11329,8.3


In [None]:
# merge sell_price mit sales
sales = pd.merge(sales, sell_prices, how="left", on=["store_id","item_id","wm_yr_wk"])

In [None]:
sales.tail()

Unnamed: 0,id,item_id,dept_id,cat_id,store_id,state_id,day,demand,date,wm_yr_wk,weekday,wday,month,year,event_name_1,event_type_1,event_name_2,event_type_2,snap_CA,snap_TX,snap_WI,sell_price
194095,HOBBIES_1_099_CA_1_evaluation,HOBBIES_1_099,HOBBIES_1,HOBBIES,CA_1,CA,d_1941,2,2016-05-22,11617,Sunday,2,5,2016,,,,,0,0,0,14.0
194096,HOBBIES_1_100_CA_1_evaluation,HOBBIES_1_100,HOBBIES_1,HOBBIES,CA_1,CA,d_1941,0,2016-05-22,11617,Sunday,2,5,2016,,,,,0,0,0,11.3
194097,HOBBIES_1_102_CA_1_evaluation,HOBBIES_1_102,HOBBIES_1,HOBBIES,CA_1,CA,d_1941,0,2016-05-22,11617,Sunday,2,5,2016,,,,,0,0,0,5.0
194098,HOBBIES_1_103_CA_1_evaluation,HOBBIES_1_103,HOBBIES_1,HOBBIES,CA_1,CA,d_1941,0,2016-05-22,11617,Sunday,2,5,2016,,,,,0,0,0,0.7
194099,HOBBIES_1_104_CA_1_evaluation,HOBBIES_1_104,HOBBIES_1,HOBBIES,CA_1,CA,d_1941,0,2016-05-22,11617,Sunday,2,5,2016,,,,,0,0,0,24.0


Bitte berarbeiten Sie nun die folgenden Aufgaben:
1. In welchem Zeitraum wurden die Daten erhoben?
1. Wie viele verschiedene Stores gibt es im Datensatz? 
1. Berechnen Sie den durschnittlichen Tagesabsatz (in Stück) für jeden Artikel? Nutzen Sie die `groupby` und anschließend die `mean` Methode!
1. Berechnen Sie für jeden Artikel den durchschnittlichen Preis und fügen Sie diesen dem ursprünglichen DataFrame `sales` als neue Spalte hinzu. Nutzen Sie dazu die Funktion `transform`.
1. Fügen Sie anschließend eine neue Spalte hinzu, die den Tagespreis ins Verhältnis zum durchschnittlichen Preis setzt.
1. **ENDGEGNERFRAGE:** Fügen Sie eine neue Spalte ein, die den Absatz des Vortages eines Artikels darstellt. Nutzen Sie die Funktionen `transform` & `shift` i.V.m. einer `lambda`-Funktion.
1. **ENDGEGNERFRAGE**: Fügen Sie eine neue Spalte ein, die den mittleren Absatz der letzten 3 Tage eines Artikels darstellt. Nutzen Sie die Funktionen `transform` & `shift`, `rolling` i.V.m. einer `lambda`-Funktion.