<a href="https://colab.research.google.com/github/AlexKressner/Business_Intelligence/blob/main/Pandas_Intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Übersicht
1. [Einführung Pandas](#einführung_pandas)
    1. [DataFrames](#dataframes)
    1. [Erste Methoden zur Datenexploration](#exploration)
    1. [Optionen beim Laden von Daten](#laden)
    1. [Sortieren](#sortieren)
    1. [Subsetting](#subsetting)
    1. [Neue Spalten](#neue_spalte)
2. [Aggregation von Daten](#aggregation)
    1. [Erste deskriptive Parameter & Summierung](#parameter)
    1. [Zählen](#zaehlen)
    1. [Gruppierungen und Aggregationen](#gruppierung)
    1. [Pivottabellen](#pivot)
    1. [Funktion transform](#transform)

# Übungsaufgaben
- [Erste Exploration DataFrame - Rossmann Store Sales](#aufgabe_exploration)
- [Sortieren und Subsetting - Rossmann Store Sales](#subset_sort)
- [Statistische Parameter & Summen - Rossmann Store Sales](#parameter_summen)
- [Aggregationen - Verkaufszahlen Walmart](#walmart)

# 1. Einführung Pandas <a class="anchor" id="einführung_pandas"></a>
Pandas ist eines der bekanntesten Packages für Python und wird zur Lösung diverser Aufgaben im Bereich der Datenverarbeitung eingesetzt - von der einfachen Datenmanipulation bis hin zu ausgefeilten Datenanalysen. Wir beschäftigen uns intensiv mit dem Datenobjekt "DataFrames" und wie man mit diesem im Rahmen der Datenanalyse arbeitet, d.h. erstellt, filtert, transformiert etc. Pandas verfügt über eine hervorragende Dokumentation, die Sie unter folgendem [Link](https://pandas.pydata.org) finden.

## 1.1 DataFrames <a class="anchor" id="dataframes"></a>
Ein [DataFrame](https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframe) speichert Daten in tabellarischer Form, ähnlicher einer Excel- oder SQL-Tabelle. Das folgende Beispiel erzeugt einen DataFrame aus zwei Listen. Die erste Liste enthält Teile der aktuellen Tabelle der 1. Fussballbundesliga. Es handelt sich um eine Liste aus Listen. Jede Liste in der Liste `tabelle` stellt einen Tabelleneintrag (Zeile) mit den zugehörigen Daten dar. Die Liste `spalten_namen` enthält - wie der Name bereits sagt - die Spaltennamen der Tabelle.

In [2]:
# import pandas
import pandas as pd

In [3]:
# Einstellungen zum Anzeigen von DataFrames etc.
pd.options.display.float_format = "{:.1f}".format
pd.options.display.max_columns = 100
pd.options.display.max_rows = 1000

In [4]:
tabelle = [
    [1, "Bayern München", 19, 15,	3,	1,	58, 16,	42,	48],
    [2, "Bayer Leverkusen", 19, 12,	6,	1,	46, 26,	20,	42],
    [3, "Eintracht Frankfurt", 19, 11,	4,	4,	44, 26,	18,	37],
    [4, "Stuttgart", 19, 9,	5,	5,	36, 28,	8,	32],
    [5, "RB Leipzig", 19, 9,	5,	5,	34, 29,	5,	32],
    [6, "Mainz 05", 19, 9,	4,	6,	33, 23,	10,	31],
]

In [5]:
spalten_namen = [
    "Rang", "Mannschaft", "Spiele", "Siege",
    "Unentschieden", "Niederlagen",
    "Tore_+", "Tore_-", "Tordifferenz",
    "Punkte"
]

Nachfolgend erzeugen wir den DataFrame, der die Bundesligatabelle darstellt.

In [6]:
tabelle = pd.DataFrame(tabelle, columns=spalten_namen)
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern München,19,15,3,1,58,16,42,48
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37
3,4,Stuttgart,19,9,5,5,36,28,8,32
4,5,RB Leipzig,19,9,5,5,34,29,5,32
5,6,Mainz 05,19,9,4,6,33,23,10,31


Wir können einen DataFrame auch mit entsprechenden Methodenaufrufen in seine einzelnen Komponenten zerlegen ("Attribute"):

In [7]:
tabelle.values

array([[1, 'Bayern München', 19, 15, 3, 1, 58, 16, 42, 48],
       [2, 'Bayer Leverkusen', 19, 12, 6, 1, 46, 26, 20, 42],
       [3, 'Eintracht Frankfurt', 19, 11, 4, 4, 44, 26, 18, 37],
       [4, 'Stuttgart', 19, 9, 5, 5, 36, 28, 8, 32],
       [5, 'RB Leipzig', 19, 9, 5, 5, 34, 29, 5, 32],
       [6, 'Mainz 05', 19, 9, 4, 6, 33, 23, 10, 31]], dtype=object)

In [8]:
tabelle.columns

Index(['Rang', 'Mannschaft', 'Spiele', 'Siege', 'Unentschieden', 'Niederlagen',
       'Tore_+', 'Tore_-', 'Tordifferenz', 'Punkte'],
      dtype='object')

In [9]:
tabelle.index

RangeIndex(start=0, stop=6, step=1)

## 1.2 Erste Methoden zur Datenexploration <a class="anchor" id="exploration"></a>
Für die erste Exploration von Daten in einem pandas DataFrame stehen viele nützliche Methoden zur Verfügung. Sie können sich eine Übersicht verschaffen, wenn Sie in einer Code-Zelle den DataFrame `tabelle` eingeben und anschließend einen Punkt (`.`) setzen. Mit der Eingabe `tabelle.` werden Ihnen automatisch alle verfügbaren Funktionen angezeigt.

In [10]:
# Gibt Ihnen den "Kopf" des DataFrames zurück, d.h. die ersten 5 Zeilen
tabelle.head()

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern München,19,15,3,1,58,16,42,48
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37
3,4,Stuttgart,19,9,5,5,36,28,8,32
4,5,RB Leipzig,19,9,5,5,34,29,5,32


In [11]:
# Zeigt Ihnen Informationen zu den einzelnen Spalten
tabelle.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Rang           6 non-null      int64 
 1   Mannschaft     6 non-null      object
 2   Spiele         6 non-null      int64 
 3   Siege          6 non-null      int64 
 4   Unentschieden  6 non-null      int64 
 5   Niederlagen    6 non-null      int64 
 6   Tore_+         6 non-null      int64 
 7   Tore_-         6 non-null      int64 
 8   Tordifferenz   6 non-null      int64 
 9   Punkte         6 non-null      int64 
dtypes: int64(9), object(1)
memory usage: 612.0+ bytes


**Frage:** Was machen die folgenden beiden Funktionen?

In [12]:
tabelle.shape

(6, 10)

In [13]:
tabelle.describe()

Unnamed: 0,Rang,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
count,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0
mean,3.5,19.0,10.8,4.5,3.7,41.8,24.7,17.2,37.0
std,1.9,0.0,2.4,1.0,2.2,9.6,4.7,13.5,6.8
min,1.0,19.0,9.0,3.0,1.0,33.0,16.0,5.0,31.0
25%,2.2,19.0,9.0,4.0,1.8,34.5,23.8,8.5,32.0
50%,3.5,19.0,10.0,4.5,4.5,40.0,26.0,14.0,34.5
75%,4.8,19.0,11.8,5.0,5.0,45.5,27.5,19.5,40.8
max,6.0,19.0,15.0,6.0,6.0,58.0,29.0,42.0,48.0


### Aufgabe: Erste Exploration DataFrame <a class="anchor" id="aufgabe_exploration"></a>
Für die Aufgabe verwenden wir den [Rossmann Store Sales](https://www.kaggle.com/competitions/rossmann-store-sales/overview) Datensatz. Die Daten befinden sich im Github-Repo, welches wir in unsere Arbeitsumgebung laden (`git clone`). Wenden Sie anschließend die zuvor eingeführten Methoden auf den neuen DataFrame an, um sich ein erstes Bild zu den Daten zu verschaffen.

In [14]:
! git clone https://github.com/AlexKressner/Business_Intelligence

Cloning into 'Business_Intelligence'...
remote: Enumerating objects: 265, done.[K
remote: Counting objects: 100% (185/185), done.[K
remote: Compressing objects: 100% (135/135), done.[K
remote: Total 265 (delta 84), reused 100 (delta 47), pack-reused 80 (from 1)[K
Receiving objects: 100% (265/265), 9.75 MiB | 9.27 MiB/s, done.
Resolving deltas: 100% (99/99), done.


In [15]:
! ls

Business_Intelligence  sample_data


In [16]:
FOLDER = "Business_Intelligence/Daten/Rossmann"

In [17]:
f"{FOLDER}/sales_short.csv"

'Business_Intelligence/Daten/Rossmann/sales_short.csv'

In [18]:
sales = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";")

In [19]:
sales.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,31.07.15,5263,555,1,1,0,1
1,2,5,31.07.15,6064,625,1,1,0,1
2,3,5,31.07.15,8314,821,1,1,0,1
3,4,5,31.07.15,13995,1498,1,1,0,1
4,5,5,31.07.15,4822,559,1,1,0,1


**Fragen**
1. Wie viele Zeilen und Spalten hat der DataFrame?
1. Was ist der durchschnittliche Tagesumsatz eines Stores?
1. Was war die größte Anzahl von Kunden, die einen Store an einem Tag besucht haben?
1. Welchen Datentyp haben die einzelnen Spalten? Sind die Datentypen sinnvoll?

In [20]:
# Frage1
sales.shape
print(f"Der DataFrame hat {sales.shape[0]} Zeilen.")
print(f"Der DataFrame hat {sales.shape[1]} Spalten.")

Der DataFrame hat 158829 Zeilen.
Der DataFrame hat 9 Spalten.


In [21]:
# Frage2/3
sales.describe()

Unnamed: 0,Store,DayOfWeek,Sales,Customers,Open,Promo,SchoolHoliday
count,158829.0,158829.0,158829.0,158829.0,158829.0,158829.0,158829.0
mean,557.0,4.0,5940.9,627.1,0.8,0.4,0.2
std,321.9,2.0,3940.6,461.4,0.4,0.5,0.4
min,1.0,1.0,0.0,0.0,0.0,0.0,0.0
25%,278.0,2.0,3885.0,410.0,1.0,0.0,0.0
50%,556.0,4.0,5964.0,609.0,1.0,0.0,0.0
75%,836.0,6.0,8112.0,828.0,1.0,1.0,0.0
max,1115.0,7.0,41551.0,5458.0,1.0,1.0,1.0


In [22]:
sales.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,31.07.15,5263,555,1,1,0,1
1,2,5,31.07.15,6064,625,1,1,0,1
2,3,5,31.07.15,8314,821,1,1,0,1
3,4,5,31.07.15,13995,1498,1,1,0,1
4,5,5,31.07.15,4822,559,1,1,0,1


In [23]:
# dataframe["Spaltenname"]
sales["Customers"].mean()

627.1475989901088

In [24]:
sales.Customers.max()

5458

In [25]:
sales.shape

(158829, 9)

In [26]:
# Frage4
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 158829 entries, 0 to 158828
Data columns (total 9 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   Store          158829 non-null  int64 
 1   DayOfWeek      158829 non-null  int64 
 2   Date           158829 non-null  object
 3   Sales          158829 non-null  int64 
 4   Customers      158829 non-null  int64 
 5   Open           158829 non-null  int64 
 6   Promo          158829 non-null  int64 
 7   StateHoliday   158829 non-null  object
 8   SchoolHoliday  158829 non-null  int64 
dtypes: int64(7), object(2)
memory usage: 10.9+ MB


## 1.3 Optionen beim Laden von Daten <a class="anchor" id="laden"></a>
Mit den Methoden `pd.read_...` lassen sich Daten aus unterschiedlichen Dateiformaten laden. Es gibt eine Vielzahl von Parametern, mit denen Sie das Laden von Daten gezielt steuern können. Wir gehen hier auf einige wichtige Parameter ein. Eine Übersicht zu `pd.read_csv()` finden Sie [hier](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).

Über den Parameter `sep` definieren Sie das Zeichen mit dem Spalten im Ursprungsdokument voneinander getrennt werden. Bei csv-Dateien im deutschsprachigen Raum gilt häufig `sep=";"` im angelsäsischen Raum hingegen `sep=","`. Der Default ist `sep=","`.

Gelegentlich müssen wir auch definieren, wie Dezimalzahlen und Tausender im Ursprungsdokument dargestellt werden.

In [27]:
sales = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";", decimal=".", thousands=",")

Über den Parameter `usecols` definieren Sie, welche Spalten gelesen werden sollen.

In [28]:
sales_customers = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";", usecols=["Sales","Customers","Date"])

In [29]:
sales_customers.head()

Unnamed: 0,Date,Sales,Customers
0,31.07.15,5263,555
1,31.07.15,6064,625
2,31.07.15,8314,821
3,31.07.15,13995,1498
4,31.07.15,4822,559


Ebenfalls sehr wichtig ist der Parameter `dtype`. Über diesen steuern Sie den Datentyp, der für eine Spalte verwendet wird. Eine Übersicht zu den Datentypen finden Sie [hier](https://pbpython.com/pandas_dtypes.html)

In [30]:
dtypes= {
    "Store":"str",
    "DayOfWeek":"str",
    "Open":"str",
    "Promo":"str",
    "StateHoliday":"str",
    "SchoolHoliday":"str",
}

In [31]:
sales = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";")

In [32]:
sales.dtypes

Unnamed: 0,0
Store,int64
DayOfWeek,int64
Date,object
Sales,int64
Customers,int64
Open,int64
Promo,int64
StateHoliday,object
SchoolHoliday,int64


In [33]:
f"{FOLDER}/sales_short.csv"

'Business_Intelligence/Daten/Rossmann/sales_short.csv'

In [34]:
sales = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";", dtype=dtypes)

In [35]:
sales.dtypes

Unnamed: 0,0
Store,object
DayOfWeek,object
Date,object
Sales,int64
Customers,int64
Open,object
Promo,object
StateHoliday,object
SchoolHoliday,object


Regelmäßig müssen Sie auch Spalten lesen, deren Eintragungen vom Datentyp Datum sind. Hierbei hilft Ihnen der Parameter `parse_dates` über den Sie in Form einer Liste die Spalten definieren, die Datumsangaben enthalten.

In [36]:
sales = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";", dtype=dtypes, parse_dates=["Date"])

  sales = pd.read_csv(f"{FOLDER}/sales_short.csv", sep=";", dtype=dtypes, parse_dates=["Date"])


In [37]:
sales.dtypes

Unnamed: 0,0
Store,object
DayOfWeek,object
Date,datetime64[ns]
Sales,int64
Customers,int64
Open,object
Promo,object
StateHoliday,object
SchoolHoliday,object


In [38]:
sales.head(2)

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,2015-07-31,5263,555,1,1,0,1
1,2,5,2015-07-31,6064,625,1,1,0,1


## 1.4 Sortieren <a class="anchor" id="sortieren"></a>
Mit der Methode `sort_values` können Sie DataFrames nach Belieben sortieren.

In [39]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern München,19,15,3,1,58,16,42,48
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37
3,4,Stuttgart,19,9,5,5,36,28,8,32
4,5,RB Leipzig,19,9,5,5,34,29,5,32
5,6,Mainz 05,19,9,4,6,33,23,10,31


**Frage**: Sie sehen, dass die Methode `sort_values` die Werte einer Spalte aufsteigend sortiert. Wie können Sie die Werte absteigend sortieren?

In [40]:
tabelle.sort_values("Siege",ascending=False)

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern München,19,15,3,1,58,16,42,48
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37
3,4,Stuttgart,19,9,5,5,36,28,8,32
4,5,RB Leipzig,19,9,5,5,34,29,5,32
5,6,Mainz 05,19,9,4,6,33,23,10,31


Mit der Funktion `sort_values` können Sie einen DataFrame auch nach mehreren Spalten sortieren. **Frage**: Bitte erläutern Sie nach welcher Systematik die Sortierung im unten gezeigten Beispiel erfolgt!

In [41]:
tabelle.sort_values(["Unentschieden","Tore_+"])

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern München,19,15,3,1,58,16,42,48
5,6,Mainz 05,19,9,4,6,33,23,10,31
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37
4,5,RB Leipzig,19,9,5,5,34,29,5,32
3,4,Stuttgart,19,9,5,5,36,28,8,32
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42


Für den Fall, dass die Sortierung nach mehreren Spalten erfolgen soll, kann ebenfalls individuell für jede Spalte eine Sortierungsvorschrift definiert werden.

In [42]:
tabelle.sort_values(["Unentschieden","Tore_+"], ascending=[True,False])

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern München,19,15,3,1,58,16,42,48
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37
5,6,Mainz 05,19,9,4,6,33,23,10,31
3,4,Stuttgart,19,9,5,5,36,28,8,32
4,5,RB Leipzig,19,9,5,5,34,29,5,32
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42


## 1.5 Subsetting <a class="anchor" id="subsetting"></a>
Mit "Subsetting" können Sie Teile eines DataFrames "ausschneiden"!

### Subsetting von Spalten

In [43]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern München,19,15,3,1,58,16,42,48
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37
3,4,Stuttgart,19,9,5,5,36,28,8,32
4,5,RB Leipzig,19,9,5,5,34,29,5,32
5,6,Mainz 05,19,9,4,6,33,23,10,31


In [44]:
# Einzelne Spalte - Variante 1
tabelle["Mannschaft"]

Unnamed: 0,Mannschaft
0,Bayern München
1,Bayer Leverkusen
2,Eintracht Frankfurt
3,Stuttgart
4,RB Leipzig
5,Mainz 05


In [45]:
# Einzelne Spalte - Variante 2
tabelle.Mannschaft

Unnamed: 0,Mannschaft
0,Bayern München
1,Bayer Leverkusen
2,Eintracht Frankfurt
3,Stuttgart
4,RB Leipzig
5,Mainz 05


**Frage:** Wie zeigen Sie nur die ersten drei Mannschaften an? Wie zeigen Sie nur die letzte Mannschaft an?

In [46]:
tabelle.Mannschaft.head(3)

Unnamed: 0,Mannschaft
0,Bayern München
1,Bayer Leverkusen
2,Eintracht Frankfurt


In [47]:
tabelle.Mannschaft.tail(3)

Unnamed: 0,Mannschaft
3,Stuttgart
4,RB Leipzig
5,Mainz 05


So wie zuvor können Sie erneut nach einzelnen Zeilen des DataFrames filtern. Wir werden uns nachfolgend und in einem späteren Kapitel noch intensiver damit befassen.

In [48]:
spalten_namen

['Rang',
 'Mannschaft',
 'Spiele',
 'Siege',
 'Unentschieden',
 'Niederlagen',
 'Tore_+',
 'Tore_-',
 'Tordifferenz',
 'Punkte']

In [49]:
spalten_namen = ["Rang","Mannschaft", "Tore_+", "Siege"]

In [50]:
# Variante 1
tabelle[spalten_namen][1:3]

Unnamed: 0,Rang,Mannschaft,Tore_+,Siege
1,2,Bayer Leverkusen,46,12
2,3,Eintracht Frankfurt,44,11


In [51]:
# Variante 2
tabelle.loc[:2,spalten_namen]

Unnamed: 0,Rang,Mannschaft,Tore_+,Siege
0,1,Bayern München,58,15
1,2,Bayer Leverkusen,46,12
2,3,Eintracht Frankfurt,44,11


In [52]:
tabelle.head(3)

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern München,19,15,3,1,58,16,42,48
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37


In [53]:
tabelle.head(1)

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern München,19,15,3,1,58,16,42,48


In [54]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern München,19,15,3,1,58,16,42,48
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37
3,4,Stuttgart,19,9,5,5,36,28,8,32
4,5,RB Leipzig,19,9,5,5,34,29,5,32
5,6,Mainz 05,19,9,4,6,33,23,10,31


In [55]:
# Variante 3
tabelle.iloc[:3,[0,5,6]]

Unnamed: 0,Rang,Niederlagen,Tore_+
0,1,1,58
1,2,1,46
2,3,4,44


### Subsetting von Zeilen

Sie haben die Möglichkeit auf die Werte einer Spalte direkt logische Operationen anzuwenden. Im Ergebnis erhalten Sie nur die Zeilen des DataFrames, die die definierte Bedingung erfüllen. Mit der Anweisung `tabelle["Tore_+"]>65` wird beispielweise für jeden Eintrag in der Spalte `Tore_+` geprüft, ob der entsprechende Wert größer `65` ist. Die Rückgabewerte dieser Prüfung sind zunächst boolsche Werte und geben an, ob die Bedingung wahr oder falsch ist.

In [56]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern München,19,15,3,1,58,16,42,48
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37
3,4,Stuttgart,19,9,5,5,36,28,8,32
4,5,RB Leipzig,19,9,5,5,34,29,5,32
5,6,Mainz 05,19,9,4,6,33,23,10,31


In [57]:
tabelle["Tore_+"]>=50

Unnamed: 0,Tore_+
0,True
1,False
2,False
3,False
4,False
5,False


Das Ergebnis der obigen Prüfung können Sie nun zum Filtern des DataFrames wie folgt einsetzen:

In [58]:
# Variante 1
tabelle[(tabelle["Siege"]==9)|(tabelle["Niederlagen"]<=5)]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern München,19,15,3,1,58,16,42,48
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37
3,4,Stuttgart,19,9,5,5,36,28,8,32
4,5,RB Leipzig,19,9,5,5,34,29,5,32
5,6,Mainz 05,19,9,4,6,33,23,10,31


In [59]:
# Variante 2 mit Auswahl von Spalten
tabelle.loc[tabelle["Tore_+"]>=50,["Mannschaft","Tore_+"]]

Unnamed: 0,Mannschaft,Tore_+
0,Bayern München,58


**Frage:** Wie filtern Sie auf die Mannschaft `RB Leipzig`?

In [60]:
tabelle.loc[tabelle["Mannschaft"]=="RB Leipzig"]
tabelle[tabelle["Mannschaft"]=="RB Leipzig"]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
4,5,RB Leipzig,19,9,5,5,34,29,5,32


Sie haben zudem die Möglichkeit einen Dataframe nach mehreren Bedingungen zu filtern. Möchten Sie beispielsweise nur Mannschaften haben, die mehr oder genau 50 Tore geschossen und gleichzeitig nicht mehr als 4 Unentschieden haben, braucht es folgende Anweisung:

In [61]:
tabelle[tabelle["Tore_+"]>=50]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern München,19,15,3,1,58,16,42,48


In [62]:
# "&" ist das logische "UND"
tabelle[~(tabelle["Tore_+"]>=50)]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37
3,4,Stuttgart,19,9,5,5,36,28,8,32
4,5,RB Leipzig,19,9,5,5,34,29,5,32
5,6,Mainz 05,19,9,4,6,33,23,10,31


**Frage:** Was ist der Rückgabewert der folgenden Anweisung und welche Bedeutung hat das Zeichen `|`?

```Python
tabelle[(tabelle["Tore_+"]>=50) | (tabelle["Tordifferenz"]>=18)]
```

In [63]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern München,19,15,3,1,58,16,42,48
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37
3,4,Stuttgart,19,9,5,5,36,28,8,32
4,5,RB Leipzig,19,9,5,5,34,29,5,32
5,6,Mainz 05,19,9,4,6,33,23,10,31


In [64]:
tabelle[~(tabelle["Tore_+"]>=50) & (tabelle["Tordifferenz"]>=18)]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37


Eine weitere sehr nützliche Methode für das Subsetting ist `.isin([])`. Möchten Sie beispielsweise nach den Mannschaften `Dortmund` und `Leverkusen` filtern, gelingt dies wie folgt:

In [65]:
tabelle[~tabelle["Mannschaft"].isin(["Eintracht Frankfurt","Stuttgart","Bayern München"])]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42
4,5,RB Leipzig,19,9,5,5,34,29,5,32
5,6,Mainz 05,19,9,4,6,33,23,10,31


### Aufgabe: Sortieren und Subsetting <a class="anchor" id="subset_sort"></a>

Wir betrachten erneut den Rossmann Store Sales Datensatz - wir hatten diesen bereits zuvor geladen und unter der Variablen `sales` als DataFrame gespeichert. Bitte bearbeiten Sie die folgenden Aufgaben:
1. Wählen Sie aus dem DataFrame die Spalten `"Date"`, `"Sales"` und `"Customers"` aus.
1. Sortieren Sie die Sales absteigend. Welcher Store hatte den höchsten Umsatz an einem Tag? Was ist das entsprechende Datum?
1. Filtern Sie den DataFrame auf Tagesumsätze zwischen 4.000\$ und 8.000\$.
1. Wie viele Tage mit Tagesumsätzen zwischen 4.000\$ und 8.000\$ sind im Datensatz enthalten? Sie können dazu z.B. die Funktion `shape` oder `len` nutzen. --> Paare (Store-Datum)
1. Filtern Sie den DataFrame auf die Stores `1`, `3` und `5`.
1. Filtern Sie den DataFrame auf die Stores `1`, `3` und `5` und zeigen Sie nur solche Zeilen an, die einen Mindesttagesumsatz von 7.500\$ aufweisen.

In [66]:
# Frage1
sales_subset = sales[["Date","Sales","Customers"]]
sales_subset.head()

Unnamed: 0,Date,Sales,Customers
0,2015-07-31,5263,555
1,2015-07-31,6064,625
2,2015-07-31,8314,821
3,2015-07-31,13995,1498
4,2015-07-31,4822,559


In [67]:
# Frage2 (sort_values)

# Variante 1 --> Spalte "Sales" absteigend sortieren und erste Zeile auswählen
sales.sort_values("Sales", ascending=False).head(1)

# Variante 2 --> Spalte "Sales" aufsteigend sortieren und letzte Zeile auswählen
sales.sort_values("Sales").tail(1)

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
44393,909,1,2015-06-22,41551,1721,1,0,0,0


In [68]:
sales.shape

(158829, 9)

In [69]:
# Frage3/4 --> Bedingung 1: Sales >= 4000, Bedingung2: Sales <=8000
sales[(sales["Sales"]>=4000)&(sales["Sales"]<=8000)]

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,2015-07-31,5263,555,1,1,0,1
1,2,5,2015-07-31,6064,625,1,1,0,1
4,5,5,2015-07-31,4822,559,1,1,0,1
5,6,5,2015-07-31,5651,589,1,1,0,1
9,10,5,2015-07-31,7185,681,1,1,0,1
...,...,...,...,...,...,...,...,...,...
158823,494,3,2015-11-03,7128,1063,1,0,0,0
158825,496,3,2015-11-03,6735,735,1,0,0,0
158826,497,3,2015-11-03,7933,1059,1,0,0,0
158827,498,3,2015-11-03,6273,774,1,0,0,0


In [70]:
# Frage5
sales.dtypes

Unnamed: 0,0
Store,object
DayOfWeek,object
Date,datetime64[ns]
Sales,int64
Customers,int64
Open,object
Promo,object
StateHoliday,object
SchoolHoliday,object


In [71]:
sales[sales["Store"].isin(["1","3","5"])].head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,2015-07-31,5263,555,1,1,0,1
2,3,5,2015-07-31,8314,821,1,1,0,1
4,5,5,2015-07-31,4822,559,1,1,0,1
1115,1,4,2015-07-30,5020,546,1,1,0,1
1117,3,4,2015-07-30,8977,823,1,1,0,1


In [72]:
sales.Store = sales.Store.astype("int")
sales[sales["Store"].isin([1,3,5])].head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,2015-07-31,5263,555,1,1,0,1
2,3,5,2015-07-31,8314,821,1,1,0,1
4,5,5,2015-07-31,4822,559,1,1,0,1
1115,1,4,2015-07-30,5020,546,1,1,0,1
1117,3,4,2015-07-30,8977,823,1,1,0,1


In [73]:
# Frage6
sales[
    (sales["Store"].isin([1,3,5])) & #Bedingung 1: nur Store 1, 3, 5
    (sales["Sales"]>=7500) #Bedingung 2: Umsatz größer als 7500€
    ]

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
2,3,5,2015-07-31,8314,821,1,1,0,1
1117,3,4,2015-07-30,8977,823,1,1,0,1
2232,3,3,2015-07-29,7610,716,1,1,0,1
3347,3,2,2015-07-28,8864,818,1,1,0,1
4462,3,1,2015-07-27,8107,768,1,1,0,1
16727,3,4,2015-07-16,7909,812,1,1,0,1
17842,3,3,2015-07-15,8663,865,1,1,0,1
18957,3,2,2015-07-14,8625,769,1,1,0,1
20072,3,1,2015-07-13,9462,812,1,1,0,1
31222,3,5,2015-03-07,8149,742,1,1,0,1


## 1.6 Hinzufügen neuer Spalten <a class="anchor" id="neue_spalte"></a>

**Neue Spalte mit Wert:** Wir erzeugen einen neuen DataFrame `df` und fügen eine neue Spalte ein, die in jeder Zeile immer den gleichen Wert hat:

In [74]:
df = pd.DataFrame([[1,1,1],[2,2,2],[3,3,3]], columns=["Spalte1","Spalte2","Spalte3"])
df

Unnamed: 0,Spalte1,Spalte2,Spalte3
0,1,1,1
1,2,2,2
2,3,3,3


In [75]:
# df["neuer Spaltenname"]
df["Spalte4"]=4
df

Unnamed: 0,Spalte1,Spalte2,Spalte3,Spalte4
0,1,1,1,4
1,2,2,2,4
2,3,3,3,4


**Neue Spalte mit berechneten Werten:** Wir können beliebige arithmetische Operationen auf Spalten (mit numerischen Werten) anwenden und daraus neue Spalten erzeugen.

In [76]:
tabelle.head()

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern München,19,15,3,1,58,16,42,48
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37
3,4,Stuttgart,19,9,5,5,36,28,8,32
4,5,RB Leipzig,19,9,5,5,34,29,5,32


In [77]:
# Variante 1
tabelle["Tore_pro_Spiel"] = tabelle["Tore_+"]/19

# Variante 2 (besser)
tabelle["Tore_pro_Spiel"] = tabelle["Tore_+"]/tabelle["Spiele"]
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Tore_pro_Spiel
0,1,Bayern München,19,15,3,1,58,16,42,48,3.1
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42,2.4
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37,2.3
3,4,Stuttgart,19,9,5,5,36,28,8,32,1.9
4,5,RB Leipzig,19,9,5,5,34,29,5,32,1.8
5,6,Mainz 05,19,9,4,6,33,23,10,31,1.7


**Frage:** Wie fügen Sie eine neue Spalte ein, die für jede Mannschaft die Gegentore pro Spiel darstellt?

In [78]:
tabelle["Gegentore_pro_Spiel"] = tabelle["Tore_-"]/tabelle["Spiele"]
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Tore_pro_Spiel,Gegentore_pro_Spiel
0,1,Bayern München,19,15,3,1,58,16,42,48,3.1,0.8
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42,2.4,1.4
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37,2.3,1.4
3,4,Stuttgart,19,9,5,5,36,28,8,32,1.9,1.5
4,5,RB Leipzig,19,9,5,5,34,29,5,32,1.8,1.5
5,6,Mainz 05,19,9,4,6,33,23,10,31,1.7,1.2


# 2. Aggregation von Daten <a class="anchor" id="aggregation"></a>

## 2.1 Erste deskriptive Parameter & Summierung <a class="anchor" id="parameter"></a>

In [79]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Tore_pro_Spiel,Gegentore_pro_Spiel
0,1,Bayern München,19,15,3,1,58,16,42,48,3.1,0.8
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42,2.4,1.4
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37,2.3,1.4
3,4,Stuttgart,19,9,5,5,36,28,8,32,1.9,1.5
4,5,RB Leipzig,19,9,5,5,34,29,5,32,1.8,1.5
5,6,Mainz 05,19,9,4,6,33,23,10,31,1.7,1.2


In [80]:
# Mittelwert
tabelle["Tore_+"].mean()

41.833333333333336

In [81]:
# Median
tabelle["Tore_+"].median()

40.0

In [82]:
# Standardsabweichung
tabelle["Tore_+"].std()

9.558591249063152

Es besteht die Möglichkeit, dass Sie Methoden zur Berechnung von statistischen Parametern auf mehrere Spalten gleichzeitig anwenden:

Berechnung des Mittelwertes für die beiden Spalten `Tore_+` und `Tore_-`:

In [83]:
tabelle[["Tore_+","Tore_-","Tordifferenz","Punkte"]].mean()

Unnamed: 0,0
Tore_+,41.8
Tore_-,24.7
Tordifferenz,17.2
Punkte,37.0


Die Anzahl aller geschossenen Tore berechnet Ihnen die Methode `sum()`:

In [84]:
tabelle["Tore_+"].sum()

251

**Frage:** Was macht die Funktion `cumsum`? Sehen Sie sich dazu die Ausgabe in der unteren Code-Zellen genauer an.

In [85]:
tabelle["cumsum"] = tabelle["Tore_+"].cumsum()
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Tore_pro_Spiel,Gegentore_pro_Spiel,cumsum
0,1,Bayern München,19,15,3,1,58,16,42,48,3.1,0.8,58
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42,2.4,1.4,104
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37,2.3,1.4,148
3,4,Stuttgart,19,9,5,5,36,28,8,32,1.9,1.5,184
4,5,RB Leipzig,19,9,5,5,34,29,5,32,1.8,1.5,218
5,6,Mainz 05,19,9,4,6,33,23,10,31,1.7,1.2,251


**Frage**: Wie lassen sich die kummulativen Häufigkeiten als Prozent darstellen? Denken Sie nochmals an den Abschnitt, in dem wir beliebige arithmetische Operationen für einzelne Spalten durchgeführt haben!

In [86]:
tabelle["Anteil_Tore_+"] = tabelle["Tore_+"].cumsum()/tabelle["Tore_+"].sum() * 100
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Tore_pro_Spiel,Gegentore_pro_Spiel,cumsum,Anteil_Tore_+
0,1,Bayern München,19,15,3,1,58,16,42,48,3.1,0.8,58,23.1
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42,2.4,1.4,104,41.4
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37,2.3,1.4,148,59.0
3,4,Stuttgart,19,9,5,5,36,28,8,32,1.9,1.5,184,73.3
4,5,RB Leipzig,19,9,5,5,34,29,5,32,1.8,1.5,218,86.9
5,6,Mainz 05,19,9,4,6,33,23,10,31,1.7,1.2,251,100.0


### Aufgabe: Parameter und Summen - Rossmann Store Sales <a class="anchor" id="parameter_summen"></a>

Wir betrachten erneut die Daten von Rossmann:

In [87]:
sales.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,2015-07-31,5263,555,1,1,0,1
1,2,5,2015-07-31,6064,625,1,1,0,1
2,3,5,2015-07-31,8314,821,1,1,0,1
3,4,5,2015-07-31,13995,1498,1,1,0,1
4,5,5,2015-07-31,4822,559,1,1,0,1


Bitte bearbeiten Sie die folgenden Aufgaben:
1. Über welchen Zeitraum wurde die Salesdaten von Rossmann erhoben?
1. Was ist der durchschnittliche Tagesumsatz eines Rossmann Stores?
1. An welchen Tagen (`Date`) konnte die kleinsten und größten Tagesumsätze beobachtet werden? Nutzen Sie hierzu die `max()` und `min()` Methoden!
1. Was ist der gesamte Umsatz von Rossmann über alle Stores im Beobachtungszeitraum? Nutzen Sie die `sum()` Methode!
1. Fügen Sie eine neue Spalte ein, die den mittleren Tagesumsatz pro Kunde darstellt! Schauen Sie sich dazu nochmals das Kapitel zum Einfügen neuer Spalten an!
1. An wie viel Tagen gab es Promotionen?
1. Wie hoch liegt der mittlere Tageumsatz von Store `262`, wenn keine Promotionen laufen?
1. Wie hoch liegt der mittlere Tageumsatz von Store `262`, wenn Promotionen laufen?


In [88]:
# Frage1
print(
    f"""
    Erstes Datum: {sales["Date"].min()} \n
    Letztes Datum: {sales["Date"].max()}
    """
)


    Erstes Datum: 2015-01-04 00:00:00 

    Letztes Datum: 2015-12-07 00:00:00
    


In [89]:
# Frage2
sales.Sales.mean().round(1)

5940.9

In [90]:
# Frage3
# An welchen Tagen (Date) konnte die kleinsten und größten Tagesumsätze beobachtet werden?
sales[sales["Sales"]==sales["Sales"].max()]["Date"]
sales[sales["Sales"]==sales["Sales"].min()]["Date"]

Unnamed: 0,Date
291,2015-07-31
875,2015-07-31
1406,2015-07-30
1990,2015-07-30
2521,2015-07-29
...,...
156743,2015-03-13
156773,2015-03-13
157858,2015-12-03
157888,2015-12-03


In [91]:
# Frage4
sales["Sales"].sum()

943580977

In [92]:
# Frage5 "Mittlerer Tagesumsatz pro Kunde" --> Sales/Customers
sales["Tagesumsatz_pro_Kunde"] = sales["Sales"]/sales["Customers"]
sales.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday,Tagesumsatz_pro_Kunde
0,1,5,2015-07-31,5263,555,1,1,0,1,9.5
1,2,5,2015-07-31,6064,625,1,1,0,1,9.7
2,3,5,2015-07-31,8314,821,1,1,0,1,10.1
3,4,5,2015-07-31,13995,1498,1,1,0,1,9.3
4,5,5,2015-07-31,4822,559,1,1,0,1,8.6


In [93]:
# Frage6
# sales[sales["Promo"]=="1"] --> Alle Zeile, an denen Promotionen liefen
# ["Date"] --> Alle Tage, an denen Promotionen liefen
# nunique() --> Wie viele eindeutige Tage mit Promotionen
sales[sales["Promo"]=="1"]["Date"].nunique()

55

In [94]:
# Frage7/8 Wie hoch liegt der mittlere Tageumsatz von Store 262, wenn keine/eine Promotionen laufen?

# mittlerer Tagesumsatz mit Promotion
sales[
    (sales["Store"]==262)& # Nur Store 262 betrachten
    (sales["Promo"]=="1") # Nur mit Promo
    ]["Sales"].mean()

21985.072727272727

In [95]:
# mittlerer Tagesumsatz ohne Promotion
sales[
    (sales["Store"]==262)& # Nur Store 262 betrachten
    (sales["Promo"]=="0") # Nur ohne Promo
    ]["Sales"].mean()

21104.875

## 2.2 Zählen <a class="anchor" id="zaehlen"></a>
Wir bleiben beim Rossmann Datensatz. Enthalten Spalten kategoriale Werte interessiert man sich z.B. dafür, wie häufig eine Kategorie auftritt. Pandas stellt dafür die Funktion `value_counts` bereit:

In [96]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Tore_pro_Spiel,Gegentore_pro_Spiel,cumsum,Anteil_Tore_+
0,1,Bayern München,19,15,3,1,58,16,42,48,3.1,0.8,58,23.1
1,2,Bayer Leverkusen,19,12,6,1,46,26,20,42,2.4,1.4,104,41.4
2,3,Eintracht Frankfurt,19,11,4,4,44,26,18,37,2.3,1.4,148,59.0
3,4,Stuttgart,19,9,5,5,36,28,8,32,1.9,1.5,184,73.3
4,5,RB Leipzig,19,9,5,5,34,29,5,32,1.8,1.5,218,86.9
5,6,Mainz 05,19,9,4,6,33,23,10,31,1.7,1.2,251,100.0


In [97]:
tabelle["Unentschieden"].value_counts()

Unnamed: 0_level_0,count
Unentschieden,Unnamed: 1_level_1
4,2
5,2
3,1
6,1


**Frage:** Was macht die Parameter `normalize` und `ascending` in der Funktion `value_counts`?

In [98]:
tabelle["Unentschieden"].value_counts(normalize=False, ascending=False)

Unnamed: 0_level_0,count
Unentschieden,Unnamed: 1_level_1
4,2
5,2
3,1
6,1


## 2.3 Gruppierungen und Aggregationen <a class="anchor" id="gruppierung"></a>

Wenn wir uns in die Lage eines zentralen Controllings versetzen, so interessieren und natürlich die Umsätze eine jeden Stores. Zum Beispiel könnten wir fragen, wie die mittleren Tagesumsätze je Store ausfallen, um anschließend die einzelnen Filialen miteinander zu vergleichen. Mit den bisherigen Methoden können wir solche Rechnung machen:

In [99]:
sales["Store"].nunique()

1115

In [100]:
sales_store1 = sales[sales.Store==1]
sales_store262 = sales[sales.Store==262]
sales_store159 = sales[sales.Store==159]

In [101]:
sales_store1.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday,Tagesumsatz_pro_Kunde
0,1,5,2015-07-31,5263,555,1,1,0,1,9.5
1115,1,4,2015-07-30,5020,546,1,1,0,1,9.2
2230,1,3,2015-07-29,4782,523,1,1,0,1,9.1
3345,1,2,2015-07-28,5011,560,1,1,0,1,8.9
4460,1,1,2015-07-27,6102,612,1,1,0,1,10.0


In [102]:
mean_sales_store1 = sales_store1.Sales.mean()
mean_sales_store262 = sales_store262.Sales.mean()
mean_sales_store159 = sales_store159.Sales.mean()
mean_sales_store1, mean_sales_store262, mean_sales_store159

(3686.671328671329, 21443.412587412586, 6426.55944055944)

In [103]:
sales.Store.nunique()

1115

Sie können unmittelbar erkennen, dass diese Art der Berechnung bei einer Vielzahl von Stores extrem mühsam ist. Pandas stellt glücklicherweise Methoden bereit, die Ihnen die Arbeit enorm erleichtern, insbesondere die `groupby` Funktion.

Wir können beispielsweise ganz leicht den mittleren Tagesumsatz je Store berechnen, wenn wir zunächst die Daten nach Stores gruppieren (`sales.groupby("Store")`), anschließend die Spalte `Sales` auswählen (`sales.groupby("Store")["Sales"]`) und abschließend je Store den den mittleren Tagesumsatz berechnen:

In [104]:
sales.groupby("Store")["Sales"].mean()

Unnamed: 0_level_0,Sales
Store,Unnamed: 1_level_1
1,3686.7
2,4166.5
3,5786.4
4,8221.2
5,3861.9
...,...
1111,4031.4
1112,7591.1
1113,5539.8
1114,18690.4


In [105]:
# Mit Sortierung
sales.groupby("Store")["Sales"].mean().sort_values(ascending=False).head()

Unnamed: 0_level_0,Sales
Store,Unnamed: 1_level_1
262,21443.4
1114,18690.4
562,18016.3
817,17123.2
842,16572.3


Sie haben die Möglichkeit mit der Funktion `groupby` auch Gruppierungen auf mehrere Spalten durchzuführen. Zum Beispiel können wir für jeden Store und Wochentag den mittleren Tagesumsatz berechnen:

In [106]:
sales.groupby(["Promo"])["Sales"].mean().head(20)

Unnamed: 0_level_0,Sales
Promo,Unnamed: 1_level_1
0,4550.9
1,8150.8


Mit dem Befehl `reset_index()` wird der Index des DataFrames wieder als Spalte gesetzt!

In [107]:
sales.groupby(["Store","DayOfWeek"])["Sales"].median().reset_index()

Unnamed: 0,Store,DayOfWeek,Sales
0,1,1,5125.5
1,1,2,4606.0
2,1,3,4110.0
3,1,4,3932.0
4,1,5,4057.0
...,...,...,...
7800,1115,3,6867.5
7801,1115,4,6244.0
7802,1115,5,6926.0
7803,1115,6,7744.5


Mithilfe der Methode `agg` können Sie gleichzeitig mehrere Aggregationsfunktionen berechnen lassen. Dazu übergeben Sie an die Funktion `agg` eine Liste, die die relevanten Funktionen als String enthält:

In [108]:
sales.groupby(["Store","DayOfWeek"])["Sales"].agg(["min","mean","max","std", "median"])

Unnamed: 0_level_0,Unnamed: 1_level_0,min,mean,max,std,median
Store,DayOfWeek,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,1,0,4469.3,6714,1770.8,5125.5
1,2,3037,4516.2,6206,846.9,4606.0
1,3,3319,4396.6,6816,919.8,4110.0
1,4,0,3912.0,6574,1592.5,3932.0
1,5,0,3815.2,5384,1401.2,4057.0
...,...,...,...,...,...,...
1115,3,4676,6874.2,10547,1663.7,6867.5
1115,4,0,6024.8,11033,2541.3,6244.0
1115,5,0,6545.0,11435,2667.0,6926.0
1115,6,6543,7835.6,10444,1021.8,7744.5


**Wiederholung:**

In [109]:
df = pd.DataFrame({'store':["S1","S2","S1","S2","S1","S2"], 'demand': [1, 0, 1, 2, 0, 1]})
df
# S1: 2
# S2: 3

Unnamed: 0,store,demand
0,S1,1
1,S2,0
2,S1,1
3,S2,2
4,S1,0
5,S2,1


In [110]:
# 1. Wonach wird gruppiert -> groupby("Kriterium")
# 2. Welche Spalte interessiert mich -> ["Spalte"]
# 3. Rechenoperation -> z.B. sum(),mean(), etc.
df.groupby("store")["demand"].sum()

Unnamed: 0_level_0,demand
store,Unnamed: 1_level_1
S1,2
S2,3


In [111]:
df.pivot_table(values="demand", index="store", aggfunc="sum")

Unnamed: 0_level_0,demand
store,Unnamed: 1_level_1
S1,2
S2,3


## 2.4 Pivottabellen <a class="anchor" id="pivot"></a>
Sie kennen vermutlich Pivottabellen aus Excel. Diese lassen sich auch sehr leicht in pandas erzeugen. Dazu verwenden wir die Methode `pivot_table`. Die Ergebnisse sind analog zu denen aus den vorherigen Abschnitten, wenn wir `groupby` mit entsprechenden Aggreagationsmethoden aufrufen. Die Darstellung unterscheidet sich allerdings ein wenig.

In [112]:
# Mittelwert des Tagesumsatzes je Store
sales.pivot_table(values="Sales", index="Store", aggfunc="mean")
# ist identisch mit
#sales.groupby("Store")["Sales"].mean()

Unnamed: 0_level_0,Sales
Store,Unnamed: 1_level_1
1,3686.7
2,4166.5
3,5786.4
4,8221.2
5,3861.9
...,...
1111,4031.4
1112,7591.1
1113,5539.8
1114,18690.4


In [113]:
# Min, Max und Mittelwert des Tagesumsatzes je Store
sales.pivot_table(values="Sales", index="Store", aggfunc=["min","mean","max","sum"])

Unnamed: 0_level_0,min,mean,max,sum
Unnamed: 0_level_1,Sales,Sales,Sales,Sales
Store,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,0,3686.7,6816,527194
2,0,4166.5,10107,595809
3,0,5786.4,13261,827460
4,0,8221.2,17311,1175633
5,0,3861.9,8847,552249
...,...,...,...,...
1111,0,4031.4,9872,572455
1112,0,7591.1,17542,1077941
1113,0,5539.8,12603,786658
1114,0,18690.4,31803,2654043


In [114]:
sales.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday,Tagesumsatz_pro_Kunde
0,1,5,2015-07-31,5263,555,1,1,0,1,9.5
1,2,5,2015-07-31,6064,625,1,1,0,1,9.7
2,3,5,2015-07-31,8314,821,1,1,0,1,10.1
3,4,5,2015-07-31,13995,1498,1,1,0,1,9.3
4,5,5,2015-07-31,4822,559,1,1,0,1,8.6


In [115]:
# Min, Max und Mittelwert des mittleren Tagesumsatzes je Wochentag
sales.pivot_table(values="Sales",
               index="Store",
               aggfunc="mean",
               columns="DayOfWeek",
               fill_value="-",
               margins=False
              )

DayOfWeek,1,2,3,4,5,6,7
Store,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,4469.3,4516.2,4396.6,3912.0,3815.2,4644.1,0.0
2,5504.2,5767.9,5966.7,4695.9,4075.5,3043.4,0.0
3,7520.9,8095.4,7356.5,6429.7,6359.0,4604.1,0.0
4,9974.9,9938.6,9384.3,9134.8,8625.7,10366.2,0.0
5,5593.5,5285.1,5242.7,4462.3,4161.7,2173.8,0.0
...,...,...,...,...,...,...,...
1111,6245.2,5637.4,4826.9,4235.7,4347.4,2901.1,0.0
1112,10908.2,9390.9,9138.0,7905.3,7833.2,7934.4,0.0
1113,6696.1,6504.2,6721.1,6844.6,5879.3,6051.4,0.0
1114,21737.0,22326.0,22383.2,20814.7,20208.5,23181.6,0.0


## 2.5 Die Funktion `transform` <a class="anchor" id="transform"></a>
Sie haben gesehen, dass bei Verwendung der Funktion `groupby` ein neuer DataFrame entsteht, der so viele Zeilen hat wie es verschiedene Gruppen gibt. Es kommt regelmäßig vor, dass Sie Berechnungen auf gruppierten Daten machen möchten, das berechnete Ergebnis aber wieder dem urspünglichen DataFrame in Form einer neuen Spalte hinzufügen wollen.

Beispielsweise interessiert Sie, ob der Tagesumsatz über dem durchschnittlichen Tagesumsatz eines Stores liegt. Sie müssen es also schaffen, für jeden Store den durchschnittlichen Tagesumsatz zu berechnen und diesen anschließend mit jedem der einzelnen Tagesumsätze vergleichen.

In [116]:
# Hier wird nur der mittlere Tagesumsatz je Store zurückgegeben
sales.groupby("Store",sort=False)["Sales"].mean().head()

Unnamed: 0_level_0,Sales
Store,Unnamed: 1_level_1
1,3686.7
2,4166.5
3,5786.4
4,8221.2
5,3861.9


In [117]:
# hier wird der mittlere Tagesumsatz je Store berechnet und
# anschließend für jede Zeile des ursprünglichen DataFrames passend zurückgegeben
sales.groupby("Store")["Sales"].transform("mean")

Unnamed: 0,Sales
0,3686.7
1,4166.5
2,5786.4
3,8221.2
4,3861.9
...,...
158824,4596.2
158825,6807.3
158826,7562.5
158827,5840.3


In [118]:
sales.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday,Tagesumsatz_pro_Kunde
0,1,5,2015-07-31,5263,555,1,1,0,1,9.5
1,2,5,2015-07-31,6064,625,1,1,0,1,9.7
2,3,5,2015-07-31,8314,821,1,1,0,1,10.1
3,4,5,2015-07-31,13995,1498,1,1,0,1,9.3
4,5,5,2015-07-31,4822,559,1,1,0,1,8.6


In [119]:
sales["MeanStoreSales"] = sales.groupby("Store")["Sales"].transform("mean")

In [120]:
sales[sales["Store"]==1].head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday,Tagesumsatz_pro_Kunde,MeanStoreSales
0,1,5,2015-07-31,5263,555,1,1,0,1,9.5,3686.7
1115,1,4,2015-07-30,5020,546,1,1,0,1,9.2,3686.7
2230,1,3,2015-07-29,4782,523,1,1,0,1,9.1,3686.7
3345,1,2,2015-07-28,5011,560,1,1,0,1,8.9,3686.7
4460,1,1,2015-07-27,6102,612,1,1,0,1,10.0,3686.7


In [121]:
sales["SalesAboveMean"] = sales["Sales"] > sales["MeanStoreSales"]
sales.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday,Tagesumsatz_pro_Kunde,MeanStoreSales,SalesAboveMean
0,1,5,2015-07-31,5263,555,1,1,0,1,9.5,3686.7,True
1,2,5,2015-07-31,6064,625,1,1,0,1,9.7,4166.5,True
2,3,5,2015-07-31,8314,821,1,1,0,1,10.1,5786.4,True
3,4,5,2015-07-31,13995,1498,1,1,0,1,9.3,8221.2,True
4,5,5,2015-07-31,4822,559,1,1,0,1,8.6,3861.9,True


Eine Übersicht zu den diversen Funktionen mit denen Sie DataFrames manipulieren können, finden Sie [hier](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf).

### Aufgabe: Data Wrangling & Aggregation - Verkaufszahlen Walmart <a class="anchor" id="walmart"></a>

Wir beschäftigen uns im folgenden mit einem Datensatz von Walmart. Dieser wurde 2020 von Walmart auf Kaggle veröffentlicht. Das Ziel des Wettbewerbs bestand darin, ML-Verfahren zu entwickeln, die bestmöglich die Verkäufe von einzelnen Produkten in Walmart-Filialen in den nächsten 28 Tagen vorhersagen. Nähere Informationen zum Wettbewerb finden Sie [hier](https://www.kaggle.com/competitions/m5-forecasting-accuracy/overview/description).

Bevor wir zu den eigentlichen Aufgaben kommen, müssen zunächst zwei verschiedene Datensätze laden und geeignet aufbereiten und miteinander verbinden (joins).

In [122]:
FOLDER = "Business_Intelligence/Daten/Walmart"

In [123]:
sales = pd.read_csv(f"{FOLDER}/sales.csv", index_col=0)

In [124]:
sales.head()

Unnamed: 0,id,item_id,dept_id,cat_id,store_id,state_id,d_1,d_2,d_3,d_4,d_5,d_6,d_7,d_8,d_9,d_10,d_11,d_12,d_13,d_14,d_15,d_16,d_17,d_18,d_19,d_20,d_21,d_22,d_23,d_24,d_25,d_26,d_27,d_28,d_29,d_30,d_31,d_32,d_33,d_34,d_35,d_36,d_37,d_38,d_39,d_40,d_41,d_42,d_43,d_44,...,d_1892,d_1893,d_1894,d_1895,d_1896,d_1897,d_1898,d_1899,d_1900,d_1901,d_1902,d_1903,d_1904,d_1905,d_1906,d_1907,d_1908,d_1909,d_1910,d_1911,d_1912,d_1913,d_1914,d_1915,d_1916,d_1917,d_1918,d_1919,d_1920,d_1921,d_1922,d_1923,d_1924,d_1925,d_1926,d_1927,d_1928,d_1929,d_1930,d_1931,d_1932,d_1933,d_1934,d_1935,d_1936,d_1937,d_1938,d_1939,d_1940,d_1941
10992,FOODS_2_018_CA_4_evaluation,FOODS_2_018,FOODS_2,FOODS,CA_4,CA,1,0,0,0,0,0,0,0,3,0,0,0,1,2,0,0,0,0,0,0,3,0,0,0,0,1,0,0,0,2,1,0,0,0,0,2,0,0,2,0,0,2,1,3,...,1,0,0,0,0,1,0,2,0,0,1,2,0,1,0,0,1,0,0,1,1,1,0,2,1,0,0,0,1,0,0,0,1,0,1,0,1,0,0,0,1,1,1,0,0,0,1,0,0,2
28257,HOUSEHOLD_1_257_WI_3_evaluation,HOUSEHOLD_1_257,HOUSEHOLD_1,HOUSEHOLD,WI_3,WI,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,1,1,0,0,2,2,2,1,1,1,1,0,2,2,1,1,2,0,1,1,1,2,1,0,1,1,2,0,0,3,2,1,0,1,3,3,0,2,1,2,3,3,0,0,2,0,0,0,0
7220,HOUSEHOLD_2_026_CA_3_evaluation,HOUSEHOLD_2_026,HOUSEHOLD_2,HOUSEHOLD,CA_3,CA,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,1,0,1
27610,HOBBIES_1_174_WI_3_evaluation,HOBBIES_1_174,HOBBIES_1,HOBBIES,WI_3,WI,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0
7020,HOUSEHOLD_1_365_CA_3_evaluation,HOUSEHOLD_1_365,HOUSEHOLD_1,HOUSEHOLD,CA_3,CA,1,4,0,2,2,1,0,1,4,2,0,0,0,2,2,2,0,0,3,2,1,4,1,3,0,1,0,2,2,2,1,2,1,1,0,2,3,0,1,1,2,2,2,0,...,0,0,1,1,0,3,3,1,0,1,1,0,2,3,1,1,2,2,0,1,2,1,1,1,1,0,2,0,0,0,1,0,0,1,1,1,0,2,0,1,0,1,1,1,0,1,1,1,1,2


In [125]:
sales.shape

(1000, 1947)

Die Salesdaten wie oben angezeigt, liegen im sogenannten Wide-Format vor. In den späteren Anwendungen des maschinellen Lernens werden wir regelmäßig mit dem sogenannten Long-Format arbeiten. Für eine Umwandlung in das Long-Format können wir die Funktion `melt` verwenden. Unter folgendem [Link](https://pandas.pydata.org/docs/user_guide/reshaping.html#reshaping-melt) finden Sie auch nochmal detailliertere Erklärungen zu dieser und anderen Funktionen.

In [126]:
sales = sales.melt(
    id_vars=["id","item_id","dept_id", "cat_id", "store_id", "state_id"],
    var_name="day",
    value_name="demand"
    )

In [127]:
sales.shape

(1941000, 8)

In [128]:
sales.head()

Unnamed: 0,id,item_id,dept_id,cat_id,store_id,state_id,day,demand
0,FOODS_2_018_CA_4_evaluation,FOODS_2_018,FOODS_2,FOODS,CA_4,CA,d_1,1
1,HOUSEHOLD_1_257_WI_3_evaluation,HOUSEHOLD_1_257,HOUSEHOLD_1,HOUSEHOLD,WI_3,WI,d_1,0
2,HOUSEHOLD_2_026_CA_3_evaluation,HOUSEHOLD_2_026,HOUSEHOLD_2,HOUSEHOLD,CA_3,CA,d_1,0
3,HOBBIES_1_174_WI_3_evaluation,HOBBIES_1_174,HOBBIES_1,HOBBIES,WI_3,WI,d_1,0
4,HOUSEHOLD_1_365_CA_3_evaluation,HOUSEHOLD_1_365,HOUSEHOLD_1,HOUSEHOLD,CA_3,CA,d_1,1


In der Datei `calendar` finden Sie nähere Informationen zu den einzelnen Verkaufsdaten, d.h. Datum, Wochentag, Jahr, etc. Die beiden DataFrame lassen sich über die Spalte `day` (`sales`) und `d` (`calendar`) miteinander verknüpfen. Wir werden einen Left-Join verwenden, um beide Datensätze zu verbinden. Dies gelingt über die Funktion `merge` und der Definition entsprechender Parameter.

In [129]:
calendar = pd.read_csv(f"{FOLDER}/calendar.csv")
calendar.head(10)

Unnamed: 0,date,wm_yr_wk,weekday,wday,month,year,d,event_name_1,event_type_1,event_name_2,event_type_2,snap_CA,snap_TX,snap_WI
0,2011-01-29,11101,Saturday,1,1,2011,d_1,,,,,0,0,0
1,2011-01-30,11101,Sunday,2,1,2011,d_2,,,,,0,0,0
2,2011-01-31,11101,Monday,3,1,2011,d_3,,,,,0,0,0
3,2011-02-01,11101,Tuesday,4,2,2011,d_4,,,,,1,1,0
4,2011-02-02,11101,Wednesday,5,2,2011,d_5,,,,,1,0,1
5,2011-02-03,11101,Thursday,6,2,2011,d_6,,,,,1,1,1
6,2011-02-04,11101,Friday,7,2,2011,d_7,,,,,1,0,0
7,2011-02-05,11102,Saturday,1,2,2011,d_8,,,,,1,1,1
8,2011-02-06,11102,Sunday,2,2,2011,d_9,SuperBowl,Sporting,,,1,1,1
9,2011-02-07,11102,Monday,3,2,2011,d_10,,,,,1,1,0


In [130]:
# merge sales und calendar
sales = pd.merge(sales, calendar, how="left", left_on="day", right_on="d")
sales.drop(columns=["d"], inplace=True)
sales.head()

Unnamed: 0,id,item_id,dept_id,cat_id,store_id,state_id,day,demand,date,wm_yr_wk,weekday,wday,month,year,event_name_1,event_type_1,event_name_2,event_type_2,snap_CA,snap_TX,snap_WI
0,FOODS_2_018_CA_4_evaluation,FOODS_2_018,FOODS_2,FOODS,CA_4,CA,d_1,1,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0
1,HOUSEHOLD_1_257_WI_3_evaluation,HOUSEHOLD_1_257,HOUSEHOLD_1,HOUSEHOLD,WI_3,WI,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0
2,HOUSEHOLD_2_026_CA_3_evaluation,HOUSEHOLD_2_026,HOUSEHOLD_2,HOUSEHOLD,CA_3,CA,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0
3,HOBBIES_1_174_WI_3_evaluation,HOBBIES_1_174,HOBBIES_1,HOBBIES,WI_3,WI,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0
4,HOUSEHOLD_1_365_CA_3_evaluation,HOUSEHOLD_1_365,HOUSEHOLD_1,HOUSEHOLD,CA_3,CA,d_1,1,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0


Bitte berarbeiten Sie nun die folgenden Aufgaben:
1. In welchem Zeitraum wurden die Daten erhoben?
1. Wie viele verschiedene Stores gibt es im Datensatz?
1. Berechnen Sie den durschnittlichen Tagesabsatz (in Stück) für jeden Artikel? Nutzen Sie die `groupby` und anschließend die `mean` Methode!
1. Berechnen Sie für jeden Artikel den durchschnittlichen Tagesabsatz und fügen Sie diesen dem ursprünglichen DataFrame `sales` als neue Spalte hinzu. Nutzen Sie dazu die Funktion `transform`.
1. Fügen Sie anschließend eine neue Spalte hinzu, die den Tagesabsatz ins Verhältnis zum durchschnittlichen Tagesabsatz setzt.
1. **ENDGEGNERFRAGE:** Fügen Sie eine neue Spalte ein, die den Absatz des Vortages eines Artikels darstellt. Nutzen Sie die Funktionen `transform` & `shift` i.V.m. einer `lambda`-Funktion.
1. **ENDGEGNERFRAGE**: Fügen Sie eine neue Spalte ein, die den mittleren Absatz der letzten 3 Tage eines Artikels darstellt. Nutzen Sie die Funktionen `transform` & `shift`, `rolling` i.V.m. einer `lambda`-Funktion.

In [131]:
# Frage1
sales["date"].min(), sales["date"].max()

('2011-01-29', '2016-05-22')

In [132]:
# Frage2
sales["store_id"].nunique()

10

In [133]:
sales["store_id"].unique()

array(['CA_4', 'WI_3', 'CA_3', 'TX_3', 'WI_1', 'CA_2', 'TX_2', 'CA_1',
       'TX_1', 'WI_2'], dtype=object)

In [134]:
# Frage3: durschnittlicher ("mean") Tagesabsatz ("demand") für jeden Artikel ("id")
# 1. Wonach wird gruppiert -> groupby("Kriterium")
# 2. Welche Spalte interessiert mich -> ["Spalte"]
# 3. Rechenoperation -> z.B. sum(),mean(), etc.
sales.groupby("id")["demand"].mean().head()

Unnamed: 0_level_0,demand
id,Unnamed: 1_level_1
FOODS_1_002_WI_1_evaluation,0.8
FOODS_1_003_TX_1_evaluation,0.5
FOODS_1_009_TX_1_evaluation,0.2
FOODS_1_011_TX_3_evaluation,0.2
FOODS_1_023_CA_4_evaluation,2.4


In [135]:
# Frage4
# Berechnen Sie für jeden Artikel den durchschnittlichen Tagesabsatz und fügen Sie diesen dem
# ursprünglichen DataFrame sales als neue Spalte hinzu. Nutzen Sie dazu die Funktion transform
sales["mittlerer_tagesumsatz"] = sales.groupby("id")["demand"].transform("mean")
sales.head()

Unnamed: 0,id,item_id,dept_id,cat_id,store_id,state_id,day,demand,date,wm_yr_wk,weekday,wday,month,year,event_name_1,event_type_1,event_name_2,event_type_2,snap_CA,snap_TX,snap_WI,mittlerer_tagesumsatz
0,FOODS_2_018_CA_4_evaluation,FOODS_2_018,FOODS_2,FOODS,CA_4,CA,d_1,1,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0,0.3
1,HOUSEHOLD_1_257_WI_3_evaluation,HOUSEHOLD_1_257,HOUSEHOLD_1,HOUSEHOLD,WI_3,WI,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0,0.4
2,HOUSEHOLD_2_026_CA_3_evaluation,HOUSEHOLD_2_026,HOUSEHOLD_2,HOUSEHOLD,CA_3,CA,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0,0.1
3,HOBBIES_1_174_WI_3_evaluation,HOBBIES_1_174,HOBBIES_1,HOBBIES,WI_3,WI,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0,0.1
4,HOUSEHOLD_1_365_CA_3_evaluation,HOUSEHOLD_1_365,HOUSEHOLD_1,HOUSEHOLD,CA_3,CA,d_1,1,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0,1.0


In [136]:
# Frage5
# prozent_von_mittlerem_tagesumsatz = tagesumsatz/mittlerem_tagesumsatz
sales["prozent_von_mittlerem_tagesumsatz"] = sales["demand"]/sales["mittlerer_tagesumsatz"]*100
sales.head()

Unnamed: 0,id,item_id,dept_id,cat_id,store_id,state_id,day,demand,date,wm_yr_wk,weekday,wday,month,year,event_name_1,event_type_1,event_name_2,event_type_2,snap_CA,snap_TX,snap_WI,mittlerer_tagesumsatz,prozent_von_mittlerem_tagesumsatz
0,FOODS_2_018_CA_4_evaluation,FOODS_2_018,FOODS_2,FOODS,CA_4,CA,d_1,1,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0,0.3,332.4
1,HOUSEHOLD_1_257_WI_3_evaluation,HOUSEHOLD_1_257,HOUSEHOLD_1,HOUSEHOLD,WI_3,WI,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0,0.4,0.0
2,HOUSEHOLD_2_026_CA_3_evaluation,HOUSEHOLD_2_026,HOUSEHOLD_2,HOUSEHOLD,CA_3,CA,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0,0.1,0.0
3,HOBBIES_1_174_WI_3_evaluation,HOBBIES_1_174,HOBBIES_1,HOBBIES,WI_3,WI,d_1,0,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0,0.1,0.0
4,HOUSEHOLD_1_365_CA_3_evaluation,HOUSEHOLD_1_365,HOUSEHOLD_1,HOUSEHOLD,CA_3,CA,d_1,1,2011-01-29,11101,Saturday,1,1,2011,,,,,0,0,0,1.0,98.3


In [137]:
# Frage6: Fügen Sie eine neue Spalte ein, die den Absatz des Vortages eines Artikels darstellt.
# Nutzen Sie die Funktionen transform & shift i.V.m. einer lambda-Funktio

In [138]:
sales["demand_day_before"] = sales.groupby("id")["demand"].transform(lambda x: x.shift(1))
sales.tail()

Unnamed: 0,id,item_id,dept_id,cat_id,store_id,state_id,day,demand,date,wm_yr_wk,weekday,wday,month,year,event_name_1,event_type_1,event_name_2,event_type_2,snap_CA,snap_TX,snap_WI,mittlerer_tagesumsatz,prozent_von_mittlerem_tagesumsatz,demand_day_before
1940995,HOUSEHOLD_1_508_WI_2_evaluation,HOUSEHOLD_1_508,HOUSEHOLD_1,HOUSEHOLD,WI_2,WI,d_1941,0,2016-05-22,11617,Sunday,2,5,2016,,,,,0,0,0,0.3,0.0,1.0
1940996,FOODS_3_176_WI_3_evaluation,FOODS_3_176,FOODS_3,FOODS,WI_3,WI,d_1941,1,2016-05-22,11617,Sunday,2,5,2016,,,,,0,0,0,0.6,167.5,2.0
1940997,FOODS_3_420_TX_2_evaluation,FOODS_3_420,FOODS_3,FOODS,TX_2,TX,d_1941,0,2016-05-22,11617,Sunday,2,5,2016,,,,,0,0,0,0.9,0.0,1.0
1940998,FOODS_2_035_TX_1_evaluation,FOODS_2_035,FOODS_2,FOODS,TX_1,TX,d_1941,0,2016-05-22,11617,Sunday,2,5,2016,,,,,0,0,0,0.4,0.0,2.0
1940999,FOODS_3_818_CA_3_evaluation,FOODS_3_818,FOODS_3,FOODS,CA_3,CA,d_1941,0,2016-05-22,11617,Sunday,2,5,2016,,,,,0,0,0,3.7,0.0,0.0


In [148]:
# Frage7: Fügen Sie eine neue Spalte ein, die den mittleren Absatz der letzten 3 Tage eines Artikels
# darstellt. Nutzen Sie die Funktionen transform & shift, rolling i.V.m. einer lambda-Funktion
sales["mean_demand_last_3_days"] = sales.groupby("id")["demand"].transform(lambda x: x.shift(1).rolling(3).mean())
sales.tail()

Unnamed: 0,id,item_id,dept_id,cat_id,store_id,state_id,day,demand,date,wm_yr_wk,weekday,wday,month,year,event_name_1,event_type_1,event_name_2,event_type_2,snap_CA,snap_TX,snap_WI,mittlerer_tagesumsatz,prozent_von_mittlerem_tagesumsatz,demand_day_before,mean_demand_last_3_days
1940995,HOUSEHOLD_1_508_WI_2_evaluation,HOUSEHOLD_1_508,HOUSEHOLD_1,HOUSEHOLD,WI_2,WI,d_1941,0,2016-05-22,11617,Sunday,2,5,2016,,,,,0,0,0,0.3,0.0,1.0,0.3
1940996,FOODS_3_176_WI_3_evaluation,FOODS_3_176,FOODS_3,FOODS,WI_3,WI,d_1941,1,2016-05-22,11617,Sunday,2,5,2016,,,,,0,0,0,0.6,167.5,2.0,1.0
1940997,FOODS_3_420_TX_2_evaluation,FOODS_3_420,FOODS_3,FOODS,TX_2,TX,d_1941,0,2016-05-22,11617,Sunday,2,5,2016,,,,,0,0,0,0.9,0.0,1.0,0.3
1940998,FOODS_2_035_TX_1_evaluation,FOODS_2_035,FOODS_2,FOODS,TX_1,TX,d_1941,0,2016-05-22,11617,Sunday,2,5,2016,,,,,0,0,0,0.4,0.0,2.0,0.7
1940999,FOODS_3_818_CA_3_evaluation,FOODS_3_818,FOODS_3,FOODS,CA_3,CA,d_1941,0,2016-05-22,11617,Sunday,2,5,2016,,,,,0,0,0,3.7,0.0,0.0,2.0


In [146]:
df = pd.DataFrame({'demand': [1, 0, 1, 2, 0, 1]}, index=["Mo","Di","Mi","Do","Fr","Sa"])
df["demand"].shift(1).rolling(2).mean()

Unnamed: 0,demand
Mo,
Di,
Mi,1.0
Do,1.0
Fr,3.0
Sa,2.0
