<img style="width:30%; float:right" src="images/dbu_logo.png">

# .groupby() und .apply()

Im vorherigen Video/Notebook haben wir bereits gesehen, wie wir mit Kreuz- und Pivot-Tabellen Daten aggregieren können. Mit den Befehlen `.groupby()` und `.apply()` stehen uns noch deutlich vielfältigere Möglichkeiten der Aggregation aber auch der Manipulation von Daten zur Verfügung.

**Literaturempfehlung:**

[Jake VanderPlas (2016): _Python Data Science Handbook_](https://ebookcentral.proquest.com/lib/dbuas/reader.action?docID=4746657)

In [1]:
import pandas as pd
import seaborn as sns

In [2]:
tips = sns.load_dataset("tips")
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


## Exkurs: lambda functions und funktionale Programmierung

(1) Klassische Funktion in Python:

In [3]:
def sq1(x):
    result = x ** 2
    return result

In [4]:
sq1(3)

9

(2) Lambda Funktion für "Einzeiler"

In [5]:
sq2 = lambda x: x ** 2

In [6]:
sq2(3)

9

(3) Einfache funktionale Programmierung:

In [7]:
def print_examples(f):
    print("f(1) =", f(1))
    print("f(2) =", f(2))
    print("f(3) =", f(3))
    print("f(4) =", f(4))

In [8]:
print_examples(sq1)

f(1) = 1
f(2) = 4
f(3) = 9
f(4) = 16


In [9]:
print_examples(lambda x: x + 100)

f(1) = 101
f(2) = 102
f(3) = 103
f(4) = 104


## crosstabs mit groupby+apply nachbauen

Beispiel aus dem vorherigen Notebook:

In [10]:
pd.crosstab(tips["day"], tips["time"])

time,Lunch,Dinner
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Thur,61,1
Fri,7,12
Sat,0,87
Sun,0,76


Jetzt mit group+apply nachgebaut:

In [11]:
ct = tips.groupby("day").apply(lambda x: x["time"].value_counts())
ct

day         
Thur  Lunch     61
      Dinner     1
Fri   Dinner    12
      Lunch      7
Sat   Dinner    87
      Lunch      0
Sun   Dinner    76
      Lunch      0
Name: time, dtype: int64

In [12]:
ct.unstack()

Unnamed: 0_level_0,Lunch,Dinner
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Thur,61,1
Fri,7,12
Sat,0,87
Sun,0,76


## Typisches groupby + apply

In [13]:
tips.groupby("day").apply(lambda x: x["tip"].mean()).round(2)

day
Thur    2.77
Fri     2.73
Sat     2.99
Sun     3.26
dtype: float64

$\rightarrow$ Wir sehen, dass es durchschnittlich die höchsten Trinkgelder am Sonntag gibt. Das werdet Ihr nachher für eine Aufgabe brauchen...

## Apply to each cell (applymap)

In [14]:
pd.crosstab(tips["day"], tips["time"], normalize="index")

time,Lunch,Dinner
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Thur,0.983871,0.016129
Fri,0.368421,0.631579
Sat,0.0,1.0
Sun,0.0,1.0


In [15]:
pd.crosstab(tips["day"], tips["time"], normalize="index").round(4) * 100

time,Lunch,Dinner
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Thur,98.39,1.61
Fri,36.84,63.16
Sat,0.0,100.0
Sun,0.0,100.0


In [16]:
pd.crosstab(tips["day"], tips["time"], normalize="index").applymap(lambda x: "%.2f %%" % (x * 100))

time,Lunch,Dinner
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Thur,98.39 %,1.61 %
Fri,36.84 %,63.16 %
Sat,0.00 %,100.00 %
Sun,0.00 %,100.00 %


# Aufgaben

## Aufgabe 1

Wir haben gesehen, dass die Trinkgelder im Durchschnitt am Sonntag am höchsten sind. Aber natürlich hängt die Höhe des Trinkgelds auch ganz entscheidend davon ab, wie hoch der Rechnungsbetrag ist.

Die Frage für diese Aufgabe ist: An welchem Tag ist das Trinkgeld prozentual (also in Verhältnis auf den gesamten Rechnungsbetrag) am höchsten?

1. Bitte berechne für jede Rechnung den prozentualen Anteil des Trinkgelds. Lege dazu eine neue Spalte `tips_perc` an.
2. Stelle anschließend die den Durchschnitt davon pro Wochentag dar.
3. Formatiere diese Übersicht, so dass die Prozentwerte ordentlich mit zwei Nachkommastellen und Prozentzeichen dargestellt werden. (Tip: Wir haben diese Formatierung oben auf einen DataFrame angewendet, nun werdet Ihr vermutlich mit einer Series arbeiten. Den Unterschied könnt Ihr hoffentlich selbst herausbekommen.)

$\Rightarrow$ An welchem Tag ist nun der prozentuale Anteil des Trinkgelds am höchsten?

## Aufgabe 2

Nun interessieren wir uns dafür, ob die Gäste in unserem Fall mehr Geld für Mittag- oder Abendessen ausgeben. Dabei interessiert uns aber weniger der gesamte Rechnungsbetrag als vielmehr der anteilige Rechnungsbetrag pro Person. Ist dieser dann im Durchschnitt Mittags oder Abends höher?

## Aufgabe 3

Der `.groupby()` Befehl kann auch über mehrere Spalten gleichzeitig angewandt werden. Bitte wiederhole Aufgabe 2 und stelle den anteiligen Rechnungsbetrag nun gruppiert nach Tag _und_ Zeit dar.

## Aufgabe 4

Bitte stelle für jeden Wochentag den jeweils höchsten und niedrigsten Rechnungsbetrag dar.

$\rightarrow$ Tip: Der Rückgabewert von `.apply()` darf auch eine Series sein um mehrere Werte gleichzeitig zurückgeben zu können.