# Gruppieren und Aggregate

## Beispieldatei
Wir nutzen im Beispiel die `legislators-current.csv`, die die aktuellen Mitglieder des Kongresses abbildet.

Wir wollen Datensätze anhand von Spaltennamen gruppieren und mitilfe von Aggregatsfunktionen Werte zusammenfassen. `groupby()` ähnelt stark der SQL-Entsprechung `GROUP BY`. 

Zum Beispiel könnten wir im Datensatz nach `state` gruppieren und die Anzahl der Senatoren aufsummieren. Für dieses Aggregat stellt Pandas viele Funktionen zur Verfügung.

In [4]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("../data/legislators-current.csv", usecols=["first_name", "last_name", "gender", "type", "state", "birthday"])
df

Unnamed: 0,last_name,first_name,birthday,gender,type,state
0,Brown,Sherrod,1952-11-09,M,sen,OH
1,Cantwell,Maria,1958-10-13,F,sen,WA
2,Cardin,Benjamin,1943-10-05,M,sen,MD
3,Carper,Thomas,1947-01-23,M,sen,DE
4,Casey,Robert,1960-04-13,M,sen,PA
...,...,...,...,...,...,...
531,Stansbury,Melanie,1979-01-31,F,rep,NM
532,Ellzey,Jake,1970-01-24,M,rep,TX
533,Brown,Shontel,1975-06-24,F,rep,OH
534,Carey,Mike,1971-03-13,M,rep,OH


## Das DataFrameGroupBy Objekt
Der `groupby`-Funktion können wir einen Spaltennamen übergeben, oder eine Liste mit Spaltennamen oder einen Numpy-Array mit Zeilen-Indizies.

Wenn wir die `groupby` Funktion für eine Spalte ausführen, erhalten wir ein sogenanntes `DataFrameGroupBy`-Objekt. Für jedes Bestandteil des übergebenen Spalteneintrags erhalten wir einen Eintrag.

In [19]:
# Gruppiert nach State

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7499bd104d70>

In [2]:
# Das Gruppenobjekt in eine liste umformen
# Liste an Index 0 anzeigen

## groupby
Um dieses Objekt zu nutzen, müssen wir Aggregatsfunktionen darauf anwenden.
Hier im Beipiel gruppieren wir nach State und führen auf der Spalte `state` die Aggregatsfunktion `size()` aus. Wir zählen also die Anzahl der Kongressmitglieder gruppiert nach State.

In [6]:
# Anzahl Kongressmitglieder nach State

## Groupby eine Liste von Spalten übergeben
Ebenso, wie wir das auch in SQL machen können, können wir nach mehreren Spalten gruppieren. Hier gruppieren wir nach `state` und dann nach `gender`. Wir erhalten eine Multi-Index-Series. `Multi-index-Serien` werden in diesem Tutorial nicht besprochen, da das zu weit führen würde. Man kann aber verhindern, dass eine Multiindex-Serie angelegt wird, indem man `as_index=False` angibt.

In [15]:
# Gruppiere nach state und gender und zähle die Vorkommen

# Weitere Aggregatsmethoden

Gegeben ist ein Dictionary, welches zwei Baseball-Teams repräsentiert. Die Spalten Team, Position und Alter sollen zu einem
DataFrame konvertiert werden.

- Welches Durchschnittsalter hat jedes Team?
- Berechne mit, max, avg, std und var je Team und Position
- Welches Durchschnittsalter haben die Pitcher der Red Sox?

In [16]:
data = {"Team": ["Red Sox", "Red Sox", "Red Sox", "Red Sox", "Red Sox", "Red Sox", "Yankees", "Yankees", "Yankees", "Yankees", "Yankees", "Yankees"],
        "Pos": ["Pitcher", "Pitcher", "Pitcher", "Not Pitcher", "Not Pitcher", "Not Pitcher", "Pitcher", "Pitcher", "Pitcher", "Not Pitcher", "Not Pitcher", "Not Pitcher"],
        "Age": [24, 28, 40, 22, 29, 33, 31, 26, 21, 36, 25, 31]}

In [17]:
# durchschnittsalter der Teams

In [18]:
# median, min max. 

In [1]:
# gruppiert nach zwei Spalten, resultiert in Multi Index.

In [26]:
df

Unnamed: 0,Team,Pos,Age
0,Red Sox,Pitcher,24
1,Red Sox,Pitcher,28
2,Red Sox,Pitcher,40
3,Red Sox,Not Pitcher,22
4,Red Sox,Not Pitcher,29
5,Red Sox,Not Pitcher,33
6,Yankees,Pitcher,31
7,Yankees,Pitcher,26
8,Yankees,Pitcher,21
9,Yankees,Not Pitcher,36


# Übung: Daten gruppieren und aggregieren

## Szenario
Ein Fitnessstudio analysiert seine Mitglieder, um herauszufinden, wie sich **Alter, Gewicht und Größe** je nach Mitgliedsstatus (Aktiv oder Inaktiv) unterscheiden.  
Deine Aufgabe ist es, den Datensatz zu **gruppieren und verschiedene Aggregationen** durchzuführen.

---
- Gruppiere den df-DataFrame nach der Spalte "status".
- Berechne folgende Kennzahlen für jedes Mitgliedsstatus ("Active" und "Inactive") mit .agg():
- - Durchschnittliches Alter (age) → "mean"
- - Maximales Gewicht (weight_kg) → "max"
- - Minimale Größe (height_cm) → "min"
- - Summe Mitglieder
 
- Speichere das Ergebnis als df_summary.
- Sortiere den df_summary-DataFrame nach "age" in absteigender Reihenfolge (sort())

## Zusatzaufgabe

- Runde alle Werte auf eine Nachkommastelle.
- Erstelle einen Bar-Plot, der den Status und das Durchschnittsalter darstellt

In [44]:
#  Mitgliederdaten
df = pd.DataFrame({
    "member_id": [101, 102, 103, 104, 105, 106, 107, 108],
    "status": ["Active", "Inactive", "Active", "Active", "Inactive", "Active", "Inactive", "Active"],
    "age": [25, 40, 30, 35, 50, 28, 45, 33],
    "weight_kg": [70, 85, 78, 90, 95, 72, 88, 80],
    "height_cm": [175, 180, 169, 182, 178, 172, 185, 176]
})


Unnamed: 0_level_0,Anzahl Mitglieder,Durchschnittsalter,Maximalegwicht,Minimalgröße
status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Active,5,30.2,90,169
Inactive,3,45.0,95,178


In [47]:
# Bar Plot