### Gruppierung in Datasets

In vielen Datasets, können Zusammenhänge zwischen gewissen Merkmalen bestehen. Diese Zusammenhänge können für Datenanalyse wichtig sein. Daher müssen wir in der Lage sein, solche potenzielle Zusammenhänge identifizieren zu können.

Pandas `groupby()` ermöglicht es uns, anhand gewissen Merkmalen aus einem Dataset noch weitere Subsets zu bilden und zu untersuchen.

In [1]:
# Module importieren
import numpy as np
import pandas as pd

In [2]:
# Dataframe erstellen
df = pd.read_csv('titanic.csv')

Explorative Datenanalyse (ohne Visualsierung)

In [3]:
df.shape

(891, 12)

In [4]:
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [5]:
df.isna().sum() # missing data

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [6]:
# missing data in Age behandeln
df['Age'] = df['Age'].replace(np.nan, df['Age'].mean())

In [7]:
df['Age'].isna().sum() # keine missing data

np.int64(0)

**Analyse auf eine Einzelkategorie**  
Wenn das Dataframe anhand eines Merkmals z.B. `Sex` untersucht werden sollte.

In [8]:
gr = df.groupby('Sex')

Was für ein Objekt? 

In [9]:
type(gr) # DataFrameGroupBy

pandas.core.groupby.generic.DataFrameGroupBy

In [10]:
gr.ngroups # in der Kategorie Sex gibt es 2 Gruppen

2

In [136]:
gr.groups # Inhalt

{'female': [1, 2, 3, 8, 9, 10, 11, 14, 15, 18, 19, 22, 24, 25, 28, 31, 32, 38, 39, 40, 41, 43, 44, 47, 49, 52, 53, 56, 58, 61, 66, 68, 71, 79, 82, 84, 85, 88, 98, 100, 106, 109, 111, 113, 114, 119, 123, 128, 132, 133, 136, 140, 141, 142, 147, 151, 156, 161, 166, 167, 172, 177, 180, 184, 186, 190, 192, 194, 195, 198, 199, 205, 208, 211, 215, 216, 218, 229, 230, 233, 235, 237, 240, 241, 246, 247, 251, 254, 255, 256, 257, 258, 259, 264, 268, 269, 272, 274, 275, 276, ...], 'male': [0, 4, 5, 6, 7, 12, 13, 16, 17, 20, 21, 23, 26, 27, 29, 30, 33, 34, 35, 36, 37, 42, 45, 46, 48, 50, 51, 54, 55, 57, 59, 60, 62, 63, 64, 65, 67, 69, 70, 72, 73, 74, 75, 76, 77, 78, 80, 81, 83, 86, 87, 89, 90, 91, 92, 93, 94, 95, 96, 97, 99, 101, 102, 103, 104, 105, 107, 108, 110, 112, 115, 116, 117, 118, 120, 121, 122, 124, 125, 126, 127, 129, 130, 131, 134, 135, 137, 138, 139, 143, 144, 145, 146, 148, 149, 150, 152, 153, 154, 155, ...]}

In [11]:
gr.first() # das erste Element aus jeder Gruppe anzeigen

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
female,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,C
male,1,0,3,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.25,E46,S


In [12]:
gr.last() # das letzte Element aus jeder Gruppe anzeigen

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
female,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",29.699118,1,2,W./C. 6607,23.45,B42,S
male,891,0,3,"Dooley, Mr. Patrick",32.0,0,0,370376,7.75,C148,Q


In [13]:
gr.size() # die Größe jeder Gruppe

Sex
female    314
male      577
dtype: int64

In [14]:
gr.get_group('female') # eine gruppe aufrufen

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.000000,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.000000,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.000000,1,0,113803,53.1000,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.000000,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.000000,1,0,237736,30.0708,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.000000,0,1,230433,26.0000,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.000000,0,0,7552,10.5167,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.000000,0,5,382652,29.1250,,Q
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.000000,0,0,112053,30.0000,B42,S


In [18]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,891.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,13.002015,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,22.0,0.0,0.0,7.9104
50%,446.0,0.0,3.0,29.699118,0.0,0.0,14.4542
75%,668.5,1.0,3.0,35.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [17]:
gr.describe().transpose()#.T

Unnamed: 0,Sex,female,male
PassengerId,count,314.0,577.0
PassengerId,mean,431.028662,454.147314
PassengerId,std,256.846324,257.486139
PassengerId,min,2.0,1.0
PassengerId,25%,231.75,222.0
PassengerId,50%,414.5,464.0
PassengerId,75%,641.25,680.0
PassengerId,max,889.0,891.0
Survived,count,314.0,577.0
Survived,mean,0.742038,0.188908


Groupby-Analysen bestehen aus drei Schritten:
1. Dataset je nach Anzahl der gewünschten Merkmale aufsplit (split dataset)
2. Jede Gruppe _einzeln_ analysieren - mit Funktionen und Methoden
3. Zusammenfassung von Ergebnissen

Typische Aufgabenkategorien:

- **Aggregation** : statistische Angaben jeder Gruppe zusammenfassen
- **Transformation**: Anpassung von Daten in jeder Gruppe durch spezifische Operationen
- **Filtering**: Gewisse (Teil-)Gruppen aus der Analyse ausschließen

#### Aggregation
- Es handelt sich dabei um Methoden aus Statistik, z.B. `sum()`, `mean()`, `median()`, `max()`, etc.
- Diese Methoden können an einer spezifischen Spalte angewendet werden. Wenn keine gewisse Spalte, dann automatisch an allen Spalten mit nummerischen Inhalten

In [19]:
gr.Age.max()

Sex
female    63.0
male      80.0
Name: Age, dtype: float64

Wir können die statistischen Funktionen einzeln, wie oben, oder auch in einer Reihe mit Hilfe der Funktion `.agg()` an einer Spalte anwenden:

In [20]:
gr.Age.agg(['mean', 'median', 'min', 'max']).T # .T oder .transpose() sind optional

Sex,female,male
mean,28.21673,30.505824
median,29.699118,29.699118
min,0.75,0.42
max,63.0,80.0


Wir können an jeder Spalte eine unterschiedliche Methode anwenden:

In [144]:
gr.agg(
    max_age=('Age', 'max'),
    avg_age=('Age', 'mean')
).round(2).T

Sex,female,male
max_age,63.0,80.0
avg_age,28.22,30.51


In [21]:
gr.agg(
    max_age=('Age', 'max'),
    avg_fare=('Fare', 'mean')
)

Unnamed: 0_level_0,max_age,avg_fare
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,63.0,44.479818
male,80.0,25.523893


###Veraltet: Man kann auch eine Reihe von Methoden an ganzem Dataset (Gruppenobjekt) anwenden:

In [145]:
# gr.agg(['mean', 'max']).T

In [146]:
gr.dtypes

  gr.dtypes


Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
female,int64,int64,int64,object,object,float64,int64,int64,object,float64,object,object
male,int64,int64,int64,object,object,float64,int64,int64,object,float64,object,object


In [23]:
df_num = df.select_dtypes(exclude=['object'])
df_num["Sex"] = df["Sex"]
df_num.head()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare,Sex
0,1,0,3,22.0,1,0,7.25,male
1,2,1,1,38.0,1,0,71.2833,female
2,3,1,3,26.0,0,0,7.925,female
3,4,1,1,35.0,1,0,53.1,female
4,5,0,3,35.0,0,0,8.05,male


In [30]:
gr_num = df_num.groupby('Sex')
gr_num.agg(['min', 'mean', 'max']).T

Unnamed: 0,Sex,female,male
PassengerId,min,2.0,1.0
PassengerId,mean,431.028662,454.147314
PassengerId,max,889.0,891.0
Survived,min,0.0,0.0
Survived,mean,0.742038,0.188908
Survived,max,1.0,1.0
Pclass,min,1.0,1.0
Pclass,mean,2.159236,2.389948
Pclass,max,3.0,3.0
Age,min,0.75,0.42


**Transformation**  
Damit Algorithmen von Machine-Learning optimale Ergebnisse zurückliefern können, müssen manchmal einige von Merkmalen (Attributen oder Features (engl.)) _normalisiert_ werden.  
Das heißt, die Zahlen müssen dabei angepasst werden. Das nennt man auch in der Datenanalyse _feature scaling_.  
Für Normalisierung gibt es verschiedene Methoden (siehe [hier](https://en.wikipedia.org/wiki/Feature_scaling#Standardization_(Z-score_Normalization))) u. a. `Standardisierung` durch den `Z-Score`  
Dazu definieren wir eine eigene Funktion:

In [25]:
def stand(x):
    '''Berechnet Z-Score Normalisierung'''
    return (x-x.mean())/x.std()

Zwei Funktionen werden oft in Transformationsaufgaben verwendet `Series.apply(Funktion)` und `Series.transform(Funktion)`

In [26]:
gr.Age.apply(stand)

Sex        
female  1      0.759716
        2     -0.172139
        3      0.526752
        8     -0.094485
        9     -1.103994
                 ...   
male    883   -0.192615
        884   -0.423216
        886   -0.269482
        889   -0.346349
        890    0.114853
Name: Age, Length: 891, dtype: float64

transform berechnet die Werte auch anhand der Gruppe aber liefert den Rückgabewert mit ursprünglichen Index

In [151]:
gr.Age.transform(stand)

0     -0.653817
1      0.759716
2     -0.172139
3      0.526752
4      0.345454
         ...   
886   -0.269482
887   -0.715721
888    0.115114
889   -0.346349
890    0.114853
Name: Age, Length: 891, dtype: float64

Hier wird der Wert nicht anhand der Gruppen sondern für die ganze Spalte bestimmt:

In [31]:
df.Age.transform(stand)

0     -0.592148
1      0.638430
2     -0.284503
3      0.407697
4      0.407697
         ...   
886   -0.207592
887   -0.822881
888    0.000000
889   -0.284503
890    0.176964
Name: Age, Length: 891, dtype: float64

**Filtering**  
Wir können beispielsweise in unserem Dataset anhand Kabinen Gruppen bilden und analysieren.

Wenn filter nach einer groupby-Operation verwendet wird, wird es auf jede Gruppe einzeln angewendet. Jede Gruppe wird als DataFrame an die Funktion übergeben.


In [27]:
df.groupby('Cabin').size().sort_values(ascending=False).head(10)

Cabin
G6                 4
C23 C25 C27        4
B96 B98            4
F2                 3
D                  3
E101               3
F33                3
C22 C26            3
B57 B59 B63 B66    2
B77                2
dtype: int64

Wieviele Kabinen für 4 (oder mehr) Personen gibt es?

In [28]:
df.groupby('Cabin').filter(lambda x: len(x) >= 4)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
27,28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,263.0,C23 C25 C27,S
88,89,1,1,"Fortune, Miss. Mabel Helen",female,23.0,3,2,19950,263.0,C23 C25 C27,S
205,206,0,3,"Strom, Miss. Telma Matilda",female,2.0,0,1,347054,10.4625,G6,S
251,252,0,3,"Strom, Mrs. Wilhelm (Elna Matilda Persson)",female,29.0,1,1,347054,10.4625,G6,S
341,342,1,1,"Fortune, Miss. Alice Elizabeth",female,24.0,3,2,19950,263.0,C23 C25 C27,S
390,391,1,1,"Carter, Mr. William Ernest",male,36.0,1,2,113760,120.0,B96 B98,S
394,395,1,3,"Sandstrom, Mrs. Hjalmar (Agnes Charlotta Bengt...",female,24.0,0,2,PP 9549,16.7,G6,S
435,436,1,1,"Carter, Miss. Lucile Polk",female,14.0,1,2,113760,120.0,B96 B98,S
438,439,0,1,"Fortune, Mr. Mark",male,64.0,1,4,19950,263.0,C23 C25 C27,S


In [29]:
# Überprüfen
df.groupby('Cabin').filter(lambda x: len(x) >= 4)["Cabin"].value_counts()

Cabin
G6             4
C23 C25 C27    4
B96 B98        4
Name: count, dtype: int64

#### Gruppierung anhand mehreren Kategorien
Das heißt, Gruppen anhand mehreren Spalten bilden.

In [32]:
subset = df.loc[:,:] # ein dataframe mit allen zeilen und spalten aus df
subset.shape    # Achtung, View keine Kopie

(891, 12)

In [33]:
subset = df.loc[:, ['Sex', 'Age', 'Pclass']] # Alle Zeilen und die Spalten in der Liste
subset

Unnamed: 0,Sex,Age,Pclass
0,male,22.000000,3
1,female,38.000000,1
2,female,26.000000,3
3,female,35.000000,1
4,male,35.000000,3
...,...,...,...
886,male,27.000000,2
887,female,19.000000,1
888,female,29.699118,3
889,male,26.000000,1


In [34]:
# subset = df[['Sex', 'Age', 'Pclass']]
subset = df.copy()[['Sex', 'Age', 'Pclass']] #echte Kopie
subset

Unnamed: 0,Sex,Age,Pclass
0,male,22.000000,3
1,female,38.000000,1
2,female,26.000000,3
3,female,35.000000,1
4,male,35.000000,3
...,...,...,...
886,male,27.000000,2
887,female,19.000000,1
888,female,29.699118,3
889,male,26.000000,1


In [37]:
subgroup = subset.groupby(['Sex', 'Pclass'])

In [38]:
subgroup.first()

Unnamed: 0_level_0,Unnamed: 1_level_0,Age
Sex,Pclass,Unnamed: 2_level_1
female,1,38.0
female,2,14.0
female,3,26.0
male,1,54.0
male,2,29.699118
male,3,22.0


In [40]:
subgroup = subset.groupby(['Sex', 'Pclass']).mean().round(2)

In [41]:
subgroup

Unnamed: 0_level_0,Unnamed: 1_level_0,Age
Sex,Pclass,Unnamed: 2_level_1
female,1,34.14
female,2,28.75
female,3,24.07
male,1,39.29
male,2,30.65
male,3,27.37


In [42]:
subgroup.index

MultiIndex([('female', 1),
            ('female', 2),
            ('female', 3),
            (  'male', 1),
            (  'male', 2),
            (  'male', 3)],
           names=['Sex', 'Pclass'])

Gruppierungen können aufgehoben werden: `reset_index()` oder `as_index=False` 

In [43]:
subgroup = subset.groupby(['Sex', 'Pclass'], as_index=False).mean().round(2)
subgroup 

Unnamed: 0,Sex,Pclass,Age
0,female,1,34.14
1,female,2,28.75
2,female,3,24.07
3,male,1,39.29
4,male,2,30.65
5,male,3,27.37


In [44]:
subgroup = subset.groupby(['Sex', 'Pclass']).mean()

In [45]:
subgroup

Unnamed: 0_level_0,Unnamed: 1_level_0,Age
Sex,Pclass,Unnamed: 2_level_1
female,1,34.141405
female,2,28.748661
female,3,24.068493
male,1,39.287717
male,2,30.653908
male,3,27.372153


In [46]:
subgroup.reset_index()

Unnamed: 0,Sex,Pclass,Age
0,female,1,34.141405
1,female,2,28.748661
2,female,3,24.068493
3,male,1,39.287717
4,male,2,30.653908
5,male,3,27.372153


In [47]:
x=subgroup.reset_index()
x

Unnamed: 0,Sex,Pclass,Age
0,female,1,34.141405
1,female,2,28.748661
2,female,3,24.068493
3,male,1,39.287717
4,male,2,30.653908
5,male,3,27.372153


In [48]:
x.set_index('Sex')

Unnamed: 0_level_0,Pclass,Age
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,1,34.141405
female,2,28.748661
female,3,24.068493
male,1,39.287717
male,2,30.653908
male,3,27.372153


In [49]:
y=subgroup.reset_index()
y

Unnamed: 0,Sex,Pclass,Age
0,female,1,34.141405
1,female,2,28.748661
2,female,3,24.068493
3,male,1,39.287717
4,male,2,30.653908
5,male,3,27.372153


Wir können aus mehreren Spalten auch einen Mutlit-Zeilenindex erzeugen:

In [50]:
y = y.set_index(["Sex", "Pclass"])
y

Unnamed: 0_level_0,Unnamed: 1_level_0,Age
Sex,Pclass,Unnamed: 2_level_1
female,1,34.141405
female,2,28.748661
female,3,24.068493
male,1,39.287717
male,2,30.653908
male,3,27.372153


In [51]:
y.index


MultiIndex([('female', 1),
            ('female', 2),
            ('female', 3),
            (  'male', 1),
            (  'male', 2),
            (  'male', 3)],
           names=['Sex', 'Pclass'])

In [52]:
y.columns

Index(['Age'], dtype='object')

#### Kreuztabelle (Unabhängigkeitstabelle)
Kreuztabelle (engl. cross table) ist eine Möglichkeit, um potenzielle Zusammenhänge zwischen Merkmalen in einem Dataset zu prüfen. Dazu hat pandas die Funktion `crosstab()`. Damit kann man sogenannte Kreuztabellen (Kontingenztabellen - engl. contingency table) ertellen.

In [164]:
# wir ersetzen alle male und females in Spalte Sex mit 0 und 1
#df['Sex'] = df['Sex'].replace({'male':0, 'female':1})

In [53]:
# In der Spalte Survived sind bereits Zahlen als Kategorie drin
df['Survived'].head()

0    0
1    1
2    1
3    1
4    0
Name: Survived, dtype: int64

In [55]:
df['Survived'].unique()

array(['No', 'Yes'], dtype=object)

In [56]:
df['Survived'] = df['Survived'].replace({0: "No", 1: "Yes"})

In [57]:
kreuz = pd.crosstab(
    df['Sex'],
    df['Survived'],
    margins = True
)

In [58]:
kreuz

Survived,No,Yes,All
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,81,233,314
male,468,109,577
All,549,342,891


Die Prozentanteile kann man mit dem Parameter `normalize` ausgeben:

In [59]:
kreuz_prozente = pd.crosstab(
    df['Sex'],
    df['Survived'],
    margins = True,
    normalize='index'
)

In [60]:
kreuz_prozente

Survived,No,Yes
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,0.257962,0.742038
male,0.811092,0.188908
All,0.616162,0.383838


In [61]:
(kreuz_prozente * 100).round(2)

Survived,No,Yes
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,25.8,74.2
male,81.11,18.89
All,61.62,38.38


Gruppennamen werden je nach Rückgabewert bestimmt:

In [62]:
df['PassengerId'].apply(lambda x: x % 2 == 0 ).unique()

array([False,  True])

In [63]:
gruppen = df.groupby(df['PassengerId'].apply(lambda x: x % 2 == 0 ))

In [64]:
gruppen.size()

PassengerId
False    446
True     445
dtype: int64

In [65]:
gruppen = df.groupby(df['PassengerId'].apply(lambda x: 'Teilbar durch 2' if x % 2 == 0 else 'Nicht teilbar durch 2'))

In [66]:
gruppen.size()

PassengerId
Nicht teilbar durch 2    446
Teilbar durch 2          445
dtype: int64