![title](./pic/grouping_sorting/grouping/single_index/1_title.png)

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv('./csv/titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


<br>

Mithilfe von Maps können wir Daten in einem `DataFrame` oder einer `Series` umwandeln, und zwar einen Wert nach dem anderen für eine ganze Spalte. Oft möchten wir jedoch unsere Daten gruppieren und dann etwas Spezifisches für die Gruppe tun, in der sich die Daten befinden.

Wie du lernen wirst, geschieht dies mit der Operation `.groupby()`. Wir werden auch einige zusätzliche Themen behandeln, wie z. B. komplexere Möglichkeiten, deine `DataFrames` zu indizieren, und wie Sie Ihre Daten sortieren können.


---

## Groupwise analysis

Eine Funktion, die wir bisher intensiv genutzt haben, ist die Funktion `.value_counts()`. Wir können replizieren, was `.value_counts()` tut, indem wir Folgendes tun:

In [4]:
df.groupby('Age').count()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0.17,1,1,1,1,1,1,1,1,1,0,1
0.33,1,1,1,1,1,1,1,1,1,0,1
0.75,1,1,1,1,1,1,1,1,1,0,1
0.83,1,1,1,1,1,1,1,1,1,0,1
0.92,1,1,1,1,1,1,1,1,1,0,1
...,...,...,...,...,...,...,...,...,...,...,...
62.00,1,1,1,1,1,1,1,1,1,0,1
63.00,2,2,2,2,2,2,2,2,2,1,2
64.00,3,3,3,3,3,3,3,3,3,3,3
67.00,1,1,1,1,1,1,1,1,1,1,1


In [5]:
df.groupby('Age').Age.count()

Age
0.17     1
0.33     1
0.75     1
0.83     1
0.92     1
        ..
62.00    1
63.00    2
64.00    3
67.00    1
76.00    1
Name: Age, Length: 79, dtype: int64

In [6]:
df.groupby("Age").size()

Age
0.17     1
0.33     1
0.75     1
0.83     1
0.92     1
        ..
62.00    1
63.00    2
64.00    3
67.00    1
76.00    1
Length: 79, dtype: int64

Willst du jetzt z.B. wissen, wieviele unterschiedliche Altersklassen in dem `DataFrame` sind, kannst du dir einfach die Länge des Index ausgeben lassen, da ja jedes Alter sowieso bereits gruppiert ist und dadurch der Index unique ist.

In [9]:
len(df.groupby("Age").size().index)

79

In [4]:
#ser_grouped_sex = df.groupby('Sex').Sex.count()
#ser_grouped_sex

In [17]:
ser_grouped_gender = df.groupby('Sex').size()
ser_grouped_gender

Sex
female    152
male      266
dtype: int64

In [13]:
ser_grouped_gender.index

Index(['female', 'male'], dtype='object', name='Sex')

Das selbe wie für den Index, geht natürlich auch für den dazugehörigen Value pro Index

In [14]:
ser_grouped_gender.values

array([152, 266])

<br>

`.groupby()` erstellte eine Gruppe von Alter, die das angegebene Alter die gleichen Punktwerte zuwiesen. Dann haben wir für jede dieser Gruppen die Spalte Age genommen und gezählt, wie oft sie vorkam. `.value_counts()` ist nur eine Abkürzung für diese `.groupby()`-Operation.

Wir können jede der Zusammenfassungsfunktionen verwenden, die wir zuvor mit diesen Daten verwendet haben. Um zum Beispiel den billigsten Wein in jeder Punktwertkategorie zu erhalten, können wir Folgendes tun:

In [8]:
df.groupby('Age').Name.min()

Age
0.17               Dean, Miss. Elizabeth Gladys Millvina""
0.33               Danbom, Master. Gilbert Sigvard Emanuel
0.75                        Peacock, Master. Alfred Edward
0.83                             Aks, Master. Philip Frank
0.92                                 West, Miss. Barbara J
                               ...                        
62.00                            Myles, Mr. Thomas Francis
63.00                                 Howard, Mr. Benjamin
64.00    Compton, Mrs. Alexander Taylor (Mary Eliza Ing...
67.00                                   Straus, Mr. Isidor
76.00    Cavendish, Mrs. Tyrell William (Julia Florence...
Name: Name, Length: 79, dtype: object

<br>

Eine weitere erwähnenswerte `.groupby()`-Methode ist `.agg()`, mit der du eine Reihe von verschiedenen Funktionen gleichzeitig auf dein `DataFrame` ausführen kannst. Zum Beispiel können wir eine einfache statistische Zusammenfassung des Datensatzes wie folgt erstellen:

In [9]:
df.groupby(['Sex']).Age.agg([len, min, max])

Unnamed: 0_level_0,len,min,max
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,152.0,0.17,76.0
male,266.0,0.33,67.0


<br>

Die effektive Verwendung von `groupby()` ermöglicht es dir, viele wirklich leistungsstarke Dinge mit deinem Datensatz zu tun.

**Weitere Möglichkeiten:**
- count	Number of non-null observations
- sum	Sum of values
- mean	Mean of values
- mad	Mean absolute deviation
- median	Arithmetic median of values
- min	Minimum
- max	Maximum
- mode	Mode
- abs	Absolute Value
- prod	Product of values
- std	Unbiased standard deviation
- var	Unbiased variance
- sem	Unbiased standard error of the mean
- skew	Unbiased skewness (3rd moment)
- kurt	Unbiased kurtosis (4th moment)
- quantile	Sample quantile (value at %)
- cumsum	Cumulative sum
- cumprod	Cumulative product
- cummax	Cumulative maximum
- cummin	Cumulative minimum