## Grouper des données suivant une colonne

L'analyse de données s'intéresse souvent à grouper des données suivant un critère, le poids suivant l'âge, le salaire suivant métier, les dividendes des entreprises suivant le pays etc.

Pour faire cela Pandas offre la méthode [`groupby`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html). Cette méthode

* découpe les données en groupes basés sur un critère
* applique une fonction sur chaque groupe indépendamment
* combine les résultats en un DataFrame

In [1]:
import pandas as pd
import numpy as np
np.random.seed(2)
pd.set_option('precision', 3)

size = 20
df = pd.DataFrame({'A': np.random.randn(size), 
                   'B': np.random.randint(5,size=size),
                   'C': np.random.randint(5,size=size)})
df.B += 3
df

Unnamed: 0,A,B,C
0,-0.417,6,1
1,-0.056,4,4
2,-2.136,5,2
3,1.64,3,3
4,-1.793,7,0
5,-0.842,7,3
6,0.503,5,0
7,-1.245,7,2
8,-1.058,5,2
9,-0.909,4,0


Regroupons nos données suivant B et calculons pour toutes les valeurs qui ont la même valeur de B leur
moyenne en A et en C (cela pourrait être le poids moyen A et la taille moyenne C de toutes les personnes
suivant leur âge B, enfin avec d'autres chiffres).

Ensuite on ajoute une nouvelle colonne qui calcule la taille de chaque groupe.

In [2]:
df2 = df.groupby('B').mean()
df2['countB'] = df.groupby('B').size()
df2

Unnamed: 0_level_0,A,C,countB
B,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3,0.678,3.5,4
4,-0.57,1.667,6
5,0.136,1.0,6
6,-0.417,1.0,1
7,-1.293,1.667,3


# Exercice:

In [10]:
data = {
    "customer":['henri','henri','henri','sarah','sarah','sarah','youssef','youssef','youssef'],
    "money_spent":[300,400,450,120,90,70,1000,1000,1000]
}

customers = pd.DataFrame(data)
customers

Unnamed: 0,customer,money_spent
0,henri,300
1,henri,400
2,henri,450
3,sarah,120
4,sarah,90
5,sarah,70
6,youssef,1000
7,youssef,1000
8,youssef,1000


In [12]:
# calculez le montant moyen dépensé par chaque client:

In [11]:
# le résultat:

Unnamed: 0_level_0,money_spent
customer,Unnamed: 1_level_1
henri,383.333
sarah,93.333
youssef,1000.0


### Structure d'un groupe

Le contenu de chaque groupe est stocké dans `groups`. Pour voir les données d'un groupe dans un tableau on utilisera `get_group`.

In [43]:
df.groupby('B').groups

{3: Int64Index([3, 10, 14, 16], dtype='int64'),
 4: Int64Index([1, 9, 13, 15, 18, 19], dtype='int64'),
 5: Int64Index([2, 6, 8, 11, 12, 17], dtype='int64'),
 6: Int64Index([0], dtype='int64'),
 7: Int64Index([4, 5, 7], dtype='int64')}

In [44]:
df.groupby('B').get_group(7)

Unnamed: 0,A,B,C
4,-1.793,7,0
5,-0.842,7,3
7,-1.245,7,2


# Exercice

In [17]:
url = "https://raw.githubusercontent.com/cmdlinetips/data/master/gapminder-FiveYearData.csv"
gapminder=pd.read_csv(url)

In [31]:
# Trouvez la moyenne de la  LifeExp au fil des années pour chaque pays



In [30]:
# Le résultat:

country
Afghanistan           37.479
Albania               68.433
Algeria               59.030
Angola                37.884
Argentina             69.060
                       ...  
Vietnam               57.479
West Bank and Gaza    60.329
Yemen Rep.            46.780
Zambia                45.996
Zimbabwe              52.663
Name: lifeExp, Length: 142, dtype: float64

In [38]:
# Trouvez le gdp maximum pour chaque continent


In [39]:
# Le résultat:

continent
Africa       21951.212
Americas     42951.653
Asia        113523.133
Europe       49357.190
Oceania      34435.367
Name: gdpPercap, dtype: float64

## Grouper suivant plusieurs colonnes

On peut aussi indiquer plusieurs champs pour regrouper les données ce qui donne des index et sous-index.

In [45]:
df.groupby(['B','C']).first()  # get first value of A for each group

Unnamed: 0_level_0,Unnamed: 1_level_0,A
B,C,Unnamed: 2_level_1
3,3,1.64
3,4,0.551
4,0,-0.909
4,1,-0.596
4,2,-1.118
4,4,-0.056
5,0,0.503
5,2,-2.136
6,1,-0.417
7,0,-1.793


In [46]:
df.groupby(['B','C']).get_group((3,3))

Unnamed: 0,A,B,C
3,1.64,3,3
16,-0.019,3,3


# Exercice

In [None]:
# Trouvez le plus grand gdpPercap par continent et par année


In [54]:
# Résultat:

continent  year
Africa     1952      4725.296
           1957      5487.104
           1962      6757.031
           1967     18772.752
           1972     21011.497
           1977     21951.212
           1982     17364.275
           1987     11864.408
           1992     13522.158
           1997     14722.842
           2002     12521.714
           2007     13206.485
Americas   1952     13990.482
           1957     14847.127
           1962     16173.146
           1967     19530.366
           1972     21806.036
           1977     24072.632
           1982     25009.559
           1987     29884.350
           1992     32003.932
           1997     35767.433
           2002     39097.100
           2007     42951.653
Asia       1952    108382.353
           1957    113523.133
           1962     95458.112
           1967     80894.883
           1972    109347.867
           1977     59265.477
           1982     33693.175
           1987     28118.430
           1992     3493

## Grouper suivant un sous-index

Il est aussi possible de grouper suivant les valeurs de l'index ou d'un sous index. Pour cela il faut indiquer
le niveau de l'index à la place du nom de la colonne.

In [55]:
dfm = df.groupby(['B','C']).first()
dfm

Unnamed: 0_level_0,Unnamed: 1_level_0,A
B,C,Unnamed: 2_level_1
3,3,1.64
3,4,0.551
4,0,-0.909
4,1,-0.596
4,2,-1.118
4,4,-0.056
5,0,0.503
5,2,-2.136
6,1,-0.417
7,0,-1.793


In [56]:
dfm.groupby(level=1).sum()

Unnamed: 0_level_0,A
C,Unnamed: 1_level_1
0,-2.2
1,-1.013
2,-4.499
3,0.799
4,0.495


# Exercice

In [None]:
# Trouvez le premier item en groupant par continent


In [58]:
# Sans surprise, les premiers items sont les pays qui commencent par un A:

Unnamed: 0_level_0,country,year,pop,lifeExp,gdpPercap
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Africa,Algeria,1952,9280000.0,43.077,2449.008
Americas,Argentina,1952,17880000.0,62.485,5911.315
Asia,Afghanistan,1952,8425000.0,28.801,779.445
Europe,Albania,1952,1283000.0,55.23,1601.056
Oceania,Australia,1952,8691000.0,69.12,10039.596


In [None]:
# Trouvez le dernier item en groupant par continent


In [61]:
# Résultat

Unnamed: 0_level_0,country,year,pop,lifeExp,gdpPercap
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Africa,Zimbabwe,2007,12310000.0,43.487,469.709
Americas,Venezuela,2007,26080000.0,73.747,11415.806
Asia,Yemen Rep.,2007,22210000.0,62.698,2280.77
Europe,United Kingdom,2007,60780000.0,79.425,33203.261
Oceania,New Zealand,2007,4116000.0,80.204,25185.009


## Appliquer différentes opérations

Il est possible d'appliquer différentes opérations (fonctions) d'un coup :

* une liste de fonctions qui seront appliquées à chaque colonne
* un dictionnaire qui indique quelle méthode appliquer à quelle colonne (très utile)

In [62]:
df.groupby('B').agg([np.mean, 'last'])  # some function are predefined and therefore can be named

Unnamed: 0_level_0,A,A,C,C
Unnamed: 0_level_1,mean,last,mean,last
B,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
3,0.678,-0.019,3.5,3
4,-0.57,0.009,1.667,1
5,0.136,1.175,1.0,0
6,-0.417,-0.417,1.0,1
7,-1.293,-1.245,1.667,2


In [63]:
df.groupby('B').agg({'A': np.sum, 'C': lambda x : x[x%2 == 0].mean() })

Unnamed: 0_level_0,A,C
B,Unnamed: 1_level_1,Unnamed: 2_level_1
3,2.712,4.0
4,-3.418,2.0
5,0.817,1.0
6,-0.417,
7,-3.88,1.0


## Grouper tout en conservant la structure initiale

Un problème avec `groupby` est qu'on perd le nombre de lignes initiales ce qui complique les choses
si on désire reporter le résultat dans le tableau initial.

Imaginons que je désire ajouter à mon tableau une colonne qui soit la moyenne mensuelle pour chaque
valeur afin de relativiser mes valeurs (par rapport à la moyenne). 

Avec `groupby` j'ai bien la moyenne mais je n'ai plus mes valeurs initiales. Je pourrais faire une opération
compliquée pour ajouter une colonne au tableau initial dans laquelle je recopie la bonne valeur du `groupby`.
Je peux aussi utiliser `transform` qui fait ce travail.

Remplacer la fonction de réduction `f` sur les groupes par `transform(f)` permet de conserver le nombre de
lignes du tableau donné.

In [64]:
df = pd.DataFrame({'month': np.random.randint(1,4,size=10), 
                   'day sales': np.random.randint(50,size=10)}).sort_values('month')

df

Unnamed: 0,month,day sales
0,1,20
1,1,26
2,2,23
3,2,22
5,2,37
6,2,10
7,2,8
8,2,26
4,3,43
9,3,35


In [65]:
df.groupby('month').mean()

Unnamed: 0_level_0,day sales
month,Unnamed: 1_level_1
1,23
2,21
3,39


In [66]:
df.groupby('month').transform(np.mean)

Unnamed: 0,day sales
0,23
1,23
2,21
3,21
5,21
6,21
7,21
8,21
4,39
9,39


In [67]:
df['mean day sales'] = df.groupby('month').transform(np.mean)['day sales']
df

Unnamed: 0,month,day sales,mean day sales
0,1,20,23
1,1,26,23
2,2,23,21
3,2,22,21
5,2,37,21
6,2,10,21
7,2,8,21
8,2,26,21
4,3,43,39
9,3,35,39


In [None]:
# Pour mettre les choses en perspectives, mettez en face du gdpPercap de chaque pays 
# le gdpPercap maximum de cette année là


In [73]:
# Résultat:

Unnamed: 0,country,year,pop,continent,lifeExp,gdpPercap,max_gcpPercap_percap_that_year
0,Afghanistan,1952,8.425e+06,Asia,28.801,779.445,108382.353
1,Afghanistan,1957,9.241e+06,Asia,30.332,820.853,113523.133
2,Afghanistan,1962,1.027e+07,Asia,31.997,853.101,95458.112
3,Afghanistan,1967,1.154e+07,Asia,34.020,836.197,80894.883
4,Afghanistan,1972,1.308e+07,Asia,36.088,739.981,109347.867
...,...,...,...,...,...,...,...
1699,Zimbabwe,1987,9.216e+06,Africa,62.351,706.157,31540.975
1700,Zimbabwe,1992,1.070e+07,Africa,60.377,693.421,34932.920
1701,Zimbabwe,1997,1.140e+07,Africa,46.809,792.450,41283.164
1702,Zimbabwe,2002,1.193e+07,Africa,39.989,672.039,44683.975


{{ PreviousNext("pd04 -- N-dimensions dataframe or multi-index.ipynb", "pd06 -- Merging 2 dataframes.ipynb")}}