In [1]:
import pandas as pd

# **Groupement des données**

La synthèse efficace est essentielle dans l'analyse de données volumineuses.  
Le calcul des paramètres statistiques tels que la somme, moyenne, médiane, le minimum, maximum, l'écart type... dans laquelle un nombre unique apporte un aperçu d'un ensemble potentiellement volumeineux de données et très intéressant.  
Et chauqe analyste doit d'abord comprendre comment les calculer, les grouper & les analyser.  

Avec Pandas, le groupement regroupe les lignes selon un critère de colonnes.

Pour le groupement, il faut commencer par séparer les clés afin de regrouper les lignes ayant la même clé.  
Puis par exemple sommer les données.

Dans la pratique, Pandas, permet de grouper directement.

In [2]:
dict_donnees = {'cle':['A','B','C','A','B','C'],'data':range(6)}

df_donnees   = pd.DataFrame(dict_donnees)
df_donnees

Unnamed: 0,cle,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


In [3]:
# Grouper / clé
df_donnees.groupby('cle')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x13e1a9160>

In [4]:
sum_by_cle = df_donnees.groupby('cle').sum()
sum_by_cle

Unnamed: 0_level_0,data
cle,Unnamed: 1_level_1
A,3
B,5
C,7


In [5]:
# Faire la moyenne
mean_by_cle = df_donnees.groupby('cle').mean()
mean_by_cle

Unnamed: 0_level_0,data
cle,Unnamed: 1_level_1
A,1.5
B,2.5
C,3.5


In [6]:
dict_etudiants  = {'Nom'     :['Christiane','Clara','Lina','Amine','Amandine','Christiane','Clara','Lina','Amine','Amandine'],
                   'Matières':['Maths','Maths','Maths','Maths','Maths','Physiquye','Physiquye','Physiquye','Physiquye','Physiquye'],
                   'Note'    :[17,13,12,15,9,10,5,8,13,16]
                  }

df_etudiant    = pd.DataFrame(dict_etudiants)
df_etudiant

Unnamed: 0,Nom,Matières,Note
0,Christiane,Maths,17
1,Clara,Maths,13
2,Lina,Maths,12
3,Amine,Maths,15
4,Amandine,Maths,9
5,Christiane,Physiquye,10
6,Clara,Physiquye,5
7,Lina,Physiquye,8
8,Amine,Physiquye,13
9,Amandine,Physiquye,16


In [7]:
groupby_nom = df_etudiant.groupby('Nom')
groupby_nom

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x13e18e3f0>

In [8]:
# Moyenne
groupby_nom['Note'].mean()

Nom
Amandine      12.5
Amine         14.0
Christiane    13.5
Clara          9.0
Lina          10.0
Name: Note, dtype: float64

In [9]:
# Somme
groupby_nom['Note'].sum()

Nom
Amandine      25
Amine         28
Christiane    27
Clara         18
Lina          20
Name: Note, dtype: int64

In [10]:
# L'écart type
groupby_nom['Note'].std()

Nom
Amandine      4.949747
Amine         1.414214
Christiane    4.949747
Clara         5.656854
Lina          2.828427
Name: Note, dtype: float64

In [11]:
# La moyenne pour Christiane
moyenne_christiane = groupby_nom['Note'].mean().loc['Christiane']
moyenne_christiane

np.float64(13.5)

In [12]:
# L'écart type pour Christiane
ecart_type_christiane = groupby_nom['Note'].std().loc['Christiane']
ecart_type_christiane

np.float64(4.949747468305833)

In [13]:
moyenne_christiane = df_etudiant.groupby('Nom')['Note'].mean().loc['Christiane']
moyenne_christiane

np.float64(13.5)

In [14]:
# Combien de répétition des noms
df_etudiant.groupby('Nom').count()

Unnamed: 0_level_0,Matières,Note
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Amandine,2,2
Amine,2,2
Christiane,2,2
Clara,2,2
Lina,2,2


In [15]:
# Le maximum
df_etudiant.groupby('Nom').max() # Les colonnes ne correspondront pas car Python calcul pour la colonne note et pour la matière, l'alphabet

Unnamed: 0_level_0,Matières,Note
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Amandine,Physiquye,16
Amine,Physiquye,15
Christiane,Physiquye,17
Clara,Physiquye,13
Lina,Physiquye,12


In [16]:
# Le minimum
df_etudiant.groupby('Nom').min()

Unnamed: 0_level_0,Matières,Note
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Amandine,Maths,9
Amine,Maths,13
Christiane,Maths,10
Clara,Maths,5
Lina,Maths,8


In [17]:
# Récupérer plusieurs calculs en 1 fois, il faut la méthode `describe()`
df_etudiant.groupby('Nom').describe()

Unnamed: 0_level_0,Note,Note,Note,Note,Note,Note,Note,Note
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Nom,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Amandine,2.0,12.5,4.949747,9.0,10.75,12.5,14.25,16.0
Amine,2.0,14.0,1.414214,13.0,13.5,14.0,14.5,15.0
Christiane,2.0,13.5,4.949747,10.0,11.75,13.5,15.25,17.0
Clara,2.0,9.0,5.656854,5.0,7.0,9.0,11.0,13.0
Lina,2.0,10.0,2.828427,8.0,9.0,10.0,11.0,12.0


In [18]:
# Idem que pour Christiane
df_etudiant.groupby('Nom').describe().loc['Christiane']

Note  count     2.000000
      mean     13.500000
      std       4.949747
      min      10.000000
      25%      11.750000
      50%      13.500000
      75%      15.250000
      max      17.000000
Name: Christiane, dtype: float64

In [19]:
stats_christiane = df_etudiant.groupby('Nom').describe().loc['Christiane']
stats_christiane

Note  count     2.000000
      mean     13.500000
      std       4.949747
      min      10.000000
      25%      11.750000
      50%      13.500000
      75%      15.250000
      max      17.000000
Name: Christiane, dtype: float64