Rappels

In [13]:
import numpy as np
import pandas as pd 
df = pd.DataFrame({"key1" : ["a", "a", "b", "b", "a"],
                    "key2" : ["one", "two", "one", "two", "one"],
                    "data1" : np.random.randn(5),
                    "data2" : np.random.randn(5)})
df 

Unnamed: 0,key1,key2,data1,data2
0,a,one,0.389141,0.334283
1,a,two,-0.171053,0.432486
2,b,one,-1.198284,0.066939
3,b,two,1.42458,-0.898979
4,a,one,1.690939,0.461338


In [14]:
df.groupby("key1")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x155865b90>

In [8]:
# Idée générale de la syntaxe
# grouper selon une clé
df.groupby("key1")[["data1", "data2"]].mean()

# Question : Pourquoi a-t-on besoin de préciser [["data1", "data2"]] ?


Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,0.04161,-0.66444
b,-0.35911,0.067047


In [27]:
for name, group in df.groupby(["key1", "key2"]):
    print("le nom est\n", name)
    print("le groupe est \n", group)

le nom est
 ('a', 'one')
le groupe est 
   key1 key2     data1     data2
0    a  one  0.389141  0.334283
4    a  one  1.690939  0.461338
le nom est
 ('a', 'two')
le groupe est 
   key1 key2     data1     data2
1    a  two -0.171053  0.432486
le nom est
 ('b', 'one')
le groupe est 
   key1 key2     data1     data2
2    b  one -1.198284  0.066939
le nom est
 ('b', 'two')
le groupe est 
   key1 key2    data1     data2
3    b  two  1.42458 -0.898979


In [9]:
# grouper selon 2 clés
df.groupby(["key1", "key2"]).sum()


Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,one,-0.822762,-0.926241
a,two,0.947592,-1.067079
b,one,0.369795,1.401985
b,two,-1.088015,-1.267892


In [12]:
# Groupby et effectuer plusieurs opérations
df.groupby(["key1", "key2"])["data1"].agg(["mean", "count", "min", "max"])

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,count,min,max
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
a,one,-0.411381,2,-0.442245,-0.380517
a,two,0.947592,1,0.947592,0.947592
b,one,0.369795,1,0.369795,0.369795
b,two,-1.088015,1,-1.088015,-1.088015


In [None]:
# Important : .agg() peut accepter des listes de built-in functions, ou même des fonctions définies par l'utilisateur

In [16]:
# "Syntactic sugar" 
df[["data1", "data2"]].groupby(df["key2"])

# peut aussi s'écrire avec une syntaxe plus heureuse :
df.groupby("key2")[["data1", "data2"]]

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x169070450>

Exercices

In [28]:
# Avec les données du Titanic
df_titanic = pd.read_csv("../data/titanic.csv").sample(25)
df_titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
694,695,0,1,"Weir, Col. John",male,60.0,0,0,113800,26.55,,S
595,596,0,3,"Van Impe, Mr. Jean Baptiste",male,36.0,1,1,345773,24.15,,S
83,84,0,1,"Carrau, Mr. Francisco M",male,28.0,0,0,113059,47.1,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
162,163,0,3,"Bengtsson, Mr. John Viktor",male,26.0,0,0,347068,7.775,,S
515,516,0,1,"Walker, Mr. William Anderson",male,47.0,0,0,36967,34.0208,D46,S
299,300,1,1,"Baxter, Mrs. James (Helene DeLaudeniere Chaput)",female,50.0,0,1,PC 17558,247.5208,B58 B60,C
750,751,1,2,"Wells, Miss. Joan",female,4.0,1,1,29103,23.0,,S
456,457,0,1,"Millet, Mr. Francis Davis",male,65.0,0,0,13509,26.55,E38,S
377,378,0,1,"Widener, Mr. Harry Elkins",male,27.0,0,2,113503,211.5,C82,C


In [23]:
# Groupby sex et compter le nombre dans chaque catégorie
df_titanic.groupby("Sex")["Survived"].count()

Sex
female     6
male      19
Name: Survived, dtype: int64

In [24]:
df_titanic.groupby("Sex")["Survived"].sum()

Sex
female    3
male      4
Name: Survived, dtype: int64

In [25]:
# Groupby sex et afficher le prix moyen du ticket
df_titanic.groupby("Sex")["Fare"].mean()

Sex
female    43.880550
male      48.854605
Name: Fare, dtype: float64

In [26]:
# Groupby sex et Pclass et afficher le prix min et max du ticket pour chaque groupe
df_titanic.groupby(["Sex", "Pclass"])["Fare"].agg(["min", "max"])

Unnamed: 0_level_0,Unnamed: 1_level_0,min,max
Sex,Pclass,Unnamed: 2_level_1,Unnamed: 3_level_1
female,1,83.475,83.475
female,2,21.0,39.0
female,3,22.3583,69.55
male,1,26.0,512.3292
male,2,10.5,29.0
male,3,0.0,56.4958


In [34]:
grouped_df = df_titanic.groupby(["Sex", "Pclass"])["Fare"].agg([("min", lambda x: x.min()), ("max", lambda x: x.max()), ("diff", lambda x: x.max() - x.min())])
grouped_df


Unnamed: 0_level_0,Unnamed: 1_level_0,min,max,diff
Sex,Pclass,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,1,66.6,247.5208,180.9208
female,2,23.0,23.0,0.0
female,3,7.925,11.2417,3.3167
male,1,26.55,211.5,184.95
male,2,10.5,15.0458,4.5458
male,3,7.2292,24.15,16.9208


In [21]:
# Groupby sex et Pclass et afficher la différence entre le prix max et min du ticket pour chaque groupe
df_titanic.groupby(["Sex", "Pclass"])["Fare"].apply(lambda x: x.max() - x.min())

Sex     Pclass
female  1         186.2708
        2           0.0000
        3          23.3500
male    1          63.4500
        2          26.5042
        3           7.4958
Name: Fare, dtype: float64

In [37]:
# Bonus : Exercices avancés 
df_recettes = pd.DataFrame(
    {
        "plats" : [
            "coquillettes au jambon", 
            "risotto", 
            "tiramisu"],
        "ingrédients" : [
            ["coquillettes", "beurre", "jambon"], 
            ["riz", "echalotte", "vin blanc", "bouillon", "parmesan", "champignons"], 
            ["mascarpone", "oeufs", "café", "cacao", "sucre", "biscuits"]
            ],
        "cout par personne" : [2, 6, 4]
    }
    )
df_recettes

Unnamed: 0,plats,ingrédients,cout par personne
0,coquillettes au jambon,"[coquillettes, beurre, jambon]",2
1,risotto,"[riz, echalotte, vin blanc, bouillon, parmesan...",6
2,tiramisu,"[mascarpone, oeufs, café, cacao, sucre, biscuits]",4


In [40]:
# groupby le nombre d'ingrédients, puis afficher le cout moyen par personne pour chaque groupe
for name, group in df_recettes.groupby(df_recettes.ingrédients.apply(lambda x: len(x))):
    print(name)
    print(group)

3
                    plats                     ingrédients  cout par personne
0  coquillettes au jambon  [coquillettes, beurre, jambon]                  2
6
      plats                                        ingrédients  \
1   risotto  [riz, echalotte, vin blanc, bouillon, parmesan...   
2  tiramisu  [mascarpone, oeufs, café, cacao, sucre, biscuits]   

   cout par personne  
1                  6  
2                  4  


In [67]:
df_recettes.groupby(df_recettes.ingrédients.apply(lambda x: len(x)))["cout par personne"].agg('mean')

ingrédients
3    2.0
6    5.0
Name: cout par personne, dtype: float64

In [74]:
# Définir une méthode pour compter le nombre de lettres dans le nom du plat
import numpy as np
def mean_letter_nb(x):
    return np.mean(x)
# Ex : groupby le nombre d'ingrédients

# Puis, afficher le nombre moyen de lettre pour chaque groupe
df_recettes["lettres_nb"] = df_recettes["plats"].apply(lambda x : len(x))
df_recettes.groupby(df_recettes.ingrédients.apply(lambda x: len(x)))["lettres_nb"].agg("mean")

ingrédients
3    22.0
6     7.5
Name: lettres_nb, dtype: float64