# Tuto Pandas

##  Imports de librairies

In [1]:
import pandas as pd
import numpy as np

## Construction de Data Series et Data Frames

In [2]:
serie = pd.Series([1,3,5,np.nan,6,8])

In [3]:
serie

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

Ci-dessous, construction d'un DataFrame à partir d'un dictionnaire...

In [4]:
df = pd.DataFrame(
    [{'A' : 1., 'B' : pd.Timestamp('20130102'), 'C' : 5.0, 'D': 3, 'E':'test', 'F': 'bar'},
     {'A' : 2., 'B' : pd.Timestamp('20130102'), 'C' : 7.0, 'D': 2, 'E':'train', 'F': 'foo'},
     {'A' : 2., 'B' : pd.Timestamp('20130102'), 'C' : 1.0, 'D': 3, 'E':'test', 'F': 'bar'},
     {'A' : 1., 'B' : pd.Timestamp('20130102'), 'C' : 1.0, 'D': 3, 'E':'train', 'F': 'foo'},])

La méthode <b> head(n) </b> d'un Dataframe permet d'en afficher les n premières lignes...

In [5]:
df.head(2)

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,5.0,3,test,bar
1,2.0,2013-01-02,7.0,2,train,foo


La méthode <b> tail(n) </b> d'un Dataframe permet d'en afficher les n dernières lignes...

In [6]:
df.tail(1)

Unnamed: 0,A,B,C,D,E,F
3,1.0,2013-01-02,1.0,3,train,foo


Ici on créé un nouveau DataFrame depuis <b> df </b> en triant ses lignes selon la valeur de la colonne <b> A </b> dans un ordre croissant

In [18]:
df.sort_values(by='A')

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,5.0,3,test,bar
3,1.0,2013-01-02,1.0,3,train,foo
1,2.0,2013-01-02,7.0,2,train,foo
2,2.0,2013-01-02,1.0,3,test,bar


Si on veut que le tri s'applique au DataFrame <b> df </b> qui appelle la méthode <b> sort_values() </b>, on passe <b> inplace=True </b> comme argument de celle-ci

In [7]:
df.sort_values(by='A', inplace=True)

In [8]:
df.head()

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,5.0,3,test,bar
3,1.0,2013-01-02,1.0,3,train,foo
1,2.0,2013-01-02,7.0,2,train,foo
2,2.0,2013-01-02,1.0,3,test,bar


## Sélection & Filtrage

Sélectionner une (ensemble de) colonne(s)...

In [9]:
df['A'] # ==> Renvoie un pandas Series

0    1.0
3    1.0
1    2.0
2    2.0
Name: A, dtype: float64

In [10]:
df[['A', 'B']] # ==> Renvoie un pandas DataFrame

Unnamed: 0,A,B
0,1.0,2013-01-02
3,1.0,2013-01-02
1,2.0,2013-01-02
2,2.0,2013-01-02


Sélectionner une ligne

In [25]:
df.iloc[0] # ==> Renvoie un pandas Series

A                      1
B    2013-01-02 00:00:00
C                      5
D                      3
E                   test
F                    bar
Name: 0, dtype: object

Filtrage de lignes par condition sur une variable (colonne) en particulier... Ci-dessous, on renvoie un nouveau DataFrame dont les lignes sont celles de <b> df </b> où la valeur de la colonne <b> A </b> est supérieure ou égale à 2

In [11]:
df[df.A >= 2] # ==> Renvoie un nouveau pandas DataFrame

Unnamed: 0,A,B,C,D,E,F
1,2.0,2013-01-02,7.0,2,train,foo
2,2.0,2013-01-02,1.0,3,test,bar


## Gestion de valeurs manquantes

Ce DataFrame qui suit contient des valeurs manquantes (nulles) représentées par l'objet unique <b> np.nan </b>

In [18]:
df = pd.DataFrame(
    [{'A' : np.nan, 'B' : pd.Timestamp('20130102'), 'C' : 5.0, 'D': 3, 'E':'test', 'F': 'bar'},
     {'A' : 2., 'B' : pd.Timestamp('20130102'), 'C' : 7.0, 'D': 2, 'E':'train', 'F': np.nan},
     {'A' : np.nan, 'B' : pd.Timestamp('20130102'), 'C' : 1.0, 'D': 3, 'E':'test', 'F': np.nan},
     {'A' : 1., 'B' : pd.Timestamp('20130102'), 'C' : 1.0, 'D': 3, 'E':'train', 'F': 'foo'},])

In [19]:
df.head()

Unnamed: 0,A,B,C,D,E,F
0,,2013-01-02,5.0,3,test,bar
1,2.0,2013-01-02,7.0,2,train,
2,,2013-01-02,1.0,3,test,
3,1.0,2013-01-02,1.0,3,train,foo


On souhaite créer un nouveau DataFrame qui ne contient pas les lignes avec valeurs manquantes...

In [20]:
df.dropna(how='any') #, inplace=True)

Unnamed: 0,A,B,C,D,E,F
3,1.0,2013-01-02,1.0,3,train,foo


On souhaite supprimer les lignes avec valeurs manquantes dans ce même DataFrame <b> df </b> ...

In [21]:
df.dropna(how='any', inplace=True)

Ou alors, on peut remplacer les valeurs manquantes par la valeur <b> 0 </b>

In [22]:
df = pd.DataFrame(
    [{'A' : np.nan, 'B' : pd.Timestamp('20130102'), 'C' : 5.0, 'D': 3, 'E':'test', 'F': 'bar'},
     {'A' : 2., 'B' : pd.Timestamp('20130102'), 'C' : 7.0, 'D': 2, 'E':'train', 'F': np.nan},
     {'A' : np.nan, 'B' : pd.Timestamp('20130102'), 'C' : 1.0, 'D': 3, 'E':'test', 'F': np.nan},
     {'A' : 1., 'B' : pd.Timestamp('20130102'), 'C' : 1.0, 'D': 3, 'E':'train', 'F': 'foo'},])

In [23]:
df.fillna(value=0)

Unnamed: 0,A,B,C,D,E,F
0,0.0,2013-01-02,5.0,3,test,bar
1,2.0,2013-01-02,7.0,2,train,0
2,0.0,2013-01-02,1.0,3,test,0
3,1.0,2013-01-02,1.0,3,train,foo


Ce n'est peut-être pas pertinent de remplacer les valeurs manquantes de la colonne <b> F </b> par un entier<b> 0 </b> alors que le reste des valeurs de cette colonne sont des chaînes de caractères. On peut adapter le remplissage des valeurs manquantes colonne par colonne <br>
Pour plus d'info consulter la doc <br>
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html

In [24]:
df.fillna(value={"A": 0, "F": "bar"})

Unnamed: 0,A,B,C,D,E,F
0,0.0,2013-01-02,5.0,3,test,bar
1,2.0,2013-01-02,7.0,2,train,bar
2,0.0,2013-01-02,1.0,3,test,bar
3,1.0,2013-01-02,1.0,3,train,foo


Une méthode "plus intelligente" est de se baser, pour chaque colonne, sur la valeur de l'échantillon précédent (ou suivant) pour remplir les valeurs manquantes...

In [32]:
df

Unnamed: 0,A,B,C,D,E,F
0,,2013-01-02,5.0,3,test,bar
1,2.0,2013-01-02,7.0,2,train,
2,,2013-01-02,1.0,3,test,
3,1.0,2013-01-02,1.0,3,train,foo


Le <b> Forward Fill </b> permet, pour chaque colonne, de remplir chaque donnée manquante par la valeur de l'échantillon précédent

In [31]:
df.fillna(method="ffill")

Unnamed: 0,A,B,C,D,E,F
0,,2013-01-02,5.0,3,test,bar
1,2.0,2013-01-02,7.0,2,train,bar
2,2.0,2013-01-02,1.0,3,test,bar
3,1.0,2013-01-02,1.0,3,train,foo


Le <b> Backward Fill </b> permet, pour chaque colonne, de remplir chaque donnée manquante par la valeur de l'échantillon suivant

In [33]:
df.fillna(method="bfill")

Unnamed: 0,A,B,C,D,E,F
0,2.0,2013-01-02,5.0,3,test,bar
1,2.0,2013-01-02,7.0,2,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


Pour un remplissage complet, on peut "cascader" les deux méthodes

In [34]:
df.fillna(method="ffill").fillna(method="bfill")

Unnamed: 0,A,B,C,D,E,F
0,2.0,2013-01-02,5.0,3,test,bar
1,2.0,2013-01-02,7.0,2,train,bar
2,2.0,2013-01-02,1.0,3,test,bar
3,1.0,2013-01-02,1.0,3,train,foo


Comme pour les méthodes <b> sort </b> et <b> dropna </b>, la paramètre <b> inplace=True </b> permet d'appliquer le traitement du Backward ou Forward Fill au DataFrame qui appelle la méthode, et non en créer un nouveau, modifié.

In [35]:
df.head()

Unnamed: 0,A,B,C,D,E,F
0,,2013-01-02,5.0,3,test,bar
1,2.0,2013-01-02,7.0,2,train,
2,,2013-01-02,1.0,3,test,
3,1.0,2013-01-02,1.0,3,train,foo


In [36]:
df.fillna(method="ffill", inplace=True)
df.fillna(method="bfill", inplace=True)

In [37]:
df.head()

Unnamed: 0,A,B,C,D,E,F
0,2.0,2013-01-02,5.0,3,test,bar
1,2.0,2013-01-02,7.0,2,train,bar
2,2.0,2013-01-02,1.0,3,test,bar
3,1.0,2013-01-02,1.0,3,train,foo


## Statistiques sur des DataFrames

La méthode <b> mean </b> renvoie la moyenne des valeurs de chaque colonne (pour le colonnes entièrement numériques) si on lui passe <b> axis=0 </b> comme paramètre

In [46]:
df.mean(axis=0)

A    1.75
C    3.50
D    2.75
dtype: float64

La méthode <b> mean </b> renvoie la moyenne des valeurs de chaque ligne (en sélectionnant uniquement les valeurs numériques) si on lui passe <b> axis=1 </b> comme paramètre

In [38]:
df.mean(axis=1)

0    3.333333
1    3.666667
2    2.000000
3    1.666667
dtype: float64

## Traitements itératifs sur les lignes d'un DataFrame

In [39]:
df

Unnamed: 0,A,B,C,D,E,F
0,2.0,2013-01-02,5.0,3,test,bar
1,2.0,2013-01-02,7.0,2,train,bar
2,2.0,2013-01-02,1.0,3,test,bar
3,1.0,2013-01-02,1.0,3,train,foo


On souhaite transformer la colonne A en élevant toutes ces valeurs au carré. On suit les étapes suivantes:
1. Définir une fonction qui prend en argument un élément <b> x </b> et renvoie son carré <b> x**2 </b>
2. Passer la fonction en paramètre de la méthode <b> apply </b> appliquée à la colonne qu'on souhaite transformer
3. Pour que la modification s'opère dans le DataFrame <b> df </b>, affecter le résultat de <b> apply </b> à la colonne A

In [40]:
def function_carre(x):
    return x**2

In [41]:
df['A'] = df['A'].apply(function_carre)

In [42]:
df.head()

Unnamed: 0,A,B,C,D,E,F
0,4.0,2013-01-02,5.0,3,test,bar
1,4.0,2013-01-02,7.0,2,train,bar
2,4.0,2013-01-02,1.0,3,test,bar
3,1.0,2013-01-02,1.0,3,train,foo


On souhaite créer une nouvelle colonne qui contient les sommes deux à deux des valeurs des colonnes A et D. Il suffit d'utiliser une syntaxe simple d'addition des deux colonnes <b> df['A'] </b> et <b> df['B'] </b>

In [43]:
df['K'] = df['A'] + df['D']

In [44]:
df.head()

Unnamed: 0,A,B,C,D,E,F,K
0,4.0,2013-01-02,5.0,3,test,bar,7.0
1,4.0,2013-01-02,7.0,2,train,bar,6.0
2,4.0,2013-01-02,1.0,3,test,bar,7.0
3,1.0,2013-01-02,1.0,3,train,foo,4.0


## Jointure de deux DataFrames

In [45]:
df

Unnamed: 0,A,B,C,D,E,F,K
0,4.0,2013-01-02,5.0,3,test,bar,7.0
1,4.0,2013-01-02,7.0,2,train,bar,6.0
2,4.0,2013-01-02,1.0,3,test,bar,7.0
3,1.0,2013-01-02,1.0,3,train,foo,4.0


On définit ci-dessous un nouveau DataFrame qui a les mêmes colonnes que <b> df </b>

In [46]:
df2 = pd.DataFrame(
    [{'A' : 3., 'B' : pd.Timestamp('20130102'), 'C' : 6.0, 'D': 1, 'E':'train', 'F': 'bar'},
     {'A' : 2., 'B' : pd.Timestamp('20130102'), 'C' : 2.0, 'D': 3, 'E':'train', 'F': 'bar'},
     {'A' : 5., 'B' : pd.Timestamp('20130102'), 'C' : 1.0, 'D': 2, 'E':'test', 'F': 'bar'},
     {'A' : 1., 'B' : pd.Timestamp('20130102'), 'C' : 5.0, 'D': 3, 'E':'test', 'F': 'foo'},])

In [72]:
df2.set_index([[4, 5, 6, 7]], inplace=True)

Vu qu'ils partagent les mêmes colonnes, on peut concaténer les lignes de <b> df </b> et <b> df2 </b> en utilisant la méthode <b> concat </b> de <b> pandas </b> à laquelle on passe les deux DataFrames en paramètres ainsi que <b> axis=0 </b> pour indiquer que la concaténation se fait sur les lignes

In [47]:
pd.concat([df, df2], axis=0)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,A,B,C,D,E,F,K
0,4.0,2013-01-02,5.0,3,test,bar,7.0
1,4.0,2013-01-02,7.0,2,train,bar,6.0
2,4.0,2013-01-02,1.0,3,test,bar,7.0
3,1.0,2013-01-02,1.0,3,train,foo,4.0
0,3.0,2013-01-02,6.0,1,train,bar,
1,2.0,2013-01-02,2.0,3,train,bar,
2,5.0,2013-01-02,1.0,2,test,bar,
3,1.0,2013-01-02,5.0,3,test,foo,


Supposons que l'on dispose d'un DataFrame qui regroupe des produits (lignes) avec pour chaque produit des caractéristiques (colonnes) telles que l'identifiant, le prix, la description, la catégorie etc

In [48]:
df_product = pd.DataFrame([
    {'product_id' : 212, 'product_price' : 25, 'product_desc': "text", "product_cat": "game"},
    {'product_id' : 213, 'product_price' : 80, 'product_desc': "text", "product_cat": "game"},
    {'product_id' : 214, 'product_price' : 27, 'product_desc': "text", "product_cat": "game"},
    {'product_id' : 215, 'product_price' : 50, 'product_desc': "text", "product_cat": "kitchen"}, 
    {'product_id' : 216, 'product_price' : 120, 'product_desc': "text", "product_cat": "kitchen"}, 
    {'product_id' : 217, 'product_price' : 80, 'product_desc': "text", "product_cat": "game"}])

In [49]:
df_product.head()

Unnamed: 0,product_cat,product_desc,product_id,product_price
0,game,text,212,25
1,game,text,213,80
2,game,text,214,27
3,kitchen,text,215,50
4,kitchen,text,216,120


On dispose aussi d'un DataFrame qui regroupe des transactions ou achats (lignes) avec pour chaque transaction les infos (colonnes) sur le client acheteur (identifiant) et le produit acheté (identifiant)

In [51]:
df_purchase = pd.DataFrame([
    {"transaction_id": 1, "product_id": 212 , "client_id": 1 },
    {"transaction_id": 1, "product_id": 214 , "client_id": 1 },
    {"transaction_id": 1, "product_id": 215 , "client_id": 1 },
    {"transaction_id": 2, "product_id": 215 , "client_id": 2 },
    {"transaction_id": 2, "product_id": 216 , "client_id": 2 },
    {"transaction_id": 2, "product_id": 212 , "client_id": 2 },])

In [52]:
df_purchase.head()

Unnamed: 0,client_id,product_id,transaction_id
0,1,212,1
1,1,214,1
2,1,215,1
3,2,215,2
4,2,216,2


#### On souhaite par exemple connaître combien chaque client a dépensé au total pour chaque catégorie

Pour cela, on doit croiser les informations sur les achats et les prix des produits en exploitant le fait que les deux DataFrames partagent une colonne (clé) commune qui permet d'effectuer le croisement à savoir l'identifiant produit <b> product_id </b><br>
On va donc enrichir la DataFrame des achats <b> (df_purchase) </b> avec en plus les infos sur chaque produit acheté (dont le prix) <br>
Il existe deux manières de faire.

La méthode <b> merge </b> de <b> pandas </b> permet d'enrichir le DataFrame passé en premier paramètre en le croisant avec les données du second à base de clé commune (paramètre <b> on="product" </b>). Le paramètre <b> how="inner" </b> indique que l'on ne garde que les lignes des deux DataFrames pour lesquelles il y a correspondance.

In [54]:
pd.merge(df_purchase, df_product, on="product_id", how="inner")

Unnamed: 0,client_id,product_id,transaction_id,product_cat,product_desc,product_price
0,1,212,1,game,text,25
1,2,212,2,game,text,25
2,1,214,1,game,text,27
3,1,215,1,kitchen,text,50
4,2,215,2,kitchen,text,50
5,2,216,2,kitchen,text,120


Le premier DataFrame peut être aussi l'objet qui appelle la méthode qui aura comme paramètres toutes les infos restantes (second DataFrame, clé commune, méthode de jointure)

In [55]:
df_purchase.merge(df_product, on="product_id", how="inner")

Unnamed: 0,client_id,product_id,transaction_id,product_cat,product_desc,product_price
0,1,212,1,game,text,25
1,2,212,2,game,text,25
2,1,214,1,game,text,27
3,1,215,1,kitchen,text,50
4,2,215,2,kitchen,text,50
5,2,216,2,kitchen,text,120


On attribue maintenant le résultat de la jointure à un nouveau DataFrame

In [56]:
df_merged = df_purchase.merge(df_product, on="product_id", how="inner")

In [57]:
df_merged.head()

Unnamed: 0,client_id,product_id,transaction_id,product_cat,product_desc,product_price
0,1,212,1,game,text,25
1,2,212,2,game,text,25
2,1,214,1,game,text,27
3,1,215,1,kitchen,text,50
4,2,215,2,kitchen,text,50


Pour calculer le prix dépensé par chaque client pour la catégorie <b> "game" </b>, on suit ces étapes:
1. On filtre les transactions qui correspondent à des produits de cette catégorie
2. On garde les colonnes qui correspondent aux infos nécessaire à l'agrégation à savoir le <b> client_id </b> et le <b> product_price </b>
3. On appelle la méthode <b> groupby </b> en lui indiquant que l'on veut regrouper les transactions client par client via le paramètre <b> "client_id" </b>
4. On spécifie le type de l'agrégation à savoir la somme <b> sum() </b>

In [93]:
df_merged[df_merged.product_cat=="game"][["client_id", "product_price"]].groupby("client_id").sum()

Unnamed: 0_level_0,product_price
client_id,Unnamed: 1_level_1
1,52
2,25


On peut effectuer un double <b> groupby </b> si l'on souhaite calculer le prox total dépensé par chaque client pour chaque catégorie

In [59]:
df_merged[["client_id", "product_price", "product_cat"]].groupby(["client_id", "product_cat"]).agg("sum")

Unnamed: 0_level_0,Unnamed: 1_level_0,product_price
client_id,product_cat,Unnamed: 2_level_1
1,game,52
1,kitchen,50
2,game,25
2,kitchen,170
