## Pandas

In [1]:
import numpy as np
import pandas as pd

## Importer un dataframe

In [2]:
data = pd.read_csv('clients.csv')
# data = pd.read_json('clients.json')
# data = pd.read_excel('clients.xlsx')
display(data.head()) # Affiche les 5 premières lignes du fichier, on peut donner un nombre de ligne à afficher en argument
display(data.tail()) # 5 dernière lignes, on peut donner un nombre de ligne à afficher en argument

Unnamed: 0,identifiant,email,nom,genre
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,1,GuyMarois@fleckens.hu,Guy Marois,M
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,3,RussellDurand@armyspy.com,Russell Durand,M
4,4,AlexisRiel@rhyta.com,Alexis Riel,M


Unnamed: 0,identifiant,email,nom,genre
223,223,ClaudeDandonneau@jourrapide.com,Claude Dandonneau,F
224,224,ApollineMichaud@superrito.com,Apolline Michaud,F
225,225,PascalineBeaudry@rhyta.com,Pascaline Beaudry,F
226,226,FleurCaouette@jourrapide.com,Fleur Caouette,F
227,227,FrancisMasse@jourrapide.com,Francis Masse,M


In [3]:
print(f"{data.shape = }")
print(f"data.dtypes :\n{data.dtypes}") # rmq : le type object de pandas correspond au type str de python

data.shape = (228, 4)
data.dtypes :
identifiant     int64
email          object
nom            object
genre          object
dtype: object


In [4]:
clients_array = data.values # dataframe to array
display(clients_array)

array([[0, 'LaurentDagenais@rhyta.com', 'Laurent Dagenais', 'M'],
       [1, 'GuyMarois@fleckens.hu', 'Guy Marois', 'M'],
       [2, 'BeaufortLesage@einrot.com', 'Beaufort Lesage', 'M'],
       [3, 'RussellDurand@armyspy.com', 'Russell Durand', 'M'],
       [4, 'AlexisRiel@rhyta.com', 'Alexis Riel', 'M'],
       [5, 'LeonLapresse@cuvox.de', 'Leon Lapresse', 'M'],
       [6, 'OrvilleRouthier@gustr.com', 'Orville Routhier', 'M'],
       [7, 'AgramantPepin@dayrep.com', 'Agramant Pepin', 'M'],
       [8, 'AiglentinaLambert@fleckens.hu', 'Aiglentina Lambert', 'F'],
       [9, 'TheodoreClavet@teleworm.us', 'Theodore Clavet', 'M'],
       [10, 'ByronLefebvre@jourrapide.com', 'Byron Lefebvre', 'M'],
       [11, 'FlorusDevoe@einrot.com', 'Florus Devoe', 'M'],
       [12, 'NormandArsenault@armyspy.com', 'Normand Arsenault', 'M'],
       [13, 'AcelineHughes@jourrapide.com', 'Aceline Hughes', 'F'],
       [14, 'GastonBrisette@superrito.com', 'Gaston Brisette', 'M'],
       [15, 'AgateGrandbois@gus

## Manipulation des lignes et colonnes

In [5]:
email = data['email'] # sélectionne la colonne 'email'
# rmq : email n'est pas un dataframe mais une Series, ie une liste ne contenant qu'un seul type d'objet
display(email.head())

0    LaurentDagenais@rhyta.com
1        GuyMarois@fleckens.hu
2    BeaufortLesage@einrot.com
3    RussellDurand@armyspy.com
4         AlexisRiel@rhyta.com
Name: email, dtype: object

In [6]:
extraction = data[['nom','email']] # sélectionne les colonnes 'nom' et 'email' /!\ Mettre les champs des colonnes dans une liste !
display(extraction.head())

Unnamed: 0,nom,email
0,Laurent Dagenais,LaurentDagenais@rhyta.com
1,Guy Marois,GuyMarois@fleckens.hu
2,Beaufort Lesage,BeaufortLesage@einrot.com
3,Russell Durand,RussellDurand@armyspy.com
4,Alexis Riel,AlexisRiel@rhyta.com


In [7]:
data['identifiant'] = data['identifiant']*100
data['identifiant'] = 1 # remplace les valeurs de la colonne 'identifiant' par 1
data['identifiant'] = np.random.randint(1, 1000, data.shape[0]) # remplace les valeurs de la colonne 'identifiant' par un nombre aléatoire entre 1 et 1000
display(data['identifiant'].head())

0    225
1    674
2    589
3    792
4    488
Name: identifiant, dtype: int32

In [8]:
data['id'] = data['identifiant'] + [1_000 if genre == 'M' else 2_000 for genre in data['genre']]
display(data.tail())

Unnamed: 0,identifiant,email,nom,genre,id
223,806,ClaudeDandonneau@jourrapide.com,Claude Dandonneau,F,2806
224,585,ApollineMichaud@superrito.com,Apolline Michaud,F,2585
225,870,PascalineBeaudry@rhyta.com,Pascaline Beaudry,F,2870
226,806,FleurCaouette@jourrapide.com,Fleur Caouette,F,2806
227,740,FrancisMasse@jourrapide.com,Francis Masse,M,1740


In [9]:
data.pop('id') # supprime la colonne 'id'
# data.drop(columns='id') renvoye un dataframe sans la colonne 'id' mais ne modifie pas le dataframe directement
data.head()

Unnamed: 0,identifiant,email,nom,genre
0,225,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,674,GuyMarois@fleckens.hu,Guy Marois,M
2,589,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,792,RussellDurand@armyspy.com,Russell Durand,M
4,488,AlexisRiel@rhyta.com,Alexis Riel,M


In [10]:
data.rename(columns={'identifiant': 'id', 'email': 'mail'}, inplace=True) # renome des colonnes
# /!\ L'argument inplace=True permet de modifier le dataframe sinon la méthode rename renvoie un dataframe avec les modification
display(data.head())

Unnamed: 0,id,mail,nom,genre
0,225,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,674,GuyMarois@fleckens.hu,Guy Marois,M
2,589,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,792,RussellDurand@armyspy.com,Russell Durand,M
4,488,AlexisRiel@rhyta.com,Alexis Riel,M


In [11]:
data['id'] = data['id'].astype(float) # Changer le type d'une colonne
print(data.dtypes)

id       float64
mail      object
nom       object
genre     object
dtype: object


In [12]:
data = data.sort_values('id', ascending = False)
display(data.head())
data = data.sort_values(['genre', 'nom'], ascending=[True, False])
display(data.head())

Unnamed: 0,id,mail,nom,genre
188,992.0,PaienBeauchesne@rhyta.com,Paien Beauchesne,M
121,978.0,JacquesMarcheterre@einrot.com,Jacques Marcheterre,M
18,977.0,YseultCharest@armyspy.com,Yseult Charest,F
35,975.0,PryorBeauchamp@dayrep.com,Pryor Beauchamp,M
161,974.0,ManonDastous@armyspy.com,Manon Dastous,F


Unnamed: 0,id,mail,nom,genre
53,629.0,ZurieTheberge@gustr.com,Zurie Theberge,F
112,552.0,ZoeLeclair@gustr.com,Zoe Leclair,F
64,184.0,YvetteDAvis@cuvox.de,Yvette D Avis,F
18,977.0,YseultCharest@armyspy.com,Yseult Charest,F
158,849.0,YoletteMoreau@dayrep.com,Yolette Moreau,F


## Filtre

In [13]:
display(data.iloc[0,2]) # affiche la valeur de la ligne 0 et de la colonne 2
display(data.iloc[:3, 2]) # affiche la valeur de la colonne 2 des 3 premiers clients
display(data.iloc[:3, :]) # affiche toutes les colonnes des 3 premières lignes
display(data.iloc[1:4, 1:3]) # affiche les colonnes 1 à 3 exclus des lignes 1 à 4 exclus
display(data.iloc[-3:, [1, 3]]) # affiche les colonnes 1 et 3 des 3 dernières lignes

'Zurie Theberge'

53     Zurie Theberge
112       Zoe Leclair
64      Yvette D Avis
Name: nom, dtype: object

Unnamed: 0,id,mail,nom,genre
53,629.0,ZurieTheberge@gustr.com,Zurie Theberge,F
112,552.0,ZoeLeclair@gustr.com,Zoe Leclair,F
64,184.0,YvetteDAvis@cuvox.de,Yvette D Avis,F


Unnamed: 0,mail,nom
112,ZoeLeclair@gustr.com,Zoe Leclair
64,YvetteDAvis@cuvox.de,Yvette D Avis
18,YseultCharest@armyspy.com,Yseult Charest


Unnamed: 0,mail,genre
16,AgricanFoucault@jourrapide.com,M
7,AgramantPepin@dayrep.com,M
202,AgramantGrandpre@rhyta.com,M


In [14]:
display((data.loc[:, 'id']).head(3)) # sélectionne une colonne
display((data.loc[:, ['id', 'nom']]).head(3)) # sélectionne plusieurs colonnes
display((data.loc[data['genre'] == 'F', :]).head(3)) # sélectionne toutes les colonnes et filtre par genre
display((data.loc[(data['genre'] == 'M') & (data['id'] >= 500), ['id', 'genre', 'nom']]).head(3)) # sélectionne des colonnes et filtre par genre et id

53     629.0
112    552.0
64     184.0
Name: id, dtype: float64

Unnamed: 0,id,nom
53,629.0,Zurie Theberge
112,552.0,Zoe Leclair
64,184.0,Yvette D Avis


Unnamed: 0,id,mail,nom,genre
53,629.0,ZurieTheberge@gustr.com,Zurie Theberge,F
112,552.0,ZoeLeclair@gustr.com,Zoe Leclair,F
64,184.0,YvetteDAvis@cuvox.de,Yvette D Avis,F


Unnamed: 0,id,genre,nom
192,830.0,M,Xarles Caisse
167,798.0,M,Verney Course
152,632.0,M,Vallis Mainville


In [15]:
display(data.loc[0:76, :]) # sélection des lignes d'INDEX 0 à 76 (les lignes d'index 0, 22 et 76 qui sont consécutives dans la base)
display(data.iloc[0:3, :]) # sélection des lignes d'INDICE 0 à 3 (les 3 premières lignes)
display(data.index) # Affiche la liste des index
data_reset_index = data.reset_index() # affecte l'indice à l'index
print("Reset index :")
display(data_reset_index.index)

Unnamed: 0,id,mail,nom,genre
0,225.0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
222,884.0,LangleyCaron@armyspy.com,Langley Caron,M
76,953.0,LanceParent@teleworm.us,Lance Parent,M


Unnamed: 0,id,mail,nom,genre
53,629.0,ZurieTheberge@gustr.com,Zurie Theberge,F
112,552.0,ZoeLeclair@gustr.com,Zoe Leclair,F
64,184.0,YvetteDAvis@cuvox.de,Yvette D Avis,F


Index([ 53, 112,  64,  18, 158, 214, 168,  71,  63,  99,
       ...
        20,  36,  24,   4,  88,  62, 204,  16,   7, 202],
      dtype='int64', length=228)

Reset index :


RangeIndex(start=0, stop=228, step=1)

## Agrégation

In [16]:
display(data.groupby('genre')['id'].mean()) # groupe par 'genre' et calcul la moyenne des 'id'
display(data.groupby(['genre', 'nom'])['id'].sum()) # groupe par 'genre' et 'nom' et calcul la somme des 'id'
display(data.groupby('genre').agg({'id': ['sum', 'mean']})) # groupe par 'genre' et calcul la somme et la moyenne des 'id'

genre
F    500.932203
M    497.618182
Name: id, dtype: float64

genre  nom               
F      Aceline Hughes        268.0
       Adelaide Brousse      475.0
       Adele Clavette        406.0
       Agate Grandbois       925.0
       Agnes Briard          615.0
                             ...  
M      Verney Course         798.0
       Vick David            180.0
       Xarles Caisse         830.0
       Zacharie Duplessis    348.0
       Zdenek Vadnais        476.0
Name: id, Length: 228, dtype: float64

Unnamed: 0_level_0,id,id
Unnamed: 0_level_1,sum,mean
genre,Unnamed: 1_level_2,Unnamed: 2_level_2
F,59110.0,500.932203
M,54738.0,497.618182


In [17]:
tab_double_entrees = data.pivot_table(index='nom', columns='genre', values='id', aggfunc='sum') # créer un tableau à double entrées
# la fonction d'aggrégation peut aussi être une fonction personnellement implémentée ou encore np.mean
display(tab_double_entrees.head(3))
tab_double_entrees.reset_index(inplace=True) # index deviennent les indices
display(tab_double_entrees.head(3))

genre,F,M
nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Aceline Hughes,268.0,
Adelaide Brousse,475.0,
Adele Clavette,406.0,


genre,nom,F,M
0,Aceline Hughes,268.0,
1,Adelaide Brousse,475.0,
2,Adele Clavette,406.0,


In [18]:
tab_double_entrees.melt(id_vars='nom', value_vars=('F', 'M')) # transforme un tableau double entrées en tableau linéaire
display(tab_double_entrees.head(3))

genre,nom,F,M
0,Aceline Hughes,268.0,
1,Adelaide Brousse,475.0,
2,Adele Clavette,406.0,


## Jointure

In [19]:
# pd.merge(A,B) jointure naturelle (ie les clés ont le même nom) des dataframe A et B
# A.merge(B) méthode jointure
# pd.merge(A,B,on='id') pour préciser le nom de la clé commune
# pd.merge(A,B,left_on='id',right_on='identifiant') si clés n'ont pas le même nom
# pb.merge(A,B,how='inner') l'argument how précise le type de jointure
# 'inner' -> interne A inter B (par dédaut)
# 'left' -> A union (A inter B)
# 'right' -> B union (A inter B)
# 'outer' -> externe A union B

## Concaténation

In [20]:
# pd.concat([df1, df2], ignore_index=True) Pour concaténer deux dataframes.
# rmq : l'argument 'ignore_index=True' permet de réindexer le dataframe formé des dataframes df1 et df2, sans cet argument les index seraient en doublon