# **Dev-Data Pratique : Essentiel Pandas**

# <h2 style = " color: blue">**Auteur** : Sokhna Diarra </h2>

# **Objectifs pédagogiques**
- Comprendre les structures de données Series et DataFrame
- Savoir importer, explorer, filtrer et transformer des données tabulaires
- Appliquer les fonctions d’agrégation, de nettoyage et de jointure 


<h4 style = "color : green"> <b>importation</b> </h4>

In [None]:
# importer pandas

import pandas as pd



## **Partie 1** – Création et lecture de DataFrames 


1. Créons une Series manuellement et l'afficher


In [6]:
# series sans étiquettes personnalisées (index)
series = pd.Series([13, 10, 6, 8])
print(series)

# avec équittes 
series_personnalisees = pd.Series([13, 10, 6, 8], index=['j', 'm', 'p', 'f'])
print(series_personnalisees)

0    13
1    10
2     6
3     8
dtype: int64
j    13
m    10
p     6
f     8
dtype: int64


2. Créons un DataFrame à partir d'un dictionnaire Python


In [7]:
# Dictionnaire sur les voitures
voitures = {
    'Marque' : ['Audi', 'Mercedes', 'BMW', 'Mitsubishi', 'Hyndai'],
    'Modèle' : ['A4 e-tron', 'Mercedes-AMG','Set BMW i8', 'ASX', 'i20'],
    'Prix (£)'   : [35000, 42000, 39000, 37000, 25000]
}

# Créer DataFrame
df_voitures = pd.DataFrame(voitures)

#Affichons
print(df_voitures)

       Marque        Modèle  Prix (£)
0        Audi     A4 e-tron     35000
1    Mercedes  Mercedes-AMG     42000
2         BMW    Set BMW i8     39000
3  Mitsubishi           ASX     37000
4      Hyndai           i20     25000


3. Lire un fichier CSV avec pd.read_csv()


In [8]:
# lire un fichier CSV
fichier_csv = pd.read_csv('Clients.csv')

fichier_csv

Unnamed: 0,identifiant,email,nom,genre
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,1,GuyMarois@fleckens.hu,Guy Marois,M
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,3,RussellDurand@armyspy.com,Russell Durand,M
4,4,AlexisRiel@rhyta.com,Alexis Riel,M
...,...,...,...,...
223,223,ClaudeDandonneau@jourrapide.com,Claude Dandonneau,F
224,224,ApollineMichaud@superrito.com,Apolline Michaud,F
225,225,PascalineBeaudry@rhyta.com,Pascaline Beaudry,F
226,226,FleurCaouette@jourrapide.com,Fleur Caouette,F


4. Affichons les 5 premières et dernières lignes (head(), tail())


In [9]:
# affichons les 5 premières lignes : .head()

fichier_csv.head()


Unnamed: 0,identifiant,email,nom,genre
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,1,GuyMarois@fleckens.hu,Guy Marois,M
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,3,RussellDurand@armyspy.com,Russell Durand,M
4,4,AlexisRiel@rhyta.com,Alexis Riel,M


In [10]:
#affichons les 5 dernières lignes : .tail()

fichier_csv.tail()

Unnamed: 0,identifiant,email,nom,genre
223,223,ClaudeDandonneau@jourrapide.com,Claude Dandonneau,F
224,224,ApollineMichaud@superrito.com,Apolline Michaud,F
225,225,PascalineBeaudry@rhyta.com,Pascaline Beaudry,F
226,226,FleurCaouette@jourrapide.com,Fleur Caouette,F
227,227,FrancisMasse@jourrapide.com,Francis Masse,M


5. Affichons les informations générales (info(), shape, dtypes)


<h4 style= "color:red"><b>info</b> : </h4>Permet d'afficher des informations sur le DataFrame. Ces info comprennent: le nombre de colonnes, leurs libellés, leurs types de données, l'utilisation de la mémoire, l'index et le nombre de cellules de chaque colonne 

In [13]:
fichier_csv.info

<bound method DataFrame.info of      identifiant                            email                nom genre
0              0        LaurentDagenais@rhyta.com   Laurent Dagenais     M
1              1            GuyMarois@fleckens.hu         Guy Marois     M
2              2        BeaufortLesage@einrot.com    Beaufort Lesage     M
3              3        RussellDurand@armyspy.com     Russell Durand     M
4              4             AlexisRiel@rhyta.com        Alexis Riel     M
..           ...                              ...                ...   ...
223          223  ClaudeDandonneau@jourrapide.com  Claude Dandonneau     F
224          224    ApollineMichaud@superrito.com   Apolline Michaud     F
225          225       PascalineBeaudry@rhyta.com  Pascaline Beaudry     F
226          226     FleurCaouette@jourrapide.com     Fleur Caouette     F
227          227      FrancisMasse@jourrapide.com      Francis Masse     M

[228 rows x 4 columns]>

<h4 style= "color:red"><b>shape</b> : </h4>Permet de connaitre combien de lignes comportent un data frame ? Et combien de colonnes ? Exemple: <br>
            Avec le fichier_csv.shape nous avons (228,4) : 228 lignes et 4 colonnes <br>


In [11]:
fichier_csv.shape

(228, 4)

<h4 style= "color:red"><b>dtypes</b> : </h4>Permet de connaître les types de chacune de nos variables.<br>
            Avec fichier_csv.dtype nous avons <b>int64</b> : entiers de 64 bits, <b>object</b> : en Pandas Objet correspond à une colonne de type chîne de caractères (string)

In [12]:
fichier_csv.dtypes

identifiant     int64
email          object
nom            object
genre          object
dtype: object


## **Partie 2** – Accès aux données et filtrage


1. Accédons à une colonne (df["col"]) ou plusieurs (df[["col1", "col2"]])


In [None]:
# Accéder à une colonne :
nom = fichier_csv['nom'] 
print(nom)
# on peut le faire avec fichier_csv.nom

0       Laurent Dagenais
1             Guy Marois
2        Beaufort Lesage
3         Russell Durand
4            Alexis Riel
             ...        
223    Claude Dandonneau
224     Apolline Michaud
225    Pascaline Beaudry
226       Fleur Caouette
227        Francis Masse
Name: nom, Length: 228, dtype: object

In [None]:
#Accéder à plusieurs colonne:
nom_genre = fichier_csv[['nom','genre']]
print(nom_genre)

Unnamed: 0,nom,genre
0,Laurent Dagenais,M
1,Guy Marois,M
2,Beaufort Lesage,M
3,Russell Durand,M
4,Alexis Riel,M
...,...,...
223,Claude Dandonneau,F
224,Apolline Michaud,F
225,Pascaline Beaudry,F
226,Fleur Caouette,F


2. Accédons à une ligne par index (loc, iloc)


<h6>Utilisons le dictionnaire crée pour mieux voir :</h6>

In [None]:
#affichons le dictionnaire 
print(df_voitures)

#Pour accéder à une ligne à partir de son index(intrinsèque aux lignes et il est unique) on utilise .loc[nom de l'index] exemple la ligne 4 (donc index 3):
df_voitures.loc[3]

       Marque        Modèle  Prix (£)
0        Audi     A4 e-tron     35000
1    Mercedes  Mercedes-AMG     42000
2         BMW    Set BMW i8     39000
3  Mitsubishi           ASX     37000
4      Hyndai           i20     25000


Marque      Mitsubishi
Modèle             ASX
Prix (£)         37000
Name: 3, dtype: object

In [None]:
# Et avec .iloc[position] la position est donnée peu importe la vraie valeur de l'indice(relatif aux opérations réalisées)
df_voitures.iloc[3]

Marque      Mitsubishi
Modèle             ASX
Prix (£)         37000
Name: 3, dtype: object

3. Filtrer les lignes avec une condition logique (df[df["col"] > valeur])


In [18]:
#filtrons le genre Feminin
genre_feminin = fichier_csv.loc[fichier_csv['genre'] == 'F']
print(genre_feminin)

     identifiant                            email                 nom genre
8              8    AiglentinaLambert@fleckens.hu  Aiglentina Lambert     F
13            13     AcelineHughes@jourrapide.com      Aceline Hughes     F
15            15         AgateGrandbois@gustr.com     Agate Grandbois     F
17            17    PrunellaJosseaume@armyspy.com  Prunella Josseaume     F
18            18        YseultCharest@armyspy.com      Yseult Charest     F
..           ...                              ...                 ...   ...
221          221      JosetteBordeleau@einrot.com   Josette Bordeleau     F
223          223  ClaudeDandonneau@jourrapide.com   Claude Dandonneau     F
224          224    ApollineMichaud@superrito.com    Apolline Michaud     F
225          225       PascalineBeaudry@rhyta.com   Pascaline Beaudry     F
226          226     FleurCaouette@jourrapide.com      Fleur Caouette     F

[118 rows x 4 columns]


4. Appliquons plusieurs conditions combinées (&, |)


In [20]:
# Nous allons importer un fichier avec des info nous permettant de faire des conditions
df_prets = pd.read_csv('prets.csv')
print(df_prets)

     identifiant      ville     CP  revenu  remboursement  duree        type  \
0              0   TOULOUSE  31100  3669.0        1130.05    240  immobilier   
1              1      PARIS  75009  5310.0         240.00     64  automobile   
2              1      PARIS  75009  5310.0        1247.85    300  immobilier   
3              2  MARSEILLE  13010  1873.0         552.54    240  immobilier   
4              3  MARSEILLE  13010  1684.0         586.03    180  immobilier   
..           ...        ...    ...     ...            ...    ...         ...   
239          224      PARIS  75008  5118.0        1248.79    300  immobilier   
240          224      PARIS  75008  5118.0         238.20     25  automobile   
241          225   BORDEAUX  33100  2356.0         876.43    180  immobilier   
242          226      PARIS  75002  5098.0        2910.96    240  immobilier   
243          227      PARIS  75015  2348.0         434.38    300  immobilier   

      taux  
0    1.168  
1    3.701  


In [21]:
# utilisons le & pour un Et nous allons filtrer les clients habitant à paris et qui ont comme type immobilier

client_paris_immobilier = df_prets.loc[ (df_prets['ville']== 'PARIS') & (df_prets['type'] == 'immobilier')]
print("Les clients habitants à Paris et qui ont comme type de prets immobilier sont :\n", client_paris_immobilier)


Les clients habitants à Paris et qui ont comme type de prets immobilier sont :
      identifiant  ville     CP  revenu  remboursement  duree        type  \
2              1  PARIS  75009  5310.0        1247.85    300  immobilier   
6              5  PARIS  75016  2476.0         836.89    240  immobilier   
11            10  PARIS  75011  2293.0         378.34    240  immobilier   
16            15  PARIS  75003  4109.0        1220.37    240  immobilier   
17            16  PARIS  75001  6118.0        1505.03    240  immobilier   
..           ...    ...    ...     ...            ...    ...         ...   
236          221  PARIS  75017  4477.0        1356.53    240  immobilier   
238          223  PARIS  75009  2127.0         672.13    240  immobilier   
239          224  PARIS  75008  5118.0        1248.79    300  immobilier   
242          226  PARIS  75002  5098.0        2910.96    240  immobilier   
243          227  PARIS  75015  2348.0         434.38    300  immobilier   

      t

In [22]:
# maintenant | pour dire ou bien soit c'est l'une des conditions cherchons ceux qui ont comme revenu inferieur à 2000 ou comme duree  supérieur à 150
client_rvinf_duree = df_prets.loc[(df_prets['revenu'] < 2000) | (df_prets['duree'] <= 150)]

#Affichage
print("Les clients ayant un revenue inférieur à 2000 ou une durée plus de 150 sont : \n", client_rvinf_duree)



Les clients ayant un revenue inférieur à 2000 ou une durée plus de 150 sont : 
      identifiant      ville     CP  revenu  remboursement  duree        type  \
1              1      PARIS  75009  5310.0         240.00     64  automobile   
3              2  MARSEILLE  13010  1873.0         552.54    240  immobilier   
4              3  MARSEILLE  13010  1684.0         586.03    180  immobilier   
5              4  MARSEILLE  13012  1476.0         423.61    240  immobilier   
7              6       LYON  69008  1867.0         711.33    240  immobilier   
..           ...        ...    ...     ...            ...    ...         ...   
221          207       LYON  69001  1881.0         707.26    240  immobilier   
225          211   TOULOUSE  31400  3724.0         215.00     43  automobile   
229          214       NICE   6100  4928.0         744.13    120  immobilier   
230          215  MARSEILLE  13006  1266.0         238.01    240  immobilier   
240          224      PARIS  75008  5118


## **Partie 3** – Nettoyage des données


1. Détecter et supprimer les doublons (drop_duplicates())


In [29]:
#Prenons un fichier comptenant des dublons 
data = pd.read_csv('Donnees.csv', sep=';', encoding = 'latin1')

print(data)

       CODE     Numero     Nom   Prénom  Date de naissance   Classe  \
0    AAD003  2014079LH   CISSE     Baba  Date de naissance  6ieme A   
1    AAD003  2016023LD  NDIAYE      NaN  Date de naissance  5ieme A   
2    AAD003   286325HG    GAYE      Awa  Date de naissance   3iemeA   
3    AAD003   201817JK    NDAO   Ndiaga  Date de naissance   6iemeB   
4    AAD003   65281LKJ    GAYE   Saliou  Date de naissance   5iemeB   
..      ...        ...     ...      ...                ...      ...   
215  BNT021   GT3456YT    Diop   Sokhna           23/08/92  4 eme A   
216  BNT021   34FT768H   Dioum  Khoudia           12/09/95  6 eme B   
217  BNT021   45TGFD67    King     Kine           24/05/98  6 eme C   
218  BNT021   VFT34UYT   Fakha    Fatou           23/09/95  3 eme A   
219  BNT021   FTR3456G   Drame     Rama           12/03/92  5 eme B   

                                                  Note  
0    Math[11|13:06] #Francais[08|17:12] #Anglais[13...  
1    Math[05|13:05] #Francais[11|

In [30]:
#Détectons les codes doublés
code_duplicate = data.duplicated('CODE')
print(code_duplicate)

0      False
1       True
2       True
3       True
4       True
       ...  
215     True
216     True
217     True
218     True
219     True
Length: 220, dtype: bool


<p style = 'color : gray'>Par défaut, la première ligne observée d'un ensemble en double est considérée comme unique, mais chaque méthode dispose d'un keepparamètre pour spécifier les cibles à conserver.
<b style = 'color: pink'>keep='first'(par défaut) </b>: marquer/supprimer les doublons sauf la première occurrence.
<b style = 'color: pink'>keep='last' </b>: marquer / supprimer les doublons sauf la dernière occurrence.
<b style = 'color: pink'>keep=False </b>: marquer / supprimer tous les doublons.</p>

<p style = 'color: gray'>Maintenant supprimons avec drop_duplicates et comme <b style = 'color: pink'>keep='last' </b> </p>

In [31]:
delete_code_duplicate =data.drop_duplicates('CODE', keep='last')

print('Les données restantes après dectection et suppression des doublons sont : ', delete_code_duplicate)

Les données restantes après dectection et suppression des doublons sont :         CODE     Numero      Nom     Prénom Date de naissance   Classe  \
9    AAD003  2017ZEA5L    TOURE     Sokhna          23/04/14   3iemeC   
19   AAD004        NaN      NaN        NaN               NaN      NaN   
29   AAD005    M67KQV7   Correa     Albert          26/12/03     6emA   
39   AAD007    8YM0304  KIBINDA     Iniess          15/08/05   6 em A   
49    AAD22    GSQ3H84    Diouf      Wally          30/09/05   4eme c   
59   ABD009    RTGHSDG     Ndol      Gueye          30/09/06   5eme B   
69   ABN018    WORK246   Famara     Bodian          12/12/95   5eme F   
79   AFD006    2018JKH   NDIAYE      Zeyna          23/06/98    4èmeA   
89   AID011  201309OD3   NDIAYE      SALIF          26/06/96   4eme c   
99   AKH014    8987BHT    MBAYE       IBOU          03/01/00   3eme D   
109  ALT020    DF85FUJ    LABOU        Pon          17/06/02    5emeA   
119  AMB001    17329pp     LOUM     MOUSSA       

2. Gérer les valeurs manquantes : isna(), fillna(), dropna()


<h5><b style = 'color: red'> isna()</b> est utilé pour détecter les valeurs manquqntes </h5>

In [34]:
#Cherchons les lignes sans valeur
data.isna()

#la Colonne des Prénom vide
prenom_vide = data['Prénom'].isna()
print(prenom_vide)

0      False
1       True
2      False
3      False
4      False
       ...  
215    False
216    False
217    False
218    False
219    False
Name: Prénom, Length: 220, dtype: bool


<h5><b style = 'color: red'> dropna()</b> est utilé pour supprimer les lignes ou les colonnes avec des valeurs manquantes (NaN)</h5>
<h6 ><b style = 'color: pink'>df.dropna(how='all')</b> → supprime seulement les lignes entièrement vides.</h6>

<h6 ><b style = 'color: pink'>df.dropna(subset=['Âge'])</b> → supprime les lignes où Âge est manquant.</h6>



In [35]:
#Supprimons d'abord les lignes entièrement vides
data.dropna(how='all')

Unnamed: 0,CODE,Numero,Nom,Prénom,Date de naissance,Classe,Note
0,AAD003,2014079LH,CISSE,Baba,Date de naissance,6ieme A,Math[11|13:06] #Francais[08|17:12] #Anglais[13...
1,AAD003,2016023LD,NDIAYE,,Date de naissance,5ieme A,Math[05|13:05] #Francais[11|17:15] #Anglais[19...
2,AAD003,286325HG,GAYE,Awa,Date de naissance,3iemeA,Math[04|13:05] #Francais[15|06:11] #Anglais[15...
3,AAD003,201817JK,NDAO,Ndiaga,Date de naissance,6iemeB,Math[04|13:05] #Francais[15|16:14] #Anglais[15...
4,AAD003,65281LKJ,GAYE,Saliou,Date de naissance,5iemeB,Math[20|19.5:05] #Francais[13|16:14] #Anglais[...
...,...,...,...,...,...,...,...
215,BNT021,GT3456YT,Diop,Sokhna,23/08/92,4 eme A,SVT[10|08:09] #PC[11|14:17] #Francais[12|13:16...
216,BNT021,34FT768H,Dioum,Khoudia,12/09/95,6 eme B,SVT[00|12:12] #PC[10|15:17] #Francais[00|02:13...
217,BNT021,45TGFD67,King,Kine,24/05/98,6 eme C,SVT[12|20:19] #PC[10|12:10] #Francais[20|19:14...
218,BNT021,VFT34UYT,Fakha,Fatou,23/09/95,3 eme A,SVT[16|13:12] #PC[17|16:14] #Francais[20|15:18...


In [36]:
#Les lignes avec comme Prénom vides
data.dropna(subset=['Prénom']) 

Unnamed: 0,CODE,Numero,Nom,Prénom,Date de naissance,Classe,Note
0,AAD003,2014079LH,CISSE,Baba,Date de naissance,6ieme A,Math[11|13:06] #Francais[08|17:12] #Anglais[13...
2,AAD003,286325HG,GAYE,Awa,Date de naissance,3iemeA,Math[04|13:05] #Francais[15|06:11] #Anglais[15...
3,AAD003,201817JK,NDAO,Ndiaga,Date de naissance,6iemeB,Math[04|13:05] #Francais[15|16:14] #Anglais[15...
4,AAD003,65281LKJ,GAYE,Saliou,Date de naissance,5iemeB,Math[20|19.5:05] #Francais[13|16:14] #Anglais[...
5,AAD003,2007095KH,Ngadeu,Dinka,03/12/01,3iemeB,Math[12|13:15] #Francais[05|18:12] #Anglais[12...
...,...,...,...,...,...,...,...
215,BNT021,GT3456YT,Diop,Sokhna,23/08/92,4 eme A,SVT[10|08:09] #PC[11|14:17] #Francais[12|13:16...
216,BNT021,34FT768H,Dioum,Khoudia,12/09/95,6 eme B,SVT[00|12:12] #PC[10|15:17] #Francais[00|02:13...
217,BNT021,45TGFD67,King,Kine,24/05/98,6 eme C,SVT[12|20:19] #PC[10|12:10] #Francais[20|19:14...
218,BNT021,VFT34UYT,Fakha,Fatou,23/09/95,3 eme A,SVT[16|13:12] #PC[17|16:14] #Francais[20|15:18...


<h5><b style = 'color: red'> fiilna()</b> est utilé pour remplir ces valeurs manquqntes avec des valeur ou une méthode spécifiée </h5>
<h6 ><b style = 'color: pink'>df.fillna(method='ffill')</b> → remplit avec la valeur précédente (forward fill).</h6>

<h6 ><b style = 'color: pink'>df.fillna(method='bfill')</b> → remplit avec la valeur suivante (backward fill). </h6>

In [37]:
#remplaçons les prénoms vides par inconnu
data['Prénom'].fillna('Inconnue')

0          Baba
1      Inconnue
2           Awa
3        Ndiaga
4        Saliou
         ...   
215      Sokhna
216     Khoudia
217        Kine
218       Fatou
219        Rama
Name: Prénom, Length: 220, dtype: object

3. Modifier les types de colonnes (astype())


In [38]:
#regardonnons les types des colonnes avec .dtypes
print(data.dtypes)

CODE                 object
Numero               object
Nom                  object
Prénom               object
Date de naissance    object
Classe               object
Note                 object
dtype: object


In [39]:
#changeons le type de Nom en string
change_type = data['Nom'].astype('string')
change_type

0       CISSE
1      NDIAYE
2        GAYE
3        NDAO
4        GAYE
        ...  
215      Diop
216     Dioum
217      King
218     Fakha
219     Drame
Name: Nom, Length: 220, dtype: string

4. Renommer les colonnes (rename())


In [40]:
#renommons la colonne CODE en matricule et Prénom en Prenom
data.rename(columns={'CODE':'Matricule', 'Prénom':'Prenom'})

Unnamed: 0,Matricule,Numero,Nom,Prenom,Date de naissance,Classe,Note
0,AAD003,2014079LH,CISSE,Baba,Date de naissance,6ieme A,Math[11|13:06] #Francais[08|17:12] #Anglais[13...
1,AAD003,2016023LD,NDIAYE,,Date de naissance,5ieme A,Math[05|13:05] #Francais[11|17:15] #Anglais[19...
2,AAD003,286325HG,GAYE,Awa,Date de naissance,3iemeA,Math[04|13:05] #Francais[15|06:11] #Anglais[15...
3,AAD003,201817JK,NDAO,Ndiaga,Date de naissance,6iemeB,Math[04|13:05] #Francais[15|16:14] #Anglais[15...
4,AAD003,65281LKJ,GAYE,Saliou,Date de naissance,5iemeB,Math[20|19.5:05] #Francais[13|16:14] #Anglais[...
...,...,...,...,...,...,...,...
215,BNT021,GT3456YT,Diop,Sokhna,23/08/92,4 eme A,SVT[10|08:09] #PC[11|14:17] #Francais[12|13:16...
216,BNT021,34FT768H,Dioum,Khoudia,12/09/95,6 eme B,SVT[00|12:12] #PC[10|15:17] #Francais[00|02:13...
217,BNT021,45TGFD67,King,Kine,24/05/98,6 eme C,SVT[12|20:19] #PC[10|12:10] #Francais[20|19:14...
218,BNT021,VFT34UYT,Fakha,Fatou,23/09/95,3 eme A,SVT[16|13:12] #PC[17|16:14] #Francais[20|15:18...


À noter que la méthode rename ne modifie pas le data frame existant. Il existe cependant un argument pour cette méthode (et pour toutes les méthodes similaires) nommé  **inplace** , qu’il suffit de fixer à Vrai (**True** ) pour pallier cela. Ainsi,  **data.rename(columns={'CODE': 'Matricule'}, inplace=True)**  est strictement équivalent à  **data = data.rename(columns={'CODE': 'Matricule'})**  .


## **Partie 4** – Transformation et calculs


1. Créer une nouvelle colonne à partir d’une opération entre colonnes


In [41]:
#Prenons le dataframe voiture
df_voitures

Unnamed: 0,Marque,Modèle,Prix (£)
0,Audi,A4 e-tron,35000
1,Mercedes,Mercedes-AMG,42000
2,BMW,Set BMW i8,39000
3,Mitsubishi,ASX,37000
4,Hyndai,i20,25000


In [None]:
#Ajoutons Couleur entre modèle et prix
df_voitures.insert(loc=2, column='Couleur', value=['Black','White','Black','White','White'])

In [45]:
df_voitures

Unnamed: 0,Marque,Modèle,Couleur,Prix (£)
0,Audi,A4 e-tron,Black,35000
1,Mercedes,Mercedes-AMG,White,42000
2,BMW,Set BMW i8,Black,39000
3,Mitsubishi,ASX,White,37000
4,Hyndai,i20,White,25000


2. Appliquer une fonction à une colonne (apply(), lambda)


In [52]:
#Nous allons reduire les prix de 5% sur les voitures qui coutent plus de 30000
df_voitures['Prix (£)'] = df_voitures['Prix (£)'].apply(
    lambda prix: prix*0.95 if prix > 30000 else prix
)
df_voitures

Unnamed: 0,Marque,Modèle,Couleur,Prix (£)
0,Audi,A4 e-tron,Black,33250.0
1,Mercedes,Mercedes-AMG,White,39900.0
2,BMW,Set BMW i8,Black,37050.0
3,Mitsubishi,ASX,White,35150.0
4,Hyndai,i20,White,25000.0


3. Grouper les données par catégorie (groupby() + sum(), mean()...)


In [53]:
#Utilisons le fichier prets
print(df_prets)
#et la colonne ville et type pour calculer la somme total grouper par ville, type
df_prets.groupby(['ville','type']).sum()


     identifiant      ville     CP  revenu  remboursement  duree        type  \
0              0   TOULOUSE  31100  3669.0        1130.05    240  immobilier   
1              1      PARIS  75009  5310.0         240.00     64  automobile   
2              1      PARIS  75009  5310.0        1247.85    300  immobilier   
3              2  MARSEILLE  13010  1873.0         552.54    240  immobilier   
4              3  MARSEILLE  13010  1684.0         586.03    180  immobilier   
..           ...        ...    ...     ...            ...    ...         ...   
239          224      PARIS  75008  5118.0        1248.79    300  immobilier   
240          224      PARIS  75008  5118.0         238.20     25  automobile   
241          225   BORDEAUX  33100  2356.0         876.43    180  immobilier   
242          226      PARIS  75002  5098.0        2910.96    240  immobilier   
243          227      PARIS  75015  2348.0         434.38    300  immobilier   

      taux  
0    1.168  
1    3.701  


Unnamed: 0_level_0,Unnamed: 1_level_0,identifiant,CP,revenu,remboursement,duree,taux
ville,type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
BORDEAUX,immobilier,1718,531800,50816.0,15330.59,3660,18.767
LYON,automobile,360,207018,11531.0,788.8,131,10.083
LYON,immobilier,2473,1725116,83823.0,25275.87,6120,28.835
MARSEILLE,automobile,404,39031,5842.0,839.6,160,9.535
MARSEILLE,immobilier,7542,936701,140084.0,40056.12,16260,83.003
NICE,automobile,187,12300,7607.0,612.8,80,6.104
NICE,immobilier,2188,116800,77681.0,22931.44,4380,21.602
PARIS,automobile,612,375054,22834.0,1426.6,246,17.271
PARIS,immobilier,9237,5400965,312625.0,92626.01,16440,82.802
TOULOUSE,automobile,442,93400,7803.0,718.8,183,9.868


In [54]:
#La moyenne et la somme des revenues grouper par ville
df_prets.groupby('ville').agg({'revenu':['sum','mean']})

Unnamed: 0_level_0,revenu,revenu
Unnamed: 0_level_1,sum,mean
ville,Unnamed: 1_level_2,Unnamed: 2_level_2
BORDEAUX,50816.0,3176.0
LYON,95354.0,3405.5
MARSEILLE,145926.0,1945.68
NICE,85288.0,4061.333333
PARIS,335459.0,4356.61039
TOULOUSE,75617.0,2800.62963


Maintenant nous allons afficher la moyenne  sous forme de tableau : en lignes les villes, et en colonnes les différents types.

Pour cela,nous allons utiliser <b style = 'color: pink'>.pivot_table</b> qui prend 4 arguments: 
- **index** : variable placée en ligne (ville pour notre exemple);
- **columns** : variable placée en colonne (type pour notre exemple)
- **values** : variable sur laquelle on va appliquer la fonction 
- **aggfunc** : fonction de regroupement ( moyenne)

In [55]:
df_prets.pivot_table(index='ville', columns='type', values='revenu', aggfunc='mean')

type,automobile,immobilier
ville,Unnamed: 1_level_1,Unnamed: 2_level_1
BORDEAUX,,3176.0
LYON,3843.666667,3352.92
MARSEILLE,1947.333333,1945.611111
NICE,3803.5,4088.473684
PARIS,4566.8,4342.013889
TOULOUSE,2601.0,2825.583333


4. Trier les données par valeurs (sort_values())


In [56]:
#Nous allons trier les clients par ordre alphabétique
#Avant de trier nous avions :
fichier_csv

Unnamed: 0,identifiant,email,nom,genre
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,1,GuyMarois@fleckens.hu,Guy Marois,M
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,3,RussellDurand@armyspy.com,Russell Durand,M
4,4,AlexisRiel@rhyta.com,Alexis Riel,M
...,...,...,...,...
223,223,ClaudeDandonneau@jourrapide.com,Claude Dandonneau,F
224,224,ApollineMichaud@superrito.com,Apolline Michaud,F
225,225,PascalineBeaudry@rhyta.com,Pascaline Beaudry,F
226,226,FleurCaouette@jourrapide.com,Fleur Caouette,F


In [57]:
#Aprés trie
fichier_csv.sort_values(by=['nom'])

Unnamed: 0,identifiant,email,nom,genre
13,13,AcelineHughes@jourrapide.com,Aceline Hughes,F
135,135,AdelaideBrousse@gustr.com,Adelaide Brousse,F
189,189,AdeleClavette@cuvox.de,Adele Clavette,F
15,15,AgateGrandbois@gustr.com,Agate Grandbois,F
180,180,AgnesBriard@cuvox.de,Agnes Briard,F
...,...,...,...,...
64,64,YvetteDAvis@cuvox.de,Yvette D Avis,F
174,174,ZacharieDuplessis@rhyta.com,Zacharie Duplessis,M
100,100,ZdenekVadnais@superrito.com,Zdenek Vadnais,M
112,112,ZoeLeclair@gustr.com,Zoe Leclair,F



## **Partie 5** – Fusion, jointure et reshape


1. Fusionner deux DataFrames avec merge()


Il existe 2 méthode pour cela à savoir :
- via la fonction Pandas avec **pd.merge(A,B)**;
- via dataframe avec **A.merge(B)

In [58]:
#fusionnons le fichier client et prets 
client_pret = pd.merge(fichier_csv, df_prets, on='identifiant')
display(client_pret) 

Unnamed: 0,identifiant,email,nom,genre,ville,CP,revenu,remboursement,duree,type,taux
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M,TOULOUSE,31100,3669.0,1130.05,240,immobilier,1.168
1,1,GuyMarois@fleckens.hu,Guy Marois,M,PARIS,75009,5310.0,240.00,64,automobile,3.701
2,1,GuyMarois@fleckens.hu,Guy Marois,M,PARIS,75009,5310.0,1247.85,300,immobilier,1.173
3,2,BeaufortLesage@einrot.com,Beaufort Lesage,M,MARSEILLE,13010,1873.0,552.54,240,immobilier,0.972
4,3,RussellDurand@armyspy.com,Russell Durand,M,MARSEILLE,13010,1684.0,586.03,180,immobilier,1.014
...,...,...,...,...,...,...,...,...,...,...,...
239,224,ApollineMichaud@superrito.com,Apolline Michaud,F,PARIS,75008,5118.0,1248.79,300,immobilier,1.206
240,224,ApollineMichaud@superrito.com,Apolline Michaud,F,PARIS,75008,5118.0,238.20,25,automobile,3.423
241,225,PascalineBeaudry@rhyta.com,Pascaline Beaudry,F,BORDEAUX,33100,2356.0,876.43,180,immobilier,1.172
242,226,FleurCaouette@jourrapide.com,Fleur Caouette,F,PARIS,75002,5098.0,2910.96,240,immobilier,1.140


2. Concaténer avec concat() (horizontale et verticale)


In [59]:
#importons 2 fichiers différents contenant les clients
fichier_client_1 = pd.read_csv('https://raw.githubusercontent.com/OpenClassrooms-Student-Center/fr-4452741-decouvrez-les-librairies-python-pour-la-data-science/main/data/clients.csv')
#affichons les 5 premiers
fichier_client_1.head()

Unnamed: 0,identifiant,email,nom,genre
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,1,GuyMarois@fleckens.hu,Guy Marois,M
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,3,RussellDurand@armyspy.com,Russell Durand,M
4,4,AlexisRiel@rhyta.com,Alexis Riel,M


In [60]:
#importons le second
fichier_client_2 = pd.read_csv('https://raw.githubusercontent.com/OpenClassrooms-Student-Center/fr-4452741-decouvrez-les-librairies-python-pour-la-data-science/main/data/clients_suite.csv')
fichier_client_2.head()

Unnamed: 0,identifiant,email,nom,genre
0,150,RochMireault@gustr.com,Roch Mireault,M
1,151,NathalieCormier@cuvox.de,Nathalie Cormier,F
2,152,VallisMainville@gustr.com,Vallis Mainville,M
3,153,DanielleNeufville@teleworm.us,Danielle Neufville,F
4,154,AllyrianeRacine@gustr.com,Allyriane Racine,F


In [61]:
#Maintenant concaténons les
clients = pd.concat([fichier_client_1,fichier_client_2], ignore_index=True)
display(clients)

Unnamed: 0,identifiant,email,nom,genre
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,1,GuyMarois@fleckens.hu,Guy Marois,M
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,3,RussellDurand@armyspy.com,Russell Durand,M
4,4,AlexisRiel@rhyta.com,Alexis Riel,M
...,...,...,...,...
223,223,ClaudeDandonneau@jourrapide.com,Claude Dandonneau,F
224,224,ApollineMichaud@superrito.com,Apolline Michaud,F
225,225,PascalineBeaudry@rhyta.com,Pascaline Beaudry,F
226,226,FleurCaouette@jourrapide.com,Fleur Caouette,F


3. Transformer les données avec pivot(), melt()


<h5 style='color:gray'><b style = 'color: pink'>pivot</b> est une méthode pour remodeler les données,transformant les lignes en colonnes</h5>

In [62]:
#avec le fichier voitures
df_voitures

Unnamed: 0,Marque,Modèle,Couleur,Prix (£)
0,Audi,A4 e-tron,Black,33250.0
1,Mercedes,Mercedes-AMG,White,39900.0
2,BMW,Set BMW i8,Black,37050.0
3,Mitsubishi,ASX,White,35150.0
4,Hyndai,i20,White,25000.0


In [66]:
#Utilisons pivot pour voir
pivot_voiture = df_voitures.pivot(index='Marque', columns='Modèle', values='Prix (£)')
display(pivot_voiture)

Modèle,A4 e-tron,ASX,Mercedes-AMG,Set BMW i8,i20
Marque,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Audi,33250.0,,,,
BMW,,,,37050.0,
Hyndai,,,,,25000.0
Mercedes,,,39900.0,,
Mitsubishi,,35150.0,,,


<h5 style='color:gray'><b style = 'color: pink'>melt</b> permet de transformer un DataFrame de format large à format long. Elle convertit les colonnes en lignes</h5>


## **Partie 6** – Mini-challenge Pandas


Contexte : Analyse d’un jeu de données de ventes (clients, produits, commandes).


- Calculer le chiffre d’affaires total et par client


- Afficher les 5 meilleurs clients


- Calculer le panier moyen par commande


- Détecter les produits les moins vendus


- Produire un DataFrame final prêt à être visualisé