# Introduction à NumPy et Pandas

Dans son expression la plus simple, un jeu de données structurées est habituellement représenté par un tableau où les lignes correspondent aux exemplaires du jeu de données et les colonnes correspondent à leurs attributs respectifs. Les vecteurs et les matrices sont simplement la représentation mathématiques des listes et des tableaux, utilisés par les chercheurs et les ordinateurs pour réaliser des calculs avec les données. Enfin, NumPy et Pandas sont des bibliothèque du langage python qui permettent respectivement des opérations optimisées sur ces structures de données et le chargement en mémoire de grandes quantités de données sous forme de tableaux 2D.

## Premier contact avec NumPy

NumPy est une bibliothèque Python libre et ouverte utilisée pour les calculs scientifiques avec des données structurées sous la forme de listes et de tableaux. Essentiellement basé sur la notion de matrices, NumPy est performant et super utile pour l'analyse des données et les calculs mathématiques, par exemple en facilitant des opérations d'accès aux données, de remodelage des structures, ou de substitution des valeurs.

La notion fondamentale à retenir avec NumPy est que les matrices ne sont pas compliquées. **Pour NumPy, les matrices sont essentiellement des "tableaux de tableaux", c'est tout.**


### Création de tableaux

In [None]:
#Importation de la librairie Numpy.
import numpy as np
print("Bibliothèques NumPy importées")

Bibliothèques NumPy importées


In [None]:
#Créer une liste.
a = np.array([1,2,3])

#Caractéristiques de la liste : son contenu, son type et sa forme.
#Il s'agit d'un tableau à une dimension (une liste) contenant les trois entiers 1, 2 et 3.
print(a)
print(a.shape)

[1 2 3]
(3,)


In [None]:
#Créer un tableau à deux dimensions (une matrice).
b = np.array([[0,2,4],[1,3,5]])

#Caractéristiques du tableau : son contenu, son type et sa forme.
#Il s'agit d'un tableau à deux dimensions contenant deux tableaux (les 'lignes') contenant chacune trois entiers (les 'colonnes').
print(b)
print(b.shape)

[[0 2 4]
 [1 3 5]]
(2, 3)


In [None]:
#Les principaux attributs d'une matrice NumPy sont :
#le nombre de dimensions : ndim
#la forme : shape
#le nombre d'éléments : size
#le type des éléments : dtype
#la taille en octets (bytes) des éléments : itemsize
print("Le nombre de dimensions: ", b.ndim)
print("La forme: ", b.shape)
print("Le nombre d'éléments: ", b.size)
print("Le type des éléments: ", b.dtype)
print("La taille des éléments: ", b.itemsize)

Le nombre de dimensions:  2
La forme:  (2, 3)
Le nombre d'éléments:  6
Le type des éléments:  int64
La taille des éléments:  8


### Le fameux « trancher et découper » de Python (en anglais, « <i>slice and dice</i> »)

La manière d'accéder aux valeurs dans les tableaux NumPy est souvent appelée *trancher et découper*, inspirée par l'idée d'un chef culinaire qui trancherait dans les structures de données avec vitesse, précision et dextérité pour extraire seulement et exactement la tranche de données qu'il désire.

* La position des indices dans un appel de tableau correspond aux dimensions auxquelles on souhaite accéder.
 * Par exemble, seulement appeler b[0] permet d'accéder au premier exemplaire de la première dimension, équivalent à demander "la première rangée".
 *Appeler b[0,0] permet d'accéder à la valeur présente à l'indice 0 dans la première dimension, à l'indice 0 dans la seconde dimension, équivalent à demander "la valeur dans la première rangée, première colonne".
 *Appeler b[:,0] permet d'accéder au premier exemplaire de la seconde dimension, soit demander "la première colonne".
* Le premier niveau d'indices à partir de 0 dans une matrice correspond aux rangées. L'indice 0 correspond à la première rangée, 1 à la seconde rangée, etc. Le second niveau correspond aux colonnes. Enfin, il peut y avoir plus de deux niveaux si la structure de données a plus de deux dimensions.
* Le symbole ":" correspond à l'ensemble des éléments pour une dimension donnée. Il peut être accompagné de délimiteurs sous la forme "x:y", où x est l'indice à partir duquel accéder aux éléments et y est le premier indice à ne pas prendre en compte.
 * Par exemple, b[:,0:2] retourne la première et la seconde valeur pour toutes les rangées, mais pas la troisième.


In [None]:
#Accéder à une matrice.
print("Toute la matrice")
print(b)
print()
print("Aussi toute la matrice, équivalent à demander toute les rangées")
print(b[:])
print()
print("Aussi toute la matrice, équivalent à demander toute les colonnes de toutes les rangées")
print(b[:,:])

Toute la matrice
[[0 2 4]
 [1 3 5]]

Aussi toute la matrice, équivalent às demander toute les rangées
[[0 2 4]
 [1 3 5]]

Aussi toute la matrice, équivalent à demander toute les colonnes de toutes les rangées
[[0 2 4]
 [1 3 5]]


In [None]:
#Accéder à la première rangée d'une matrice.
print("La première rangée")
print(b[0])
print()

#Accéder à la seconde rangée d'une matrice.
print("La seconde rangée")
print(b[1])

La première rangée
[0 2 4]

La seconde rangée
[1 3 5]


In [None]:
#Accéder à la première colonne d'une matrice.
print("La première colonne")
print(b[:,0])
print()

#Accéder à la seconde colonne ds'une matrice.
print("La seconde colonne")
print(b[:,1])
print()

#Accéder à la troisième colonne ds'une matrice.
print("La troisième colonne")
print(b[:,2])

La première colonne
[0 1]

La seconde colonne
[2 3]

La troisième colonne
[4 5]


In [None]:
#Accéder à l'élément de la seconde rangéer, seconde colonne.
print("Valeur à la seconde rangée, seconde colonne")
print(b[1,1])
print()

#Accéder aux deux premiers éléments de la première rangée.
print("Les deux premières valeurs de la première rangée")
print(b[0,0:2])
print()

#Accéder aux deux premiers éléments de toutes les rangées.
print("Les deux premières valeurs de toutes les rangées")
print(b[:,0:2])
print()

#Accéder à des valeurs selon une liste d'indices prédéfinie.
indices = [1,2]
print("Les colonnes aux indices 1 et 2")
print(b[:, indices])

Valeur à la seconde rangée, seconde colonne
3

Les deux premières valeurs de la première rangée
[0 2]

Les deux premières valeurs de toutes les rangées
[[0 2]
 [1 3]]

Les colonnes aux indices 1 et 2
[[2 4]
 [3 5]]


### Opérations sur les matrices

In [None]:
#L'ensemble des données dans une matrice peuvent être multipliées par une valeur scalaire.
c = b * 0.5
print(c)
print(c.dtype)
print(c.shape)

[[0.  1.  2. ]
 [0.5 1.5 2.5]]
float64
(2, 3)


In [None]:
#Les matrices peuvent également être additionnées entre elles (addition de chaque élément correspondant à l'intérieur de la matrice).
d = b + b
print(d)
print (d.dtype)
print(d.shape)

[[ 0  4  8]
 [ 2  6 10]]
int64
(2, 3)


In [None]:
#On peu réaliser des opérations statistiques sur les matrices, comme la somme ou la moyenne.
print(d.sum())
print(d.mean())

30
5.0


In [None]:
#Ces opérations peuvent aussi être réalisées sur les axes (rangées, colonnes) de la matrice.
#L'axe 0 correspond à la somme pour chaque colonne (le plus fréquent, car il correspond à la somme totale de chaque attribut).
print("Somme totale pour chaque colonne")
print(d.sum(axis=0))
print()
print("Moyenne pour chaque colonne")
print(d.mean(axis=0))
print()

#L'axe 1 correspond à la somme pour chaque rangée (moins fréquent, car moins de raison d'additionner les différents attributs d'un exemplaire).
print("Somme totale pour chaque rangée")
print(d.sum(axis=1))
print()
print("Moyenne pour chaque rangée")
print(d.mean(axis=1))
print()

Somme totale pour chaque colonne
[ 2 10 18]

Moyenne pour chaque colonne
[1. 5. 9.]

Somme totale pour chaque rangée
[12 18]

Moyenne pour chaque rangée
[4. 6.]



In [None]:
#On peut aussi faire le produit scalaire ('dot product') ou la multiplication matricielle de deux matrices.
print("Exemple de multiplication scalaire")
print(np.dot(a,a))
print()

print("Exemple de multiplication matricielle")
e = np.array([[1,2],[3,4]])
f = np.array([[11,12],[13,14]])
print(np.dot(e,f))



Exemple de multiplication scalaire
14

Exemple de multiplication matricielle
[[37 40]
 [85 92]]


In [None]:
#On peut créer des matrices à partir de listes, et vice versa.
#La méthode .arange permet de générer "une portée" de la longueur spécifiée.
#(elle accepte aussi des paramètres supplémentaires comme la valeur de départ ou le pas).
print("Liste de 12 entiers à partir de 0")
g = np.arange(12)
print(g)
print()

#On peut affecter des valeurs.
print("Affectation de la valeur 0 à toutes les positions à partir de l'indice 5")
g[5:] = 0
print(g)
print()

#On peut par exemple modifier les dimensions de la liste 1x12 pour en faire une matrice 3x4...
print("Remodelage de la liste de 12 éléments en matrice 3x4 de 12 éléments")
h = g.reshape(3,4)
print(h)
print()

#Ou aplatir une matrice en liste.
print("Remodelage de la matrice 3x4 de 12 éléments en liste de 12 éléments")
i = h.reshape(12)
print(i)
print()

#Ou concaténer plusieurs listes.
print("Concaténation d'une liste de 12 éléments et d'une liste de 3 éléments")
j = np.concatenate([g,a])
print(j)
print(j.size)
print()

#Ou empiler plusieurs matrices verticalement ou horizontalement.
print("Empilage vertical")
print(np.vstack([a,b,d]))
print()
print("Empilage horizontal")
print(np.hstack([b,d]))
print()

Liste de 12 entiers à partir de 0
[ 0  1  2  3  4  5  6  7  8  9 10 11]

Affectation de la valeur 0 à partir de l'indice 5
[0 1 2 3 4 0 0 0 0 0 0 0]

Remodelage de la liste de 12 éléments en matrice 3x4 de 12 éléments
[[0 1 2 3]
 [4 0 0 0]
 [0 0 0 0]]

Remodelage de la matrice 3x4 de 12 éléments en liste de 12 éléments
[0 1 2 3 4 0 0 0 0 0 0 0]

Concaténation d'une liste de 12 éléments et d'une liste de 3 éléments
[0 1 2 3 4 0 0 0 0 0 0 0 1 2 3]
15

Empilage vertical
[[ 1  2  3]
 [ 0  2  4]
 [ 1  3  5]
 [ 0  4  8]
 [ 2  6 10]]

Empilage horizontal
[[ 0  2  4  0  4  8]
 [ 1  3  5  2  6 10]]



## Premier contact avec Pandas

Pandas est une bibliothèque Python libre et ouverte conçue pour manipuler des données contenues dans un tableau 2D de type tableur (DataFRame) ou chaque ligne du tableau représente un exemplaire de la donnée et chaque colonne un attribut de la donnée.

### Chargement rapide d'un tableau de données

L'exemple suivant charge un tableau décrivant les caractéristiques de 205 différents modèles de voitures.

Il compte trois types d'entités:
(a) la spécification d'une automobile en termes de diverses caractéristiques; (b) sa cote de risque d'assurance attribuée;
(c) ses pertes normalisées par rapport aux autres voitures.

La cote de risque correspond au degré auquel l'automobile est plus risquée que son prix ne l'indique. Les voitures reçoivent initialement une cote de facteur de risque associée à leur prix. Ensuite, selon le risque avéré, cette cote est ajustée vers le haut (ou vers le bas) de l'échelle. Les actuaires appellent cela processus "symbolisation". Une valeur de +3 indique que l'auto est risquée, -3 qu'elle est probablement assez sûre.

Le troisième facteur est le paiement de sinistre moyen relatif par année assurée du véhicule. Cette valeur est normalisée pour toutes les voitures dans une catégorie de taille donnée (petits deux portes, break, sports / spécialité, etc.), et représente la perte moyenne par voiture par an.

In [None]:
#Importation de la librairie Pandas.
import pandas as pd
print("Bibliothèques Pandas importées")

Bibliothèques Pandas importées


In [None]:
# Commande Linux wget pour télécharger un fichier è partir de son URL.
! wget https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data
print("Données Iris téléchargées")

--2021-03-10 16:22:47--  https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data
Resolving archive.ics.uci.edu (archive.ics.uci.edu)... 128.195.10.252
Connecting to archive.ics.uci.edu (archive.ics.uci.edu)|128.195.10.252|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 25936 (25K) [application/x-httpd-php]
Saving to: ‘imports-85.data.1’


2021-03-10 16:22:48 (863 KB/s) - ‘imports-85.data.1’ saved [25936/25936]

Données Iris téléchargées


In [None]:
#Création d'une liste de noms d'attributs en français pour les colonnes.
attributs = ["cote",
             "perte",
             "constructeur",
             "combustible",
             "aspiration",
             "portes",
             "carosserie",
             "roues_motrices",
             "position_moteur",
             "base_roues",
             "longueur",
             "largeur",
             "hauteur",
             "poids",
             "type_moteur",
             "cylindres",
             "taille_moteur",
             "système_combustible",
             "diamètre_cylindres",
             "course_piston",
             "ratio_compression",
             "chevaux",
             "RPM_nominal",
             "miles_par_gallon_ville",
             "miles_par_gallon_autoroute",
             "prix"]

#Lecture du fichier csv téléchargé pour le transféréer dans un Dataframe Pandas et lui appliquer nos noms d'attributs comme entêtes de colonnes.
df = pd.read_csv("./imports-85.data", names=attributs)
print("Données Automobiles lues et mémorisées dans la variable 'df'")

#Affichage des cinq premiers spécimens du tableau (méthode .head()) pour valider que ça a marché.
df.head()

Données Automobiles lues et mémorisées dans la variable 'df'


Unnamed: 0,cote,perte,constructeur,combustible,aspiration,portes,carosserie,roues_motrices,position_moteur,base_roues,longueur,largeur,hauteur,poids,type_moteur,cylindres,taille_moteur,système_combustible,diamètre_cylindres,course_piston,ratio_compression,chevaux,RPM_nominal,miles_par_gallon_ville,miles_par_gallon_autoroute,prix
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,171.2,65.5,52.4,2823,ohcv,six,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,176.6,66.2,54.3,2337,ohc,four,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,176.6,66.4,54.3,2824,ohc,five,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


In [None]:
#Voyons voir de quoi à l'air notre jeu de données.
#On devrait avoir 205 voitures décrites par 26 attributs.
print("Le nombre de lignes (les modèles de voitures) et le nombre de colonnes (leurs attributs) : ", df.shape)
print("Seulement le nombre d'entrées : ", len(df))
print("Seulement le nombre de colonnes : ", len(df.columns))

Le nombre de lignes (les modèles de voitures) et le nombre de colonnes (leurs attributs) :  (205, 26)
Seulement le nombre d'entrées :  205
Seulement le nombre de colonnes :  26


In [None]:
#Voyons voir un récapitulatif plus formel avec la méthode .info().
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   cote                        205 non-null    int64  
 1   perte                       205 non-null    object 
 2   constructeur                205 non-null    object 
 3   combustible                 205 non-null    object 
 4   aspiration                  205 non-null    object 
 5   portes                      205 non-null    object 
 6   carosserie                  205 non-null    object 
 7   roues_motrices              205 non-null    object 
 8   position_moteur             205 non-null    object 
 9   base_roues                  205 non-null    float64
 10  longueur                    205 non-null    float64
 11  largeur                     205 non-null    float64
 12  hauteur                     205 non-null    float64
 13  poids                       205 non

### Préparation et nettoyage des données

La préparation des données représente typiquement environ 80% du travail. Il s'agit d'explorer nos données pour identifier et corriger, par exemple :

* Les valeurs manquantes.
* Les valeurs de mauvais type.
* Les valeurs représentant des catégories auxquelles appliquer une valeur numérique.
* Les attributs superflus ou qui pourraient être consolidés.

#### Attributs superflus

Admettons que nous n'ayons pas l'intention de travailler avec certains attributs...

In [None]:
#On peut éliminer certains attributs avec la méthode .drop().
df.drop(columns = ['base_roues', 'taille_moteur', 'diamètre_cylindres', 'course_piston', 'ratio_compression', 'RPM_nominal', 'miles_par_gallon_ville', 'miles_par_gallon_autoroute'], inplace=True, errors='ignore')
df.head()

Unnamed: 0,cote,perte,constructeur,combustible,aspiration,portes,carosserie,roues_motrices,position_moteur,longueur,largeur,hauteur,poids,type_moteur,cylindres,système_combustible,chevaux,prix
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,168.8,64.1,48.8,2548,dohc,four,mpfi,111,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,168.8,64.1,48.8,2548,dohc,four,mpfi,111,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,171.2,65.5,52.4,2823,ohcv,six,mpfi,154,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,176.6,66.2,54.3,2337,ohc,four,mpfi,102,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,176.6,66.4,54.3,2824,ohc,five,mpfi,115,17450


#### Données aberrantes

On peut aussi noter une anomalie intéressante grâce à la méthode .info() exécutée plus haut : plusieurs des attributs qui devraient être numériques (la perte normalisée, le prix, etc.) on un type "objet" qui nous empêcherait de réaliser des calculs avec eux. Pourtant, l'intuition nous dit que ces données devraient être des chiffres. Qu'est-ce qui cloche? Il faut investiguer et corriger ça. Commençons par le prix.

In [None]:
#De quoi ont l'air les valeurs de la catégorie "prix"?
#On peut accéder à nos colonnes par leur nom et on peut lister les valeurs uniques.
#On se rend compte qu'on a un intru sous la forme d'un "?" dans la liste.
print(df['prix'].unique())
print()

#On peut émettre la supposition réfléchie que les gens qui ont composé le jeu de données on peut être utilisé "?" quand une donnée était inconnue pour un modèle de voiture.
#Combien avont nous de prix inconnus? Utilisons un filtre pour le savoir. Apparemment, il y en a quatre.
print("Les entrées où la valeur de 'prix' est '?':")
df[df['prix'] == "?"]

['13495' '16500' '13950' '17450' '15250' '17710' '18920' '23875' '?'
 '16430' '16925' '20970' '21105' '24565' '30760' '41315' '36880' '5151'
 '6295' '6575' '5572' '6377' '7957' '6229' '6692' '7609' '8558' '8921'
 '12964' '6479' '6855' '5399' '6529' '7129' '7295' '7895' '9095' '8845'
 '10295' '12945' '10345' '6785' '11048' '32250' '35550' '36000' '5195'
 '6095' '6795' '6695' '7395' '10945' '11845' '13645' '15645' '8495'
 '10595' '10245' '10795' '11245' '18280' '18344' '25552' '28248' '28176'
 '31600' '34184' '35056' '40960' '45400' '16503' '5389' '6189' '6669'
 '7689' '9959' '8499' '12629' '14869' '14489' '6989' '8189' '9279' '5499'
 '7099' '6649' '6849' '7349' '7299' '7799' '7499' '7999' '8249' '8949'
 '9549' '13499' '14399' '17199' '19699' '18399' '11900' '13200' '12440'
 '13860' '15580' '16900' '16695' '17075' '16630' '17950' '18150' '12764'
 '22018' '32528' '34028' '37028' '9295' '9895' '11850' '12170' '15040'
 '15510' '18620' '5118' '7053' '7603' '7126' '7775' '9960' '9233' '11259'

Unnamed: 0,cote,perte,constructeur,combustible,aspiration,portes,carosserie,roues_motrices,position_moteur,longueur,largeur,hauteur,poids,type_moteur,cylindres,système_combustible,chevaux,prix
9,0,?,audi,gas,turbo,two,hatchback,4wd,front,178.2,67.9,52.0,3053,ohc,five,mpfi,160,?
44,1,?,isuzu,gas,std,two,sedan,fwd,front,155.9,63.6,52.0,1874,ohc,four,2bbl,70,?
45,0,?,isuzu,gas,std,four,sedan,fwd,front,155.9,63.6,52.0,1909,ohc,four,2bbl,70,?
129,1,?,porsche,gas,std,two,hatchback,rwd,front,175.7,72.3,50.5,3366,dohcv,eight,mpfi,288,?


In [None]:
#Nous devrions penser à une stratégie pour remplacer ces valeurs inconnues.
#Une approche est de remplacer la valeur inconnue d'un attribut par la valeur moyenne ou le mode de cet attribut.
#Une autre serait de retirer les spécimens présentant une valeur inconnue, ce que nous allons faire.
#Nous pouvons obtenir les indices des modèles à éjecter avec la propriété .index appliquée au filtre.
indices = df[df['prix'] == "?"].index
df.drop(indices, inplace=True)

#Une fois les entrées indésirables supprimées, il serait bien de remettre le type de cette colonne à un type numérique.
df['prix'] = df['prix'].apply(pd.to_numeric)

#Il reste bien 201 voitures et le prix est maintenant numérique.
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 201 entries, 0 to 204
Data columns (total 18 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   cote                 201 non-null    int64  
 1   perte                201 non-null    object 
 2   constructeur         201 non-null    object 
 3   combustible          201 non-null    object 
 4   aspiration           201 non-null    object 
 5   portes               201 non-null    object 
 6   carosserie           201 non-null    object 
 7   roues_motrices       201 non-null    object 
 8   position_moteur      201 non-null    object 
 9   longueur             201 non-null    float64
 10  largeur              201 non-null    float64
 11  hauteur              201 non-null    float64
 12  poids                201 non-null    int64  
 13  type_moteur          201 non-null    object 
 14  cylindres            201 non-null    object 
 15  système_combustible  201 non-null    obj

In [None]:
#Maintenant, vérifions où il reste des attributs manquants. Prenons pour acquis que le "?" a été utilisé systématiquement par les chercheurs.
#Les attributs perte, portes et chevaux contiennent toujours des valeurs inconnues.
df[df == "?"].count()

cote                    0
perte                  37
constructeur            0
combustible             0
aspiration              0
portes                  2
carosserie              0
roues_motrices          0
position_moteur         0
longueur                0
largeur                 0
hauteur                 0
poids                   0
type_moteur             0
cylindres               0
système_combustible     0
chevaux                 2
prix                    0
dtype: int64

In [None]:
#On peut s'en débarasser eux aussi

#Mais au lieu d'éliminer les pertes et les chevaux inconnus, remplaçons-les par la moyenne.
#Cette fois-ci, pour pouvoir la calculer, il faut qu'un type numérique soit assigné à la colonne en premier.
#L'argument errors='coerce' force la conversion des valeurs non numériques en NaN au lieu de générer une erreur.
#La méthode .mean() ignore automatiquement les NaN.
df['perte'] = df['perte'].apply(pd.to_numeric, errors='coerce')
perte_moyenne = df['perte'].mean()

df['chevaux'] = df['chevaux'].apply(pd.to_numeric, errors='coerce')
chevaux_moyenne = df['chevaux'].mean()

#La méthode .fillna() permet de remplacer les "?" transformés en NaN par notre moyenne calculée.
df['perte'].fillna(perte_moyenne, inplace=True)
df['chevaux'].fillna(chevaux_moyenne, inplace=True)

#Pour les portes, remplaçons les par le mode, qui peut être calculé même sur un type objet.
#On utilise la méthode .replace()
portes_mode = df['portes'].mode()
df['portes'] = df['portes'].replace(["?"], portes_mode)

In [None]:
#Tout à l'air bon côté info
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 201 entries, 0 to 204
Data columns (total 18 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   cote                 201 non-null    int64  
 1   perte                201 non-null    float64
 2   constructeur         201 non-null    object 
 3   combustible          201 non-null    object 
 4   aspiration           201 non-null    object 
 5   portes               201 non-null    object 
 6   carosserie           201 non-null    object 
 7   roues_motrices       201 non-null    object 
 8   position_moteur      201 non-null    object 
 9   longueur             201 non-null    float64
 10  largeur              201 non-null    float64
 11  hauteur              201 non-null    float64
 12  poids                201 non-null    int64  
 13  type_moteur          201 non-null    object 
 14  cylindres            201 non-null    object 
 15  système_combustible  201 non-null    obj

*Note: Normalement, dans un contexte d'apprentissage machine les données d'un jeu de données ne devraient jamais être substituées avant de diviser le jeu en ensembles d'entraînement et de test. Remplacer des données par la moyenne du jeu complet signifie en effet contaminer le jeu de test avec des valeurs dérivées en partie du jeu d'entraînement... On le fait quand même ici pour simplifier la démonstration.*

#### Ajouter une nouvelle donnée

Admettons que nous désirions ajouter une colonne de prix en argent canadien...

In [None]:
#On peu calculer le prix en argent canadien à partir du prix original et du taux de change.
#On peut ajouter des colonnes arbitraires à un Dataframe existant simplement en assignant une série à une colonne d'un nom inexistant.
prix_CAD = df['prix'] * 1.25
df['prix_CAD'] = prix_CAD.astype('int64')
df.head()

Unnamed: 0,cote,perte,constructeur,combustible,aspiration,portes,carosserie,roues_motrices,position_moteur,longueur,largeur,hauteur,poids,type_moteur,cylindres,système_combustible,chevaux,prix,prix_CAD
0,3,122.0,alfa-romero,gas,std,two,convertible,rwd,front,168.8,64.1,48.8,2548,dohc,four,mpfi,111.0,13495,16868
1,3,122.0,alfa-romero,gas,std,two,convertible,rwd,front,168.8,64.1,48.8,2548,dohc,four,mpfi,111.0,16500,20625
2,1,122.0,alfa-romero,gas,std,two,hatchback,rwd,front,171.2,65.5,52.4,2823,ohcv,six,mpfi,154.0,16500,20625
3,2,164.0,audi,gas,std,four,sedan,fwd,front,176.6,66.2,54.3,2337,ohc,four,mpfi,102.0,13950,17437
4,2,164.0,audi,gas,std,four,sedan,4wd,front,176.6,66.4,54.3,2824,ohc,five,mpfi,115.0,17450,21812


### Passer d'un Dataframe à une matrice NumPy

In [None]:
#Oui, on peut convertir un Dataframe en matrice NumPy.
df_to_numpy = df.to_numpy()
print(df_to_numpy)

[[3 122.0 'alfa-romero' ... 111.0 13495 16868]
 [3 122.0 'alfa-romero' ... 111.0 16500 20625]
 [1 122.0 'alfa-romero' ... 154.0 16500 20625]
 ...
 [-1 95.0 'volvo' ... 134.0 21485 26856]
 [-1 95.0 'volvo' ... 106.0 22470 28087]
 [-1 95.0 'volvo' ... 114.0 22625 28281]]


In [None]:
#Et l'inverse. Malheureusement, il faut réattribuer les noms des attributs
colonnes = df.columns
numpy_to_df = pd.DataFrame(df_to_numpy, columns=colonnes)
numpy_to_df.head()

Unnamed: 0,cote,perte,constructeur,combustible,aspiration,portes,carosserie,roues_motrices,position_moteur,longueur,largeur,hauteur,poids,type_moteur,cylindres,système_combustible,chevaux,prix,prix_CAD
0,3,122,alfa-romero,gas,std,two,convertible,rwd,front,168.8,64.1,48.8,2548,dohc,four,mpfi,111,13495,16868
1,3,122,alfa-romero,gas,std,two,convertible,rwd,front,168.8,64.1,48.8,2548,dohc,four,mpfi,111,16500,20625
2,1,122,alfa-romero,gas,std,two,hatchback,rwd,front,171.2,65.5,52.4,2823,ohcv,six,mpfi,154,16500,20625
3,2,164,audi,gas,std,four,sedan,fwd,front,176.6,66.2,54.3,2337,ohc,four,mpfi,102,13950,17437
4,2,164,audi,gas,std,four,sedan,4wd,front,176.6,66.4,54.3,2824,ohc,five,mpfi,115,17450,21812


Félicitations! Vous savez maintenant charger, examiner et charcuter les tableaux de données!