Introduction
Le prétraitement des données est une technique d’exploitation de données brutes qui consiste à transformer ces dernières en un format compréhensible. Sachant que les données du monde réel sont dans la plupart des cas incomplètes, incohérentes ou dépourvues de certaines tendances, le prétraitement de celles-ci est une méthode certaine pour résoudre ces problèmes ainsi que de nombreuses erreurs susceptibles d’exister dans ces données.

Des données incomplètes c’est à dire qu’elles manquent de valeurs d’attributs, d’attributs intéressants ou ne contiennent que des données agrégées. Ainsi, avoir des données bruyantes est équivalent à dire que ces données contiennent des erreurs ou des valeurs aberrantes. Enfin, les données incohérentes sont des données contenant des divergences dans les codes ou les noms.

Le prétraitement des données pour l’apprentissage automatique consiste à suivre les étapes suivantes :

Étape 1 : Importation des bibliothèques ;
Étape 2 : Importation de la dataset en question ;
Étape 3 : Vérification des valeurs manquantes ;
Étape 4 : Vérification des valeurs catégorielles ;
Étape 5 : Fractionnement de l’ensemble de données ;
Étape 6 : Mise à l’échelle des caractéristiques.

1. Importation des bibliothèques
Les bibliothèques fondamentales dont on aura besoin sont les suivantes :

In [2]:
import numpy as np
import pandas as pd

NumPy (Numerical Python) est la première bibliothèque à connaitre si vous utilisez Python pour des domaines qui touchent aux mathématiques. Elle est une extension fondamentale de Python qui permet de faire du calcul scientifique en Python. Cette bibliothèque contient :

L’objet de type tableau à N dimension ;
Des fonctions sophistiquées ;
Des outils pour l’intégration du code C/C++ et Fortran ;
Des utilités d’algèbre linéaire, de transformée de Fourier et de nombres aléatoires.
Pandas est une bibliothèque open source, sous licence BSD, de Python qui permet la manipulation et l’analyse des données à travers des DataFrames qui correspondent à des matrices d’individus qui représentent des observations (lignes) et de variables qui sont des attributs décrivant les individus (colonnes). À partir de ces DataFrames, on peut facilement tracer des graphes à l’aide de la bibliothèque matplotlib.

2. Importation de la dataset
En utilisant la bibliothèque Pandas, on importe la dataset qui est dans l’exemple ci-après sous format CSV. Il n’est pas toujours le cas que ça soit sous ce format, il se peut que l’ensemble de données soit un fichier html, Excel ou Xlsx.

Remarque :

L’utilisation des fichiers de type CSV est dû à leur faible poids.

Exemple 1 :

Nous importons en DataFrame l’ensemble de données « food-consumption » qui est une dataset relative à la consommation de certains produits alimentaires dans les pays européens et scandinaves, les chiffres représentent le pourcentage de la population qui consomme ce type d’aliment.

Et on affiche les cinq premiers enregistrements de cette dataset en utilisant la fonction head(), afin de vérifier rapidement si l’objet contient le bon type de donnée.

In [3]:
df = pd.read_csv('food-consumption.csv')
df.head()

Unnamed: 0,Country,Real coffee,Instant coffee,Tea,Sweetener,Biscuits,Powder soup,Tin soup,Potatoes,Frozen fish,...,Apples,Oranges,Tinned fruit,Jam,Garlic,Butter,Margarine,Olive oil,Yoghurt,Crisp bread
0,Germany,90,49,88,19.0,57.0,51,19,21,27,...,81,75,44,71,22,91,85,74,30.0,26
1,Italy,82,10,60,2.0,55.0,41,3,2,4,...,67,71,9,46,80,66,24,94,5.0,18
2,France,88,42,63,4.0,76.0,53,11,23,11,...,87,84,40,45,88,94,47,36,57.0,3
3,Holland,96,62,98,32.0,62.0,67,43,7,14,...,83,89,61,81,15,31,97,13,53.0,15
4,Belgium,94,38,48,11.0,74.0,37,23,9,13,...,76,76,42,57,29,84,80,83,20.0,5


3. Vérification des valeurs manquantes
Les valeurs manquantes en statistique sont relatives au cas lorsqu’une variable donnée n’a pas d’observations pour un certain individu. Lors de l’analyse statistique, les valeurs manquantes ne peuvent pas être ignorées. Cependant, si ces données ne sont pas traitées correctement, le chercheur peut tirer des conclusions inexactes sur les données.

Exemple 2 :

Nous affichons ci-dessous le nombre de valeurs manquantes pour chaque colonne de l’ensemble de données.

In [4]:
df.isnull().sum()

Country           0
Real coffee       0
Instant coffee    0
Tea               0
Sweetener         1
Biscuits          1
Powder soup       0
Tin soup          0
Potatoes          0
Frozen fish       0
Frozen veggies    0
Apples            0
Oranges           0
Tinned fruit      0
Jam               0
Garlic            0
Butter            0
Margarine         0
Olive oil         0
Yoghurt           1
Crisp bread       0
dtype: int64

Nous nous intéresserons lors de ce tutoriel à deux méthodes jugées les plus importantes pour résoudre le problème des valeurs manquantes :

La première méthode consiste à : soit supprimer une ligne particulière contenant une valeur manquante pour une caractéristique donnée, soit supprimer toute une colonne si elle comporte plus de 75% de valeurs manquantes. Cette méthode est recommandée lorsqu’il y a suffisamment d’échantillons dans la dataset. Il faut s’assurer que la suppression de données n’impactera pas les résultats finaux.
La deuxième méthode s’applique aux éléments contenant les données numériques où les valeurs manquantes peuvent être remplacées par la moyenne, la médiane ou le mode de l’élément en question. Cette méthode donne un meilleur résultat comparant à la première méthode parce qu’il s’agit d’une approximation statistique qui peut ajouter de la variance à l’ensemble de données. On peut aussi approximer avec l’écart des valeurs voisines si les données sont linéaires.
Exemple 3 :

Méthode 1 :

On retourne les dimensions du dataframe df à l’aide de l’attribut de pandas shape.

In [5]:
df.shape

(16, 21)

À l’aide de la fonction dropna(), on supprime toutes les valeurs manquantes de notre ensemble de données. Ensuite, en faisant appel aux deux fonctions isnull() et sum(), on retourne la somme des valeurs manquantes pour chaque colonne et qui est 0 partout !

Finalement, on affiche la dimension de la dataframe qui est différente de la première, car on vient de supprimer les valeurs manquantes de chaque colonne.

In [7]:
#méthode 1
df.dropna( inplace = True)
df.isnull().sum()

Country           0
Real coffee       0
Instant coffee    0
Tea               0
Sweetener         0
Biscuits          0
Powder soup       0
Tin soup          0
Potatoes          0
Frozen fish       0
Frozen veggies    0
Apples            0
Oranges           0
Tinned fruit      0
Jam               0
Garlic            0
Butter            0
Margarine         0
Olive oil         0
Yoghurt           0
Crisp bread       0
dtype: int64

In [8]:
df.shape

(13, 21)

Méthode 2 :

Dans ce qui suit, on calcule la moyenne de la colonne « Biscuits », on affiche cette colonne pour comparer ses valeurs après avoir modifié la valeur manquante par la moyenne des valeurs de la colonne « Biscuits ».

In [6]:
#méthode 2
df['Biscuits'].mean()
print( df['Biscuits'])
df['Biscuits'].replace( np.NaN, df ['Biscuits'].mean())

0     57.0
1     55.0
2     76.0
3     62.0
4     74.0
5     79.0
6     91.0
7     22.0
8     29.0
9     31.0
10     NaN
11    66.0
12    62.0
13    64.0
14    62.0
15    80.0
Name: Biscuits, dtype: float64


0     57.000000
1     55.000000
2     76.000000
3     62.000000
4     74.000000
5     79.000000
6     91.000000
7     22.000000
8     29.000000
9     31.000000
10    60.666667
11    66.000000
12    62.000000
13    64.000000
14    62.000000
15    80.000000
Name: Biscuits, dtype: float64

Jusqu’à présent, nous avons vu comment traiter des données numériques, l’étape suivante se focalisera sur les données catégorielles.

4. Vérification des valeurs catégorielles 
Les modèles d’apprentissage automatique se basent sur des équations mathématiques, alors intuitivement la présence de données catégorielles entrainera un problème car on ne peut garder que des nombres dans les équations. Alors ces données catégorielles doivent être codées en données numériques.

Exemple 4 :

Prenons la dataset « iris », le type de l’iris est une donnée catégorielle :

In [2]:
import numpy as np
import pandas as pd
df = pd.read_csv('iris.csv')
df.head()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


Pour convertir les données de la colonne « flower » en données numériques, on peut faire appel à la classe LabelEncoder() de la bibliothèque preprocessing.

Après avoir créé une instance de cette classe, on l’ajuste à l’aide de fit_transform() à la colonne « flower » pour qu’elle revoie celle-ci sous format encodée.

In [3]:
y = df.iloc[ : , 4: ].values
print(y)


[['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Setosa']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']
 ['Versicolor']


In [4]:
from sklearn.preprocessing import LabelEncoder
Label_encoder = LabelEncoder()
y = Label_encoder.fit_transform(y)
print(y)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


  y = column_or_1d(y, warn=True)


Maintenant que les données catégorielles sont encodées, un problème se présente : puisque 0<1 et 1<2, les équations des modèles d’apprentissage penseront que « Iris-setosa » a une valeur moins élevée que « Iris-versicolor » et que « Iris-versicolor » a une valeur moins élevée que « Iris-verginica », alors que ce n’est pas le cas, ce sont trois différentes catégories qu’elles n’ont pas d’ordre relationnel entre eux.

Alors, pour éviter cela, nous utiliserons les Dummies Variables qui sont des variables qui prennent la valeur 0 pour indiquer l’absence d’un effet catégorique pouvant modifier le résultat et 1 pour sa présence.

Exemple 5 :

Nous continuons avec l’exemple de la dataset « iris ». Alors dans ce cas au lieu d’avoir une colonne, nous allons avoir trois.

Méthode 1 :

Pour créer les dummies variables  nous ferons appel à la classe OneHotEncoder de la bibliothèque preprocessing.

In [None]:
from sklearn.preprocessing import OneHotEncoder
Onehotencoder = OneHotEncoder( categories = 'auto')
y = Onehotencoder.fit_transform(y)

Méthode 2 :

Cette deuxième méthode de création des dummies variables consiste à faire appel à la fonction get_dummies() de la bibliothèque Pandas.

In [5]:
dummy = pd.get_dummies (df ['variety'])
dummy

Unnamed: 0,Setosa,Versicolor,Virginica
0,True,False,False
1,True,False,False
2,True,False,False
3,True,False,False
4,True,False,False
...,...,...,...
145,False,False,True
146,False,False,True
147,False,False,True
148,False,False,True


Maintenant, il ne reste plus qu’à concaténer les deux tableaux et de supprimer la colonne « variety »:

In [6]:
df = pd.concat( [df, dummy ], axis = 1)
df.drop( ['variety'], axis = 1)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,Setosa,Versicolor,Virginica
0,5.1,3.5,1.4,0.2,True,False,False
1,4.9,3.0,1.4,0.2,True,False,False
2,4.7,3.2,1.3,0.2,True,False,False
3,4.6,3.1,1.5,0.2,True,False,False
4,5.0,3.6,1.4,0.2,True,False,False
...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,False,False,True
146,6.3,2.5,5.0,1.9,False,False,True
147,6.5,3.0,5.2,2.0,False,False,True
148,6.2,3.4,5.4,2.3,False,False,True


5. Fractionnement de l’ensemble de données
Pour tous les modèles d’apprentissage automatique, qu’ils soient supervisés ou non supervisés, nous allons fractionner l’ensemble de données en deux :

Un ensemble de données d’entrainement : Training.
Un ensemble de données de test.
En général, on divise l’ensemble de données en un rapport 75/25% ou 80/20%, qui signifie que 75% des données sont des données de training et 25% pour les tests. Toutefois, ces répartitions peuvent varier en fonction de la forme et de la taille de la dataset.

Exemple 6 :

On utilise la fonction train_test_split pour fractionner l’ensemble des données en données de train et de test qui sont par défaut à 75/25 %.

In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state = 0)

6. Mise à l’échelle des caractéristiques
La mise à l’échelle ou la standardisation des caractéristiques est la méthode qui permet de limiter la différence de fourchette des variables pour qu’elles puissent être comparées sur des bases communes.

Exemple 7 :

Voici l’exemple d’un dataset, les variables « Temperature » et « Material Transformation Metric » n’ont pas la même échelle ce qui engendrera des problèmes dans les modèles d’apprentissage automatique.

In [2]:
import numpy as np
import pandas as pd
df = pd.read_csv ('manufacturing.csv')
df.head()

Unnamed: 0,Temperature (°C),Pressure (kPa),Temperature x Pressure,Material Fusion Metric,Material Transformation Metric,Quality Rating
0,209.762701,8.050855,1688.769167,44522.217074,9229576.0,99.999971
1,243.037873,15.812068,3842.931469,63020.764997,14355370.0,99.985703
2,220.552675,7.84313,1729.823314,49125.950249,10728390.0,99.999758
3,208.976637,23.786089,4970.736918,57128.881547,9125702.0,99.999975
4,184.73096,15.797812,2918.345014,38068.201283,6303792.0,100.0


Si on prend deux valeurs de ces deux colonnes et on utilise la distance euclidienne, la colonne "Temperature" sera dominée par la colonne "Material Transformation Metric".

Remarque :
Dans certains cas, les modèles d’apprentissage automatique ne sont pas basés sur la distance euclidienne, mais la mise à l’échelle des caractéristiques permettra à l’algorithme de converger plus rapidement. C’est le cas du modèle d’arbre de décision.
Dans le code suivant, on fait appel à la classe StandardScaler qui permet de standardiser les variables. On crée une instance de celle-ci puis on l’entraine sur notre ensemble de données grâce à la méthodefit_transform().

Dans le code suivant, on fait appel à la classe StandardScaler qui permet de standardiser les variables. On crée une instance de celle-ci puis on l’entraine sur notre ensemble de données grâce à la méthodefit_transform().
Résultat : toutes les valeurs sont à la même échelle.

In [4]:
x = df[['Temperature (°C)', 'Material Transformation Metric']]
from sklearn.preprocessing import StandardScaler
mise_a_echelle = StandardScaler()
x = mise_a_echelle.fit_transform(x)
print(x)

[[ 0.16735368 -0.10619052]
 [ 0.73979657  0.56839809]
 [ 0.35297689  0.09106332]
 ...
 [ 0.71088248  0.52946978]
 [ 0.15492496 -0.1187642 ]
 [-0.63092614 -0.7472026 ]]


Le code suivant permet de transformer le tableau contenant les valeurs standardisées des deux variables 'Temperature (°C)' et 'Material Transformation Metric' en un dataframe, pour ensuite le concaténer avec les données de la dataset. Puis on supprime les deux anciennes colonnes en question.

In [5]:
dfx = pd.DataFrame(data = x, columns = ['Temperature2 (°C)', 'Material Transformation Metric2'])
df = pd.concat( [df, dfx ], axis = 1)
df = df.drop( ['Temperature (°C)', 'Material Transformation Metric'], axis = 1)
print(df)

      Pressure (kPa)  Temperature x Pressure  Material Fusion Metric  \
0           8.050855             1688.769167            44522.217074   
1          15.812068             3842.931469            63020.764997   
2           7.843130             1729.823314            49125.950249   
3          23.786089             4970.736918            57128.881547   
4          15.797812             2918.345014            38068.201283   
...              ...                     ...                     ...   
3952       21.794290             3417.596965            34941.963896   
3953        8.291704             1640.516924            39714.857236   
3954       16.391910             3956.304672            62657.690952   
3955       23.809936             4977.234763            57195.985528   
3956       24.332133             3974.897121            41092.392901   

      Quality Rating  Temperature2 (°C)  Material Transformation Metric2  
0          99.999971           0.167354                     