# Traitement des données

Temps estimé nécessaire : **30** minutes

## Objectifs

Après avoir terminé ce laboratoire, vous serez capable de :

* Gérer les valeurs manquantes
* Corriger le formatage des données
* Standardiser et normaliser les données


<h2>Table de contenu</h2>

<div class="alert alert-block alert-info" style="margin-top: 20px">
<ul>
    <li><a href="#Identify-and-handle-missing-values">Identify and handle missing values</a>
            <li><a href="#Identify-missing-values">Identify missing values</a></li>
            <li><a href="#Deal-with-missing-data">Deal with missing values</a></li>
            <li><a href="#Correct-data-format">Correct data format</a></li>
        </ul>
    </li>
    <li><a href="#Data-Standardization">Data standardization</a></li>
    <li><a href="#Data-Normalization">Data normalization (centering/scaling)</a></li>
    <li><a href="#Binning">Binning</a></li>
    <li><a href="#Indicator-Variable">Indicator variable</a></li>
</ul>
    
</div>

<hr>


<h2>Quel est le but du traitement des données ?</h2>

Vous utilisez la manipulation de données pour convertir les données d’un format initial vers un format qui peut être meilleur pour l’analyse.

<h3>Quel est le taux de consommation de carburant (L/100k) pour la voiture diesel ?</h3>

<h3>Importer des données</h3>
<p>
Vous pouvez trouver le « jeu de données automobiles » à partir du lien suivant : <a href="https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data">https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data</a>.
Vous utiliserez cet ensemble de données tout au long de ce cours.
</p>


<h4>Importer pandas</h4>


In [None]:
#install specific version of libraries used in lab
#! mamba install pandas==1.3.3
#! mamba install numpy=1.21.2


In [1]:
import pandas as pd
import matplotlib.pylab as plt

<h2>Lecture de l'ensemble de données à partir de l'URL et ajout des en-têtes associés</h2>

In [3]:
file_path="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DA0101EN-SkillsNetwork/labs/Data%20files/auto.csv"

Les fonctions ci-dessous téléchargeront l'ensemble de données dans votre navigateur :

In [4]:
#from pyodide.http import pyfetch
import requests
response = requests.get(file_path)
file_name = "auto_info.csv"
with open(file_name, 'wb') as f:
    f.write(response.content)


Tout d’abord, attribuez l’URL de l’ensemble de données à « filepath ».

Pour obtenir l'ensemble de données, utilisez la fonction download() telle que définie ci-dessus :

Ensuite, créez une liste Python <b>headers</b> contenant le nom des en-têtes.

In [5]:
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]

Utilisez la méthode Pandas <b>read_csv()</b> pour charger les données à partir de l'adresse Web. Définissez le paramètre « names » comme étant égal à la liste Python « headers ».


In [7]:
df = pd.read_csv(file_name, names = headers)

Utilisez la méthode <b>head()</b> pour afficher les cinq premières lignes du dataframe.

In [8]:
# To see what the data set looks like, we'll use the head() method.
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


Comme vous pouvez le constater, plusieurs points d'interrogation sont apparus dans le bloc de données ; ces valeurs manquantes peuvent entraver une analyse plus approfondie.
<div>Alors, comment identifier toutes ces valeurs manquantes et les traiter ?</div>

<b>Comment travailler avec des données manquantes ?</b>

Étapes à suivre pour travailler avec des données manquantes :
<ol>
<li>Identifier les données manquantes</li>
<li>Traiter les données manquantes</li>
<li>Corriger le format des données</li>
</ol>


# Identifier et gérer les valeurs manquantes

### Identifier les valeurs manquantes
<h4>Convertir "?" en NaN</h4>
Dans l'ensemble de données de la voiture, les données manquantes sont accompagnées du point d'interrogation "?".
Nous remplaçons "?" par NaN (Not a Number), le marqueur de valeur manquante par défaut de Python pour des raisons de rapidité de calcul et de commodité. Utilisez la fonction :
<pre>.replace(A, B, inplace = True) </pre>
pour remplacer A par B.


In [9]:
import numpy as np

# replace "?" to NaN
df.replace("?", np.nan, inplace = True)
df.head(5)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


<h4>Évaluation des données manquantes</h4>

Les valeurs manquantes sont converties par défaut. Utilisez les fonctions suivantes pour identifier ces valeurs manquantes. Vous pouvez utiliser deux méthodes pour détecter les données manquantes :
<ol>
<li><b>.isnull()</b></li>
<li><b>.notnull()</b></li>
</ol>
La sortie est une valeur booléenne indiquant si la valeur transmise dans l'argument contient en fait des données manquantes.


In [None]:
missing_data = df.isnull()
missing_data.head(5)

« Vrai » signifie que la valeur est une valeur manquante tandis que « Faux » signifie que la valeur n'est pas une valeur manquante.


<h4>Compter les valeurs manquantes dans chaque colonne</h4>
<p>
En utilisant une boucle for en Python, vous pouvez rapidement déterminer le nombre de valeurs manquantes dans chaque colonne. Comme mentionné ci-dessus, « True » représente une valeur manquante et « False » signifie que la valeur est présente dans l'ensemble de données. Dans le corps de la boucle for, la méthode « .value_counts() » compte le nombre de valeurs « True ».
</p>


In [None]:
for column in missing_data.columns.values.tolist():
    print(column)
    print (missing_data[column].value_counts())
    print("")

D'après le résumé ci-dessus, chaque colonne comporte 205 lignes de données et sept des colonnes contiennent des données manquantes :
<ol>
<li>"normalized-losses": 41 données manquantes</li>
<li>"num-of-doors": 2 données manquantes</li>
<li>"bore": 4 données manquantes</li>
<li>"stroke" : 4 données manquantes</li>
<li>"horsepower": 2 données manquantes</li>
<li>"peak-rpm": 2 données manquantes</li>
<li>"price": 4 données manquantes</li>
</ol>

### Gérer les données manquantes
<b>Comment gérer les données manquantes ?</b>

<ol>
<li>Supprimer les données<br>
a. Supprimer toute la ligne<br>
b. Supprimer toute la colonne
</li>
<li>Remplacer les données<br>
a. Remplacez-les par la moyenne<br>
b. Remplacez-les par la fréquence<br>
c. Remplacez-les en fonction d'autres fonctions
</li>
</ol>


Vous ne devez supprimer des colonnes entières que si la plupart des entrées de la colonne sont vides. Dans l'ensemble de données, aucune colonne n'est suffisamment vide pour être supprimée entièrement.
Vous avez une certaine liberté dans le choix de la méthode de remplacement des données ; cependant, certaines méthodes peuvent sembler plus raisonnables que d'autres. Appliquez chaque méthode à différentes colonnes :

<b>Remplacer par la moyenne :</b>
<ul>
<li>"normalized-losses" : 41 données manquantes, remplacez-les par la moyenne</li>
<li>"stroke" : 4 données manquantes, remplacez-les par la moyenne</li>
<li>"bore" : 4 données manquantes, remplacez-les par la moyenne</li>
<li>"horsepower" : 2 données manquantes, remplacez-les par la moyenne</li>
<li>"peak-rpm" : 2 données manquantes, remplacez-les par la moyenne</li>
</ul>

<b>Remplacer par la fréquence :</b>
<ul>
<li>"num-of-doors" : 2 données manquantes, remplacez-les par "four".
<ul>
<li>Raison : 84 % des berlines sont des berlines à quatre portes. Étant donné que les berlines à quatre portes sont les plus fréquentes, cette situation est la plus susceptible de se produire.</li>
</ul>
</li>
</ul>

<b>Supprimez toute la ligne :</b>
<ul>
<li>"price" : 4 données manquantes, supprimez simplement toute la ligne.
<ul>
<li>Raison : vous souhaitez prédire le prix. Vous ne pouvez utiliser aucune entrée de données sans données de prix pour la prédiction ; par conséquent, toute ligne sans données de prix ne vous est plus utile.</li>
</ul>
</li>
</ul>


<h4>Calculer la valeur moyenne pour la colonne « pertes normalisées » </h4>


In [None]:
avg_norm_loss = df["normalized-losses"].astype("float").mean(axis=0)
print("Average of normalized-losses:", avg_norm_loss)

<h4>Remplacez « NaN » par la valeur moyenne dans la colonne « pertes normalisées »</h4>

In [None]:
df["normalized-losses"].replace(np.nan, avg_norm_loss, inplace=True)

<h4>Calculer la valeur moyenne pour la colonne « bore »</h4>


In [None]:
avg_bore=df['bore'].astype('float').mean(axis=0)
print("Average of bore:", avg_bore)

<h4>Remplacez « NaN » par la valeur moyenne dans la colonne « bore »</h4>

In [None]:
df["bore"].replace(np.nan, avg_bore, inplace=True)

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Question n°1 : </h1>

<b>Sur la base de l'exemple ci-dessus, remplacez NaN dans la colonne « AVC » par la valeur moyenne.</b>
</div>


In [None]:
# Write your code below and press Shift+Enter to execute


<h4>Calculez la valeur moyenne pour la colonne « chevaux-vapeur »</h4>


In [None]:
avg_horsepower = df['horsepower'].astype('float').mean(axis=0)
print("Average horsepower:", avg_horsepower)

<h4>Remplacez « NaN » par la valeur moyenne dans la colonne « chevaux-vapeur »</h4>


In [None]:
df['horsepower'].replace(np.nan, avg_horsepower, inplace=True)

<h4>Calculer la valeur moyenne pour la colonne « peak-rpm »</h4>

In [None]:
avg_peakrpm=df['peak-rpm'].astype('float').mean(axis=0)
print("Average peak rpm:", avg_peakrpm)

<h4>Remplacez « NaN » par la valeur moyenne dans la colonne « peak-rpm »</h4>


In [None]:
df['peak-rpm'].replace(np.nan, avg_peakrpm, inplace=True)

Pour voir quelles valeurs sont présentes dans une colonne particulière, nous pouvons utiliser la méthode « .value_counts() » :

In [None]:
df['num-of-doors'].value_counts()

Vous pouvez voir que quatre portes constituent le type le plus courant. Nous pouvons également utiliser la méthode ".idxmax()" pour calculer automatiquement le type le plus courant :


In [None]:
df['num-of-doors'].value_counts().idxmax()

La procédure de remplacement est très similaire à ce que vous avez vu précédemment :


In [None]:
#replace the missing 'num-of-doors' values by the most frequent
df["num-of-doors"].replace(np.nan, "four", inplace=True)

Enfin, supprimez toutes les lignes qui ne contiennent pas de données de prix :

In [None]:
# simply drop whole row with NaN in "price" column
df.dropna(subset=["price"], axis=0, inplace=True)

# reset index, because we droped two rows
df.reset_index(drop=True, inplace=True)

In [None]:
df.head()

<b>Bien !</b> Vous disposez désormais d’un ensemble de données sans valeurs manquantes.

### Format de données correct
<b>Nous y sommes presque !</b>
<p>La dernière étape du nettoyage des données consiste à vérifier et à s'assurer que toutes les données sont au bon format (int, float, text ou autre).</p>

Dans Pandas, vous utilisez :
<p><b>.dtype()</b> pour vérifier le type de données</p>
<p><b>.astype()</b> pour modifier le type de données</p>


<h4>Let's list the data types for each column</h4>


In [None]:
df.dtypes

<p>Comme vous pouvez le voir ci-dessus, certaines colonnes ne sont pas du type de données correct. Les variables numériques doivent être de type « float » ou « int », et les variables avec des chaînes telles que les catégories doivent être de type « object ». Par exemple, les valeurs numériques « bore » et « stroke » décrivent les moteurs, vous devez donc vous attendre à ce qu'elles soient de type « float » ou « int » ; cependant, elles sont affichées comme étant de type « object ». Vous devez convertir les types de données dans un format approprié pour chaque colonne à l'aide de la méthode « astype() ».</p>


<h4>Convertir les types de données au format approprié</h4>

In [None]:
df[["bore", "stroke"]] = df[["bore", "stroke"]].astype("float")
df[["normalized-losses"]] = df[["normalized-losses"]].astype("int")
df[["price"]] = df[["price"]].astype("float")
df[["peak-rpm"]] = df[["peak-rpm"]].astype("float")

<h4>Listons les colonnes après la conversion</h4>


In [None]:
df.dtypes

<b>Merveilleux !</b>

Vous avez enfin obtenu l'ensemble de données nettoyées sans valeurs manquantes et avec toutes les données dans leur format approprié.


## Normalisation des données
<p>
Vous collectez généralement des données auprès de différentes agences dans différents formats.
(La normalisation des données est également un terme désignant un type particulier de normalisation des données dans lequel vous soustrayez la moyenne et divisez par l'écart type.)
</p>

<b>Qu'est-ce que la normalisation ?</b>
<p>La normalisation est le processus de transformation des données dans un format commun, permettant au chercheur de faire une comparaison significative.
</p>

<b>Exemple</b>
<p>Transformer les mpg en L/100 km  :</p>
<p>Dans votre ensemble de données, les colonnes de consommation de carburant « ville-mpg » et « autoroute-mpg » sont représentées par l'unité mpg (miles par gallon). Supposons que vous développiez une application dans un pays qui accepte la consommation de carburant avec la norme L/100 km.</p>
<p>Vous devrez appliquer une <b>transformation des données</b> pour transformer les mpg en L/100 km.</p>


<p>Utilisez cette formule pour la conversion d'unité :<p>
L/100 km = 235 / mpg
<p>Vous pouvez effectuer de nombreuses opérations mathématiques directement à l'aide de Pandas.</p>


In [None]:
df.head()

In [None]:
# Convert mpg to L/100km by mathematical operation (235 divided by mpg)
df['city-L/100km'] = 235/df["city-mpg"]

# check your transformed data
df.head()

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Question n°2 : </h1>

<b>Selon l'exemple ci-dessus, transformez mpg en L/100 km dans la colonne « highway-mpg » et changez le nom de la colonne en « highway-L/100 km ».</b>
</div>


In [None]:
# Write your code below and press Shift+Enter to execute


## Normalisation des données

<b>Pourquoi la normalisation ?</b>
<p>La normalisation est le processus de transformation des valeurs de plusieurs variables en une plage similaire. Les normalisations typiques incluent
<ol>
<li>mise à l'échelle de la variable de sorte que la moyenne de la variable soit égale à 0</li>
<li>mise à l'échelle de la variable de sorte que la variance soit égale à 1</li>
<li>mise à l'échelle de la variable de sorte que les valeurs de la variable soient comprises entre 0 et 1</li>
</ol>
</p>

<b>Exemple</b>
<p>Pour illustrer la normalisation, disons que vous souhaitez mettre à l'échelle les colonnes « longueur », « largeur » et « hauteur ».</p>
<p><b>Objectif :</b> normaliser ces variables de sorte que leurs valeurs soient comprises entre 0 et 1</p>
<p><b>Approche :</b> remplacer la valeur d'origine par (valeur d'origine)/(valeur maximale)</p>

In [None]:
# replace (original value) by (original value)/(maximum value)
df['length'] = df['length']/df['length'].max()
df['width'] = df['width']/df['width'].max()

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1>Question n°3 : </h1>

<b>Selon l'exemple ci-dessus, normalisez la colonne « hauteur ».</b>
</div>


In [None]:
# Write your code below and press Shift+Enter to execute


Ici, vous avez normalisé la « longueur », la « largeur » et la « hauteur » pour qu'elles se situent dans la plage [0,1].


## Binning
<b>Pourquoi le binning ?</b>
<p>
Le binning est un processus de transformation de variables numériques continues en « bins » catégoriques discrets pour une analyse groupée.
</p>

<b>Exemple : </b>
<p>Dans votre ensemble de données, « chevaux-vapeur » est une variable à valeur réelle allant de 48 à 288 et qui possède 59 valeurs uniques. Que se passe-t-il si vous ne vous souciez que de la différence de prix entre les voitures à puissance élevée, à puissance moyenne et à faible puissance (3 types) ? Vous pouvez les réorganiser en trois « bins » pour simplifier l'analyse.</p>

<p>Utilisez la méthode Pandas « cut » pour segmenter la colonne « chevaux-vapeur » en 3 bins.</p>


<h3>Example of Binning Data In Pandas</h3>


 Convert data to correct format:


In [None]:
df["horsepower"]=df["horsepower"].astype(int, copy=True)

Plot the histogram of horsepower to see the distribution of horsepower.


In [None]:
%matplotlib inline
import matplotlib as plt
from matplotlib import pyplot
plt.pyplot.hist(df["horsepower"])

# set x/y labels and plot title
plt.pyplot.xlabel("horsepower")
plt.pyplot.ylabel("count")
plt.pyplot.title("horsepower bins")

<p>Trouvez 3 bacs de taille égale en utilisant la fonction <code>linspace(start_value, end_value, numbers_generated</code> de Numpy.</p>
<p>Puisque vous souhaitez inclure la valeur minimale de la puissance, définissez start_value = min(df["horsepower"]).</p>
<p>Puisque vous souhaitez inclure la valeur maximale de la puissance, définissez end_value = max(df["horsepower"]).</p>
<p>Puisque vous construisez 3 bacs de longueur égale, vous avez besoin de 4 diviseurs, donc numbers_generated = 4.</p>


Créez un tableau de bacs avec une valeur minimale et une valeur maximale en utilisant la bande passante calculée ci-dessus. Les valeurs détermineront quand un bac se termine et quand un autre commence.


In [None]:
bins = np.linspace(min(df["horsepower"]), max(df["horsepower"]), 4)
bins

Définir les noms des groupes :

In [None]:
group_names = ['Low', 'Medium', 'High']

Appliquez la fonction « cut » pour déterminer à quoi appartient chaque valeur de `df['horsepower']`.


In [None]:
df['horsepower-binned'] = pd.cut(df['horsepower'], bins, labels=group_names, include_lowest=True )
df[['horsepower','horsepower-binned']].head(20)

Voir le nombre de véhicules dans chaque bac :

In [None]:
df["horsepower-binned"].value_counts()

Tracez la distribution de chaque compartiment :

In [None]:
%matplotlib inline
import matplotlib as plt
from matplotlib import pyplot
pyplot.bar(group_names, df["horsepower-binned"].value_counts())

# set x/y labels and plot title
plt.pyplot.xlabel("horsepower")
plt.pyplot.ylabel("count")
plt.pyplot.title("horsepower bins")

<p>
Regardez attentivement le bloc de données ci-dessus. Vous constaterez que la dernière colonne fournit les compartiments pour la « puissance » en fonction de 3 catégories (« Faible », « Moyen » et « Élevé »).
</p>
<p>
Vous avez réussi à réduire les intervalles de 59 à 3 !
</p>

<h3>Visualisation des "bins"</h3>
Normalement, vous utilisez un histogramme pour visualiser la distribution des bacs que nous avons créés ci-dessus.


In [None]:
%matplotlib inline
import matplotlib as plt
from matplotlib import pyplot


# draw historgram of attribute "horsepower" with bins = 3
plt.pyplot.hist(df["horsepower"], bins = 3)

# set x/y labels and plot title
plt.pyplot.xlabel("horsepower")
plt.pyplot.ylabel("count")
plt.pyplot.title("horsepower bins")

Le graphique ci-dessus montre le résultat du binning pour l'attribut « chevaux-vapeur ».

## Variable indicatrice
<b>Qu'est-ce qu'une variable indicatrice ?</b>
<p>
Une variable indicatrice (ou variable fictive) est une variable numérique utilisée pour étiqueter des catégories. On les appelle « variables fictives » car les nombres eux-mêmes n'ont pas de signification intrinsèque.
</p>

<b>Pourquoi utiliser des variables indicatrices ?</b>
<p>
Vous utilisez des variables indicatrices pour pouvoir utiliser des variables catégorielles pour l'analyse de régression dans les modules ultérieurs.
</p>
<b>Exemple</b>
<p>
La colonne « type de carburant » a deux valeurs uniques : « essence » ou « diesel ». La régression ne comprend pas les mots, seulement les nombres. Pour utiliser cet attribut dans l'analyse de régression, vous pouvez convertir « type de carburant » en variables indicatrices.
</p>

<p>
Utilisez la méthode Panda « get_dummies » pour attribuer des valeurs numériques à différentes catégories de type de carburant.
</p>


In [None]:
df.columns

Obtenez les variables indicatrices et attribuez-les au bloc de données « dummy_variable_1 » :

In [None]:
dummy_variable_1 = pd.get_dummies(df["fuel-type"])
dummy_variable_1.head()

Modifiez les noms des colonnes pour plus de clarté :

In [None]:
dummy_variable_1.rename(columns={'gas':'fuel-type-gas', 'diesel':'fuel-type-diesel'}, inplace=True)
dummy_variable_1.head()

Dans le cadre de données, la colonne « type de carburant » contient désormais des valeurs pour « gaz » et « diesel » sous forme de 0 et 1.

In [None]:
# merge data frame "df" and "dummy_variable_1"
df = pd.concat([df, dummy_variable_1], axis=1)

# drop original column "fuel-type" from "df"
df.drop("fuel-type", axis = 1, inplace=True)

In [None]:
df.head()

Les deux dernières colonnes sont désormais la représentation de la variable indicatrice du type de carburant. Elles sont toutes à 0 et à 1 maintenant.


<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1>Question n°4 : </h1>

<b>Comme précédemment, créez une variable indicatrice pour la colonne « aspiration »</b>
</div>

In [None]:
# Write your code below and press Shift+Enter to execute


<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Question n°5 : </h1>

<b>Fusionnez le nouveau dataframe avec le dataframe d'origine, puis supprimez la colonne « aspiration ».</b>
</div>

In [None]:
# Write your code below and press Shift+Enter to execute


sauvegardez le nouveau csv:


In [None]:
df.to_csv('clean_df.csv')