### **Prétraitement des Données :**

<!-- <code></code> -->

#### **1. Gestion des Valeurs Manquantes :**

La gestion des valeurs manquantes est une étape essentielle de l’analyse de données (EDA – Exploratory Data Analysis) et du prétraitement avant de faire du Machine Learning ou de la visualisation.

Il existe plusieurs approches, en fonction du type de données et de l’importance de la colonne :

- **Suppression des valeurs manquantes :**

    - Supprimer les lignes qui contiennent des valeurs manquantes (<code>dropna()</code> en <code>Pandas</code>).

    - Supprimer les colonnes entières si elles contiennent trop de valeurs manquantes (Utile quand le dataset est assez grand et que la perte d’informations est négligeable).

- **Imputation (Remplacement) :**

    - Remplacer les valeurs manquantes par une valeur calculée ou choisie.

    - C’est la méthode la plus utilisée car elle permet de conserver toutes les lignes.

- **Méthodes avancées :**

    - Utiliser des modèles statistiques ou de Machine Learning pour prédire les valeurs manquantes (ex : <code>KNN</code> imputer, <code>régression</code>, <code>arbres de décision</code>).

<br>

##### **1.1. Imputation :**

L’imputation consiste à remplacer les valeurs manquantes par une estimation appropriée. Au lieu de supprimer les données, on **devine** la valeur manquante à partir des autres données disponibles. Cette méthode a pour objectif de :

- Conserver un maximum de données : Évite de perdre des observations importantes.

- Les modèles de Machine Learning ne peuvent pas travailler avec des valeurs manquantes (<code>NaN</code>).

- Améliorer la qualité des résultats : Une bonne imputation réduit les biais et donne de meilleures prédictions.

<br>

**A. Imputation Pour les variables numériques :**

Souvent pour les variables numériques manquantes, on les remplace par la <code>moyenne</code>, <code>médiane</code>, ou <code>mode</code>.

En Pandas, il existe plusieurs façons de vérifier la présence de valeurs manquantes (<code>NaN</code>).

_**Remarque :**_ Pour notre Dataset , on a aucune variable numérique manquantes.

In [None]:
import pandas as pd

data = pd.read_csv("../data/raw/data.csv")

data.isnull() # Retourne un DataFrame de même taille que data, avec des booléens indiquant la présence de NaN.

data.isnull().sum() # Affiche le nombre de valeurs manquantes pour chaque colonne.

data.isnull().sum().sum() # Donne le nombre total de cellules manquantes dans ton dataset.

data.isnull().values.any() # Retourne True s’il existe au moins une valeur manquante dans tout le DataFrame.

data[data.isnull().any(axis=1)] # Affiche toutes les lignes qui contiennent au moins un NaN.

Pour remplacer les valeurs manquantes d’une variable numérique par la médiane, on utilise <code>fillna()</code> de Pandas.

In [None]:
import pandas as pd

data = pd.read_csv("../data/raw/data.csv")

data_copy = data.copy() 

numeric_cols = data_copy.select_dtypes(include=['number']).columns.tolist()

for col in numeric_cols:
    median_value = data_copy[col].median()
    data_copy[col].fillna(median_value, inplace=True)

**B. Imputation Pour les variables catégorielles :**

Les variables qualitatives (catégorielles) se gèrent un peu différemment des numériques, parce qu’elles ne peuvent pas être remplacées par une moyenne ou une médiane.

Souvent, on les remplace par le <code>mode</code> (valeur la plus fréquente).

_**Remarque :**_ Pour notre Dataset , on a aucune variable catégorielle manquante.

In [None]:
import pandas as pd

data = pd.read_csv("../data/raw/data.csv")

data_copy = data.copy() 

category_cols = data_copy.select_dtypes(include=['object']).columns.tolist()

for col in category_cols:
    mode_value = data_copy[col].mode()[0]
    data_copy[col].fillna(mode_value, inplace=True)

<br>

#### **2. Gestion des Doublons :**

Les doublons (données répétées) sont fréquents dans un dataset, surtout quand il vient de bases de données, d’Excel ou d’une collecte multiple. Ils peuvent fausser les statistiques et les modèles, donc il faut les gérer.

En Pandas, il existe plusieurs façons de vérifier la présence des doublons.

In [None]:
import pandas as pd

data = pd.read_csv("../data/raw/data.csv")

data.duplicated() # Retourne une Series de booléens indiquant si une ligne est un doublon d’une ligne précédente.

data.duplicated().sum() # Affiche le nombre de lignes dupliquées dans le DataFrame.

data.duplicated().values.any() # Retourne True s’il existe au moins une ligne dupliquée dans tout le DataFrame.

data[data.duplicated()] # Affiche toutes les lignes qui sont des doublons.

Souvent, on supprime les doublons qu'on a dans notre DataFrame.

En Pandas, on utilise la méthode <code>drop_duplicates()</code>.

In [33]:
import pandas as pd

data = pd.read_csv("../data/raw/data.csv")

data_copy = data.copy()

data_copy = data_copy.drop_duplicates() # Supprimer les doublons (en gardant la 1ère occurrence par défaut)