# Valeurs manquantes
Des valeurs manquantes se produisent. Préparez-vous à ce défi courant dans des ensembles de données réels.

## Introduction
Dans ce tutoriel, vous allez apprendre *trois approches* pour gérer les valeurs manquantes dans un ensemble de données. Ensuite, vous comparerez leur efficacité sur un jeu de données réel.

**Pourquoi les valeurs manquantes ?**
Il existe de nombreuses raisons pour lesquelles des données peuvent contenir des valeurs manquantes :

- Une maison avec deux chambres n'aura pas de valeur pour la taille d'une troisième chambre.
- Un répondant à une enquête peut choisir de ne pas révéler son revenu.

La plupart des bibliothèques d'apprentissage automatique (comme ***Scikit-learn***) renvoient une erreur si vous tentez d'entraîner un modèle sur des données contenant des valeurs manquantes. Il est donc essentiel de choisir une stratégie pour les gérer.

## Trois Approches pour Gérer les Valeurs Manquantes
### 1. Une Option Simple : Supprimer les Colonnes avec des Valeurs Manquantes
- Cette méthode consiste à supprimer complètement les colonnes contenant des valeurs manquantes.
- Inconvénient : Si une colonne importante contient seulement quelques valeurs manquantes, vous perdez beaucoup d'informations utiles.


### 2. Une Meilleure Option : L'Imputation
- L'imputation consiste à remplacer les valeurs manquantes par une valeur calculée, comme ***la moyenne*** des autres valeurs de la colonne.
- Bien que les valeurs imputées ne soient pas toujours exactes, cette méthode permet souvent d'améliorer la précision du modèle par rapport à la suppression des colonnes.

### 3. Une Extension de l’Imputation
- Cette méthode combine l’imputation avec une information supplémentaire :
 Après avoir imputé les valeurs manquantes, on ajoute une colonne qui indique quelles entrées ont été imputées.
- Dans certains cas, cela améliore les résultats, mais pas toujours.


## Exemple Pratique avec le Jeu de Données Melbourne Housing
L'exemple utilise des données de prédiction de prix de maisons en fonction d'attributs comme le nombre de pièces ou la taille du terrain.

### Définir une Fonction pour Évaluer les Approches
On utilise une fonction appelée ***score_dataset()*** pour mesurer la qualité de chaque approche. Cette fonction retourne **l’erreur absolue moyenne (MAE)** d’un modèle basé sur une forêt aléatoire.

In [155]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error

# Charger les données
melbourne_file_path = 'melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)

# Sélection des colonnes numériques pour simplifier
numerical_features = melbourne_data.select_dtypes(include=['int64', 'float64'])

# Vérifiez que 'SalePrice' est bien une colonne
print(numerical_features.columns)

Index(['Rooms', 'Price', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'Lattitude', 'Longtitude',
       'Propertycount'],
      dtype='object')


In [157]:
# Diviser en X (prédicteurs) et y (cible)
X = numerical_features.drop(columns=['Price'])
y = numerical_features['Price']

In [159]:
# Diviser en données d'entraînement et de validation
from sklearn.model_selection import train_test_split
X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)

In [161]:
train_X.head()

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,GarageArea,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold
618,619,20,90.0,11694,9,5,2007,2007,452.0,48,...,774,0,108,0,0,260,0,0,7,2007
870,871,20,60.0,6600,5,5,1962,1962,0.0,0,...,308,0,0,0,0,0,0,0,8,2009
92,93,30,80.0,13360,5,7,1921,2006,0.0,713,...,432,0,0,44,0,0,0,0,8,2009
817,818,20,,13265,8,5,2002,2002,148.0,1218,...,857,150,59,0,0,0,0,0,7,2008
302,303,20,118.0,13704,7,5,2001,2002,150.0,0,...,843,468,81,0,0,0,0,0,1,2006


Les données sont divisées en un ensemble d'entraînement (80%) et un ensemble de validation (20%).
random_state=0 garantit que la division est reproductible.

### La fonction score_dataset

In [165]:
# Définir la fonction score_dataset
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

def score_dataset(X_train, X_valid, y_train, y_valid):
    model = forest_model
    model.fit(X_train, y_train)
    preds = model.predict(X_valid)
    return mean_absolute_error(y_valid, preds)

### Approche 1 : Suppression des Colonnes avec des Valeurs Manquantes
On identifie les colonnes contenant des valeurs manquantes, puis on les supprime à la fois des ensembles d’entraînement et de validation.

In [168]:
# Identifier les colonnes avec des valeurs manquantes
cols_with_missing = [col for col in train_X.columns if train_X[col].isnull().any()]
cols_with_missing

['LotFrontage', 'MasVnrArea', 'GarageYrBlt']

In [170]:
# Supprimer ces colonnes
reduced_X_train = train_X.drop(cols_with_missing, axis=1)
reduced_X_valid = val_X.drop(cols_with_missing, axis=1)

print(score_dataset(reduced_X_train, reduced_X_valid, train_y, val_y))

17660.74037671233


## Approche 2 : Imputation des Valeurs Manquantes
On remplace les valeurs manquantes par la moyenne de chaque colonne à l'aide de ***SimpleImputer***.

In [173]:
from sklearn.impute import SimpleImputer

# Appliquer l'imputation
my_imputer = SimpleImputer()
imputed_X_train = pd.DataFrame(my_imputer.fit_transform(X_train))
imputed_X_valid = pd.DataFrame(my_imputer.transform(X_valid))

print(score_dataset(imputed_X_train, imputed_X_valid, y_train, y_valid))

168341.16436233255


## Approche 3 : Extension de l’Imputation
En plus d’imputer les valeurs manquantes, on crée une colonne supplémentaire pour indiquer où ces valeurs ont été imputées.

In [178]:
# Ajuste le code pour gérer les colonnes manquantes
cols_with_missing = [col for col in cols_with_missing if col in X_train.columns]


# Ajouter des colonnes indiquant les valeurs imputées
for col in cols_with_missing:
    X_train[col + '_was_missing'] = X_train[col].isnull()
    X_valid[col + '_was_missing'] = X_valid[col].isnull()

# Imputation des données
imputed_X_train_plus = pd.DataFrame(my_imputer.fit_transform(X_train))
imputed_X_valid_plus = pd.DataFrame(my_imputer.transform(X_valid))

print(score_dataset(imputed_X_train_plus, imputed_X_valid_plus, y_train, y_valid))

168341.16436233255
