# Gestion des valeurs manquantes

Ce notebook présente comment détecter et traiter les valeurs manquantes dans un dataset.


## Problème métier : données incomplètes

Dans la réalité, les datasets contiennent souvent des valeurs manquantes dues à :
- Des erreurs de saisie
- Des capteurs défaillants
- Des données non disponibles au moment de la collecte

Ignorer ces valeurs peut biaiser les analyses. Il faut les identifier et décider comment les traiter.


In [None]:
import pandas as pd
import numpy as np

# Créer un dataset avec valeurs manquantes (pour la démonstration)
data = {
    'produit': ['A', 'B', 'C', 'D', 'E'],
    'prix': [100, np.nan, 150, 200, np.nan],
    'quantite': [5, 10, np.nan, 8, 12],
    'region': ['Nord', 'Sud', None, 'Est', 'Ouest']
}
df = pd.DataFrame(data)
print(df)


## Détection des valeurs manquantes

Pandas utilise `NaN` (Not a Number) pour représenter les valeurs manquantes.


In [None]:
# Détecter les valeurs manquantes
print("Valeurs manquantes par colonne :")
print(df.isnull().sum())

# Pourcentage de valeurs manquantes
print("\nPourcentage de valeurs manquantes :")
print((df.isnull().sum() / len(df)) * 100)

# Lignes contenant au moins une valeur manquante
print(f"\nNombre de lignes avec valeurs manquantes : {df.isnull().any(axis=1).sum()}")


## Stratégies de traitement

### 1. Suppression

La suppression est simple mais peut entraîner une perte importante de données.


In [None]:
# Supprimer toutes les lignes avec au moins une valeur manquante
df_sans_na = df.dropna()
print(f"Lignes originales : {len(df)}, Lignes après suppression : {len(df_sans_na)}")

# Supprimer uniquement les lignes où une colonne spécifique est manquante
df_sans_na_prix = df.dropna(subset=['prix'])
print(f"Lignes après suppression (prix manquant) : {len(df_sans_na_prix)}")


### 2. Imputation

L'imputation consiste à remplacer les valeurs manquantes par une valeur estimée.


In [None]:
# Imputation par la moyenne (pour colonnes numériques)
df_impute = df.copy()
df_impute['prix'] = df_impute['prix'].fillna(df_impute['prix'].mean())
print("Après imputation par la moyenne :")
print(df_impute)

# Imputation par la médiane
df_impute2 = df.copy()
df_impute2['quantite'] = df_impute2['quantite'].fillna(df_impute2['quantite'].median())
print("\nAprès imputation par la médiane :")
print(df_impute2)

# Imputation par valeur constante
df_impute3 = df.copy()
df_impute3['region'] = df_impute3['region'].fillna('Inconnu')
print("\nAprès imputation par constante :")
print(df_impute3)


### Exercice : Traiter les valeurs manquantes sur un vrai dataset

Chargez le dataset `ventes_commerces.csv`, identifiez les valeurs manquantes potentielles et appliquez une stratégie de traitement appropriée.


In [None]:
# A COMPLETER
# Charger le dataset
# df_ventes = pd.read_csv('../../data/ventes_commerces.csv')

# Identifier les valeurs manquantes
# ...

# Appliquer une stratégie de traitement
# ...
