# Gestion des valeurs manquantes

La génération de valeurs manquantes fait référence à la création délibérée d'entrées manquantes ou incomplètes dans un ensemble de données. Cette pratique, bien que peut sembler contre-intuitive, est utilisée à des fins diverses dans le domaine de l'analyse de données et de l'apprentissage automatique. L'une des raisons principales de générer des valeurs manquantes est de simuler des scénarios réalistes où des données manquent réellement, ce qui permet d'évaluer la robustesse des méthodes d'analyse face à cette situation.

### Les données de test

In [None]:
import pandas as pd

datas = {'Étudiant': ['Samir', 'Sofien', 'Sarra', 'Aymen'],
        'Note': [10, None, 13, 13]}
data = pd.DataFrame.from_dict(datas)
data

Les données de test intègrent volontairement des valeurs manquantes pour simuler des conditions réelles. Cette démarche permet d'évaluer l'efficacité des méthodes analytiques en présence d'incertitude. En confrontant les modèles à des données incomplètes, nous affinons nos approches de traitement et de gestion des valeurs manquantes. Cette préparation optimise la pertinence et la fiabilité des résultats dans des environnements de données authentiques.

### Afficher les valeurs manquantes

In [None]:
data.isnull()

### Afficher le nombre de valeurs manquantes pour chaque colonne

In [None]:
data.isnull().sum()

### Afficher seulement les lignes qui contiennent des valeurs null

In [None]:
data[data.isna().any(axis=1)]

### Traiter les valeurs manquantes

Plusieurs approches sont disponibles pour traiter les valeurs manquantes, le choix dépendant du type de données et de l'objectif visé par l'analyse des données.

Parmi les méthodes de traitement courantes :

 * Élimination des lignes contenant des valeurs manquantes.
 * Remplacement des valeurs manquantes par la moyenne, la médiane.

#### Élimination des lignes contenant des valeurs manquantes.

In [None]:
data2=data.dropna()
data2

Il est important de noter que l'utilisation de **data.dropna()** ne modifie pas directement le DataFrame data. Pour appliquer les modifications au DataFrame, vous devez ajouter le paramètre **inplace=True** à la méthode **dropna()**. Cela garantit que les lignes contenant des valeurs manquantes seront **effectivement supprimées** du DataFrame data.

La commande sera **data.dropna(inplace=True)**

#### Remplacement des valeurs manquantes par la moyenne.

In [None]:
data2=data.fillna(data["Note"].mean())
data2

#### Remplacement des valeurs manquantes par la médiane.

In [None]:
data2=data.fillna(data["Note"].median())
data2