In [35]:
# Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

## Missing values

In [95]:
# Création d'un DataFrame
data = {
    'Nom': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank', 'John', 'Hannah', np.nan],
    'Age': [25, np.nan, 35, 45, 29, 33, 40, np.nan, np.nan],
    'Ville': ['Paris', 'Lyon', np.nan, 'Marseille', 'Lille', 'Bordeaux', 'Nice', 'Toulouse', np.nan],
    'Revenu': [50000, 52000, np.nan, 58000, 47000, np.nan, 53000, 49000, np.nan],
    'Score de Satisfaction': [8.5, np.nan, 7.0, 6.5, 9.0, 8.0, np.nan, 7.5, np.nan],
    'id': [423, 424, 425, np.nan, 427, 428, 429, 430, np.nan],
    'date_inscr': ['2024-05-01', '2024-01-23', '2024-02-12', '2024-03-01', '2024-04-15', '2024-06-01', '2024-07-01', '2024-08-01', np.nan]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Nom,Age,Ville,Revenu,Score de Satisfaction,id,date_inscr
0,Alice,25.0,Paris,50000.0,8.5,423.0,2024-05-01
1,Bob,,Lyon,52000.0,,424.0,2024-01-23
2,Charlie,35.0,,,7.0,425.0,2024-02-12
3,David,45.0,Marseille,58000.0,6.5,,2024-03-01
4,Eve,29.0,Lille,47000.0,9.0,427.0,2024-04-15
5,Frank,33.0,Bordeaux,,8.0,428.0,2024-06-01
6,John,40.0,Nice,53000.0,,429.0,2024-07-01
7,Hannah,,Toulouse,49000.0,7.5,430.0,2024-08-01
8,,,,,,,


In [96]:
# Détecter les valeurs manquantes
print("Valeurs manquantes :")
df.isnull()

Valeurs manquantes :


Unnamed: 0,Nom,Age,Ville,Revenu,Score de Satisfaction,id,date_inscr
0,False,False,False,False,False,False,False
1,False,True,False,False,True,False,False
2,False,False,True,True,False,False,False
3,False,False,False,False,False,True,False
4,False,False,False,False,False,False,False
5,False,False,False,True,False,False,False
6,False,False,False,False,True,False,False
7,False,True,False,False,False,False,False
8,True,True,True,True,True,True,True


## dropna() : Supprimer les lignes ou colonnes avec des valeurs manquantes
La méthode dropna() permet de supprimer les lignes ou colonnes contenant des valeurs manquantes (NaN). Elle est très flexible grâce à plusieurs paramètres.

### Options principales de dropna()
1. Suppression par ligne ou colonne : axis
* axis=0 : Supprime les lignes contenant des valeurs manquantes. (par défaut)
* axis=1 : Supprime les colonnes contenant des valeurs manquantes.


In [97]:
df_dropped = df.dropna()  # Supprime les lignes avec au moins un NaN
print("Après suppression des lignes contenant des NaN :")
df_dropped


Après suppression des lignes contenant des NaN :


Unnamed: 0,Nom,Age,Ville,Revenu,Score de Satisfaction,id,date_inscr
0,Alice,25.0,Paris,50000.0,8.5,423.0,2024-05-01
4,Eve,29.0,Lille,47000.0,9.0,427.0,2024-04-15


In [98]:
df_dropped_cols = df.dropna(axis=1)  # Supprime les colonnes avec des NaN
print("\nAprès suppression des colonnes contenant des NaN :")
df_dropped_cols


Après suppression des colonnes contenant des NaN :


0
1
2
3
4
5
6
7
8



2. Seuil de tolérance : thresh
* Supprime les lignes/colonnes uniquement si le nombre de valeurs non manquantes est inférieur à un certain seuil.
* Exemple : thresh=2 conserve les lignes/colonnes ayant au moins 2 valeurs non manquantes.

In [99]:
df_thresh = df.dropna(thresh=2)  # Conserve les lignes avec au moins 2 valeurs non manquantes
print("\nAprès application d'un seuil :")
df_thresh


Après application d'un seuil :


Unnamed: 0,Nom,Age,Ville,Revenu,Score de Satisfaction,id,date_inscr
0,Alice,25.0,Paris,50000.0,8.5,423.0,2024-05-01
1,Bob,,Lyon,52000.0,,424.0,2024-01-23
2,Charlie,35.0,,,7.0,425.0,2024-02-12
3,David,45.0,Marseille,58000.0,6.5,,2024-03-01
4,Eve,29.0,Lille,47000.0,9.0,427.0,2024-04-15
5,Frank,33.0,Bordeaux,,8.0,428.0,2024-06-01
6,John,40.0,Nice,53000.0,,429.0,2024-07-01
7,Hannah,,Toulouse,49000.0,7.5,430.0,2024-08-01


3. Sur un sous-ensemble de colonnes : subset
* Applique dropna() uniquement à un groupe spécifique de colonnes, sans affecter les autres.

In [100]:
df_subset = df.dropna(subset=['Age', 'Revenu'])  # Supprime uniquement si NaN dans Age ou Revenu
print("\nAprès suppression conditionnelle sur un sous-ensemble de colonnes :")
df_subset


Après suppression conditionnelle sur un sous-ensemble de colonnes :


Unnamed: 0,Nom,Age,Ville,Revenu,Score de Satisfaction,id,date_inscr
0,Alice,25.0,Paris,50000.0,8.5,423.0,2024-05-01
3,David,45.0,Marseille,58000.0,6.5,,2024-03-01
4,Eve,29.0,Lille,47000.0,9.0,427.0,2024-04-15
6,John,40.0,Nice,53000.0,,429.0,2024-07-01



4. Supprimer seulement si toutes les valeurs sont manquantes : how
* how='any' (par défaut) : Supprime si une ou plusieurs valeurs sont manquantes.
* how='all' : Supprime uniquement si toutes les valeurs sont manquantes.

In [101]:
df_all = df.dropna(how='all')  # Supprime les lignes où toutes les colonnes sont NaN
print("\nAprès suppression des lignes avec uniquement des NaN :")
df_all


Après suppression des lignes avec uniquement des NaN :


Unnamed: 0,Nom,Age,Ville,Revenu,Score de Satisfaction,id,date_inscr
0,Alice,25.0,Paris,50000.0,8.5,423.0,2024-05-01
1,Bob,,Lyon,52000.0,,424.0,2024-01-23
2,Charlie,35.0,,,7.0,425.0,2024-02-12
3,David,45.0,Marseille,58000.0,6.5,,2024-03-01
4,Eve,29.0,Lille,47000.0,9.0,427.0,2024-04-15
5,Frank,33.0,Bordeaux,,8.0,428.0,2024-06-01
6,John,40.0,Nice,53000.0,,429.0,2024-07-01
7,Hannah,,Toulouse,49000.0,7.5,430.0,2024-08-01


# Remplir les valeurs manquantes


In [102]:
df['Age'] = df['Age'].fillna(df['Age'].mean())  # Remplir avec la moyenne
df['Revenu'] = df['Revenu'].fillna(df['Revenu'].median())  # Remplir avec la médiane
df['id'] = df['id'].ffill()  # Remplir en utilisant la méthode forward fill

print("Après avoir rempli les valeurs manquantes :")
df

Après avoir rempli les valeurs manquantes :


Unnamed: 0,Nom,Age,Ville,Revenu,Score de Satisfaction,id,date_inscr
0,Alice,25.0,Paris,50000.0,8.5,423.0,2024-05-01
1,Bob,34.5,Lyon,52000.0,,424.0,2024-01-23
2,Charlie,35.0,,51000.0,7.0,425.0,2024-02-12
3,David,45.0,Marseille,58000.0,6.5,425.0,2024-03-01
4,Eve,29.0,Lille,47000.0,9.0,427.0,2024-04-15
5,Frank,33.0,Bordeaux,51000.0,8.0,428.0,2024-06-01
6,John,40.0,Nice,53000.0,,429.0,2024-07-01
7,Hannah,34.5,Toulouse,49000.0,7.5,430.0,2024-08-01
8,,34.5,,51000.0,,430.0,


In [103]:
# Remplir avec une custom function
df['Ville'] = df['Ville'].fillna('Inconnu')
df

Unnamed: 0,Nom,Age,Ville,Revenu,Score de Satisfaction,id,date_inscr
0,Alice,25.0,Paris,50000.0,8.5,423.0,2024-05-01
1,Bob,34.5,Lyon,52000.0,,424.0,2024-01-23
2,Charlie,35.0,Inconnu,51000.0,7.0,425.0,2024-02-12
3,David,45.0,Marseille,58000.0,6.5,425.0,2024-03-01
4,Eve,29.0,Lille,47000.0,9.0,427.0,2024-04-15
5,Frank,33.0,Bordeaux,51000.0,8.0,428.0,2024-06-01
6,John,40.0,Nice,53000.0,,429.0,2024-07-01
7,Hannah,34.5,Toulouse,49000.0,7.5,430.0,2024-08-01
8,,34.5,Inconnu,51000.0,,430.0,


In [106]:
# Convert date column to datetime
df['date_inscr'] = pd.to_datetime(df['date_inscr'])

In [108]:
df

Unnamed: 0,Nom,Age,Ville,Revenu,Score de Satisfaction,id,date_inscr
0,Alice,25.0,Paris,50000.0,8.5,423.0,2024-05-01
1,Bob,34.5,Lyon,52000.0,,424.0,2024-01-23
2,Charlie,35.0,Inconnu,51000.0,7.0,425.0,2024-02-12
3,David,45.0,Marseille,58000.0,6.5,425.0,2024-03-01
4,Eve,29.0,Lille,47000.0,9.0,427.0,2024-04-15
5,Frank,33.0,Bordeaux,51000.0,8.0,428.0,2024-06-01
6,John,40.0,Nice,53000.0,,429.0,2024-07-01
7,Hannah,34.5,Toulouse,49000.0,7.5,430.0,2024-08-01
8,,34.5,Inconnu,51000.0,,430.0,NaT
