In [2]:
import pandas as pd
import numpy as np

# DataFrame simple pour tous les exercices
df = pd.DataFrame({
    'nom': ['Alice', 'Bob', 'Charlie', 'David', 'Emma', 'Frank', 'Grace', 'Henry'],
    'age': [25, np.nan, 30, 28, np.nan, 35, 27, np.nan],
    'ville': ['Paris', 'Lyon', np.nan, 'Paris', 'Lyon', np.nan, 'Paris', 'Lyon'],
    'salaire': [3000, 3500, np.nan, 4000, np.nan, 4500, 3200, np.nan]
})

print(df)


       nom   age  ville  salaire
0    Alice  25.0  Paris   3000.0
1      Bob   NaN   Lyon   3500.0
2  Charlie  30.0    NaN      NaN
3    David  28.0  Paris   4000.0
4     Emma   NaN   Lyon      NaN
5    Frank  35.0    NaN   4500.0
6    Grace  27.0  Paris   3200.0
7    Henry   NaN   Lyon      NaN


### Exercice 1 : Détecter les valeurs manquantes

In [3]:
df.isnull()

Unnamed: 0,nom,age,ville,salaire
0,False,False,False,False
1,False,True,False,False
2,False,False,True,True
3,False,False,False,False
4,False,True,False,True
5,False,False,True,False
6,False,False,False,False
7,False,True,False,True


Explication : True = VALEUR MANQUANTES, False = VALEUR PRESENTE 

### Exercice 2 : Compter les valeurs manquantes

In [4]:
df.isnull().sum()
# savoir combien de valeur manquent dans chaque colonne 

nom        0
age        3
ville      2
salaire    3
dtype: int64

### Exercice 3 : filtrer les lignes complètes

In [5]:
df.dropna()
# Garder uniquement les lignes sans aucune valeur

Unnamed: 0,nom,age,ville,salaire
0,Alice,25.0,Paris,3000.0
3,David,28.0,Paris,4000.0
6,Grace,27.0,Paris,3200.0


Exercice 4 : Supprimer selon un seuil

In [6]:
df.dropna(thresh=3)
#Garder les lignes ayant AU MOINS 3 valeurs non-NaN

Unnamed: 0,nom,age,ville,salaire
0,Alice,25.0,Paris,3000.0
1,Bob,,Lyon,3500.0
3,David,28.0,Paris,4000.0
5,Frank,35.0,,4500.0
6,Grace,27.0,Paris,3200.0


Exercice 5 : Supprimer les colonnes avec NaN

In [7]:
df.dropna(axis=1)

Unnamed: 0,nom
0,Alice
1,Bob
2,Charlie
3,David
4,Emma
5,Frank
6,Grace
7,Henry


Exercice 6 : Remplir avec la moyenne

In [8]:
df.fillna(df['age'].mean())
#Remplacer les âges manquants par l'âge moyen

Unnamed: 0,nom,age,ville,salaire
0,Alice,25.0,Paris,3000.0
1,Bob,29.0,Lyon,3500.0
2,Charlie,30.0,29.0,29.0
3,David,28.0,Paris,4000.0
4,Emma,29.0,Lyon,29.0
5,Frank,35.0,29.0,4500.0
6,Grace,27.0,Paris,3200.0
7,Henry,29.0,Lyon,29.0


Exercice 7 : Remplir avec une valeur fixe

In [9]:
df["ville"].fillna('Inconnu')
# Remplacer les villes manquantes par "Inconnu"

0      Paris
1       Lyon
2    Inconnu
3      Paris
4       Lyon
5    Inconnu
6      Paris
7       Lyon
Name: ville, dtype: object

Exercice 8 : Forward Fill (propagation)

In [10]:
df["salaire"].fillna(method="ffill")
# Propager la dernière valeur connue vers le bas

  df["salaire"].fillna(method="ffill")


0    3000.0
1    3500.0
2    3500.0
3    4000.0
4    4000.0
5    4500.0
6    3200.0
7    3200.0
Name: salaire, dtype: float64

Exercice 9 : Stratégies combinées

In [11]:
df_combine = df
df_combine['age'] = df_combine['age'].fillna(df_combine['age'].median())
df_combine['ville'] = df_combine['ville'].fillna('Non spécifié')
df_combine['salaire'] = df_combine['salaire'].fillna(df_combine['salaire'].mean())
df_combine
# Appliquer une stratégie différente à chaque colonne

Unnamed: 0,nom,age,ville,salaire
0,Alice,25.0,Paris,3000.0
1,Bob,28.0,Lyon,3500.0
2,Charlie,30.0,Non spécifié,3640.0
3,David,28.0,Paris,4000.0
4,Emma,28.0,Lyon,3640.0
5,Frank,35.0,Non spécifié,4500.0
6,Grace,27.0,Paris,3200.0
7,Henry,28.0,Lyon,3640.0
