# Présentation : gérer les données manquantes en Python

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

## Jeu de données d'exemple

In [2]:
np.random.seed(42)

In [3]:
df = pd.DataFrame()

In [4]:
a = np.random.randint(0, 10, size=(5, 2))

In [5]:
a = pd.DataFrame(a, columns=["Colonne1", "Colonne2"])

In [6]:
a

Unnamed: 0,Colonne1,Colonne2
0,6,3
1,7,4
2,6,9
3,2,6
4,7,4


In [7]:
a.iloc[0, 1] = np.nan
a.iloc[4, 1] = np.nan

In [8]:
a

Unnamed: 0,Colonne1,Colonne2
0,6,
1,7,4.0
2,6,9.0
3,2,6.0
4,7,


## Suppression de lignes

In [9]:
df = a.copy()

# Supprimer les lignes contenant des valeurs manquantes
df = df.dropna()

In [10]:
a

Unnamed: 0,Colonne1,Colonne2
0,6,
1,7,4.0
2,6,9.0
3,2,6.0
4,7,


In [11]:
df

Unnamed: 0,Colonne1,Colonne2
1,7,4.0
2,6,9.0
3,2,6.0


## Imputation par une valeur arbitraire

In [12]:
df = a.copy()

# Remplacement des valeurs manquantes par -1 pour toutes les colonnes
df = df.fillna(-1)

In [13]:
a

Unnamed: 0,Colonne1,Colonne2
0,6,
1,7,4.0
2,6,9.0
3,2,6.0
4,7,


In [14]:
df

Unnamed: 0,Colonne1,Colonne2
0,6,-1.0
1,7,4.0
2,6,9.0
3,2,6.0
4,7,-1.0


## Remplacement par la moyenne

In [15]:
df = a.copy()

# Calculer la moyenne pour chaque colonne numérique
mean = df.mean()

In [16]:
mean

Colonne1    5.600000
Colonne2    6.333333
dtype: float64

In [17]:
# Remplacer les valeurs manquantes par la moyenne pour chaque colonne numérique
df = df.fillna(mean)

In [18]:
a

Unnamed: 0,Colonne1,Colonne2
0,6,
1,7,4.0
2,6,9.0
3,2,6.0
4,7,


In [19]:
df

Unnamed: 0,Colonne1,Colonne2
0,6,6.333333
1,7,4.0
2,6,9.0
3,2,6.0
4,7,6.333333


## Interpolation

In [20]:
df = a.copy()

# Interpolation linéaire pour remplir les valeurs manquantes
df = df.interpolate()

In [21]:
a

Unnamed: 0,Colonne1,Colonne2
0,6,
1,7,4.0
2,6,9.0
3,2,6.0
4,7,


In [22]:
df

Unnamed: 0,Colonne1,Colonne2
0,6,
1,7,4.0
2,6,9.0
3,2,6.0
4,7,6.0


## Imputation basée sur les données

### Exemple avec les k-plus-proches voisins (k-NN)

In [23]:
df = a.copy()

from sklearn.impute import KNNImputer

# Instancier un objet KNNImputer
imputer = KNNImputer(n_neighbors=2)

# Appliquer l'imputation à toutes les colonnes numériques
df_imputed = imputer.fit_transform(df)

# Mettre à jour le DataFrame
df = pd.DataFrame(df_imputed, columns=df.columns)

In [24]:
a

Unnamed: 0,Colonne1,Colonne2
0,6,
1,7,4.0
2,6,9.0
3,2,6.0
4,7,


In [25]:
df

Unnamed: 0,Colonne1,Colonne2
0,6.0,6.5
1,7.0,4.0
2,6.0,9.0
3,2.0,6.0
4,7.0,6.5


### Variante (rajout d'une colonne pour indiquer l'absence)

In [26]:
df["ValeurColonne2Absente"] = False

In [27]:
df["ValeurColonne2Absente"][0] = True
df["ValeurColonne2Absente"][4] = True

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["ValeurColonne2Absente"][0] = True
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["ValeurColonne2Absente"][4] = True


In [28]:
a

Unnamed: 0,Colonne1,Colonne2
0,6,
1,7,4.0
2,6,9.0
3,2,6.0
4,7,


In [29]:
df

Unnamed: 0,Colonne1,Colonne2,ValeurColonne2Absente
0,6.0,6.5,True
1,7.0,4.0,False
2,6.0,9.0,False
3,2.0,6.0,False
4,7.0,6.5,True


# Approfondissement : types de données manquantes

## MCAR (Missing Completely at Random)

### Exemple

  - des données *perdues* ou *illisibles* lors du rassemblement des réponses d'un sondage
  - une panne de batterie d'un instrument de mesure

### Explication

- Les données manquantes sont **indépendantes des individus**
- **pas possible d'estimer** les données manquantes grâce aux autres individus
- souvent dû à un _"manque de chance"_
- situation en réalité très rare

## MAR (Missing at Random)



Des données manques de façon aléatoire mais sont plus susceptibles de manquer chez un certain groupe d'individu.
On peut estimer les données manquantes grâce aux autres individus.

Par exemple : un homme est plus susceptible de donner son âge qu'un femme lors d'un sondage.


## Missing not at Random (MNAR):

Les données manquantes sont très dépendantes des individus.
Ce cas est problématique car la distribution des données manquantes dépend non seulement des observations mais aussi beaucoup des données non observées.

Par exemple : lors d'un sondage, les personnes au salaire élevé préfère systématiquement garder leur salaire secret.

## MCAR

## MAR

## MNAR

Très difficile / impossible à prouver mathématiquement en pratique => intuition ou experts métiers

![](/home/ab2/Documents/GitHub/projet-transverse/mar_mcar.jpeg)

## Censoring

todo(ab2): https://en.wikipedia.org/wiki/Censoring_(statistics) & https://fr.wikipedia.org/wiki/Censure_(statistiques)