## IterativeImputer

IterativeImputer est une méthode d'imputation multivariée. Contrairement à d'autres méthodes d'imputation plus simples comme la moyenne ou la médiane, IterativeImputer utilise un modèle de régression pour estimer les valeurs manquantes dans les données. 

Voici une description de IterativeImputer : 

Principe de fonctionnement : 

Initialisation : Les valeurs manquantes sont initialement remplies par des valeurs estimées (peut être la moyenne, la médiane, ou tout autre choix spécifié par l'utilisateur). 

Régression itérative : Un modèle de régression est ensuite utilisé pour estimer les valeurs manquantes en utilisant les valeurs déjà imputées et les autres caractéristiques non manquantes comme variables indépendantes. Le processus est répété plusieurs fois pour converger vers des estimations plus précises. 

Répétition : Les étapes 1 et 2 sont répétées plusieurs fois jusqu'à ce que la convergence soit atteinte ou qu'un nombre fixe d'itérations soit réalisé. 

In [1]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
import pandas as pd
import numpy as np

data = {'prenoms': ['Antoine', 'Cyril', 'Melody', 'Thibaut', 'Maxime', 'Kevin', 'Florian', 'Elie', 'Deborah', 'Farid', 'Saadia', 'Christian', 'Louis', 'Greg', 'Quentin', 'Simon'],
        'notes': [9, 14, 5, 18, np.nan, 11, 7, 16, 3, np.nan, 8, 13, 4, np.nan, 1, 10],
        'Presence': ['Présent', 'Absent', 'Présent', 'Présent', 'Présent', 'Présent', 'Absent', 'Absent', 'Présent', 'Absent', 'Présent', 'Présent', 'Présent', 'Absent', 'Absent', 'Présent'],
        'age': [25, 30, 22, 28, np.nan, 27, 24, 32, 29, np.nan, 26, 31, 23, np.nan, 33, 20],
        'ville': ['Paris', 'Lyon', 'Marseille', 'Toulouse', 'Lille', 'Nice', 'Bordeaux', 'Strasbourg', 'Nantes', 'Montpellier', 'Rennes', 'Reims', 'Toulon', 'Amiens', 'Le Havre', 'Limoges']}

df = pd.DataFrame(data)
df


Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


Unnamed: 0,prenoms,notes,Presence,age,ville
0,Antoine,9.0,Présent,25.0,Paris
1,Cyril,14.0,Absent,30.0,Lyon
2,Melody,5.0,Présent,22.0,Marseille
3,Thibaut,18.0,Présent,28.0,Toulouse
4,Maxime,,Présent,,Lille
5,Kevin,11.0,Présent,27.0,Nice
6,Florian,7.0,Absent,24.0,Bordeaux
7,Elie,16.0,Absent,32.0,Strasbourg
8,Deborah,3.0,Présent,29.0,Nantes
9,Farid,,Absent,,Montpellier


In [2]:
colonnes_numeriques = ['notes', 'age']

imputer = IterativeImputer(max_iter=10, random_state=0)
df_imputed = imputer.fit_transform(df[colonnes_numeriques])

df[colonnes_numeriques] = df_imputed

df = pd.DataFrame(df)
df

Unnamed: 0,prenoms,notes,Presence,age,ville
0,Antoine,9.0,Présent,25.0,Paris
1,Cyril,14.0,Absent,30.0,Lyon
2,Melody,5.0,Présent,22.0,Marseille
3,Thibaut,18.0,Présent,28.0,Toulouse
4,Maxime,9.153846,Présent,26.923077,Lille
5,Kevin,11.0,Présent,27.0,Nice
6,Florian,7.0,Absent,24.0,Bordeaux
7,Elie,16.0,Absent,32.0,Strasbourg
8,Deborah,3.0,Présent,29.0,Nantes
9,Farid,9.153846,Absent,26.923077,Montpellier


### Paramètres principaux : 

max_iter : Le nombre maximal d'itérations à effectuer. 

random_state : Permet de spécifier une graine aléatoire pour assurer la reproductibilité des résultats. 

estimator : Le modèle de régression utilisé. Par défaut, il utilise un modèle de régression bayésienne, mais l'utilisateur peut spécifier un autre modèle compatible avec l'interface scikit-learn. 

#### Avantages : 

Adaptabilité : IterativeImputer est capable de gérer des relations complexes entre les variables en utilisant un modèle de régression. 

Flexibilité : Il peut être utilisé avec différents modèles de régression en fonction des besoins de l'utilisateur. 



#### Limitations : 

Temps de calcul : En raison du processus itératif, IterativeImputer peut être plus coûteux en termes de temps de calcul que d'autres méthodes plus simples. 

Sensibilité aux paramètres : Les résultats peuvent dépendre des paramètres tels que le nombre maximal d'itérations. 

### Fonctionnenment

Le choix entre la moyenne et la médiane pour l'imputation de données dépend de la distribution des données et de la présence potentielle de valeurs aberrantes. Voici quelques conseils pour vous aider à prendre une décision : 

Distribution normale ou symétrique : 

Si vos données suivent une distribution normale ou symétrique, la moyenne est généralement un choix approprié. La moyenne est sensible aux valeurs extrêmes, mais elle offre une mesure de tendance centrale qui peut être représentative dans ce cas. 

Distribution asymétrique ou présence de valeurs aberrantes : 

Si vos données ne suivent pas une distribution normale ou si vous avez des valeurs aberrantes qui peuvent influencer la moyenne de manière significative, il peut être préférable d'utiliser la médiane. La médiane est moins sensible aux valeurs extrêmes, car elle représente la valeur centrale lorsque les données sont ordonnées. 

Robustesse : 

Si la robustesse de l'estimation est une préoccupation, la médiane est souvent préférée, car elle est moins influencée par les valeurs extrêmes. La médiane est une mesure robuste de la tendance centrale, tandis que la moyenne peut être sensible aux valeurs aberrantes. 

Type de données : 

Pour des données ordinales ou catégorielles, la médiane peut être plus appropriée car elle tient compte de l'ordre des valeurs sans supposer une échelle continue. La moyenne peut ne pas avoir de sens dans ce contexte. 

Objectif de l'analyse : 

Considérez l'objectif de votre analyse. Si la moyenne est une mesure plus appropriée pour votre question de recherche ou si elle est plus interprétable dans votre contexte, vous pouvez choisir de l'utiliser malgré la présence potentielle de valeurs aberrantes. 

En résumé, le choix entre la moyenne et la médiane dépend de la distribution des données, de la présence de valeurs aberrantes et de la nature spécifique de vos données. Il est parfois judicieux d'essayer les deux approches et de comparer les résultats pour prendre une décision informée. Si vous effectuez une imputation dans le cadre d'une analyse préliminaire, vous pouvez également envisager de comparer l'impact des deux méthodes sur vos résultats finaux. 