KNNImputer est un imputeur multivarié, il utilise l'ensemble des dimensions disponibles dans l'ensemble de données pour estimer les valeurs manquantes. Pour chaque valeur manquante d'une variable, il prend en compte les valeurs des plus proches voisins qui ont des données disponibles pour cette variable, en utilisant la distance euclidienne comme métrique par défaut. 

La classe KNNImputer offre une méthode d'imputation pour remplir les valeurs manquantes en utilisant l'approche du KNN (K-Nearest Neighbors). Par défaut, une métrique de distance euclidienne prenant en charge les valeurs manquantes, appelée nan_euclidean_distances, est utilisée pour trouver les voisins les plus proches. Chaque caractéristique manquante est imputée en utilisant les valeurs des plus proches voisins qui ont une valeur pour cette caractéristique. 

Les caractéristiques manquantes d'un échantillon sont imputées en moyennant uniformément ou en pondérant par la distance chaque voisin. Si un échantillon a plus d'une caractéristique manquante, les voisins pour cet échantillon peuvent varier en fonction de la caractéristique particulière en cours d'imputation. Lorsque le nombre de voisins disponibles est inférieur à 'n_neighbors' et qu'il n'y a pas de distances définies par rapport à l'ensemble d'entraînement, la moyenne de l'ensemble d'entraînement pour cette caractéristique est utilisée lors de l'imputation. 

In [1]:
import numpy as np
import pandas as pd
from sklearn.impute import KNNImputer

data = {'prenoms': ['Antoine', 'Cyril', 'Melody', 'Thibaut', 'Maxime', 'Kevin', 'Florian', 'Elie', 'Deborah', 'Farid', 'Saadia', 'Christian', 'Louis', 'Greg', 'Quentin', 'Simon'],
        'notes': [9, 14, 5, 18, np.nan, 11, 7, 16, 3, np.nan, 8, 13, 4, np.nan, 1, 10],
        'Presence': ['Présent', 'Absent', 'Présent', 'Présent', 'Présent', 'Présent', 'Absent', 'Absent', 'Présent', 'Absent', 'Présent', 'Présent', 'Présent', 'Absent', 'Absence', 'Présent'],
        'age': [25, 30, 22, 28, np.nan, 27, 24, 32, 29, np.nan, 26, 31, 23, np.nan, 33, 20],
        'ville': ['Paris', 'Lyon', 'Marseille', 'Toulouse', 'Lille', 'Nice', 'Bordeaux', 'Strasbourg', 'Nantes', 'Montpellier', 'Rennes', 'Reims', 'Toulon', 'Amiens', 'Le Havre', 'Limoges']}

df = pd.DataFrame(data)
df

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


Unnamed: 0,prenoms,notes,Presence,age,ville
0,Antoine,9.0,Présent,25.0,Paris
1,Cyril,14.0,Absent,30.0,Lyon
2,Melody,5.0,Présent,22.0,Marseille
3,Thibaut,18.0,Présent,28.0,Toulouse
4,Maxime,,Présent,,Lille
5,Kevin,11.0,Présent,27.0,Nice
6,Florian,7.0,Absent,24.0,Bordeaux
7,Elie,16.0,Absent,32.0,Strasbourg
8,Deborah,3.0,Présent,29.0,Nantes
9,Farid,,Absent,,Montpellier


In [2]:
colonnes_numeriques = ['notes', 'age']

imputer = KNNImputer(n_neighbors=5)

df_imputed = imputer.fit_transform(df[colonnes_numeriques])

df[colonnes_numeriques] = df_imputed

print(df)

      prenoms      notes Presence        age        ville
0     Antoine   9.000000  Présent  25.000000        Paris
1       Cyril  14.000000   Absent  30.000000         Lyon
2      Melody   5.000000  Présent  22.000000    Marseille
3     Thibaut  18.000000  Présent  28.000000     Toulouse
4      Maxime   9.153846  Présent  26.923077        Lille
5       Kevin  11.000000  Présent  27.000000         Nice
6     Florian   7.000000   Absent  24.000000     Bordeaux
7        Elie  16.000000   Absent  32.000000   Strasbourg
8     Deborah   3.000000  Présent  29.000000       Nantes
9       Farid   9.153846   Absent  26.923077  Montpellier
10     Saadia   8.000000  Présent  26.000000       Rennes
11  Christian  13.000000  Présent  31.000000        Reims
12      Louis   4.000000  Présent  23.000000       Toulon
13       Greg   9.153846   Absent  26.923077       Amiens
14    Quentin   1.000000  Absence  33.000000     Le Havre
15      Simon  10.000000  Présent  20.000000      Limoges


S'il y a au moins un voisin a une distance définie, la moyenne pondérée ou non pondérée des voisins restants sera utilisée lors de l'imputation. Si une caractéristique est toujours manquante dans l'ensemble d'entraînement, elle est supprimée lors de la transformation. 

KNNImputer va analyser les données les plus semblables et remplacer l'information manquante par la valeur de l'échantillion ou des cas d'échantillon les plus semblables. 

In [3]:
import numpy as np
import pandas as pd
from sklearn.impute import KNNImputer
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

data = {'prenoms': ['Antoine', 'Cyril', 'Melody', 'Thibaut', 'Maxime', 'Kevin', 'Florian', 'Elie', 'Deborah', 'Farid', 'Saadia', 'Christian', 'Louis', 'Greg', 'Quentin', 'Simon'],
        'notes': [9, 14, 5, 18, np.nan, 11, 7, 16, 3, np.nan, 8, 13, 4, np.nan, 1, 10],
        'Presence': ['Présent', 'Absent', 'Présent', 'Présent', 'Présent', 'Présent', 'Absent', 'Absent', 'Présent', 'Absent', 'Présent', 'Présent', 'Présent', 'Absent', 'Absence', 'Présent'],
        'age': [25, 30, 22, 28, np.nan, 27, 24, 32, 29, np.nan, 26, 31, 23, np.nan, 33, 20],
        'ville': ['Paris', 'Lyon', 'Marseille', 'Toulouse', 'Lille', 'Nice', 'Bordeaux', 'Strasbourg', 'Nantes', 'Montpellier', 'Rennes', 'Reims', 'Toulon', 'Amiens', 'Le Havre', 'Limoges']}

df_2 = pd.DataFrame(data)
df_2


Unnamed: 0,prenoms,notes,Presence,age,ville
0,Antoine,9.0,Présent,25.0,Paris
1,Cyril,14.0,Absent,30.0,Lyon
2,Melody,5.0,Présent,22.0,Marseille
3,Thibaut,18.0,Présent,28.0,Toulouse
4,Maxime,,Présent,,Lille
5,Kevin,11.0,Présent,27.0,Nice
6,Florian,7.0,Absent,24.0,Bordeaux
7,Elie,16.0,Absent,32.0,Strasbourg
8,Deborah,3.0,Présent,29.0,Nantes
9,Farid,,Absent,,Montpellier


In [4]:
colonnes_numeriques = ['notes', 'age']

pipeline = Pipeline([
    ('preprocessor', ColumnTransformer(
        transformers=[
            ('numeric', KNNImputer(), colonnes_numeriques)
        ],
        remainder='passthrough'
    ))
])
param_grid = {
    'preprocessor__numeric__n_neighbors': [3, 5, 7]
}

model = GridSearchCV(pipeline, param_grid, cv=5, scoring='neg_mean_squared_error')

model.fit(df_2[colonnes_numeriques])

print("Meilleurs paramètres :", model.best_params_)

df_2_transformed = model.transform(df_2[colonnes_numeriques])

df_2[colonnes_numeriques] = df_2_transformed

print(df_2)

Traceback (most recent call last):
  File "/home/utilisateur/Documents/Projets/ML_avance/MLImputer/lib/python3.9/site-packages/sklearn/model_selection/_validation.py", line 975, in _score
    scores = scorer(estimator, X_test, **score_params)
TypeError: __call__() missing 1 required positional argument: 'y_true'

Traceback (most recent call last):
  File "/home/utilisateur/Documents/Projets/ML_avance/MLImputer/lib/python3.9/site-packages/sklearn/model_selection/_validation.py", line 975, in _score
    scores = scorer(estimator, X_test, **score_params)
TypeError: __call__() missing 1 required positional argument: 'y_true'

Traceback (most recent call last):
  File "/home/utilisateur/Documents/Projets/ML_avance/MLImputer/lib/python3.9/site-packages/sklearn/model_selection/_validation.py", line 975, in _score
    scores = scorer(estimator, X_test, **score_params)
TypeError: __call__() missing 1 required positional argument: 'y_true'

Traceback (most recent call last):
  File "/home/utilis

Meilleurs paramètres : {'preprocessor__numeric__n_neighbors': 3}
      prenoms      notes Presence        age        ville
0     Antoine   9.000000  Présent  25.000000        Paris
1       Cyril  14.000000   Absent  30.000000         Lyon
2      Melody   5.000000  Présent  22.000000    Marseille
3     Thibaut  18.000000  Présent  28.000000     Toulouse
4      Maxime   9.153846  Présent  26.923077        Lille
5       Kevin  11.000000  Présent  27.000000         Nice
6     Florian   7.000000   Absent  24.000000     Bordeaux
7        Elie  16.000000   Absent  32.000000   Strasbourg
8     Deborah   3.000000  Présent  29.000000       Nantes
9       Farid   9.153846   Absent  26.923077  Montpellier
10     Saadia   8.000000  Présent  26.000000       Rennes
11  Christian  13.000000  Présent  31.000000        Reims
12      Louis   4.000000  Présent  23.000000       Toulon
13       Greg   9.153846   Absent  26.923077       Amiens
14    Quentin   1.000000  Absence  33.000000     Le Havre
15     

Traceback (most recent call last):
  File "/home/utilisateur/Documents/Projets/ML_avance/MLImputer/lib/python3.9/site-packages/sklearn/model_selection/_validation.py", line 975, in _score
    scores = scorer(estimator, X_test, **score_params)
TypeError: __call__() missing 1 required positional argument: 'y_true'

Traceback (most recent call last):
  File "/home/utilisateur/Documents/Projets/ML_avance/MLImputer/lib/python3.9/site-packages/sklearn/model_selection/_validation.py", line 975, in _score
    scores = scorer(estimator, X_test, **score_params)
TypeError: __call__() missing 1 required positional argument: 'y_true'

Traceback (most recent call last):
  File "/home/utilisateur/Documents/Projets/ML_avance/MLImputer/lib/python3.9/site-packages/sklearn/model_selection/_validation.py", line 975, in _score
    scores = scorer(estimator, X_test, **score_params)
TypeError: __call__() missing 1 required positional argument: 'y_true'

Traceback (most recent call last):
  File "/home/utilis

En résumé, KNNImputer utilise la méthode du K-Nearest Neighbors pour estimer les valeurs manquantes en se basant sur les caractéristiques des voisins les plus proches, avec une gestion flexible des distances et des valeurs manquantes. Cela en fait une approche puissante pour l'imputation des données manquantes. 