In [1]:
import pandas as pd
import numpy as np

In [10]:
data = {
    'Age': [25, np.nan, 28, 35, np.nan, 40, 32],
    'Salaire': [50000, 54000, np.nan, 61000, 57000, np.nan, 60000],
    'Genre': ['M', 'F', np.nan, 'M', 'F', 'M', np.nan]
}

df = pd.DataFrame(data)
print("DataFrame original avec valeurs manquantes :\n", df)

DataFrame original avec valeurs manquantes :
     Age  Salaire Genre
0  25.0  50000.0     M
1   NaN  54000.0     F
2  28.0      NaN   NaN
3  35.0  61000.0     M
4   NaN  57000.0     F
5  40.0      NaN     M
6  32.0  60000.0   NaN


In [11]:
df

Unnamed: 0,Age,Salaire,Genre
0,25.0,50000.0,M
1,,54000.0,F
2,28.0,,
3,35.0,61000.0,M
4,,57000.0,F
5,40.0,,M
6,32.0,60000.0,


### Simple imputation

Imputation par la moyenne pour la colonne "Age"

In [5]:
df['Age'] = df['Age'].fillna(df['Age'].mean())
print("\nDataFrame après imputation par la moyenne pour 'Age' :\n", df)


DataFrame après imputation par la moyenne pour 'Age' :
     Age  Salaire Genre
0  25.0  50000.0     M
1  32.0  54000.0     F
2  28.0  57000.0   NaN
3  35.0  61000.0     M
4  32.0  57000.0     F
5  40.0  57000.0     M
6  32.0  60000.0   NaN


Imputation par la médiane pour la colonne "Salaire"

In [7]:
df['Salaire'] = df['Salaire'].fillna(df['Salaire'].median())
print("\nDataFrame après imputation par la médiane pour 'Salaire' :\n", df)


DataFrame après imputation par la médiane pour 'Salaire' :
     Age  Salaire Genre
0  25.0  50000.0     M
1  32.0  54000.0     F
2  28.0  57000.0   NaN
3  35.0  61000.0     M
4  32.0  57000.0     F
5  40.0  57000.0     M
6  32.0  60000.0   NaN


# Imputation par le mode pour la colonne "Genre"

In [8]:
df['Genre'] = df['Genre'].fillna(df['Genre'].mode()[0])
print("\nDataFrame après imputation par le mode pour 'Genre' :\n", df)


DataFrame après imputation par le mode pour 'Genre' :
     Age  Salaire Genre
0  25.0  50000.0     M
1  32.0  54000.0     F
2  28.0  57000.0     M
3  35.0  61000.0     M
4  32.0  57000.0     F
5  40.0  57000.0     M
6  32.0  60000.0     M


## Imputation par KNN

In [30]:
data = {
    'Age': [25, np.nan, 28, 29, np.nan, 40, 32],
    'Salaire': [50000, 50000, np.nan, 52000, 57000, np.nan, 60000],
    'Expérience': [2, 2, 7, np.nan, 3, 10, np.nan]
}

df = pd.DataFrame(data)

In [31]:
df

Unnamed: 0,Age,Salaire,Expérience
0,25.0,50000.0,2.0
1,,50000.0,2.0
2,28.0,,7.0
3,29.0,52000.0,
4,,57000.0,3.0
5,40.0,,10.0
6,32.0,60000.0,


In [32]:
from sklearn.impute import KNNImputer

In [33]:
knn_imputer = KNNImputer(n_neighbors=2)

In [34]:
df_imputed = pd.DataFrame(knn_imputer.fit_transform(df), columns=df.columns)
print("\nDataFrame après imputation par KNN :\n", df_imputed)


DataFrame après imputation par KNN :
     Age  Salaire  Expérience
0  25.0  50000.0         2.0
1  26.5  50000.0         2.0
2  28.0  54500.0         7.0
3  29.0  52000.0         8.5
4  34.0  57000.0         3.0
5  40.0  53500.0        10.0
6  32.0  60000.0         8.5


In [35]:
# Imputation par regression

In [43]:
from sklearn.linear_model import LinearRegression


In [44]:
data = {
    'Age': [25, 30, 28, 35, np.nan, 40, 32],
    'Salaire': [50000, 54000, np.nan, 61000, 57000, np.nan, 60000]
}

In [45]:
df = pd.DataFrame(data)
df

Unnamed: 0,Age,Salaire
0,25.0,50000.0
1,30.0,54000.0
2,28.0,
3,35.0,61000.0
4,,57000.0
5,40.0,
6,32.0,60000.0


In [46]:
# Séparation des données complètes et incomplètes
df_complete = df.dropna()  # Lignes sans valeurs manquantes
df_missing = df[df['Salaire'].isna()]  # Lignes avec Salaire manquant

In [47]:
# Préparation de la régression linéaire
X_train = df_complete[['Age']]  # Variable indépendante
y_train = df_complete['Salaire']  # Variable dépendante

In [48]:
# Modèle de régression linéaire
regressor = LinearRegression()
regressor.fit(X_train, y_train)

In [50]:
regressor.coef_

array([1179.24528302])

In [51]:
regressor.intercept_

np.float64(20283.018867924526)

In [49]:
# Imputation des valeurs manquantes
X_missing = df_missing[['Age']]
df.loc[df['Salaire'].isna(), 'Salaire'] = regressor.predict(X_missing)

print("\nDataFrame après imputation par régression :\n", df)


DataFrame après imputation par régression :
     Age       Salaire
0  25.0  50000.000000
1  30.0  54000.000000
2  28.0  53301.886792
3  35.0  61000.000000
4   NaN  57000.000000
5  40.0  67452.830189
6  32.0  60000.000000
