In [1]:
import pandas as pd
import numpy as np
from sklearn.impute import KNNImputer

# Crear un DataFrame más grande con más valores faltantes
np.random.seed(128)
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace', 'Hannah', 'Ian', 'Jack'],
    'Age': [25, np.nan, 30, np.nan, 40, 35, np.nan, 29, 50, np.nan],
    'Salary': [50000, 60000, np.nan, 80000, np.nan, 55000, 70000, np.nan, np.nan, 90000],
    'Gender': ['F', 'M', np.nan, 'M', 'F', np.nan, 'F', np.nan, 'M', 'F'],
    'City': ['New York', np.nan, 'San Francisco', 'Los Angeles', np.nan, 'Houston', np.nan, 'Seattle', 'Miami', 'Boston'],
    'Department': ['HR', 'IT', np.nan, 'Finance', 'Marketing', 'IT', 'HR', np.nan, 'Finance', np.nan]
}

print("Gabriel Guzmán - seed(128):\n")

df = pd.DataFrame(data)

# Para usar KNNImputer necesitamos trabajar solo con columnas numéricas, por lo tanto excluimos 'Gender', 'City' y 'Department' para este ejemplo
df_numeric = df[['Age', 'Salary']]

# Inicializar el KNNImputer con k=2 (dos vecinos más cercanos)
imputer = KNNImputer(n_neighbors=2)

# Aplicar KNNImputer y transformar el DataFrame numérico
df_imputed = pd.DataFrame(imputer.fit_transform(df_numeric), columns=df_numeric.columns)

# Mostrar el DataFrame original
print("DataFrame original (con valores faltantes):\n", df_numeric)

# Mostrar el DataFrame después de la imputación con KNNImputer
print("\nDataFrame con valores imputados usando KNNImputer:\n", df_imputed)


Gabriel Guzmán - seed(128):

DataFrame original (con valores faltantes):
     Age   Salary
0  25.0  50000.0
1   NaN  60000.0
2  30.0      NaN
3   NaN  80000.0
4  40.0      NaN
5  35.0  55000.0
6   NaN  70000.0
7  29.0      NaN
8  50.0      NaN
9   NaN  90000.0

DataFrame con valores imputados usando KNNImputer:
     Age   Salary
0  25.0  50000.0
1  30.0  60000.0
2  30.0  52500.0
3  30.0  80000.0
4  40.0  52500.0
5  35.0  55000.0
6  30.0  70000.0
7  29.0  52500.0
8  50.0  52500.0
9  30.0  90000.0
