In [2]:
import numpy as np
from sklearn.impute import SimpleImputer

In [3]:
# Carga de datos
X_train = [[1,      4], 
           [np.nan, 3], 
           [7,      8]]

In [4]:
# Limpieza de datos: imputación valores ausentes (modelo)
imputer = SimpleImputer(strategy='mean') # Utilizamos la estrategia de la media

# Aplicar los métodos "fit" y "transform" para imputar los valores pérdidos de X_train
X_train_clean = imputer.fit_transform(X_train)
print(X_train_clean)

[[1. 4.]
 [4. 3.]
 [7. 8.]]


In [5]:
# Imputación de valores ausentes sobre el conjunto de test
X_test = [[np.nan, 10], 
          [6,      np.nan], 
          [8,      2]]

# Imputar los datos del conjunto de test
X_test_clean = imputer.transform(X_test)
print(X_test_clean)

[[ 4. 10.]
 [ 6.  5.]
 [ 8.  2.]]


Ejemplo real

In [8]:
import pandas as pd

# Cargar dataframe
df = pd.read_csv("penguins.csv", sep=';')
print(df)

     CulmenLength  CulmenDepth  FlipperLength  BodyMass  Species
0            39.1         18.7          181.0    3750.0        0
1            39.5         17.4          186.0    3800.0        0
2            40.3         18.0          195.0    3250.0        0
3             NaN          NaN            NaN       NaN        0
4            36.7         19.3          193.0    3450.0        0
..            ...          ...            ...       ...      ...
339          55.8         19.8          207.0    4000.0        2
340          43.5         18.1          202.0    3400.0        2
341          49.6         18.2          193.0    3775.0        2
342          50.8         19.0          210.0    4100.0        2
343          50.2         18.7          198.0    3775.0        2

[344 rows x 5 columns]


In [10]:
# Convertir dataframe a numpy array
data = np.array(df)
print(data)

[[3.910e+01 1.870e+01 1.810e+02 3.750e+03 0.000e+00]
 [3.950e+01 1.740e+01 1.860e+02 3.800e+03 0.000e+00]
 [4.030e+01 1.800e+01 1.950e+02 3.250e+03 0.000e+00]
 ...
 [4.960e+01 1.820e+01 1.930e+02 3.775e+03 2.000e+00]
 [5.080e+01 1.900e+01 2.100e+02 4.100e+03 2.000e+00]
 [5.020e+01 1.870e+01 1.980e+02 3.775e+03 2.000e+00]]


In [14]:
# Comprobar si existen valores ausentes
pos_ausentes = np.unique(np.where(np.isnan(data))[0])
print(pos_ausentes)
print(len(pos_ausentes))

[  3 271]
2


In [16]:
# Definimos imputador con la estrategia de la media
imputer = SimpleImputer(strategy='mean')

# Aplicamos el imputador definido a los datos
data_clean = imputer.fit_transform(data)

In [18]:
# Comprobar de nuevo si existen valores ausentes
pos_ausentes = np.unique(np.where(np.isnan(data_clean))[0])
print(pos_ausentes)

[]


In [19]:
# Guardamos el nuevo dataset corregido
df = pd.DataFrame(np.round(data_clean, 2), columns=["Culmen length", "Culmen depth", "Flipper length", "Body mass", "Especies"])
df.to_csv('penguins_clean.csv', sep=';', index=False)