# Imputación de características

En <i>machine learning</i> es común el encontrarte con que el dataset que estás utilizando tiene información faltante en algunas de sus columnas. La información faltante en el mundo de Python científico está a veces codificada como <code>NaN</code>s o valores nulos.

El hecho de que falte información se puede dar gracias a varios factores: hubo un error en la recolección de datos, los datos se corrompieron en alguna parte o simplemente nunca se recolectaron.

Bajo ciertas condiciones es mejor calcular valores para que esos valores faltantes no afecten el desempeño de tu modelo causando predicciones sesgadas o incorrectas. Y de hecho, muchos de los algoritmos que ofrece scikit-learn requieren de que tu dataset no contenga valores nulos.

Para esta tarea, scikit-learn nos ofrece una clase llamada <code>SimpleImputer</code> que nos ayuda con la tarea de rellenar los valores faltantes a través de diferentes estrategias.

Vamos a crear un dataset con algunos datos faltantes:

In [None]:
import pandas as pd

data =pd.DataFrame([
    ('red', 1, 1.0, -1), ('blue', 2, None, -3), (None, 3, 3.0, -5),
    ('red', 4, 4.0, -2), ('red', None, 5.0, -5), ('blue', 6, 6.0, -1),
    ('red', 7, None), ('blue', 8, 8.0, None), ('green', 9, 9.0, None),
    ('red', 10, 10.0, None),
], columns=['color', 'number', 'value', 'other'])

data

Para utilizarlo, primero hay que importarlo de <code>sklearn.impute</code>

In [None]:
from sklearn.impute import SimpleImputer

Primero vamos a trabajar con valores numéricos, y con los argumentos por default de la clase, que utilizará el promedio:

In [None]:

imputer = SimpleImputer()
imputer.fit(data[['value']])
data['value'] = imputer.transform(data[['value']])
data

Digamos que para otra columna, lo que quieres es utilizar la media, en lugar de el promedio:

In [None]:
imputer = SimpleImputer(strategy='median')
imputer.fit(data[['number']])
data['number'] = imputer.transform(data[['number']])
data

También es posible rellenar valores a partir del elemento más frecuente, por ejemplo, para el valor faltante en la columna <code>color</code> podemos elegir esta opción puesto que las dos anteriores solamente funcionan con datos numéricos:

In [None]:
imputer = SimpleImputer(missing_values=pd.NA, strategy='most_frequent')
imputer.fit(data[['color']])
data['color'] = imputer.transform(data[['color']]).squeeze()
data

La cuarta y última estrategia es la de establecer un valor constante. Útil cuando tu has calculado este valor de antemano, para esto es ideal utilizar dos argumentos <code>strategy='constant'</code> y <code>fill_value</code> con el valor que quieres poner:

In [None]:
imputer = SimpleImputer(strategy='constant', fill_value=10)
imputer.fit(data[['other']])
data['other'] = imputer.transform(data[['other']])
data

Y así es como podemos tener un dataset sin valores faltantes, listo para ser procesado y usado para entrenar un modelo de machine learning utilizando scikit-learn.