In [7]:
import pandas as pd
import numpy as np
from io import StringIO

# Creamos un dataset con missing values

In [2]:
csv_data = """A,B,C,D
            1.0,2.0,3.0,4.0
            5.0,6.0,,8.0
            10.0,11.0,12.0,"""

In [3]:
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


### Una forma de comprobar si hay missing values con numpy

In [9]:
np.isnan(df.values)

array([[False, False, False, False],
       [False, False,  True, False],
       [False, False, False,  True]])

# Opción 1: Eliminar

## A- Filas

In [10]:
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


## B- Columnas

In [11]:
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


El problema de esta opción es que podemos remover demasiados muestras provocando que el análisis sea practicamente imposible. O eliminamos muchas columnas, es decir, muchas features y tenemos un alto riesgo de perder imformación valiosa que nuestro clasificador necesita para descriminar entre clases.

# Opción 2: Técnicas de interpolación

## A- Mean/Median imputation

In [20]:
from sklearn.impute import SimpleImputer
imr = SimpleImputer(missing_values=np.nan, strategy='mean')
imr = imr.fit(df.values)
imputed_data = imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

## B- Most frequent imputation

In [27]:
imr = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
imr = imr.fit(df.values)
imputed_data = imr.transform(df.values)
imputed_data

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  3.,  8.],
       [10., 11., 12.,  4.]])

Esta opción sirve especialmente para categorical feature, por ejemplo: si tenemos una columna con diferentes opciones de colores (rojo, verde, azul) podemos reemplazar el valor inexistente con el valor más frecuente.