## Sustitución usando una etiqueta adicional 'Missing' con Scikit-learn ==> SimpleImputer 

En la libreria de Scikit-learn hay una clase para manejar una gran variedad de métodos de sustitución.

El **SimpleImputer** es una clase que provee una funcionalidad básica para la sustitutición de valores ausentes, incluyendo:

- Sustitución por la media y la mediana para variables numéricas
- Sustutución por la categoría más frecuente para variables categóricas.
- Sustitución por valores arbitrarios para variables numéricas y categóricas.

### Ventajas

- Facil de usar si se aplica a todo el dataframe
- Código mantenido por desarolladores de Scikit-learn: buena calidad
- Rápida computación (usa numpy para los cálculos)
- Permite usar grid search (búsqueda en cuadrículas) para varios métodos de sustitución
- Permite usar diferentes valores para codificar ausencia de datos (se puede indicar si por ejemplo los valores nulos son np.nan or zeros, etc)

### Limitaciones

- Retorna  a numpy array instead of a pandas dataframe, inconveniente para el análisis de datos
- Necesita usar clases adicionales para seleccionar cuales variables (features en inglés) se deben sustituir ==>
    - requiere lineas de código adicional
    - requiere ser usado con otras clases que todavia estan en beta (puede cambiar sin aviso)
    - no es tan sencillo de usar
    

### Más detalles acerca de los transformadores (transformers en inglés)

- [SimpleImputer](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer)
- [ColumnTransformer](https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html)
- [Stackoverflow](https://stackoverflow.com/questions/54160370/how-to-use-sklearn-column-transformer)


## En este demo:

Vamos a aprender **sustitución con una etiqueta adicional 'Missing' usando Scikit-learn** usando los datos Ames House Price.

- Para bajar los datos, por favor referirse a la clase en **Datasets** en la  **Sección 1** del curso.

### Nota: 
* 'Imputer' se deriva del verbo en inglés 'to impute' que quiere decir sustituir o reemplazar. Imputer es el objeto que completa la sustitución, de ahi el nombre dado a la clase.
* 'slicing' significa seleccionar conjuntos de datos (columnas/filas) de un ‘DataFrame’.
* 'Missing' -> ausente




In [2]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

# estas son las clases para sustitutición con sklearn
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# dividir dataset
from sklearn.model_selection import train_test_split

In [4]:
# solo usaremos las siguientes variables categoricas en el demo:

# estas son las variables categoricas y el target SalePrice
cols_to_use = ['BsmtQual', 'FireplaceQu', 'SalePrice']

# carguemos los datos 
data = pd.read_csv('../houseprice.csv', usecols=cols_to_use)
data.head()

Unnamed: 0,BsmtQual,FireplaceQu,SalePrice
0,Gd,,208500
1,Gd,TA,181500
2,Gd,TA,223500
3,TA,Gd,140000
4,Gd,TA,250000


In [3]:
# revisemos los valores nulos
data.isnull().mean()

BsmtQual       0.025342
FireplaceQu    0.472603
SalePrice      0.000000
dtype: float64

Las variables cateogóricas BsmtQual y FirePlaceQu tienen datos ausentes


In [5]:
# separar datos en segmentos entrenamiento y prueba

# primero, separemos el target (SalePrice) del resto de las variables (features)
cols_to_use.remove('SalePrice')

X_train, X_test, y_train, y_test = train_test_split(data[cols_to_use], # solo las variables
                                                    data['SalePrice'], # el target
                                                    test_size=0.3, # el percentaje de obs en el segmento de prueba
                                                    random_state=0) # para reproducir
X_train.shape, X_test.shape

((1022, 2), (438, 2))

In [6]:
# evaluemos el porcentaje de datos ausentes nuevamente
X_train.isnull().mean()

BsmtQual       0.023483
FireplaceQu    0.467710
dtype: float64

In [7]:
# exploremos los valores de la variable categórica
X_train['BsmtQual'].unique()

array(['Gd', 'TA', 'Fa', nan, 'Ex'], dtype=object)

In [8]:
# exploremos los valores de la variable categórica
X_train['FireplaceQu'].unique()

array([nan, 'Gd', 'TA', 'Fa', 'Po', 'Ex'], dtype=object)

In [10]:
# Ahora sustituyamos los valores faltantes con  SimpleImputer

# creemos una instancia de la clase SimpleImputer
# indicaremos que queremos sustituir los valores nulos nA
# con la categoria 'Missing'

imputer = SimpleImputer(strategy='constant', 
                       fill_value = 'Missing')

# ajustamos el imputer al segmento de entrenamiento
# en este caso simplemente llenara los valores nulos con el valor 'Missing'
imputer.fit(X_train)

SimpleImputer(add_indicator=False, copy=True, fill_value='Missing',
              missing_values=nan, strategy='constant', verbose=0)

In [11]:
# veamos los valores ajustados:
imputer.statistics_

array(['Missing', 'Missing'], dtype=object)

In [10]:
# ahora sustituyamos en los segmentos de entrenamiento y prueba

# NOTA: los datos son devueltos como un numpy array!!
X_train = imputer.transform(X_train)
X_test = imputer.transform(X_test)

X_train

array([['Gd', 'Missing'],
       ['Gd', 'Gd'],
       ['TA', 'Missing'],
       ...,
       ['Missing', 'Missing'],
       ['Gd', 'TA'],
       ['Gd', 'Missing']], dtype=object)

In [12]:
# transformemos el segmento de entrenamiento back en un dataframe:

X_train = pd.DataFrame(X_train, columns=cols_to_use)
X_train.head()

Unnamed: 0,BsmtQual,FireplaceQu
64,Gd,
682,Gd,Gd
960,TA,
1384,TA,
1100,TA,


In [13]:
X_train['BsmtQual'].unique()

array(['Gd', 'TA', 'Fa', nan, 'Ex'], dtype=object)

In [14]:
X_train.isnull().mean()

BsmtQual       0.023483
FireplaceQu    0.467710
dtype: float64

**ADVERTENCIA**:

Cuando usamos SimpleImputer y fijamos los parámetros:
- strategy='constant'
- fill_value = 'Missing'

Si el dataframe contiene variables que son numéricas y categóricas, los valores nulos NA en ambos serán reemplzadados con 'Missing" y por lo tanto una variable numérica se convierte en categórica, que probablemente no es el efecto deseado.

La mayoria de datos contienen variables  numéricas y categóricas, por lo tanto lo más problable es que tendras que usar un transformador por columnas como mostramos en los previos notebooks y en las siguientes celdas.

In [15]:
# carguemos los datos con variables numéricas y categóricas

cols_to_use = [
    'BsmtQual', 'FireplaceQu', 'LotFrontage', 'MasVnrArea', 'GarageYrBlt',
    'SalePrice'
]

data = pd.read_csv('../houseprice.csv', usecols=cols_to_use)
data.head()

Unnamed: 0,LotFrontage,MasVnrArea,BsmtQual,FireplaceQu,GarageYrBlt,SalePrice
0,65.0,196.0,Gd,,2003.0,208500
1,80.0,0.0,Gd,TA,1976.0,181500
2,68.0,162.0,Gd,TA,2001.0,223500
3,60.0,0.0,TA,Gd,1998.0,140000
4,84.0,350.0,Gd,TA,2000.0,250000


In [16]:
# separar datos en segmentos entrenamiento y prueba

# primero descartemos el target de la lista de variables
cols_to_use.remove('SalePrice')

X_train, X_test, y_train, y_test = train_test_split(data[cols_to_use],
                                                    data['SalePrice'],
                                                    test_size=0.3,
                                                    random_state=0)
X_train.shape, X_test.shape

((1022, 5), (438, 5))

In [18]:
# revisemos los valores nulos
X_train.isnull().mean()

BsmtQual       0.023483
FireplaceQu    0.467710
LotFrontage    0.184932
MasVnrArea     0.004892
GarageYrBlt    0.052838
dtype: float64

En este demo, vamos a sustituir los valores nulos de las variables numéricas por la media y las variables categóricas por la nueva etiqueta 'Missing'.

In [19]:
# primero vamos a crear una lista, indicando cuales son las 
# variables a sustituir con cada método

features_numeric = ['LotFrontage', 'MasVnrArea', 'GarageYrBlt']
features_categoric = ['BsmtQual', 'FireplaceQu']

# luego vamos a instanciar imputers dentro de un pipeline
# creamos un imputer por cada variable
# indicando uno para la media y el otro para las variables categoricas

imputer_numeric = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
])

imputer_categoric = Pipeline(
    steps=[('imputer',
            SimpleImputer(strategy='constant', fill_value='Missing'))])

# luego ponemos las variables en una lista y los transformadores juntos
# usando la columna transformer

preprocessor = ColumnTransformer(transformers=[('imputer_numeric',
                                                imputer_numeric,
                                                features_numeric),
                                               ('imputer_categoric',
                                                imputer_categoric,
                                                features_categoric)])

In [20]:
# ajustemos el preprocessor
preprocessor.fit(X_train)

ColumnTransformer(n_jobs=None, remainder='drop', sparse_threshold=0.3,
                  transformer_weights=None,
                  transformers=[('imputer_numeric',
                                 Pipeline(memory=None,
                                          steps=[('imputer',
                                                  SimpleImputer(add_indicator=False,
                                                                copy=True,
                                                                fill_value=None,
                                                                missing_values=nan,
                                                                strategy='mean',
                                                                verbose=0))],
                                          verbose=False),
                                 ['LotFrontage', 'MasVnrArea', 'GarageYrBlt']),
                                ('imputer_categoric',
                                 Pipeline

In [21]:
# podemos explorar el transformador:
preprocessor.transformers

[('imputer_numeric', Pipeline(memory=None,
           steps=[('imputer',
                   SimpleImputer(add_indicator=False, copy=True, fill_value=None,
                                 missing_values=nan, strategy='mean',
                                 verbose=0))],
           verbose=False), ['LotFrontage', 'MasVnrArea', 'GarageYrBlt']),
 ('imputer_categoric', Pipeline(memory=None,
           steps=[('imputer',
                   SimpleImputer(add_indicator=False, copy=True,
                                 fill_value='Missing', missing_values=nan,
                                 strategy='constant', verbose=0))],
           verbose=False), ['BsmtQual', 'FireplaceQu'])]

In [22]:
# podemos ver los parámetros ajustados asi:

# para el imputer de las variables numéricas
preprocessor.named_transformers_['imputer_numeric'].named_steps['imputer'].statistics_

array([  69.66866747,  103.55358899, 1978.01239669])

In [23]:
# para el imputer de las variables categóricas
preprocessor.named_transformers_['imputer_categoric'].named_steps['imputer'].statistics_

array(['Missing', 'Missing'], dtype=object)

In [24]:
# y ahora podemos sustituir los segmentos de entrenamiento y prueba
# recuerda los datos son numpy array

X_train = preprocessor.transform(X_train)
X_test = preprocessor.transform(X_test)

In [25]:
# ahora convirtamos el resultado en un dataframe
pd.DataFrame(X_train,
             columns=features_numeric+features_categoric).head()

Unnamed: 0,LotFrontage,MasVnrArea,GarageYrBlt,BsmtQual,FireplaceQu
0,69.6687,573,1998.0,Gd,Missing
1,69.6687,0,1996.0,Gd,Gd
2,50.0,0,1978.01,TA,Missing
3,60.0,0,1939.0,TA,Missing
4,60.0,0,1930.0,TA,Missing


In [26]:
# ahora convertimos el resultado en un dataframe
# y exploremos los valores ausentes
# (no deberia haber ninguno)

X_train = pd.DataFrame(X_train,
             columns=features_numeric+features_categoric)

X_train.isnull().mean()

LotFrontage    0.0
MasVnrArea     0.0
GarageYrBlt    0.0
BsmtQual       0.0
FireplaceQu    0.0
dtype: float64