# Missing Values.

Missing Values happen, Be prepared for this common challange in real datasets.

<p align="center">
  <img src="assets/separador.png" alt="Separador" width=200"/>
</p>

### Introducción


<div style="background-color:#FFF4CC; padding:12px; border-radius:4px;">


Existen muchas formas en las que los datos pueden acabar teniendo **missing values**. Por ejemplo:

- Una vivienda con 2 dormitorios no incluirá un valor para el tamaño de un tercer dormitorio.
- Una persona que responde a una encuesta puede decidir no compartir sus respuestas.

La mayoría de las librerías de **machine learning** (incluida **scikit-learn**) generan un error si intentas construir un modelo utilizando datos con **missing values**. Por ello, será necesario elegir una de las estrategias que se presentan a continuación.

</div>


#### Tres Enfoques:

<div style="background-color:#FFF4CC; padding:12px; border-radius:4px;">


#### 1) Una opción sencilla: eliminar columnas con *missing values*

La opción más simple consiste en eliminar las columnas que contienen **missing values**.

.



A menos que la mayoría de los valores de las columnas eliminadas sean **missing**, con este enfoque el modelo pierde acceso a mucha información (¡potencialmente útil!). Como ejemplo extremo, imagina un conjunto de datos con 10 000 filas en el que una columna importante tiene un único valor ausente. ¡Este enfoque eliminaría la columna completa!




</div>


<div style="background-color:#FFF4CC; padding:12px; border-radius:4px;">

#### 2) Una opción mejor: *Imputation*

La **imputation** consiste en rellenar los **missing values** con algún valor numérico. Por ejemplo, podemos usar el valor medio (*mean*) de cada columna.

En la mayoría de los casos, el valor imputado no será exactamente correcto, pero normalmente conduce a modelos más precisos que los que se obtendrían eliminando la columna por completo.

</div>


<div style="background-color:#FFF4CC; padding:12px; border-radius:4px;">

#### 3) Una extensión de la *Imputation*

La **imputation** es el enfoque estándar y suele funcionar bien. Sin embargo, los valores imputados pueden estar sistemáticamente por encima o por debajo de sus valores reales (que no se recogieron en el dataset). Además, las filas con **missing values** pueden ser únicas de alguna otra forma. En estos casos, el modelo puede realizar mejores predicciones si tiene en cuenta qué valores estaban ausentes originalmente.

En este enfoque, imputamos los **missing values** como antes y, además, para cada columna que tenía valores ausentes en el dataset original, añadimos una nueva columna que indica la posición de los valores imputados.

En algunos casos, esto mejora de forma significativa los resultados. En otros, no aporta ninguna mejora.

</div>


<img src="assets/2.png" alt="imagen" style="max-width:50%;">

<p align="center">
  <img src="assets/separador.png" alt="Separador" width=200"/>
</p>


# --- Ejemplo Práctico ---

<div style="background-color:#E6F4EA; padding:12px; border-radius:4px;">


En este ejemplo trabajaremos con el dataset **Melbourne Housing**. Nuestro modelo utilizará información como el número de habitaciones (*rooms*) y el tamaño del terreno (*land size*) para predecir el precio de la vivienda.

No nos centraremos en el paso de **data loading**. En su lugar, puedes asumir que ya estamos en un punto en el que disponemos de los datos de entrenamiento y validación en **X_train**, **X_valid**, **y_train** y **y_valid**.

</div>


In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split

data=pd.read_csv("data/melb_data.csv")
y=data.Price

# Para hacerlo simple, usaremos solo predicicones numéricas
melb_predictors=data.drop(["Price"],axis=1)
X=melb_predictors.select_dtypes(exclude=["object"])



In [11]:
melb_predictors.head(2)

Unnamed: 0,Suburb,Address,Rooms,Type,Method,SellerG,Date,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,S,Biggin,3/12/2016,2.5,3067.0,2.0,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,S,Biggin,4/02/2016,2.5,3067.0,2.0,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0


In [7]:
#Podemos observar que solo han quedado columnas numericas, fuera texto.
X.head(2)


Unnamed: 0,Rooms,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
0,2,2.5,3067.0,2.0,1.0,1.0,202.0,,,-37.7996,144.9984,4019.0
1,2,2.5,3067.0,2.0,1.0,0.0,156.0,79.0,1900.0,-37.8079,144.9934,4019.0


In [12]:
# Division Data
X_train, X_valid, y_train, y_valid=train_test_split(X,y,train_size=0.8, test_size=0.2, random_state=0)

<div style="background-color:#E6F4EA; padding:12px; border-radius:4px;">

#### Definir una función para medir la calidad de cada enfoque

Definimos una función **score_dataset()** para comparar los distintos enfoques a la hora de tratar los **missing values**. Esta función devuelve el **mean absolute error (MAE)** obtenido a partir de un modelo **random forest**.

</div>


In [13]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

# Funcion para comparar diferentes enfoques:
def score_dataset(X_train, X_valid, y_train, y_valid):
    model=RandomForestRegressor(n_estimators=10, random_state=0)
    model.fit(X_train, y_train)
    preds=model.predict(X_valid)
    return mean_absolute_error(y_valid, preds)

<div style="background-color:#E6F4EA; padding:12px; border-radius:4px;">



#### Resultado del enfoque 1 (Drop Columns with Missing Values)

Dado que estamos trabajando tanto con el conjunto de **training** como con el de **validation**, tenemos cuidado de eliminar las mismas columnas en ambos **DataFrames**.

</div>


In [15]:
# Obteniendo nombres de columnas con NaN
cols_with_missing=[col for col in X_train.columns if X_train[col].isnull().any()]

<div style="background-color:#FFF4CC; padding:12px; border-radius:4px;">



Una forma más extensa, pero a menudo más fácil de entender, de obtener las columnas con **missing values** es escribir el proceso paso a paso:

```python
cols_with_missing = []

for col in X_train.columns:
    if X_train[col].isnull().any():
        cols_with_missing.append(col)


In [19]:
# Eliminado columnas
reduced_X_train=X_train.drop(cols_with_missing, axis=1)
reduced_X_valid=X_valid.drop(cols_with_missing, axis=1)

In [18]:
print("MAE para el enfoque 1:  (Eliminando columnas que contienen NaN o valores faltantes):")
print(" ")
print(score_dataset(reduced_X_train, reduced_X_valid, y_train, y_valid))

MAE para el enfoque 1:  (Eliminando columnas que contienen NaN o valores faltantes):
 
183550.22137772635


<p align="center">
  <img src="assets/separador.png" alt="Separador" width=200"/>
</p>


<div style="background-color:#E6F4EA; padding:12px; border-radius:4px;">



#### Resultado del enfoque 2 (*Imputation*)

A continuación, utilizamos **SimpleImputer** para reemplazar los **missing values** por el valor medio (*mean*) de cada columna.

Aunque es un enfoque sencillo, rellenar con el valor medio suele ofrecer un rendimiento bastante bueno (aunque esto depende del dataset). Aunque los estadísticos han experimentado con métodos más complejos para determinar los valores imputados (como la *regression imputation*, por ejemplo), estas estrategias más complejas normalmente no aportan beneficios adicionales cuando los resultados se utilizan en modelos de **machine learning** sofisticados.

</div>


In [24]:
from sklearn.impute import SimpleImputer

# Imputación:
my_imputer=SimpleImputer()
imputed_X_train=pd.DataFrame(my_imputer.fit_transform(X_train))
imputed_X_valid=pd.DataFrame(my_imputer.transform(X_valid))

# La imputation ha eliminado los nombres de las columnas; hay que volver a añadirlos.
imputed_X_train.columns=X_train.columns
imputed_X_valid.columns=X_train.columns

print("MAE para la opcion 2 (imputacion)")
print(" ")
print(score_dataset(imputed_X_train, imputed_X_valid, y_train, y_valid))


MAE para la opcion 2 (imputacion)
 
178166.46269899711


<div style="background-color:#E6F4EA; padding:12px; border-radius:4px;">

Observamos que el **Approach 2** obtiene un **MAE** más bajo que el **Approach 1**, por lo que el **Approach 2** ha tenido un mejor rendimiento en este dataset.

</div>


<p align="center">
  <img src="assets/separador.png" alt="Separador" width=200"/>
</p>


<div style="background-color:#E6F4EA; padding:12px; border-radius:4px;">


#### Resultado del enfoque 3 (An Extension to *Imputation*)

A continuación, imputamos los **missing values** y, al mismo tiempo, mantenemos un registro de qué valores han sido imputados.

</div>


In [26]:
# Hacer una copia para evitar modificar los datos originales (al imputar).
X_train_plus=X_train.copy()
X_valid_plus=X_valid.copy()

# Crear nuevas columnas que indiquen qué valores serán imputados.
for col in cols_with_missing:
    X_train_plus[col + '_was_missing'] = X_train_plus[col].isnull()
    X_valid_plus[col + '_was_missing'] = X_valid_plus[col].isnull()

# Imputacion
my_imputer = SimpleImputer()
imputed_X_train_plus = pd.DataFrame(my_imputer.fit_transform(X_train_plus))
imputed_X_valid_plus = pd.DataFrame(my_imputer.transform(X_valid_plus))

# Colocando los nombres de nuevo despues de la imputación
imputed_X_train_plus.columns = X_train_plus.columns
imputed_X_valid_plus.columns = X_valid_plus.columns

In [27]:
print("MAE para el enfoque numero 3 (An Extension to Imputation):")
print(" ")
print(score_dataset(imputed_X_train_plus, imputed_X_valid_plus, y_train, y_valid))

MAE para el enfoque numero 3 (An Extension to Imputation):
 
178927.503183954


<div style="background-color:#E6F4EA; padding:12px; border-radius:4px;">


Como podemos ver, el **Approach 3** ha tenido un rendimiento ligeramente peor que el **Approach 2**.

</div>


<p align="center">
  <img src="assets/separador.png" alt="Separador" width=200"/>
</p>


<div style="background-color:#FFF4CC; padding:12px; border-radius:4px;">

### ¿Por qué la *imputation* funcionó mejor que eliminar las columnas?

Los datos de **training** tienen 10 864 filas y 12 columnas, de las cuales tres columnas contienen **missing values**. En cada una de estas columnas, menos de la mitad de los valores están ausentes.

Por lo tanto, eliminar estas columnas supone perder una gran cantidad de información útil. En este contexto, tiene sentido que la **imputation** ofrezca un mejor rendimiento que simplemente eliminar las columnas.

</div>


In [28]:
# Shape of training data (num_rows, num_columns)
print(X_train.shape)

# Number of missing values in each column of training data
missing_val_count_by_column = (X_train.isnull().sum())
print(missing_val_count_by_column[missing_val_count_by_column > 0])

(10864, 12)
Car               49
BuildingArea    5156
YearBuilt       4307
dtype: int64


<div style="background-color:#FFF4CC; padding:12px; border-radius:4px;">

### Conclusión

Como suele ser habitual, imputar los **missing values** (en el **Approach 2** y el **Approach 3**) produjo mejores resultados en comparación con simplemente eliminar las columnas con valores ausentes (en el **Approach 1**).

</div>
