In [2]:
# Load Libraries
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
import pandas as pd 

from sklearn.model_selection import train_test_split
from scipy import stats

from multiprocessing import cpu_count

# Rellenar Missing Values

![imagen.png](attachment:imagen.png)

La mayoría de los modelos de aprendizaje automático no aceptan valores no informados en los datos de entrada. 

En las variables categóricas, los valores que faltan pueden transformarse en una nueva categoría "MISSING", resolviendo así el problema. También pueden sustituirse por la moda.

En el caso de las variables numéricas, estos valores perdidos pueden rellenarse utilizando distintos enfoques, como rellenar con la media o mediante diversos estimadores.



## Load Data

In [4]:
dat = pd.read_csv("../datasets/i2.csv", sep = ";")
dat

Unnamed: 0,user,booking_date,origin_airport,price,sales channel,ant,airline
0,user5,01/11/2018,MAD,,online,,i2
1,user7,01/11/2018,DUB,147.500000,online,38.0,i2
2,user4,02/11/2018,TFS,24.049999,online,19.0,i2
3,user8,29/10/2018,MAD,59.709999,online,8.0,i2
4,user7,01/11/2018,,37.299999,call center,4.0,i2
...,...,...,...,...,...,...,...
995,user2,01/11/2018,JMK,,online,29.0,i2
996,user10,01/11/2018,SVQ,,online,39.0,i2
997,user4,30/10/2018,MAD,,online,5.0,i2
998,user10,02/11/2018,CDG,,online,4.0,i2


## Detectar Missing Values

Contemos el número de valores no informados de cada variable del conjunto de datos.

In [10]:
dat.apply(lambda x: 100*np.sum(x.isna())/len(x))

user               0.0
booking_date       0.0
origin_airport     0.4
price             57.9
sales channel      0.0
ant                0.5
airline            0.0
dtype: float64

origin_airport y ant tienen un bajo porcentaje de valores no informados. Deberíamos intentar rellenarlos.

## Approach 0: Eliminar filas missing values.

El enfoque más básico sería simplemente eliminar cualquier fila con valores perdidos. Sin embargo, aunque este enfoque se recomienda a veces en cursos y tutoriales, no es aconsejable en la vida real. Hacer esto probablemente te dejará casi sin datos ;p.

In [11]:
dat_new = dat.copy()
dat_new.dropna(axis = 0, how = 'any', inplace = True)
dat_new

Unnamed: 0,user,booking_date,origin_airport,price,sales channel,ant,airline
1,user7,01/11/2018,DUB,147.500000,online,38.0,i2
2,user4,02/11/2018,TFS,24.049999,online,19.0,i2
3,user8,29/10/2018,MAD,59.709999,online,8.0,i2
5,user1,01/11/2018,AMS,149.740005,travel agency,63.0,i2
6,user1,01/11/2018,MAD,19.950001,online,22.0,i2
...,...,...,...,...,...,...,...
991,user8,01/11/2018,LYS,54.970001,online,2.0,i2
992,user2,01/11/2018,MAD,81.592262,online,2.0,i2
993,user8,01/11/2018,MAD,29.020000,online,21.0,i2
994,user9,01/11/2018,SCQ,57.619999,online,16.0,i2


## Variables Categóricas

In [12]:
dat.dtypes

user               object
booking_date       object
origin_airport     object
price             float64
sales channel      object
ant               float64
airline            object
dtype: object

In [14]:
categorical_variables = dat.columns.values[dat.dtypes == 'object'].tolist()
numerical_variables = dat.columns.values[dat.dtypes == 'float64'].tolist()

In [15]:
categorical_variables

['user', 'booking_date', 'origin_airport', 'sales channel', 'airline']

In [16]:
numerical_variables

['price', 'ant']

### Approach 1: Reemplazar con la moda.

El siguiente enfoque en relación con las variables categóricas será sustituir los valores que faltan por la categoría más frecuente o la moda.

In [19]:
modes = dat[categorical_variables].apply(lambda x: stats.mode(x)[0][0]).to_dict()
modes

{'user': 'user9',
 'booking_date': '01/11/2018',
 'origin_airport': 'MAD',
 'sales channel': 'online',
 'airline': 'i2'}

Utilicemos los valores de la moda para sustituir los NA.

In [20]:
dat

Unnamed: 0,user,booking_date,origin_airport,price,sales channel,ant,airline
0,user5,01/11/2018,MAD,,online,,i2
1,user7,01/11/2018,DUB,147.500000,online,38.0,i2
2,user4,02/11/2018,TFS,24.049999,online,19.0,i2
3,user8,29/10/2018,MAD,59.709999,online,8.0,i2
4,user7,01/11/2018,,37.299999,call center,4.0,i2
...,...,...,...,...,...,...,...
995,user2,01/11/2018,JMK,,online,29.0,i2
996,user10,01/11/2018,SVQ,,online,39.0,i2
997,user4,30/10/2018,MAD,,online,5.0,i2
998,user10,02/11/2018,CDG,,online,4.0,i2


In [25]:
dat_new = dat.fillna(value = modes, axis = 0)
dat_new

Unnamed: 0,user,booking_date,origin_airport,price,sales channel,ant,airline
0,user5,01/11/2018,MAD,,online,,i2
1,user7,01/11/2018,DUB,147.500000,online,38.0,i2
2,user4,02/11/2018,TFS,24.049999,online,19.0,i2
3,user8,29/10/2018,MAD,59.709999,online,8.0,i2
4,user7,01/11/2018,MAD,37.299999,call center,4.0,i2
...,...,...,...,...,...,...,...
995,user2,01/11/2018,JMK,,online,29.0,i2
996,user10,01/11/2018,SVQ,,online,39.0,i2
997,user4,30/10/2018,MAD,,online,5.0,i2
998,user10,02/11/2018,CDG,,online,4.0,i2


In [26]:
dat_new.apply(lambda x: 100*np.sum(x.isna())/len(x))

user               0.0
booking_date       0.0
origin_airport     0.0
price             57.9
sales channel      0.0
ant                0.5
airline            0.0
dtype: float64

### Approach 2: Transformar a una nueva categoría.

Los valores que faltan en una variable categórica pueden aportar información, especialmente si no son aleatorios. Por lo tanto, puede ser interesante considerar los valores no informados como una nueva categoría en lugar de sustituirlos por la moda o algún otro valor.

In [28]:
dat_new = dat.copy()
dat_new[categorical_variables] = dat[categorical_variables].fillna(value = 'UNKNOWN', axis = 0)
dat_new

Unnamed: 0,user,booking_date,origin_airport,price,sales channel,ant,airline
0,user5,01/11/2018,MAD,,online,,i2
1,user7,01/11/2018,DUB,147.500000,online,38.0,i2
2,user4,02/11/2018,TFS,24.049999,online,19.0,i2
3,user8,29/10/2018,MAD,59.709999,online,8.0,i2
4,user7,01/11/2018,UNKNOWN,37.299999,call center,4.0,i2
...,...,...,...,...,...,...,...
995,user2,01/11/2018,JMK,,online,29.0,i2
996,user10,01/11/2018,SVQ,,online,39.0,i2
997,user4,30/10/2018,MAD,,online,5.0,i2
998,user10,02/11/2018,CDG,,online,4.0,i2


In [29]:
dat_new.apply(lambda x: 100*np.sum(x.isna())/len(x))

user               0.0
booking_date       0.0
origin_airport     0.0
price             57.9
sales channel      0.0
ant                0.5
airline            0.0
dtype: float64

## Variables Numéricas

### Approach 1: Reemplazar con la media.

El siguiente enfoque más básico en relación con las variables numéricas será sustituir los valores que faltan por el valor medio o la mediana.

In [30]:
means = dat[numerical_variables].apply(lambda x: np.mean(x)).to_dict()
means

{'price': 77.57512075718526, 'ant': 25.160804020100503}

Utilicemos estos valores medios para sustituir los NA.

In [31]:
dat_new = dat.fillna(value = means, axis = 0)
dat_new

Unnamed: 0,user,booking_date,origin_airport,price,sales channel,ant,airline
0,user5,01/11/2018,MAD,77.575121,online,25.160804,i2
1,user7,01/11/2018,DUB,147.500000,online,38.000000,i2
2,user4,02/11/2018,TFS,24.049999,online,19.000000,i2
3,user8,29/10/2018,MAD,59.709999,online,8.000000,i2
4,user7,01/11/2018,,37.299999,call center,4.000000,i2
...,...,...,...,...,...,...,...
995,user2,01/11/2018,JMK,77.575121,online,29.000000,i2
996,user10,01/11/2018,SVQ,77.575121,online,39.000000,i2
997,user4,30/10/2018,MAD,77.575121,online,5.000000,i2
998,user10,02/11/2018,CDG,77.575121,online,4.000000,i2


In [16]:
dat_new.apply(lambda x: 100*np.sum(x.isna())/len(x))

user              0.0
booking_date      0.0
origin_airport    0.4
price             0.0
sales channel     0.0
ant               0.0
airline           0.0
dtype: float64

### Approach 2: Usar un algoritmo..

En cuanto al relleno de valores no informados de variables numéricas, existen métodos mucho más complejos para rellenarlos, algunos de ellos incluso utilizan modelos de aprendizaje automático para intentar predecir estos missing values.

Este es el caso de la MICE: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3074241/. 

In [32]:
from fancyimpute import IterativeImputer as MICE # pip install fancyimpute
?MICE

In [33]:
dat_new = dat.copy()
dat_new[numerical_variables] = MICE().fit_transform(dat[numerical_variables])
dat_new

Unnamed: 0,user,booking_date,origin_airport,price,sales channel,ant,airline
0,user5,01/11/2018,MAD,77.574953,online,25.16082,i2
1,user7,01/11/2018,DUB,147.500000,online,38.00000,i2
2,user4,02/11/2018,TFS,24.049999,online,19.00000,i2
3,user8,29/10/2018,MAD,59.709999,online,8.00000,i2
4,user7,01/11/2018,,37.299999,call center,4.00000,i2
...,...,...,...,...,...,...,...
995,user2,01/11/2018,JMK,77.573951,online,29.00000,i2
996,user10,01/11/2018,SVQ,77.571341,online,39.00000,i2
997,user4,30/10/2018,MAD,77.580215,online,5.00000,i2
998,user10,02/11/2018,CDG,77.580476,online,4.00000,i2


In [25]:
dat_new.apply(lambda x: 100*np.sum(x.isna())/len(x))

user              0.0
booking_date      0.0
origin_airport    0.4
price             0.0
sales channel     0.0
ant               0.0
airline           0.0
dtype: float64

In [38]:
# from sklearn.linear_model import Lasso as model_constructor
from sklearn.tree import DecisionTreeRegressor as model_constructor
dat_new = dat.copy()
dat_new[numerical_variables] = MICE(estimator = model_constructor()).fit_transform(dat[numerical_variables])
dat_new

Unnamed: 0,user,booking_date,origin_airport,price,sales channel,ant,airline
0,user5,01/11/2018,MAD,77.358894,online,26.0,i2
1,user7,01/11/2018,DUB,147.500000,online,38.0,i2
2,user4,02/11/2018,TFS,24.049999,online,19.0,i2
3,user8,29/10/2018,MAD,59.709999,online,8.0,i2
4,user7,01/11/2018,,37.299999,call center,4.0,i2
...,...,...,...,...,...,...,...
995,user2,01/11/2018,JMK,99.020000,online,29.0,i2
996,user10,01/11/2018,SVQ,97.613333,online,39.0,i2
997,user4,30/10/2018,MAD,92.779412,online,5.0,i2
998,user10,02/11/2018,CDG,77.673547,online,4.0,i2


## Definir Función

**Ejercicio:** Vamos a crear nuestra propia función personalizada para rellenar los valores que faltan. 

Puedes elegir uno de los métodos vistos arriba o permitir seleccionar el método mediante un argumento de la función para hacer la función más flexible.

In [None]:
new_dat = fill_missing_values()
new_dat

In [None]:
new_dat = fill_missing_values()
new_dat