<a href="https://colab.research.google.com/github/eudyzerpa/Asterisk/blob/main/6_Imputacion_de_Variables%2C_Datos_Categoricos_e_Ingenieria_de_Variables.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Sexto Notebook Práctico - Imputación de Variables, Datos Categóricos e Ingeniería de Variables.

En este notebook práctico vamos a ver cómo se aplican las técnicas mencionadas en la teoría.

In [None]:
# Imports
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer

## Imputación de Variables

Para este caso, vamos a emplear el mismo dataset que se mostró en la parte teórica. Para ello, vamos a descargarlo directamente de un link web:

In [None]:
# Descargamos el dataset
dataset = pd.read_csv('https://raw.githubusercontent.com/shrikant-temburwar/Loan-Prediction-Dataset/master/train.csv')

In [None]:
# Inspeccionemos el dataset
dataset.head(20)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
5,LP001011,Male,Yes,2,Graduate,Yes,5417,4196.0,267.0,360.0,1.0,Urban,Y
6,LP001013,Male,Yes,0,Not Graduate,No,2333,1516.0,95.0,360.0,1.0,Urban,Y
7,LP001014,Male,Yes,3+,Graduate,No,3036,2504.0,158.0,360.0,0.0,Semiurban,N
8,LP001018,Male,Yes,2,Graduate,No,4006,1526.0,168.0,360.0,1.0,Urban,Y
9,LP001020,Male,Yes,1,Graduate,No,12841,10968.0,349.0,360.0,1.0,Semiurban,N


Como podemos ver, los valores en donde no hay datos se presentan como *NaN* en el dataset.

Un primer análisis que podemos realizar, es conocer la cantidad de valores faltantes que existen por cada columna. Para ello, podemos usar el método *isnull()* de Pandas para identificar las variables nulas, y luego sumarlas:

In [None]:
# Calculemos la cantidad de valores faltantes por columna
dataset.isnull().sum()

Loan_ID               0
Gender               13
Married               3
Dependents           15
Education             0
Self_Employed        32
ApplicantIncome       0
CoapplicantIncome     0
LoanAmount           22
Loan_Amount_Term     14
Credit_History       50
Property_Area         0
Loan_Status           0
dtype: int64

Veamos el total de datos presentes en el dataset, y el total general de datos faltantes:

In [None]:
# Total de datos
dataset.shape

(614, 13)

In [None]:
# Total de datos faltantes
dataset.isnull().sum().sum()

149

### Eliminación de Filas

Aunque no resulta recomendable, una opción para imputar variables es eliminar todas las filas que tengan valores faltantes. Esto lo podemos hacer de la siguiente manera:

In [None]:
# Eliminar todos los valores NaN del dataset
dataset_sin_nan = dataset.dropna(axis=0)

In [None]:
# Veamos el resultado
dataset_sin_nan.head(20)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
5,LP001011,Male,Yes,2,Graduate,Yes,5417,4196.0,267.0,360.0,1.0,Urban,Y
6,LP001013,Male,Yes,0,Not Graduate,No,2333,1516.0,95.0,360.0,1.0,Urban,Y
7,LP001014,Male,Yes,3+,Graduate,No,3036,2504.0,158.0,360.0,0.0,Semiurban,N
8,LP001018,Male,Yes,2,Graduate,No,4006,1526.0,168.0,360.0,1.0,Urban,Y
9,LP001020,Male,Yes,1,Graduate,No,12841,10968.0,349.0,360.0,1.0,Semiurban,N
10,LP001024,Male,Yes,2,Graduate,No,3200,700.0,70.0,360.0,1.0,Urban,Y


In [None]:
# Contemos el total de NaN
dataset_sin_nan.isnull().sum()

Loan_ID              0
Gender               0
Married              0
Dependents           0
Education            0
Self_Employed        0
ApplicantIncome      0
CoapplicantIncome    0
LoanAmount           0
Loan_Amount_Term     0
Credit_History       0
Property_Area        0
Loan_Status          0
dtype: int64

In [None]:
dataset_sin_nan.shape

(480, 13)

Efectivamente, hemos eliminado todos los valores faltantes del dataset (149 registros en nuestro caso).

### Eliminación de Columnas

Dependiendo de si el dato faltante está en una columna que podría no ser o considerarse una buena predictora, podría eliminarse dicha columna entera:

In [None]:
# Eliminamos una columna entera
dataset_sin_credit_history = dataset.drop(['Credit_History'], axis=1)
dataset_sin_credit_history.head(20)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,Urban,Y
5,LP001011,Male,Yes,2,Graduate,Yes,5417,4196.0,267.0,360.0,Urban,Y
6,LP001013,Male,Yes,0,Not Graduate,No,2333,1516.0,95.0,360.0,Urban,Y
7,LP001014,Male,Yes,3+,Graduate,No,3036,2504.0,158.0,360.0,Semiurban,N
8,LP001018,Male,Yes,2,Graduate,No,4006,1526.0,168.0,360.0,Urban,Y
9,LP001020,Male,Yes,1,Graduate,No,12841,10968.0,349.0,360.0,Semiurban,N


### Remplazar con Valor Arbitrario

Como se comentó, dependiendo de la naturaleza o características de un dato, podría considerarse el sustituir un valor faltante de una variable por un valor arbitrario dentro de cierto rango adecuado. Para ello podemos usar el método *fillna()* de Pandas:

In [None]:
# Sustituyamos los valores NaN de la variable LoanAmount con Ceros
dataset_loan_amount = dataset.copy()
dataset_loan_amount['LoanAmount'] = dataset_loan_amount['LoanAmount'].fillna(0)
dataset_loan_amount.head(20)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,0.0,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
5,LP001011,Male,Yes,2,Graduate,Yes,5417,4196.0,267.0,360.0,1.0,Urban,Y
6,LP001013,Male,Yes,0,Not Graduate,No,2333,1516.0,95.0,360.0,1.0,Urban,Y
7,LP001014,Male,Yes,3+,Graduate,No,3036,2504.0,158.0,360.0,0.0,Semiurban,N
8,LP001018,Male,Yes,2,Graduate,No,4006,1526.0,168.0,360.0,1.0,Urban,Y
9,LP001020,Male,Yes,1,Graduate,No,12841,10968.0,349.0,360.0,1.0,Semiurban,N


In [None]:
# Veamos la cantidad de NaN en la variable
dataset_loan_amount.isnull().sum()

Loan_ID               0
Gender               13
Married               3
Dependents           15
Education             0
Self_Employed        32
ApplicantIncome       0
CoapplicantIncome     0
LoanAmount            0
Loan_Amount_Term     14
Credit_History       50
Property_Area         0
Loan_Status           0
dtype: int64

### Remplazar con Media, Moda o Mediana

Del mismo modo, para variables numéricas podrían sustituirse los valores faltantes con valores estadísticos para dicha columna como el promedio (media), la moda o la mediana:

In [None]:
# Sustituyamos los valores NaN de la variable LoanAmount con el promedio
dataset_loan_promedio = dataset.copy()
dataset_loan_promedio['LoanAmount'] = dataset_loan_promedio['LoanAmount'].fillna(dataset_loan_promedio['LoanAmount'].mean())
dataset_loan_promedio.head(20)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,146.412162,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
5,LP001011,Male,Yes,2,Graduate,Yes,5417,4196.0,267.0,360.0,1.0,Urban,Y
6,LP001013,Male,Yes,0,Not Graduate,No,2333,1516.0,95.0,360.0,1.0,Urban,Y
7,LP001014,Male,Yes,3+,Graduate,No,3036,2504.0,158.0,360.0,0.0,Semiurban,N
8,LP001018,Male,Yes,2,Graduate,No,4006,1526.0,168.0,360.0,1.0,Urban,Y
9,LP001020,Male,Yes,1,Graduate,No,12841,10968.0,349.0,360.0,1.0,Semiurban,N


In [None]:
# Sustituyamos los valores NaN de la variable Loan_Amount_Term con la moda
dataset_loan_term = dataset.copy()
dataset_loan_term['Loan_Amount_Term'] = dataset_loan_term['Loan_Amount_Term'].fillna(dataset_loan_term['Loan_Amount_Term'].mode()[0])
dataset_loan_term.head(20)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
5,LP001011,Male,Yes,2,Graduate,Yes,5417,4196.0,267.0,360.0,1.0,Urban,Y
6,LP001013,Male,Yes,0,Not Graduate,No,2333,1516.0,95.0,360.0,1.0,Urban,Y
7,LP001014,Male,Yes,3+,Graduate,No,3036,2504.0,158.0,360.0,0.0,Semiurban,N
8,LP001018,Male,Yes,2,Graduate,No,4006,1526.0,168.0,360.0,1.0,Urban,Y
9,LP001020,Male,Yes,1,Graduate,No,12841,10968.0,349.0,360.0,1.0,Semiurban,N


In [None]:
# Sustituyamos los valores NaN de la variable Credit_History con la mediana
dataset_credit = dataset.copy()
dataset_credit['Credit_History'] = dataset_credit['Credit_History'].fillna(dataset_credit['Credit_History'].median())
dataset_credit.head(20)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
5,LP001011,Male,Yes,2,Graduate,Yes,5417,4196.0,267.0,360.0,1.0,Urban,Y
6,LP001013,Male,Yes,0,Not Graduate,No,2333,1516.0,95.0,360.0,1.0,Urban,Y
7,LP001014,Male,Yes,3+,Graduate,No,3036,2504.0,158.0,360.0,0.0,Semiurban,N
8,LP001018,Male,Yes,2,Graduate,No,4006,1526.0,168.0,360.0,1.0,Urban,Y
9,LP001020,Male,Yes,1,Graduate,No,12841,10968.0,349.0,360.0,1.0,Semiurban,N


### Remplazar con Valor Anterior o Siguiente

Dependiendo del tipo de dato o su naturaleza, podría ser conveniente sustituir valores faltantes con aquel del dato anterior o el siguiente.

Para sustituir por el valor anterior, podemos usar el parámetro *'method=ffill'* cuando usamos el método *fillna()*:

In [None]:
# Vamos a remplazar nuevamente la variable Loan_Amount_Term por la del registro anterior
dataset_loan_anterior = dataset.copy()
dataset_loan_anterior['Loan_Amount_Term'] = dataset_loan_anterior['Loan_Amount_Term'].fillna(method = 'ffill')
dataset_loan_anterior.head(20)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
5,LP001011,Male,Yes,2,Graduate,Yes,5417,4196.0,267.0,360.0,1.0,Urban,Y
6,LP001013,Male,Yes,0,Not Graduate,No,2333,1516.0,95.0,360.0,1.0,Urban,Y
7,LP001014,Male,Yes,3+,Graduate,No,3036,2504.0,158.0,360.0,0.0,Semiurban,N
8,LP001018,Male,Yes,2,Graduate,No,4006,1526.0,168.0,360.0,1.0,Urban,Y
9,LP001020,Male,Yes,1,Graduate,No,12841,10968.0,349.0,360.0,1.0,Semiurban,N


Y para sustuir por el valor siguiente, usamos *bfill* como parámetro:

In [None]:
# Vamos a sustituir los NaN de la variable LoanAmount por el del dato siguiente
dataset_loan_siguiente = dataset.copy()
dataset_loan_siguiente['LoanAmount'] = dataset_loan_siguiente['LoanAmount'].fillna(method='bfill')
dataset_loan_siguiente.head(20)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,128.0,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
5,LP001011,Male,Yes,2,Graduate,Yes,5417,4196.0,267.0,360.0,1.0,Urban,Y
6,LP001013,Male,Yes,0,Not Graduate,No,2333,1516.0,95.0,360.0,1.0,Urban,Y
7,LP001014,Male,Yes,3+,Graduate,No,3036,2504.0,158.0,360.0,0.0,Semiurban,N
8,LP001018,Male,Yes,2,Graduate,No,4006,1526.0,168.0,360.0,1.0,Urban,Y
9,LP001020,Male,Yes,1,Graduate,No,12841,10968.0,349.0,360.0,1.0,Semiurban,N


### Remplazar con Interpolación

Si se trata de variables numéricas, podríamos interpolar los valores faltantes, aunque esto dependerá mucho de si es conveniento o no para las variables consideradas:

In [None]:
# Interpolemos los valores NaN de Loan Amount
dataset_loan_interpolado = dataset.copy()
dataset_loan_interpolado['LoanAmount'] = dataset_loan_interpolado['LoanAmount'].interpolate()
dataset_loan_interpolado.head(20)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
5,LP001011,Male,Yes,2,Graduate,Yes,5417,4196.0,267.0,360.0,1.0,Urban,Y
6,LP001013,Male,Yes,0,Not Graduate,No,2333,1516.0,95.0,360.0,1.0,Urban,Y
7,LP001014,Male,Yes,3+,Graduate,No,3036,2504.0,158.0,360.0,0.0,Semiurban,N
8,LP001018,Male,Yes,2,Graduate,No,4006,1526.0,168.0,360.0,1.0,Urban,Y
9,LP001020,Male,Yes,1,Graduate,No,12841,10968.0,349.0,360.0,1.0,Semiurban,N


In [None]:
# Contemos la cantidad de nan
dataset_loan_interpolado.isnull().sum()

Loan_ID               0
Gender               13
Married               3
Dependents           15
Education             0
Self_Employed        32
ApplicantIncome       0
CoapplicantIncome     0
LoanAmount            1
Loan_Amount_Term     14
Credit_History       50
Property_Area         0
Loan_Status           0
dtype: int64

Como el primer valor de esa variable es NaN, el método no es capaz de interpolar ese primer valor pues no tiene dato anterior. De modo que podemos considerar el eliminar esa fila o bien completar con un valor arbitrario, promedio, etc.

### Remplazar por Valor Frecuente

Cuando se trabaja con variables categóricas, podemos remplazar datos faltantes con aquel que se repita más en todo el conjunto. Para ello, hacemos uso de la función *SimpleImputer* de *scikit-learn*:

In [None]:
# Copiamos el dataset
dataset_frecuente = dataset.copy()

# Definimos un imputador
imputer = SimpleImputer(strategy='most_frequent')

# Se lo aplicamos a la variable, por ejemplo, Self_Employed
dataset_frecuente['Self_Employed'] = imputer.fit_transform(dataset_frecuente['Self_Employed'].to_numpy().reshape(-1,1)).flatten()
dataset_frecuente.head(20)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
5,LP001011,Male,Yes,2,Graduate,Yes,5417,4196.0,267.0,360.0,1.0,Urban,Y
6,LP001013,Male,Yes,0,Not Graduate,No,2333,1516.0,95.0,360.0,1.0,Urban,Y
7,LP001014,Male,Yes,3+,Graduate,No,3036,2504.0,158.0,360.0,0.0,Semiurban,N
8,LP001018,Male,Yes,2,Graduate,No,4006,1526.0,168.0,360.0,1.0,Urban,Y
9,LP001020,Male,Yes,1,Graduate,No,12841,10968.0,349.0,360.0,1.0,Semiurban,N


### Remplazar con Categoría Nueva

Con el mismo *SimpleImputer*, pueden sustituirse los valores faltantes con, por ejemplo, una categoría distinta:

In [None]:
# Copiamos el dataset
dataset_nueva_categoria = dataset.copy()

# Definimos un imputador
imputer = SimpleImputer(strategy='constant', fill_value='Faltante')

# Se lo aplicamos a la variable, por ejemplo, Self_Employed
dataset_nueva_categoria['Self_Employed'] = imputer.fit_transform(dataset_nueva_categoria['Self_Employed'].to_numpy().reshape(-1,1)).flatten()
dataset_nueva_categoria.head(20)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
5,LP001011,Male,Yes,2,Graduate,Yes,5417,4196.0,267.0,360.0,1.0,Urban,Y
6,LP001013,Male,Yes,0,Not Graduate,No,2333,1516.0,95.0,360.0,1.0,Urban,Y
7,LP001014,Male,Yes,3+,Graduate,No,3036,2504.0,158.0,360.0,0.0,Semiurban,N
8,LP001018,Male,Yes,2,Graduate,No,4006,1526.0,168.0,360.0,1.0,Urban,Y
9,LP001020,Male,Yes,1,Graduate,No,12841,10968.0,349.0,360.0,1.0,Semiurban,N


## Ejercicio

Como vimos en estos últimos ejemplos, podemos usar la función *SimpleImputer* de *scikit-learn* para llevar a cabo la Imputación de Variables. Revise la [documentación](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html) de dicha función, estúdiela y utilícela para repetir los casos de sustitución por promedio, mediana o valor arbitrario. ¿Qué otros casos de imputación es posible realizar con este método? ¿Puede aplicarlo para imputar todas las columnas del dataset original al mismo tiempo?

# Codificación de Datos Categóricos

Como vimos en el apartado teórico, existen dos tipos de datos categóricos fundamentales: **Nominales y Ordinales**. En este sentido, los datos Nominales suelen codificarse usando el *One-Hot Encoding*, mientras que los datos Ordinales se codifican con *Label Encoding*. Veamos ejemplos de cómo se implementan en Python estas técnicas, y luego apliquemosla al dataset anterior.

## Label Encoding

Supongamos que tenemos un conjunto de datos en donde una de las variables es Categórica Ordinal, es decir, el orden o precedencia de las mismas es importante. Para ello, vamos a crear un dataframe ficticio que contiene etiquetas de tallas de ropa:

In [None]:
# Creamos dataframe de tallas
tallas = {'tallas' :['XS', 'S', 'S', 'M', 'L', 'S', 'XL', 'XL', 'XS', 'M', 'L']}
dataframe = pd.DataFrame(tallas, columns=["tallas"])

# Veamos el dataframe
dataframe

Unnamed: 0,tallas
0,XS
1,S
2,S
3,M
4,L
5,S
6,XL
7,XL
8,XS
9,M


Ahora bien, como nosotros conocemos la precedencia de la variable, tenemos que crear un diccionario que codifique dicha precedencia:

In [None]:
# Diccionario de la precedencia de los datos
diccionario = {'XS':1, 'S':2, 'M':3, 'L':4, 'XL':5}
diccionario

{'XS': 1, 'S': 2, 'M': 3, 'L': 4, 'XL': 5}

Finalmente, mapeamos los datos en una nueva columna, siguiendo la precedencia que dicta el diccionario:

In [None]:
# Mapeamos los datos
dataframe['tallas_ordinales'] = dataframe.tallas.map(diccionario)
dataframe

Unnamed: 0,tallas,tallas_ordinales
0,XS,1
1,S,2
2,S,2
3,M,3
4,L,4
5,S,2
6,XL,5
7,XL,5
8,XS,1
9,M,3


Como podemos ver, la nueva columna tendrá los datos categóricos convertidos a valores numéricos, por lo que ya pueden ser empleados como variable de entrada a cualquier algoritmo de Machine Learning.

## One-Hot Encoding

Ahora, trabajemos con un dataset en donde la variable categórica es Nominal, es decir, sus valores no tienen precedencia intrínseca. Primero, definamos un dataset adecuado para ello:

In [None]:
# Definimos un dataframe de paises
paises = {'paises' :['Francia', 'China', 'Francia', 'China', 'Argentina', 'China', 'Francia', 'Argentina', 'Argentina', 'Francia', 'China']}
dataframe = pd.DataFrame(paises, columns=["paises"])
dataframe

Unnamed: 0,paises
0,Francia
1,China
2,Francia
3,China
4,Argentina
5,China
6,Francia
7,Argentina
8,Argentina
9,Francia


En el caso de la librería *Pandas*, ya esta trae por defecto un método para realizar la codificación, usando la función *get_dummies()*:

In [None]:
# Convertimos la variable categorica a One-Hot Encoding
dataframe = pd.get_dummies(dataframe, columns=["paises"])
dataframe

Unnamed: 0,paises_Argentina,paises_China,paises_Francia
0,False,False,True
1,False,True,False
2,False,False,True
3,False,True,False
4,True,False,False
5,False,True,False
6,False,False,True
7,True,False,False
8,True,False,False
9,False,False,True


Pero también es posible usar la librería *scikit-learn*, empleando la función *OneHotEncoder* de la siguiente forma:

In [None]:
# Importamos la libreria
from sklearn.preprocessing import OneHotEncoder

In [None]:
# Definimos un encoder
one_hot_encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)

Vamos a restablecer el dataframe original anterior:

In [None]:
# Definimos de nuevo el dataframe
paises = {'paises' :['Francia', 'China', 'Francia', 'China', 'Argentina', 'China', 'Francia', 'Argentina', 'Argentina', 'Francia', 'China']}
dataframe = pd.DataFrame(paises, columns=["paises"])
dataframe

Unnamed: 0,paises
0,Francia
1,China
2,Francia
3,China
4,Argentina
5,China
6,Francia
7,Argentina
8,Argentina
9,Francia


In [None]:
# Hacemos el fit del encoder sobre estos datos
dataframe_fit = one_hot_encoder.fit(dataframe[["paises"]])

# Obtenemos los nombres de las columnas
columnas = one_hot_encoder.get_feature_names_out(['paises'])
columnas



array(['paises_Argentina', 'paises_China', 'paises_Francia'], dtype=object)

In [None]:
columnas

In [None]:
# Ahora transformamos los datos con el encoder
dataframe = pd.DataFrame(one_hot_encoder.transform(dataframe[["paises"]]), columns=columnas)
dataframe

Unnamed: 0,paises_Argentina,paises_China,paises_Francia
0,0.0,0.0,1.0
1,0.0,1.0,0.0
2,0.0,0.0,1.0
3,0.0,1.0,0.0
4,1.0,0.0,0.0
5,0.0,1.0,0.0
6,0.0,0.0,1.0
7,1.0,0.0,0.0
8,1.0,0.0,0.0
9,0.0,0.0,1.0


De esta manera, la variable categórica original ya está codificada para ser aplicada a un algoritmo de Machine Learning.

Veamos ahora como podemos aplicar lo aprendido con el dataset trabajado al principio del Notebook:

In [None]:
# Descarguemos de nuevo el dataset
dataset = pd.read_csv('https://raw.githubusercontent.com/shrikant-temburwar/Loan-Prediction-Dataset/master/train.csv')
dataset.head(20)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
5,LP001011,Male,Yes,2,Graduate,Yes,5417,4196.0,267.0,360.0,1.0,Urban,Y
6,LP001013,Male,Yes,0,Not Graduate,No,2333,1516.0,95.0,360.0,1.0,Urban,Y
7,LP001014,Male,Yes,3+,Graduate,No,3036,2504.0,158.0,360.0,0.0,Semiurban,N
8,LP001018,Male,Yes,2,Graduate,No,4006,1526.0,168.0,360.0,1.0,Urban,Y
9,LP001020,Male,Yes,1,Graduate,No,12841,10968.0,349.0,360.0,1.0,Semiurban,N


In [None]:
# Por simplicidad, vamos a eliminar todas las filas con datos NaN
dataset = dataset.dropna(axis=0)
dataset.head(20)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
5,LP001011,Male,Yes,2,Graduate,Yes,5417,4196.0,267.0,360.0,1.0,Urban,Y
6,LP001013,Male,Yes,0,Not Graduate,No,2333,1516.0,95.0,360.0,1.0,Urban,Y
7,LP001014,Male,Yes,3+,Graduate,No,3036,2504.0,158.0,360.0,0.0,Semiurban,N
8,LP001018,Male,Yes,2,Graduate,No,4006,1526.0,168.0,360.0,1.0,Urban,Y
9,LP001020,Male,Yes,1,Graduate,No,12841,10968.0,349.0,360.0,1.0,Semiurban,N
10,LP001024,Male,Yes,2,Graduate,No,3200,700.0,70.0,360.0,1.0,Urban,Y


Y a efectos del ejemplo, vamos a codificar solo las variables categóricas *Gender* y *Education* como variables Nominales, y vamos a suponer que la variable *Property_Area* es Ordinal.

Sin embargo, antes de proceder a las codificaciones, vamos a verificar la cardinalidad de cada variable, es decir, la cantidad de clases únicas que existen de cada una. Para ello, hacemos uso del método *unique()* de Pandas:

In [None]:
# Cantidad de clases unicas de la variable Gender
pd.unique(dataset['Gender'])

array(['Male', 'Female'], dtype=object)

In [None]:
# Cantidad de clases unicas de la variable Education
pd.unique(dataset['Education'])

array(['Graduate', 'Not Graduate'], dtype=object)

In [None]:
# Cantidad de clases unicas de la variable Property_Area
pd.unique(dataset['Property_Area'])

array(['Rural', 'Urban', 'Semiurban'], dtype=object)

Para las variables *Gender* y *Education*, vamos a aplicar *One-Hot Encoding* usando directamente la funcion de Pandas:

In [None]:
# Aplicamos get_dummies a las columnas adecuadas
dataset = pd.get_dummies(dataset, columns=["Gender", "Education"])
dataset.head(20)

Unnamed: 0,Loan_ID,Married,Dependents,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status,Gender_Female,Gender_Male,Education_Graduate,Education_Not Graduate
1,LP001003,Yes,1,No,4583,1508.0,128.0,360.0,1.0,Rural,N,False,True,True,False
2,LP001005,Yes,0,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y,False,True,True,False
3,LP001006,Yes,0,No,2583,2358.0,120.0,360.0,1.0,Urban,Y,False,True,False,True
4,LP001008,No,0,No,6000,0.0,141.0,360.0,1.0,Urban,Y,False,True,True,False
5,LP001011,Yes,2,Yes,5417,4196.0,267.0,360.0,1.0,Urban,Y,False,True,True,False
6,LP001013,Yes,0,No,2333,1516.0,95.0,360.0,1.0,Urban,Y,False,True,False,True
7,LP001014,Yes,3+,No,3036,2504.0,158.0,360.0,0.0,Semiurban,N,False,True,True,False
8,LP001018,Yes,2,No,4006,1526.0,168.0,360.0,1.0,Urban,Y,False,True,True,False
9,LP001020,Yes,1,No,12841,10968.0,349.0,360.0,1.0,Semiurban,N,False,True,True,False
10,LP001024,Yes,2,No,3200,700.0,70.0,360.0,1.0,Urban,Y,False,True,True,False


En efecto, vemos como las columnas se han sustituidos por sus codificaciones vectoriales, con los prefijos y sufijos adecuados para cada variable.

Ahora vamos a codificar la variable Ordinal, pero primero tenemos que definir el diccionario de precedencia:

In [None]:
# Precedencia de la variable Property_Area
dicc_property = {'Rural':1, 'Semiurban':2, 'Urban':3}

In [None]:
# Ahora mapeamos el diccionario a la variable directamente
dataset['Property_Area'] = dataset.Property_Area.map(dicc_property)
dataset.head(20)

Unnamed: 0,Loan_ID,Married,Dependents,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status,Gender_Female,Gender_Male,Education_Graduate,Education_Not Graduate
1,LP001003,Yes,1,No,4583,1508.0,128.0,360.0,1.0,1,N,False,True,True,False
2,LP001005,Yes,0,Yes,3000,0.0,66.0,360.0,1.0,3,Y,False,True,True,False
3,LP001006,Yes,0,No,2583,2358.0,120.0,360.0,1.0,3,Y,False,True,False,True
4,LP001008,No,0,No,6000,0.0,141.0,360.0,1.0,3,Y,False,True,True,False
5,LP001011,Yes,2,Yes,5417,4196.0,267.0,360.0,1.0,3,Y,False,True,True,False
6,LP001013,Yes,0,No,2333,1516.0,95.0,360.0,1.0,3,Y,False,True,False,True
7,LP001014,Yes,3+,No,3036,2504.0,158.0,360.0,0.0,2,N,False,True,True,False
8,LP001018,Yes,2,No,4006,1526.0,168.0,360.0,1.0,3,Y,False,True,True,False
9,LP001020,Yes,1,No,12841,10968.0,349.0,360.0,1.0,2,N,False,True,True,False
10,LP001024,Yes,2,No,3200,700.0,70.0,360.0,1.0,3,Y,False,True,True,False


Podemos ver que la variable en cuestión ha sido sustituída por su equivalente codificado con los valores numéricos 1 al 3.

## Ejercicio

Ya que conoce como codificar las variables categóricas, codifique ahora las siguientes variables:

- *Married* y *Self_Employed* como Nominales.
- *Dependents* como Ordinales (¿Por qué esta variable, aunque numérica, debe ser codificada? Explique).

# Ingeniería de Variables (Feature Engineering)

Como se mencionó en el apartado teórico, todas las técnicas de transformación e imputación de variables vistas representan métodos de ingeniería de variables. Sin embargo, suele asociarse esta definición principalmente a la creación de variables nuevas a partir de variables ya existentes en el conjunto de datos.

Gracias a la librería *Pandas*, en Python es sumamente sencillo llevar a cabo este tipo de transformaciones (aunque dependiendo del tipo de variables o bien la naturaleza de la variable nueva a crear, esto podría hacerse mucho más complejo).

En primer lugar, vamos a construir el dataset visto en la teoría:

In [None]:
# Dataset de paises
paises = ['Venezuela', 'Francia', 'China', 'Argentina']
area = [916445, 675417, 9596960, 2780400]
poblacion = [28866000, 67407241, 1403500365, 47327407]
pib = [142416, 3547962, 29375296, 1104860]

dataset = pd.DataFrame(list(zip(paises,area,poblacion,pib)), columns=['Pais', 'Area', 'Poblacion', 'PIB'])
dataset

Unnamed: 0,Pais,Area,Poblacion,PIB
0,Venezuela,916445,28866000,142416
1,Francia,675417,67407241,3547962
2,China,9596960,1403500365,29375296
3,Argentina,2780400,47327407,1104860


Ahora bien, para calcular la densidad poblacional, solo hace falta dividir la población entre el área del país correspondiente:

In [None]:
# Calculamos la densidad poblacional y la agregamos al dataset como una nueva variable
dataset['Densidad'] =  dataset['Poblacion']/dataset['Area']
dataset

Unnamed: 0,Pais,Area,Poblacion,PIB,Densidad
0,Venezuela,916445,28866000,142416,31.497799
1,Francia,675417,67407241,3547962,99.800924
2,China,9596960,1403500365,29375296,146.244265
3,Argentina,2780400,47327407,1104860,17.021798


De manera similar, calculamos el PIB per cápita como el (PIB*1000000)/Poblacion:

In [None]:
# Calculamos el PIB per capita
dataset['PIB per capita'] = (dataset['PIB']*1000000)/dataset['Poblacion']
dataset

Unnamed: 0,Pais,Area,Poblacion,PIB,Densidad,PIB per capita
0,Venezuela,916445,28866000,142416,31.497799,4933.693619
1,Francia,675417,67407241,3547962,99.800924,52634.731037
2,China,9596960,1403500365,29375296,146.244265,20930.02377
3,Argentina,2780400,47327407,1104860,17.021798,23345.035573


De esta manera, creamos nuevas variables que, por ejemplo, pueden pasar a un modelo de Regresión Múltiple a fin de obtener una predicción de algún valor de interés que se desee modelar.

Es importante recalcar que, como se observó, las variables creadas deberían responder a la naturaleza de los datos y de dónde estos provienen. El contar con conocimientos del tema puede ayudar a crear variables adecuadas a efectos del problema a resolver, o que sirvan como mejores predictores de un fenómeno dado.