In [49]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

In [5]:
# Opción para ver todas las columnas del dataset en el notebook
pd.set_option('display.max_columns', 50)

# Práctico 03: Introducción al aprendizaje automático

Para poder desarrollar nuestro clasificador, comenzaremos con la etapa de preprocesamiento, en el que prepararemos los datos para ser insertados a nuestro modelo. Crearemos nuestro baseline y comenzaremos a crear features nuevas para nuestro modelo.

## Objetivo del práctico

### Preprocesamiento
- Tratamiento de valores nulos
- Estandarización
- Encoding de variables categóricas

### Train-Validation-Test
- División del dataset en train/validation/test
- Estratificación

### Primer modelo baseline

Una vez preparado el dataset nuestra tarea será elegir qué métrica utilizaremos 
y entrenar diferentes modelos.
- ¿Es un dataset balanceado o desbalanceado?
- ¿Qué métrica utilizaremos para medir si funciona el modelo?
- ¿Cómo sabemos si el modelo es útil o no?
- ¿Qué modelos podemos probar? Recordemos que es necesario distinta preparación según el modelo que utilicemos.

### Presentación

Al final del práctico, es necesario hacer 1 o 2 slides que irán incluidos en la presentación final.  
Los slides deberán contener las etapas de preprocesamiento que utilizamos junto al modelo baseline y 
sus respectivas métricas.

### Librerías recomendadas

Utilizaremos principalmente scikit-learn, opcionalmente xgboost y lightgbm.  
Recomiendo el siguiente material:  
- https://www.oreilly.com/library/view/hands-on-machine-learning/9781492032632/ -> Recomiendo los primeros capitulos de este libro. Enseña a usar pipelines.
- https://scikit-learn.org/stable/ -> Referencia de librería scikit-learn. Contiene casi todo lo que vamos a utilizar, pipelines, preprocesamiento y varios modelos.
- https://xgboost.readthedocs.io/en/latest/ -> Librería muy utilizada debido a que tiene muy buenos resultados. Es un tipo de algoritmo "boosting tree"
- https://lightgbm.readthedocs.io/en/latest/ -> Otra librería similar a xgboost, cada vez se usa más, debido a su facilidad de uso y buenos resultados.
- https://www.youtube.com/watch?v=BFaadIqWlAg -> Charla de PyData donde muestra el uso de pipelines

## Práctico 03: Introducción al aprendizaje automático - Resolución

### Leer el dataset

In [6]:
# Leemos el dataset con la función de pandas "read_csv"
df = pd.read_csv("data/bank-additional-full.csv", sep=";")

In [7]:
df

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,149,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
2,37,services,married,high.school,no,yes,no,telephone,may,mon,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
3,40,admin.,married,basic.6y,no,no,no,telephone,may,mon,151,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
4,56,services,married,high.school,no,no,yes,telephone,may,mon,307,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
41183,73,retired,married,professional.course,no,yes,no,cellular,nov,fri,334,1,999,0,nonexistent,-1.1,94.767,-50.8,1.028,4963.6,yes
41184,46,blue-collar,married,professional.course,no,no,no,cellular,nov,fri,383,1,999,0,nonexistent,-1.1,94.767,-50.8,1.028,4963.6,no
41185,56,retired,married,university.degree,no,yes,no,cellular,nov,fri,189,2,999,0,nonexistent,-1.1,94.767,-50.8,1.028,4963.6,no
41186,44,technician,married,professional.course,no,no,no,cellular,nov,fri,442,1,999,0,nonexistent,-1.1,94.767,-50.8,1.028,4963.6,yes


### Análisis de las variables

#### Valores nulos

In [11]:
# ¿Qué hacemos con los valores nulos? ¿Eliminar fila, columna, imputar?
# ¿Cuál es el requerimiento de los diferentes modelos con respecto a los valore nulos? Hint: xgboost permite valores nulos

#### Estandarización

In [14]:
# ¿Cuál es el requerimiento de los diferentes modelos con respecto a la estandarización? Hint: Los modelos de árboles no necesitan estandarización

#### Variables categóricas y numéricas

In [15]:
# Debemos diferenciar cuáles son las variables categóricas y cuáles son numéricas
# No es tan simple como ver el tipo, por ejemplo un ID numérico 4556 es una variable categórica
# Si por ejemplo convertimos la variable de edad en 4 buckets (0 a 20, 21 a 40, 41 a 60, 61 a 100) pasa a ser una variable categórica

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41188 entries, 0 to 41187
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             41188 non-null  int64  
 1   job             41188 non-null  object 
 2   marital         41188 non-null  object 
 3   education       41188 non-null  object 
 4   default         41188 non-null  object 
 5   housing         41188 non-null  object 
 6   loan            41188 non-null  object 
 7   contact         41188 non-null  object 
 8   month           41188 non-null  object 
 9   day_of_week     41188 non-null  object 
 10  duration        41188 non-null  int64  
 11  campaign        41188 non-null  int64  
 12  pdays           41188 non-null  int64  
 13  previous        41188 non-null  int64  
 14  poutcome        41188 non-null  object 
 15  emp.var.rate    41188 non-null  float64
 16  cons.price.idx  41188 non-null  float64
 17  cons.conf.idx   41188 non-null 

In [13]:
variables_categoricas = ['variable1', 'variable2', ]
variables_numericas = ['variable3', 'variable4', ]

#### Correlación entre variables

In [17]:
# No olvidemos tener presente la correlación entre variables: ¿Cuáles son los pares de variables más correlacionadas?

### División del dataset en train/validation/test

In [22]:
# Recordemos que siempre, SIEMPRE deberemos dividir el dataset en tres
# Train: para entrenar el modelo
# Validation: para verificar si el modelo esta overfiteando y optimizar hiperparámetros
# Test: para verificar si la optimización de hiperparámetros está overfiteando, es lo más parecido a la realidad

<div>
<img src="https://upload.wikimedia.org/wikipedia/commons/b/bb/ML_dataset_training_validation_test_sets.png" width="500"/>
</div>

In [23]:
# Utilizar train test split DOS veces, de modo que el resultado sean tres datasets
# IMPORTANTE, esta función tiene un parámetro denominado "stratified", para qué sirve?
# Deberíamos utilizar ese parámetro teniendo en cuenta que nuestro dataset está desbalanceado?

In [46]:
# Reemplazamos la columna y (target) por 1 y 0
df.y = df.y.replace('yes', 1)
df.y = df.y.replace('no', 0)

In [45]:
df.y.value_counts()

0    36548
1     4640
Name: y, dtype: int64

In [107]:
X = df.drop(columns='y')
y = df.y

In [108]:
X_temp, X_val, y_temp, y_val = train_test_split(X, y, test_size=0.2, stratify=y)

In [109]:
X_temp.shape, y_temp.shape, X_val.shape, y_val.shape

((32950, 20), (32950,), (8238, 20), (8238,))

In [110]:
X_train, X_test, y_train, y_test = train_test_split(X_temp, y_temp, test_size=0.2, stratify=y_temp)

In [111]:
X_train.shape, y_train.shape, X_test.shape, y_test.shape

((26360, 20), (26360,), (6590, 20), (6590,))

#### Preprocesamiento con Pipelines

In [112]:
# Una vez dividido el dataset, procederemos a aplicar transformaciones utilizando pipelines.
# Los pipelines tienen varias ventajas, como organización y evitar algunos tipos de data leakage

In [113]:
df.head(3)

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,0
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,149,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,0
2,37,services,married,high.school,no,yes,no,telephone,may,mon,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,0


In [123]:
variables_numericas = ['cons.price.idx', 'cons.conf.idx', 'age']
variables_categoricas = ['education', 'marital']

# Filtramos las variables que seleccionamos
X_t = X_train[variables_categoricas + variables_numericas]

pipeline_numerico = Pipeline([
                            # ('imputer', SimpleImputer(strategy='median')), # Imputador para variables nulas
                            # ('custom_step', CustomStep()), # Proceso de pipeline propio
                             ('standard_scaler', StandardScaler()),
                            ])

pipeline_completo = ColumnTransformer([('num', pipeline_numerico, variables_numericas),
                                   ('cat', OneHotEncoder(), variables_categoricas),
                                  ])

train = pipeline_completo.fit_transform(X_t)

In [119]:
X_t.shape, train.shape

((26360, 5), (26360, 15))

#### Preprocesamiento con Pipelines - Step customizado propio

In [124]:
# De esta forma podemos realizar custom transformer
# Todas las transformaciones deberían tener su propio transformer

class SelectColumnsTransformer():
    def __init__(self, columns=None):
        self.columns = columns

    def transform(self, X, **transform_params):
        cpy_df = X[self.columns].copy()
        return cpy_df

    def fit(self, X, y=None, **fit_params):
        return self
})

In [126]:
variables_numericas = ['cons.price.idx', 'cons.conf.idx', 'age']
variables_categoricas = ['education', 'marital']

# Filtramos las variables que seleccionamos
X_t = X_train[variables_categoricas + variables_numericas]

pipeline_numerico = Pipeline([
                            # ('imputer', SimpleImputer(strategy='median')), # Imputador para variables nulas
                             ('select_numeric_columns', SelectColumnsTransformer(['cons.price.idx', 'cons.conf.idx'])), # Proceso de pipeline propio
                             ('standard_scaler', StandardScaler()),
                            ])

pipeline_completo = ColumnTransformer([('num', pipeline_numerico, variables_numericas),
                                   ('cat', OneHotEncoder(), variables_categoricas),
                                  ])

train = pipeline_completo.fit_transform(X_t)

In [127]:
X_t.shape, train.shape

((26360, 5), (26360, 14))

### Modelo baseline

#### Métricas

In [None]:
# Partiendo del hecho que es un modelo de clasificación, desbalanceado
# ¿Qué métricas utilizaremos y por qué? ¿Qué quiere decir cada métrica en términos de negocio?
# ¿Cuál métrica sería la más útil para presentar al cliente?

#### Entrenamiento del modelo

In [77]:
# Entrenaremos varios modelos de scikit-learn que permitan clasificación binaria

#### Cross validation

In [None]:
# Vamos a utilizar cross validation en train set, esto nos dará aún más seguridad sobre las métricas

#### Cálculo de predicciones y métricas

In [None]:
# Verificar las métricas en relación al validation y test set
# Verificar si hay overfitting

### Guardar el modelo en formato .pkl

In [75]:
# Investigar cómo podemos serializar nuestro modelo para guardarlo como un archivo