# Entrenamiento y evaluación de modelos
## Contratación de Seguros de Viajes  
  
  
  
#### Preprocesamiento de los datos  
Como primera instancia, aplicamos las transformaciones sobre el dataset que indicamos en el trabajo práctico anterior.

In [None]:
# Importamos las dependencias necesarias.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly
import plotly.express as px
import sklearn_pandas
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn_pandas import DataFrameMapper

In [None]:
# Importamos el dataset.
dataset = pd.read_csv('TravelInsurancePrediction.csv')

# Renombramos las variables.
dataset = dataset.rename(columns={'Idx':'idx', 'Age':'age', 'Employment Type':'employment_type', 'GraduateOrNot':'graduate_or_not', 'AnnualIncome':'annual_income', 'FamilyMembers':'family_members', 'ChronicDiseases':'chronic_diseases', 'EverTravelledAbroad':'ever_travelled_abroad', 'FrequentFlyer':'frequent_flyer', 'TravelInsurance':'travel_insurance'})

# Seleccionamos la primer columna 'idx', como índice.
dataset = dataset.set_index("idx")

# Reemplazamos los valores 'Yes' y 'No' por 0 y 1 de las variables indicadas en el tp1.
dataset["graduate_or_not"] = dataset.graduate_or_not.replace(['No', 'Yes'], [0,1])
dataset["frequent_flyer"] = dataset.frequent_flyer.replace(['No', 'Yes'], [0,1])
dataset["ever_travelled_abroad"] = dataset.ever_travelled_abroad.replace(['No', 'Yes'], [0,1])

# Reemplazamos los dos posibles valores de la columna 'employment_type' por 0 y 1.
dataset["employment_type"] = dataset.employment_type.replace(['Private Sector/Self Employed', 'Government Sector'], [0,1])

# Dividimos el dataset en train (60%), test (20%) y validation (20%)
train, not_train = train_test_split(dataset, test_size=0.4, random_state=42)
validation, test = train_test_split(not_train, test_size=0.5, random_state=42)

In [None]:
# Escalamos las variables numéricas.
mapper = DataFrameMapper([
    (['age'],[MinMaxScaler()]),
    (['employment_type'],None),
    (['graduate_or_not'],None),
    (['annual_income'],[MinMaxScaler()]),
    (['family_members'],[MinMaxScaler()]),
    (['chronic_diseases'],None),
    (['frequent_flyer'],None),
    (['ever_travelled_abroad'],None),
    (['travel_insurance'],None)
])

mapper.fit(train)
preprocessing_ds = pd.DataFrame(mapper.transform(dataset), columns=['age', 'employment_type', 'graduate_or_not', 'annual_income', 'family_members', 'chronic_diseases', 'frquent_flyer', 'ever_travelled_abroad', 'travel_insurance'])
preprocessing_ds

#### Elección de una métrica  
Teniendo en cuenta que el objetivo de implementar un modelo para este dataset podría ser detectar aquellas personas que no van a contratar el seguro, y así idear estrategias de marketing para intentar persuadirlas de lo contrario, decidimos utilizar la métrica Precission. Como nos interesa enfocarnos en las personas que no adquieren el seguro, deberíamos poder detectar los falsos positivos, es decir, aquellos clientes clasificados como que sí compran, pero en realidad no lo hacen. Y justamente elegimos Precission por la forma en que opera, ya que nos da la posibilidad de enfocarnos en esto.


#### Elección de una técnica de feature engineering  
Teniendo en cuenta las técnicas vistas en clase y el formato de los datos que tenemos en nuestro dataset, decidimos que la mejor opción sería aplicar Binning (redondeo de números) sobre las variables numéricas para las que aplicamos MaxMinScaler (age, annual_income, family_members) ya que al hacer esto quedaron valores con una gran cantidad de decimales. La técnica de Binning lo que haría sería redondear o convertir a rangos fijos los valores, sacando precisión de los mismo. Esto podría llegar a servir para evitar el sobreentrenamiento y que el modelo generalice mejor. En el caso de la columna 'age' se dio que ningún ejemplo posee un valor con gran cantidad de decimales, pero de todas formas utilizamos la técnica sobre esta, previendo que en un futuro al utilizar nuevas observaciones no suceda esta misma situación.

#### Entrenamiento y evaluación de modelos  
Para este dataset seleccionamos los siguientes modelos:
* k-Nearest Neighbors o k-NNN (vecinos cercanos)
* Decision Tree (árbol de decisión)
* Gradient Boosting

In [None]:
# Función para evaluar modelos.
def evaluate_model(model, set_names=('train', 'validation'), title='', show_cm=True):
    if title:
        display(title)
        
    final_metrics = defaultdict(list)
    
    if show_cm:
        fig, axis = plt.subplots(1, len(set_names), sharey=True, figsize=(15, 3))
    
    for i, set_name in enumerate(set_names):
        assert set_name in ['train', 'validation', 'test']
        set_data = globals()[set_name] 

        y = set_data.travel_insurance
        y_pred = model.predict(set_data)
        final_metrics['Accuracy'].append(metrics.accuracy_score(y, y_pred))
        final_metrics['Precision'].append(metrics.precision_score(y, y_pred))
        
        if show_cm:
            ax = axis[i]
            sns.heatmap(metrics.confusion_matrix(y, y_pred), ax=ax, cmap='Blues', annot=True, fmt='.0f', cbar=False)

            ax.set_title(set_name)
            ax.xaxis.set_ticklabels(['No', 'Yes'])
            ax.yaxis.set_ticklabels(['No', 'Yes'])
            ax.set_xlabel('Predicted class (travel_insurance)')
            ax.set_ylabel('True class (travel_insurance)')

        
    display(pd.DataFrame(final_metrics, index=set_names))
    if show_cm:
        plt.tight_layout()
        plt.show()