En este caso, llevaremos a cabo un recorrido exhaustivo de un problema de ciencia de datos de clasificación binaria. Nuestro objetivo es combinar las diversas técnicas de pre-modelado que hemos aprendido con la validación cruzada para afinar un modelo de regresión logística.
Además, introducimos varias métricas (ROC/AUC) para evaluar el rendimiento de nuestro modelo de clasificación, que es intrínsecamente diferente de los anteriores modelos de regresión lineal que hemos encontrado. Este objetivo puede parecer un poco intimidante o técnico, pero al final del caso, todos estos términos deberían estar claros para usted.

In [1]:
### Load relevant packages
import pandas                  as pd
import numpy                   as np
import matplotlib.pyplot       as plt
import seaborn                 as sns
import os

from scipy import stats

%matplotlib inline
plt.style.use('ggplot')

import warnings
warnings.filterwarnings('ignore')

## Contexto

Los bancos comerciales tradicionales no solían basarse en modelos estadísticos para decidir si debían emitirse préstamos personales, aunque esto está cambiando rápidamente en la actualidad. Usted es un científico de datos que trabaja en un banco comercial moderno. Su equipo de ciencia de datos ya ha construido modelos de regresión sencillos para predecir la probabilidad de que esos préstamos sean incumplidos. Sin embargo, ha observado que muchos de estos modelos funcionan mucho peor en producción que en las pruebas.

Su tarea consiste en crear un modelo de probabilidad de incumplimiento que le resulte cómodo poner en producción.

El conjunto de datos contiene los detalles de 5.000 solicitudes de préstamo que han sido emitidas previamente por su banco. Para cada préstamo, también se dispone del estado final del mismo (es decir, si el préstamo ha entrado en mora):
El archivo "loan_light.csv" contiene los detalles de 5000 préstamos
El archivo "loan_param.xlsx" contiene la descripción de cada covariable
El caso se desarrollará de la siguiente manera: 1) realizará una exploración de los datos para determinar las transformaciones adecuadas de las variables; 2) ajustará algunos modelos simples; 3) aprenderá sobre la validación cruzada y la utilizará para seleccionar el mejor modelo simple; y finalmente 4) construirá responsablemente modelos más complejos utilizando la validación cruzada.

## Ejericios

1. Cargue los datos y el diccionario de variables.

In [None]:
#Cargar csv



#pista para diccionario
df_description = pd.read_excel('loan_param.xlsx').dropna()
df_description.style.set_properties(subset=['Description'], **{'width': '1000px'})





2. Cree un gráfico de barras que muestre el número de préstamos que han entrado en mora y los que no.

3. Crea un histograma de los ingresos anuales y describelo.

4. Explora la asociación entre los ingresos anuales y la cuota mensual (scatterplot).

5. Visualice la matriz de correlación en todas las características numéricas utilizando el comando sns.heatmap()

6. Cree un modelo básico de regresión logística para predecir el incumplimiento del préstamo con una sola característica: install_income. Llame a este modelo modelo1. Utilice una división 70/30 de los datos entre el entrenamiento y la prueba.

7. Trace la curva [ROC](https://towardsdatascience.com/understanding-auc-roc-curve-68b2303cc9c5) del modelo1 y encuentre el área bajo la curva.

In [None]:
#pista
from sklearn import metrics
y_pred_prob = model1.predict_proba(X_test)[::,1]
fpr, tpr, _ = metrics.roc_curve(y_test,  y_pred_prob)
auc = metrics.roc_auc_score(y_test, y_pred_prob)

plt.plot(fpr,tpr,label="AUC="+str(auc))
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')
plt.legend(loc=4)
plt.show()

8. Cree un modelo básico de regresión logística para predecir el incumplimiento del préstamo solo con las caracteristicas numericas. Llame a este modelo modelo2. Utilice una división 70/30 de los datos entre el entrenamiento y la prueba.

9. Trace la curva ROC del modelo2 y encuentre el área bajo la curva. Es mejor modelo?

10. Cree un modelo básico de regresión logística para predecir el incumplimiento del préstamo con las caracteristicas numericas, y agregue algunas categoricas (get_dummies()). Llame a este modelo modelo3. Utilice una división 70/30 de los datos entre el entrenamiento y la prueba. 

11. Trace la curva ROC del modelo3, y encuentre el área bajo la curva. Mejora el modelo agregando variables categoricas?