In [None]:
# initial setup
%run "../../../common/0_notebooks_base_setup.py"


---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


## Checkpoint - Desbalance de clases + Feature Selection

En este checkpoint trabajaremos con el dataset de préstamos crediticios 'loans.csv'.

En la primera parte combinaremos los elementos vistos en la práctica guiada de clases desbalanceadas para resamplear el data set de entrenamiento.

Luego implementaremos un modelo de regresión logística combinado con reducción de la dimensionalidad por eliminación recursiva de features.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression,LogisticRegressionCV
from sklearn.model_selection import train_test_split, StratifiedKFold
from sklearn.preprocessing import StandardScaler,OneHotEncoder
from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import SMOTENC
from sklearn.metrics import accuracy_score,plot_confusion_matrix,roc_auc_score, classification_report, confusion_matrix, precision_recall_curve, auc

In [None]:
loans = pd.read_csv('../Data/loans.csv',low_memory=False)
loans.dropna(inplace=True)
loans.reset_index(drop=True,inplace=True)
loans['bad_loans'].value_counts(normalize=True)

In [None]:
loans.sample(3)

### 1. Train test split 

Hagamos un train test split estratificado por la variable target (bad loans). 

¿Cuál es el desbalance de clases?

¿Cuál es el ratio clase mayoritaria/minoritaria?

### 2. SMOTE-NC 

Implementemos la herramienta [SMOTENC](https://imbalanced-learn.readthedocs.io/en/stable/generated/imblearn.over_sampling.SMOTENC.html) para resamplear la clase minoritaria en el dataset de entrenamiento. Para ello debemos identificar previamente las variables categóricas y pasarlas como argumento al instanciar el objeto SMOTENC.

Usemos un **sampling_strategy=0.5**, de modo que la clase mayoritaria tenga el doble de observaciones que la minoritaria.

¿Cuál es el balance de clases ahora?

¿Cuál es el ratio mayoritaria/minoritaria?

### 3. Undersampling

A partir del dataset aumentado en el paso anterior balanceemos las clases sampleando aleatoriamente observaciones de la clase mayoritaria. Para esto usemos **RandomUnderSampler** con **sampling_strategy='majority'** de modo que queden las clases balanceadas.

¿Cómo quedó el balance de clases?

¿Y el tamaño del dataset de entrenamiento?


### 4. Variables dummy

Utilicemos la herramienta OneHotEncoder para llevar a dummies las variables categoricas del training set. Luego transformamos de manera conforme las categóricas del test set. 

¿Cuál sería un posible problema de usar get_dummies?

### 5. Regresión logística

Implementemos una regresión logística usando LogisticRegressionCV. 

¿Qué medida de scoring conviene usar?

Veamos las métricas principales de performance en el test set: 

* matriz de confusión
* clasification report
* área bajo la curva ROC
* área bajo la curva Precision-Recall

### 6. Feature selection

Utilicen la herramientsa RFECV combinada con una regresión logística para seleccionar el mejor subset de features. Usen una regresión logística con el hiperparámetro de regularización C ajustado en el punto anterior. 

Lo correcto sería optimizar este parámetro para cada subset de features, es decir hacer dos validaciones cruzadas anidadas (una para RFE y otra para la regresión logística), pero por 
economía de cómputo lo haremos con el valor de C fijo.

¿Cuáles features fueron seleccionadas?

¿Cuáles fueron descartadas?

¿Cuál es la performance del modelo?