### Predicción de la probabilidad de que un cliente impague un crédito en dos años

## Importamos datos
Dataset de Kaggle: https://www.kaggle.com/c/GiveMeSomeCredit

![image.png](attachment:image.png)

In [2]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as pl
import numpy as np

df = pd.read_csv('data/cs-training.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,SeriousDlqin2yrs,RevolvingUtilizationOfUnsecuredLines,age,NumberOfTime30-59DaysPastDueNotWorse,DebtRatio,MonthlyIncome,NumberOfOpenCreditLinesAndLoans,NumberOfTimes90DaysLate,NumberRealEstateLoansOrLines,NumberOfTime60-89DaysPastDueNotWorse,NumberOfDependents
0,1,1,0.766127,45,2,0.802982,9120.0,13,0,6,0,2.0
1,2,0,0.957151,40,0,0.121876,2600.0,4,0,0,0,1.0
2,3,0,0.65818,38,1,0.085113,3042.0,2,1,0,0,0.0
3,4,0,0.23381,30,0,0.03605,3300.0,5,0,0,0,0.0
4,5,0,0.907239,49,1,0.024926,63588.0,7,0,1,0,0.0


## Limpieza de datos

Vemos que los datos están desbalanceados (hay muchos más ejemplos de la clase 0 que de la clase 1)

## Dividimos el dataset

## Matriz de correlación

## Modelo

## Interpretación de coeficientes

¿Cómo interpretamos estos coeficientes?

Empecemos hablando de probabilidad. La probabilidad de que un evento ocurra es el número de veces que esperamos ver un resultado en numerosos intentos. Por ejemplo, la probabilidad de obtener un 4 en un dado es 1/6 = 16.7%.  
Por otro lado, las posibilidades de éxito (*odds ratio*) se definen como la probabilidad de que un evento ocurra dividido por la probabilidad de que el evento no ocurra. En el caso del dado, tendríamos 1/5, o un 20%. Esto es igual a p/(1-p) y representa el ratio entre la probabilidad de éxito y la probabilidad de fallo. 

En la Regresión Logística, se estiman las probabilidades con la fórmula:  

$\large p=\theta(w_0+w_1x_1+w_2x_2+...)$,

donde $\large \theta(s)=\frac{e^s}{1+e^s}$

La misma ecuación puede expresarse de la siguiente forma:  

$\large \ln(\frac{p}{1-p})= w_0+w_1x_1+w_2x_2+...$

Un incremento de 1 unidad en $x_1$, supone un incremento en $\ln(\frac{p}{1-p})$, que no es más que el logaritmo del *odds ratio*, también conocido como *logit* 

En este ejemplo, un incremento de una unidad en la variable `NumberOfTimes90DaysLate` supone un incremento de 0.439 en  $\ln(\frac{p}{1-p})$, esto es, $p/(1-p) = e^{0.439}=1.55$. Esto es un 55% de incremento en el *odds ratio* de necesitar un crédito a dos años vista.

Para la variable `age`, tenemos un coeficiente de -0.027, luego $p/(1-p) = e^{-0.027}=0.97$, es decir, el *odds ratio* se reduce un 3%.

Cuando $e^{w_i}$ es mayor que 1 ($w_i>0$), quiere decir que un aumento en la variable aumenta los *odds* de que ocurra el evento target.   
Cuando $e^{w_i}$ es menor que 1 ($w_i<0$), indica que un aumento en la variable reduce los *odds* de que ocurra el evento target. 

[Lecura recomendada](https://quantifyinghealth.com/interpret-logistic-regression-coefficients/)

Los coeficientes no son los mismos porque sklearn aplica regularización por defecto! 
Además, statsmodels no incluye el *intercept*  

Podemos obtener el mismo resultado con sklearn desactivando la regularización

## Desempeño del modelo

![image.png](attachment:image.png)

## Confusion matrix

## ROC Curve

Vamos a calcularla "a mano", alterando el punto de corte para considerar impagos y calculando los ratios
![image-2.png](attachment:image-2.png)
![image.png](attachment:image.png)

## Threshold
Lo que realmente hace el `model.predict(X_train)` es obtener una probabilidad de ser 1, y a partir de un 0.5 (50%) se considera como 1. Este umbral del 50% lo podremos ir variando dependiendo de si nos interesa focalizar en los falsos positivos o los falsos negativos.

La media geométrica o G-Mean es una métrica para clasificación desbalanceada que nos da un balance entre sensitivity y specificity

G-Mean = sqrt(Sensitivity * Specificity)

donde:

Sensitivity = True Positive Rate  
Specificity = 1 – False Positive Rate

Otra opción es maximizar el F1 Score

Dependiendo del problema, nos interesará maximizar unas métricas u otras

In [None]:
from yellowbrick.classifier import DiscriminationThreshold
import warnings
warnings.filterwarnings('ignore')

# Instantiate the classification model and visualizer
model = LogisticRegression(multi_class="auto", solver="liblinear")
classes = ["Default", "Pays"]

visualizer = DiscriminationThreshold(model)

visualizer.fit(X_train, y_train)        # Fit the data to the visualizer
visualizer.show();           # Finalize and render the figure

In [None]:
from __future__ import print_function
from ipywidgets import interact, interactive, fixed, interact_manual
import ipywidgets as widgets

model = LogisticRegression(max_iter = 5000)
model.fit(X_train, y_train)

pred=model.predict_proba(X_test)


def f(punto_corte=0.5):
  y_pred=np.where(pred>punto_corte, 1, 0)
  conf_mat=pd.crosstab(y_test,
                       y_pred[:,1],
                       rownames=['Actual'],
                       colnames=['Predicted'])
    
  sns.heatmap(conf_mat, annot=True, fmt='g')



In [None]:
interact(f, punto_corte=(0, 1, 0.01));

## Alternativas con datos desbalanceados 

Siempre aplicaremos estas técnicas en el **conjunto de train**. El conjunto de test no lo tocamos (nos sirve para saber cómo generaliza el modelo con datos futuros, con su proporción natural)

### 1. Undersampling
Consiste en reducir aleatoriamente los ejemplos de la clase mayoritaria para balancear las clases
![image.png](attachment:image.png)

### Oversampling
Consiste en crear muestras sintéticas de la clase minoritaria. Uno de los métodos más utilizados para ello es **SMOTE**
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

### 3. Class-Weights
Algunos algoritmos permiten penalizar cuando el modelo se equivoca en la clase minoritaria

![image.png](attachment:image.png)

El peso que le damos a cada clase depende de cómo de desbalanceado esté el target:  

$\text{weight}_j=\text{muestras_totales}/ (\text{n_clases}* \text{muestras}_j)$

En este caso funciona mejor el undersampling, pero no hay una regla general y la mejor estrategia dependerá de cada problema