# Clasificación de impagos de préstamos en un banco

Vamos a implementar un modelo para detectar impagos en los préstamos de un banco

## Índice

1. [Conexión a la base de datos](#mysql)
2. [Feature Extraction](#feature_extraction)
4. [Feature selection](#correlation)
5. [Transformation](#transformation)
6. [Modeling](#modeling)
7. [Feature Importance](#feature_importance)
8. [Próximos pasos](#future)

<a name='mysql'></a>
## 1. Conexión a la base de datos

In [None]:
import pymysql
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
database_host = 'relational.fit.cvut.cz'
username = 'guest'
password = 'relational'
database_name = 'financial'

db = pymysql.connect(host = database_host,
                     user = username,
                     password = password,
                     database = database_name)

<a name='feature_extraction'></a>
## 2. Extracción de variables

De las tablas **loan**, **account** y **district** extrae las siguientes variables en una única tabla
- identificador de la cuenta
- fecha del préstamo
- cantidad del préstamo
- duración del préstamo
- pagos mensuales
- estado del préstamo
- frecuencia de los extractos bancarios
- fecha de creación de la cuenta
- nº de habitantes del distrito
- variables del distrito (A4, A11, A12, A13, A14, A15, A16)

Transforma las fechas con `pandas.to_datetime`

Crea la variable `days_between` como la diferencia de días entre la fecha del préstamo y la fecha creación de la cuenta

Renombra las variables relacionadas con el distrito y crea la variable del ratio de crímenes por habitante

Crea el target binario

De la tabla **trans** obtén, para cada cuenta, la cantidad transferida y el balance

Cuenta el número de transacciones de cada cuenta

In [None]:
# account_id | n_trans
#    2          54


Calcula la media de cantidad y balance de las transacciones para cada cuenta

Une todos estos datos con el dataframe general

De la tabla **card**, añade el tipo de tarjeta para cada cuenta (solo titulares)

Une la tabla anterior a la general. Para aquellas cuentas sin tarjeta, ponle el valor "No"

De la tabla **client**, obtén la edad de los clientes (en el momento del préstamo), su sexo y añade una variable binaria que indique si el distrito del cliente coincide con el distrito de la cuenta

Une la tabla anterior con la general

### Tablón final

<a name='transformation'></a>
## 3. Transformaciones

Convierte las categóricas mediante one-hot encoding

<a name='train-test'></a>
## 4. División train-test

<a name='correlation'></a>
## 5. Selección de variables

Aplica técnicas para seleccionar las variables de entrada al modelo

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

correlation = pd.concat([X_train,y_train],axis=1).corr() 

mask = np.zeros_like(correlation, dtype=bool)
mask[np.triu_indices_from(mask)] = True

f, ax = plt.subplots(figsize=(15, 15))

cmap = sns.diverging_palette(180, 20, as_cmap=True)
sns.heatmap(correlation, mask=mask, cmap=cmap, vmax=1, vmin =-1, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5}, annot=True)

plt.show()

<a name='modeling'></a>
## 6. Modelado

Entrena uno o varios modelos, dividiendo el conjunto en train-test 

### Medición del desempeño

Utiliza las méticas de desempeño de los modelos de clasificación binarios, en el conjunto de train y test

### Do it yourself

1. Calcula el accuracy para el TOP 10% de clientes según el score del modelo
2. Implementa un modelo de propensión a contratar préstamos