Continuamos con el modelo __Gradient Boosting__:

La _Gradient Boosting_ es un poderoso algoritmo de aprendizaje que utiliza árboles de decisión.

La potenciación es una técnica general de conjunto que consiste en añadir secuencialmente modelos al conjunto donde los modelos posteriores corrigen el rendimiento de los modelos anteriores. 

# Librerías

In [None]:
import numpy as np
import pandas as pd
import matplotlib
from matplotlib import pyplot as plt 
import seaborn as sns 
from scipy import stats as sts 
from sklearn.model_selection import train_test_split 
from sklearn import model_selection
from sklearn import linear_model
import random 
from sklearn.utils import resample
from imblearn.under_sampling import RandomUnderSampler
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn import metrics
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier

Cargamos el dataset:

In [None]:
LOAN_var_norm = pd.read_csv('../data/intermediate/LOAN_var_norm.csv', delimiter =",")
LOAN_var_norm

# Train y Test

Para reducir el coste computacional, hemos ido probando a tirar los modelos con no todos los datos para intentar encontrar un punto a partir del cual los modelos no nos mejoren aún aumentando la cantidad de observaciones. 

Creemos que a más datos mejor, pero que los algoritmos quizás no necesitan tantos datos para obtener buenos resultados, y tirándolos con los más de 400k datos, se nos eternizaba tanto que nunca terminaba de salir, por ejemplo los grids. 

In [None]:
data_train1 = LOAN_var_norm.sample(n=100000, random_state=1234)

In [None]:
data_train1.info()

In [None]:
Y = data_train1['Charged_off']
X = data_train1.drop(['Charged_off'], axis = 1)

In [None]:
Y.tail()

In [None]:
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.3, random_state=1234)

In [None]:
x_train.shape

In [None]:
x_test.shape

In [None]:
y_train.head()

Hacemos _undersampling_ porque tenemos datos de sobra como para hacer oversampling. Lo que queremos es bajar la clase que tiene más cantidad, a la que tiene menos. 

Haremos undersampling de los datos de nuestra muestra para balancearlos:

In [None]:
undersample = RandomUnderSampler(sampling_strategy = 'majority')

In [None]:
x_under, y_under = undersample.fit_sample(x_train, y_train)

In [None]:
x_under.shape

In [None]:
y_under.shape

# Gradient Boosting

In [None]:
xgb = GradientBoostingClassifier(n_estimators=50, learning_rate=0.5 , max_features=2, max_depth = 2, random_state = 1234)
xgb.fit(x_under, y_under)
print("Accuracy score (training): {0:.3f}".format(xgb.score(x_under, y_under)))
print("Accuracy score (validation): {0:.3f}".format(xgb.score(x_test, y_test)))

In [None]:
metrics.plot_roc_curve(xgb , x_test, y_test)
plt.show()

In [None]:
Hemos ido probando manualmente a cambiar los parametros 