# Ejemplo del ejercicio utilizando XGBoost

Esta notebook contiene un análisis de las *features* aprendidas por el modelo, con el fin de extraer *insights* que puedan ser de utilidad para el negocio

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.model_selection import GridSearchCV
import matplotlib.pyplot as plt
import seaborn as sns
import xgboost as xgb
import graphviz
import shap

## Lectura de datos

In [None]:
df_data = pd.read_csv('dataset_balanceado.csv')
df_data.head()

In [None]:
df_data.columns

In [None]:
df_data = df_data[['admin_visits', 'intercom_conversations', 'products_with_description',
                   'total_products_with_images', 'total_product_categories','total_events_on_Android', 
                   'total_events_on_Web', 'total_events_on_iOS','country_AR', 'country_BR', 'country_CL',
                   'country_CO', 'country_MX', 'target']]

## Dataset entrenamiento y test

A continuación se define una función que divide el dataset en dos: uno para entrenamiento del modelo y otro para la evaluación del mismo

In [None]:
y = df_data['target']
X = df_data.drop(columns=['target'])
#Es de utilidad para XGBoost
data_dmatrix = xgb.DMatrix(data=X,label=y)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3)

## Definición y entrenamiento del modelo

Se entrena un clasificador *XGBoost*. Primero se entrena con un modelo clásico dividiendo el dataset en *train* y *test*. Luego se entrena un modelo más robusto utilizando la estrategia de *kfolds*

In [None]:
clf = xgb.XGBClassifier(colsample_bytree = 0.3, learning_rate = 0.1, max_depth = 5, alpha = 10, n_estimators = 10)
clf.fit(X_train, y_train)

In [None]:
param = {'max_depth': 5, 'eta': 1, 'objective': 'binary:logistic'}
param['nthread'] = 4
param['eval_metric'] = ['auc', 'aucpr']

In [None]:
cv_results = xgb.cv(
    dtrain=data_dmatrix, 
    params=param, 
    nfold=3,
    num_boost_round=50,
    early_stopping_rounds=10, 
    as_pandas=True
)

In [None]:
cv_results

In [None]:
xg_clf = xgb.train(params=param, dtrain=data_dmatrix, num_boost_round=10)

### Hiper parametrización del modelo

In [None]:
param_tuning = {
        'learning_rate': [0.01, 0.1],
        'max_depth': [3, 5, 7, 10],
        'min_child_weight': [1, 3, 5],
        'subsample': [0.5, 0.7],
        'colsample_bytree': [0.3, 0.5, 0.7],
        'n_estimators' : [100, 200, 500],
        'objective': ['binary:logistic']
    }

In [None]:
xg_clf = xgb.XGBClassifier()

gsearch = GridSearchCV(estimator = xg_clf,
                           param_grid = param_tuning,                        
                           #scoring = 'neg_mean_absolute_error', #MAE
                           #scoring = 'neg_mean_squared_error',  #MSE
                           cv = 5,
                           n_jobs = -1,
                           verbose = 1)

gsearch.fit(X_train,y_train)

In [None]:
gsearch.best_params_

## Análisis de los features utilizados por el modelo

Para poder obtener *insights* que puedan ser de utilidad para el negocio se analizan la importancia que el modelo le asigna a cada uno de los *features*.

Para ello se utiliza la librería *shap* que permite realizar un análisis de la utilización de los *features* por el modelo

In [None]:
#Path for using shap library

model_bytearray = xg_clf.save_raw()[4:]
def myfun(self=None):
    return model_bytearray

xg_clf.save_raw = myfun

In [None]:
explainer = shap.TreeExplainer(xg_clf)

In [None]:
pred = xg_clf.predict(data_dmatrix, output_margin=True)
explainer = shap.TreeExplainer(xg_clf)
shap_values = explainer.shap_values(data_dmatrix)
np.abs(shap_values.sum(1) + explainer.expected_value - pred).max()

Primero se observa la importancia que le asigna el modelo a cada *feature*

In [None]:
shap.summary_plot(shap_values, X, plot_type='bar')

In [None]:
plt.rcParams['figure.figsize'] = [10,10]
xgb.plot_importance(xg_clf)

Luego se observa el impacto que cada *feature* tuvo para el modelo a la hora de generar las predicciones sobre el dataset

In [None]:
shap.summary_plot(shap_values, X)

In [None]:
# visualize the first prediction's explanation
shap.initjs()
shap.force_plot(explainer.expected_value, shap_values[0,:], X.iloc[0,:])

In [None]:
plt.rcParams['figure.figsize'] = [50, 50]
xgb.plot_tree(xg_clf, num_trees=1)