### Gradient Boosting Trees - XGBoost

XGBoost é uma técnica de ensemble de árvores que funciona por boosting, criando árvores simples que melhoram iterativamente, revendo as amostras que as versões anteriores classificaram errado. Nesse material, baseado em https://blog.cambridgespark.com/hyperparameter-tuning-in-xgboost-4ff9100a3b2f, serão cobertos os principais parâmetros e a otimização deles para o bom treinamento do método XGBoost no contexto da regressão.

#### Instalando a biblioteca

In [1]:
!pip install xgboost

Collecting xgboost
  Downloading xgboost-1.3.3-py3-none-win_amd64.whl (95.2 MB)
Installing collected packages: xgboost
Successfully installed xgboost-1.3.3


#### Carregando o dataset Facebook Comment Volume

In [29]:
import pandas as pd

# Dataset disponível em: https://archive.ics.uci.edu/ml/datasets/Facebook+Comment+Volume+Dataset

df = pd.read_csv("Features_Variant_1.csv", header=None)
df.head(n=5)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,44,45,46,47,48,49,50,51,52,53
0,634995,0,463,1,0.0,806.0,11.291045,1.0,70.495138,0.0,...,0,0,0,0,0,0,0,0,1,0
1,634995,0,463,1,0.0,806.0,11.291045,1.0,70.495138,0.0,...,0,0,0,0,0,0,0,1,0,0
2,634995,0,463,1,0.0,806.0,11.291045,1.0,70.495138,0.0,...,1,0,0,0,0,0,0,0,1,0
3,634995,0,463,1,0.0,806.0,11.291045,1.0,70.495138,0.0,...,1,0,0,1,0,0,0,0,0,0
4,634995,0,463,1,0.0,806.0,11.291045,1.0,70.495138,0.0,...,0,0,0,0,0,1,0,0,0,0


In [30]:
print(df.shape)

(40949, 54)


#### Separação dos dados

In [31]:
X, y = df.loc[:,:52].values, df.loc[:,53].values

In [39]:
df.loc[:,1:2].values

array([[     0,    463],
       [     0,    463],
       [     0,    463],
       ...,
       [    70, 497000],
       [    70, 497000],
       [    70, 497000]], dtype=int64)

In [6]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=.1, random_state=42)

In [7]:
import xgboost as xgb

dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test, label=y_test)

#### Cálculo do baseline

Como estimativa, no problema de regressão, é esperado que algum modelo de regressão seja melhor do que simplesmente prever como a saída a média dos valores já observados (que seria o menor erro em média sem alguma estratégia mais inteligente).

In [8]:
from sklearn.metrics import mean_absolute_error

import numpy as np

# "Learn" the mean from the training data
mean_train = np.mean(y_train)

# Get predictions on the test set
baseline_predictions = np.ones(y_test.shape) * mean_train

# Compute MAE
mae_baseline = mean_absolute_error(y_test, baseline_predictions)

print("Baseline MAE = {:.2f}".format(mae_baseline))

Baseline MAE = 11.31


#### Definição dos parâmetros iniciais para XGB

- Profundidade máxima
- Quantidade de filhos no nó
- Taxa de aprendizagem
- Amostragem de registros
- Amostragem de colunas
- Função objetiva

Definição completa dos parÂmetros: http://xgboost.readthedocs.io/en/latest/parameter.html

In [9]:
params = {
    # Parameters that we are going to tune.
    'max_depth':6,
    'min_child_weight': 1,
    'eta':.3,
    'subsample': 1,
    'colsample_bytree': 1,
    # Other parameters
    'objective':'reg:squarederror',
}

A métrica de avaliação a ser utilizada será o erro médio absoluto, que é a medida mais simples, em um problema de regressão. Esse parâmetro será incluído no dicionário de parâmetros, mas o objetivo não é encontrar a melhor configuração.

Já o parâmetro **num_boost_round** diz respeito ao números de iterações que será realizado antes da parada forçada do algoritmo.

In [10]:

params['eval_metric'] = "mae"

num_boost_round = 999

#### Treinamento do XGB com os parâmetros iniciais

Em seguida, o treinamento do XGB será feito com os parâmetros iniciais, considerando a parada antecipada se após 10 iterações não for notada melhoria na métrica observada.

In [11]:
model = xgb.train(
    params,
    dtrain,
    num_boost_round=num_boost_round,
    evals=[(dtest, "Test")],
    early_stopping_rounds=10
)

[0]	Test-mae:5.97478
[1]	Test-mae:5.03359
[2]	Test-mae:4.64571
[3]	Test-mae:4.42330
[4]	Test-mae:4.39328
[5]	Test-mae:4.35544
[6]	Test-mae:4.31317
[7]	Test-mae:4.33087
[8]	Test-mae:4.37163
[9]	Test-mae:4.38772
[10]	Test-mae:4.39442
[11]	Test-mae:4.40662
[12]	Test-mae:4.39126
[13]	Test-mae:4.39087
[14]	Test-mae:4.39829
[15]	Test-mae:4.39103
[16]	Test-mae:4.40306


#### Hiperparametrização (Grid search)

O grande potencial do XGBoost está em encontrar uma boa configuração de parâmetros para o problema avaliado. Para avaliar a configuração dos parâmetros, é recomendado a *validação cruzada* em vez do processo de **hold-out**.

In [None]:
cv_results = xgb.cv(
    params,
    dtrain,
    num_boost_round=num_boost_round,
    seed=42,
    nfold=5,
    metrics={'mae'},
    early_stopping_rounds=10
)

In [None]:
cv_results.head(10)

In [None]:
cv_results['test-mae-mean'].min()

É possível perceber que o menor MAE encontrado já é melhor que o baseline de média (Baseline MAE = 11,31).

#### Parâmetros max_depth e min_child_weight

- max_depth: profundidade máxima da árvore a partir da raiz até a última folha; quanto mais profunda, maior chance de causar overfitting.
- min_child_weight: critério de criação de novas falhas; quanto menor, mais divisões a árvore faz, portanto maior é a chance de causar overfitting.

Ambos os parâmetros controlam a complexidade da árvore.

In [None]:
gridsearch_params = [
    (max_depth, min_child_weight)
    for max_depth in range(9,12)
    for min_child_weight in range(5,8)
]

In [None]:
min_mae = float("Inf")
best_params = None
for max_depth, min_child_weight in gridsearch_params:
    print("CV with max_depth={}, min_child_weight={}".format(
                             max_depth,
                             min_child_weight))
    # Update our parameters
    params['max_depth'] = max_depth
    params['min_child_weight'] = min_child_weight
    # Run CV
    cv_results = xgb.cv(
        params,
        dtrain,
        num_boost_round=num_boost_round,
        seed=42,
        nfold=5,
        metrics={'mae'},
        early_stopping_rounds=10
    )
    # Update best MAE
    mean_mae = cv_results['test-mae-mean'].min()
    boost_rounds = cv_results['test-mae-mean'].argmin()
    print("\tMAE {} for {} rounds".format(mean_mae, boost_rounds))
    if mean_mae < min_mae:
        min_mae = mean_mae
        best_params = (max_depth,min_child_weight)
print("Best params: {}, {}, MAE: {}".format(best_params[0], best_params[1], min_mae))

In [None]:
params['max_depth'] = 10
params['min_child_weight'] = 6

#### Parâmetros subsample e colsample_bytree

- subsample: quantidade máxima de amostras a ser considerada por árvore
- colsample: quantdidade máxima de atributos a ser considerado por árvore

Esses atributos controlam o efeito de bootstraping na construção das árvores.

In [None]:
gridsearch_params = [
    (subsample, colsample)
    for subsample in [i/10. for i in range(7,11)]
    for colsample in [i/10. for i in range(7,11)]
]

In [None]:
min_mae = float("Inf")
best_params = None
# We start by the largest values and go down to the smallest
for subsample, colsample in reversed(gridsearch_params):
    print("CV with subsample={}, colsample={}".format(
                             subsample,
                             colsample))
    # We update our parameters
    params['subsample'] = subsample
    params['colsample_bytree'] = colsample
    # Run CV
    cv_results = xgb.cv(
        params,
        dtrain,
        num_boost_round=num_boost_round,
        seed=42,
        nfold=5,
        metrics={'mae'},
        early_stopping_rounds=10
    )
    # Update best score
    mean_mae = cv_results['test-mae-mean'].min()
    boost_rounds = cv_results['test-mae-mean'].argmin()
    print("\tMAE {} for {} rounds".format(mean_mae, boost_rounds))
    if mean_mae < min_mae:
        min_mae = mean_mae
        best_params = (subsample,colsample)
print("Best params: {}, {}, MAE: {}".format(best_params[0], best_params[1], min_mae))

In [None]:
params['subsample'] = .9
params['colsample_bytree'] = 1.

#### Parâmetro ETA

- eta: define a taxa de aprendizado e de ajuste de boosting com relação aos atributos nas iterações; valores menores podem corrigir overfitting, mas exigem mais iterações para reduzir o erro da árvore.

In [None]:
min_mae = float("Inf")
best_params = None
for eta in [.3, .2, .1, .05, .01, .005]:
    print("CV with eta={}".format(eta))
    # We update our parameters
    params['eta'] = eta
    # Run and time CV
    cv_results = xgb.cv(
        params,
        dtrain,
        num_boost_round=num_boost_round,
        seed=42,
        nfold=5,
        metrics=['mae'],
        early_stopping_rounds=10
    )
    # Update best score
    mean_mae = cv_results['test-mae-mean'].min()
    boost_rounds = cv_results['test-mae-mean'].argmin()
    print("\tMAE {} for {} rounds\n".format(mean_mae, boost_rounds))
    if mean_mae < min_mae:
        min_mae = mean_mae
        best_params = eta
print("Best params: {}, MAE: {}".format(best_params, min_mae))

In [None]:
params['eta'] = .05

Na hora de parametrizar, deve-se levar em consideração a relação de ganho de MAE em função do custo das iterações. Embora o eta = 0.01 leve a 3,86 -- ele custa 5x mais iterações que o eta = 0.05 com MAE de 3,88.

#### Parametrização final e treinamento após grid search

In [None]:
params

In [None]:
model = xgb.train(
    params,
    dtrain,
    num_boost_round=num_boost_round,
    evals=[(dtest, "Test")],
    early_stopping_rounds=10
)

#### Treinamento com o melhor número de iterações

In [None]:
num_boost_round = model.best_iteration + 1

best_model = xgb.train(
    params,
    dtrain,
    num_boost_round=num_boost_round,
    evals=[(dtest, "Test")]
)

#### Avaliação do erro no conjunto de teste

Resultado após toda a parametrização, que mostra o ganho em cima da parametrização base de XGBoost que levou a 4,03.

In [None]:
mean_absolute_error(best_model.predict(dtest), y_test)

#### Salvando e recuperando o modelo

In [None]:
best_model.save_model("facebook_model.xgb")

In [None]:
loaded_model = xgb.Booster()
loaded_model.load_model("facebook_model.xgb")
loaded_model.predict(dtest)