# Extreme Gradient Boosting (XGBoost) Ensemble in Python

**Extreme Gradient Boosting (XGBoost)** es una librería *open-source* que provee una implementación efectiva y eficiente del algoritmo *gradient boosting*.

Poco después de su desarrollo, XGBoost se convirtió en el método *go-to* y, a menudo, el componente clave en las soluciones ganadoras en competencias de problemas de clasificación y regresión.

## 1. Extreme Gradient Boosting Algorithm

**Gradient boosting** se refiere a una clase de algoritmos de *machine learning* que pueden ser utilizados para problemas de clasificación o regresión.

Los *ensembles* son construidos a partir de árboles de decisión. Los árboles se agregan uno por uno al *ensemble* y son entrenados para corregir errores en las predicciones realizadas por modelos anteriores. Este es un tipo de *ensemble machine learning model* conocido como **boosting**.

Los modelos son entrenados utilizando cualquier función de pérdida arbitrariamente diferenciable y el algoritmo de optimización *gradient descent*. Esto le da a la técnica su nombre, *gradient boosting*, puesto qe la pérdida del gradiente es minimizada conforme el modelo es entrenado, similar a una red neuronal.

Las dos razones principales para utilizar XGBoost son la rapidez de ejcución y el rendimiento del modelo. XGBoost domina los *datasets* estructurados o tabulados en problemas predictivos de clasificación o regresión. Una prueba de esto es que es el algoritmo *go-to* de los ganadores de competencias en Kaggle.

## 2. XGBoost Scikit-Learn API

XGBoost puede ser instalado como una librería *standalone* y un modelo XGBoost puede ser desarrollado utilizando el API *scikit-learn*. El primer paso es instalar la librería XGBoost, mediante el pip python manager:

In [None]:
sudo pip install xgboost

Se puede confirmar si se instaló correctamente con el siguiente script.

In [1]:
# check xgboost version
import xgboost
print(xgboost.__version__)

0.90


La librería XGBoost tiene su propio API, pero en este tutorial, vamos a usar el método a través de las *wrapper classes* de *scikit-learn*: **XGBRegressor** y **XGBClassifier**. Se utiliza aleatoriedad en la construcción del modelo, por lo que en cada ejecución, se tendrá una salida ligeramente diferente.

### a. XGBoost Ensemble for Classification

Primeramente, se puede invocar a la función **make_classification()** para crear un *synthetic binary classification problem* con 1000 ejemplos y 20 variables de entrada.

In [3]:
# test classification dataset
from sklearn.datasets import make_classification
# define dataset
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)
# summarize the dataset
print(X.shape, y.shape)

(1000, 20) (1000,)


Seguidamente, se evalúa el modelo utilizando **repeated stratified k-fold cross-validation**, con 3 *repeats* y 10 *folds*. 

In [4]:
# evaluate xgboost algorithm for classification
from numpy import mean
from numpy import std
from sklearn.datasets import make_classification
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold
from xgboost import XGBClassifier
# define dataset
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)
# define the model
model = XGBClassifier()
# evaluate the model
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
n_scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)
# report performance
print('Accuracy: %.3f (%.3f)' % (mean(n_scores), std(n_scores)))

Accuracy: 0.899 (0.029)


En este caso, el *XGBoost ensemble*, con hiperparámetros por defecto, alcanzó una precisión en la clasificación cercana al 90%. 

También, se pueden realizar predicciones con la función **predict()**. Esta función espera siempre un arreglo NumPy como una matriz con una fila por cada variable de entrada.

In [5]:
# make predictions using xgboost for classification
from numpy import asarray
from sklearn.datasets import make_classification
from xgboost import XGBClassifier
# define dataset
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)
# define the model
model = XGBClassifier()
# fit the model on the whole dataset
model.fit(X, y)
# make a single prediction
row = [0.2929949,-4.21223056,-1.288332,-2.17849815,-0.64527665,2.58097719,0.28422388,-7.1827928,-1.91211104,2.73729512,0.81395695,3.96973717,-2.66939799,3.34692332,4.19791821,0.99990998,-0.30201875,-4.43170633,-2.82646737,0.44916808]
row = asarray([row])
yhat = model.predict(row)
print('Predicted Class: %d' % yhat[0])

Predicted Class: 1


### b. XGBoost Ensemble for Regression

Nuevamente, se puede utilizar la función **make_regresion()** para crear un *synthetic regression problem* con 1000 ejemplos y 20 variables de entrada.

In [6]:
# test regression dataset
from sklearn.datasets import make_regression
# define dataset
X, y = make_regression(n_samples=1000, n_features=20, n_informative=15, noise=0.1, random_state=7)
# summarize the dataset
print(X.shape, y.shape)

(1000, 20) (1000,)


Luego, se evalúa el modelo utilizando **repeated k-fold cross-validation**, con 3 *repeats* y 10 *folds*. Se reportará el mean absolute error (MAE) del modelo a lo largo de todas las repeats y folds. La librería scikit-learn toma el MAE negativo, por lo que es maximizado en lugar de minimizado. Esto significa que los MAE más negativos son mejores, y un modelo perfecto tiene un MAE de 0.

In [7]:
# evaluate xgboost ensemble for regression
from numpy import mean
from numpy import std
from sklearn.datasets import make_regression
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedKFold
from xgboost import XGBRegressor
# define dataset
X, y = make_regression(n_samples=1000, n_features=20, n_informative=15, noise=0.1, random_state=7)
# define the model
model = XGBRegressor()
# evaluate the model
cv = RepeatedKFold(n_splits=10, n_repeats=3, random_state=1)
n_scores = cross_val_score(model, X, y, scoring='neg_mean_absolute_error', cv=cv, n_jobs=-1, error_score='raise')
# report performance
print('MAE: %.3f (%.3f)' % (mean(n_scores), std(n_scores)))

MAE: -62.762 (3.219)


En este caso, el *XGBoost ensemble* con hiperparámetros por defecto alcanza un MAE cercano a 63.

También, se pueden realizar predicciones con la función **predict()**, que espera un arreglo NumPy como parámetro.

In [8]:
# gradient xgboost for making predictions for regression
from numpy import asarray
from sklearn.datasets import make_regression
from xgboost import XGBRegressor
# define dataset
X, y = make_regression(n_samples=1000, n_features=20, n_informative=15, noise=0.1, random_state=7)
# define the model
model = XGBRegressor()
# fit the model on the whole dataset
model.fit(X, y)
# make a single prediction
row = [0.20543991,-0.97049844,-0.81403429,-0.23842689,-0.60704084,-0.48541492,0.53113006,2.01834338,-0.90745243,-1.85859731,-1.02334791,-0.6877744,0.60984819,-0.70630121,-1.29161497,1.32385441,1.42150747,1.26567231,2.56569098,-0.11154792]
row = asarray([row])
yhat = model.predict(row)
print('Prediction: %d' % yhat[0])

Prediction: 28


## 3. XGBoost Hyperparameters

### a. Explore Number of Trees

### b. Explore Tree Depth

### c. Explore Learning Rate

### d. Explore Number of Samples

### e. Explore Number of Features