# Gradient Boosted Regression Trees


In [1]:
class Estimator(object):
  
    def fit(self, X, y=None):
        """Fits estimator to data. """
        # set state of ``self``
        return self
            
    def predict(self, X):
        """Predict response of ``X``. """
        # compute predictions ``pred``
        return pred

Scikit-learn proporciona dos estimadores para Gradient Boosting: `` GradientBoostingClassifier`` y `` GradientBoostingRegressor``, ambos se encuentran en el paquete `` sklearn.ensemble``:

In [2]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import GradientBoostingRegressor

Los estimadores tienen argumentos para controlar el comportamiento de ajuste; estos argumentos a menudo se denominan _hiperparámetros_. Entre los más importantes para GBRT se encuentran:

  * número de árboles de regresión (o clasificación) (`` n_estimators`` )
  * profundidad de cada árbol individual (`` max_depth`` )
  * función de pérdida (``loss`` )

Por ejemplo, si desea ajustar un modelo de regresión con 100 árboles de profundidad 3 utilizando mínimos cuadrados:

In [3]:
est = GradientBoostingRegressor(n_estimators=100, max_depth=3, loss='ls')

In [4]:
est?

[0;31mType:[0m        GradientBoostingRegressor
[0;31mString form:[0m GradientBoostingRegressor()
[0;31mFile:[0m        /opt/tljh/user/lib/python3.7/site-packages/sklearn/ensemble/_gb.py
[0;31mDocstring:[0m  
Gradient Boosting for regression.

GB builds an additive model in a forward stage-wise fashion;
it allows for the optimization of arbitrary differentiable loss functions.
In each stage a regression tree is fit on the negative gradient of the
given loss function.

Read more in the :ref:`User Guide <gradient_boosting>`.

Parameters
----------
loss : {'ls', 'lad', 'huber', 'quantile'}, default='ls'
    loss function to be optimized. 'ls' refers to least squares
    regression. 'lad' (least absolute deviation) is a highly robust
    loss function solely based on order information of the input
    variables. 'huber' is a combination of the two. 'quantile'
    allows quantile regression (use `alpha` to specify the quantile).

learning_rate : float, default=0.1
    learning rate 

Aquí hay un ejemplo independiente que muestra cómo ajustar un `` GradientBoostingClassifier``  a un conjunto de datos sintéticos:

In [5]:
from sklearn.datasets import make_hastie_10_2
from sklearn.model_selection import train_test_split

# generate synthetic data from ESLII - Example 10.2
X, y = make_hastie_10_2(n_samples=5000)
X_train, X_test, y_train, y_test = train_test_split(X, y)

# fit estimator
est2 = GradientBoostingClassifier(n_estimators=200, max_depth=3)
est2.fit(X_train, y_train)

# predict class labels
pred = est2.predict(X_test)

# score on test data (accuracy)
acc = est2.score(X_test, y_test)
print('ACC: %.4f' % acc)

# predict class probabilities
est2.predict_proba(X_test)[0]

ACC: 0.9304


array([0.88018448, 0.11981552])

El estado del estimador se almacena en atributos de instancia que tienen un guión bajo al final ('\ _'). Por ejemplo, la secuencia de árboles de regresión (objetos `` DecisionTreeRegressor `` ) se almacena en `` est.estimators_``:

In [6]:
est2.estimators_[0, 0]

DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
                      random_state=RandomState(MT19937) at 0x7F2890115BA0)

## <font color='green'>**Actividad 1**</font>

Entrene un Gradient Boosting Classifier para los siguientes datos:

In [7]:
from sklearn.datasets import load_digits
digits = load_digits()
X=digits.data
y=digits.target

Haga una separacion train test de 70-30 y entrene un modelo como 200 estimadores.

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)

# fit estimator
est2 = GradientBoostingClassifier(n_estimators=200, max_depth=3)
est2.fit(X_train, y_train)

# predict class labels
pred = est2.predict(X_test)

# score on test data (accuracy)
acc = est2.score(X_test, y_test)
print('ACC: %.4f' % acc)

# predict class probabilities
est2.predict_proba(X_test)[0]

ACC: 0.9574


array([3.22438901e-12, 5.22478213e-09, 4.92858068e-09, 1.66183084e-09,
       9.99993991e-01, 9.48688179e-07, 2.15944505e-09, 7.28158645e-09,
       5.93229517e-09, 5.03292347e-06])

## <font color='green'>**Fin Actividad 1**</font>

## Gradient Boosted Regression Trees in Practise

### Function approximation

  * Sinoide function + random gaussian noise 
  * 80 puntos de entrenamiento (azul), 20 de test(rojos)

In [None]:
%pylab inline
import numpy as np
from sklearn.model_selection import train_test_split

FIGSIZE = (11, 7)

def ground_truth(x):
    """Ground truth -- function to approximate"""
    return x * np.sin(x) + np.sin(2 * x)

def gen_data(n_samples=200):
    """generate training and testing data"""
    np.random.seed(15)
    X = np.random.uniform(0, 10, size=n_samples)[:, np.newaxis]
    y = ground_truth(X.ravel()) + np.random.normal(scale=2, size=n_samples)
    train_mask = np.random.randint(0, 2, size=n_samples).astype(np.bool)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=3)
    return X_train, X_test, y_train, y_test

X_train, X_test, y_train, y_test = gen_data(100)

# plot ground truth
x_plot = np.linspace(0, 10, 500)

def plot_data(alpha=0.4, s=20):
    fig = plt.figure(figsize=FIGSIZE)
    gt = plt.plot(x_plot, ground_truth(x_plot), alpha=alpha, label='ground truth')

    # plot training and testing data
    plt.scatter(X_train, y_train, s=s, alpha=alpha)
    plt.scatter(X_test, y_test, s=s, alpha=alpha, color='red')
    plt.xlim((0, 10))
    plt.ylabel('y')
    plt.xlabel('x')
    
annotation_kw = {'xycoords': 'data', 'textcoords': 'data',
                 'arrowprops': {'arrowstyle': '->', 'connectionstyle': 'arc'}}
    
plot_data()

### Regression Trees

  * El argumento `` max_depth `` controla la profundidad del árbol
  * Cuanto más profundo es el árbol, más varianza se puede explicar

In [None]:
from sklearn.tree import DecisionTreeRegressor
plot_data()
est = DecisionTreeRegressor(max_depth=1).fit(X_train, y_train)
plt.plot(x_plot, est.predict(x_plot[:, np.newaxis]),
         label='RT max_depth=1', color='g', alpha=0.9, linewidth=2)

est = DecisionTreeRegressor(max_depth=3).fit(X_train, y_train)
plt.plot(x_plot, est.predict(x_plot[:, np.newaxis]),
         label='RT max_depth=3', color='g', alpha=0.7, linewidth=1)


plt.legend(loc='upper left')

### Function approximation with Gradient Boosting

  * El argumento `` n_estimators`` controla el número de árboles
  * El método `` staged_predict`` nos permite recorrer las predicciones a medida que agregamos más árboles

In [None]:
from itertools import islice

plot_data()
est = GradientBoostingRegressor(n_estimators=1000, max_depth=1, learning_rate=1.0)
est.fit(X_train, y_train)

ax = plt.gca()
first = True

# step through prediction as we add 10 more trees.
for pred in islice(est.staged_predict(x_plot[:, np.newaxis]), 0, est.n_estimators, 10):
    plt.plot(x_plot, pred, color='r', alpha=0.2)
    if first:
        ax.annotate('High bias - low variance', xy=(x_plot[x_plot.shape[0] // 2],
                                                    pred[x_plot.shape[0] // 2]),
                                                    xytext=(4, 4), **annotation_kw)
        first = False

pred = est.predict(x_plot[:, np.newaxis])
plt.plot(x_plot, pred, color='r', label='GBRT max_depth=1')
ax.annotate('Low bias - high variance', xy=(x_plot[x_plot.shape[0] // 2],
                                            pred[x_plot.shape[0] // 2]),
                                            xytext=(6.25, -6), **annotation_kw)
plt.legend(loc='upper left')

### Complejidad del modelo

  * El número de árboles y la profundidad de los árboles individuales controlan la complejidad del modelo
  * La complejidad del modelo tiene un precio: **sobreajuste**
  
  
### Gráfico de desviación

  * Diagnóstico para determinar si el modelo está sobreajustado
  * Traza el error de entrenamiento / prueba (desviación) en función del número de árboles (= complejidad del modelo)
  * El error de entrenamiento (desviación) se almacena en `` est.train_score_``
  * El error de prueba se calcula usando ``est.staged_predict ``

In [None]:
def deviance_plot(est, X_test, y_test, ax=None, label='', train_color='#2c7bb6', 
                  test_color='#d7191c', alpha=1.0, ylim=(0, 10)):
    """Deviance plot for ``est``, use ``X_test`` and ``y_test`` for test error. """
    n_estimators = len(est.estimators_)
    test_dev = np.empty(n_estimators)

    for i, pred in enumerate(est.staged_predict(X_test)):
       test_dev[i] = est.loss_(y_test, pred)

    if ax is None:
        fig = plt.figure(figsize=FIGSIZE)
        ax = plt.gca()
        
    ax.plot(np.arange(n_estimators) + 1, test_dev, color=test_color, label='Test %s' % label, 
             linewidth=2, alpha=alpha)
    ax.plot(np.arange(n_estimators) + 1, est.train_score_, color=train_color, 
             label='Train %s' % label, linewidth=2, alpha=alpha)
    ax.set_ylabel('Error')
    ax.set_xlabel('n_estimators')
    ax.set_ylim(ylim)
    return test_dev, ax

test_dev, ax = deviance_plot(est, X_test, y_test)
ax.legend(loc='upper right')

# add some annotations
ax.annotate('Lowest test error', xy=(test_dev.argmin() + 1, test_dev.min() + 0.02),
            xytext=(150, 3.5), **annotation_kw)

ann = ax.annotate('', xy=(800, test_dev[799]),  xycoords='data',
                  xytext=(800, est.train_score_[799]), textcoords='data',
                  arrowprops={'arrowstyle': '<->'})
ax.text(810, 3.5, 'train-test gap')

### Sobreajuste (Overfitting)

  * El modelo tiene demasiada capacidad y comienza a ajustarse a los datos de entrenamiento
  * Indicado por una gran brecha entre el error de entrenamiento y el error de prueba
  * GBRT proporciona una serie de parametros para controlar el sobreajuste

## Regularización

  * Estructura de árbol
  * Contracción
  * Impulso de gradiente estocástico

## Estructura de árbol

  * El `` max_depth``  de los árboles controla el grado de interacciones de características (varianza ++)
  * Utilice `` min_samples_leaf``  para tener una cantidad suficiente de muestras por hoja (sesgo ++)

In [None]:
def fmt_params(params):
    return ", ".join("{0}={1}".format(key, val) for key, val in params.items())

fig = plt.figure(figsize=FIGSIZE)
ax = plt.gca()
for params, (test_color, train_color) in [({}, ('#d7191c', '#2c7bb6')),
                                          ({'min_samples_leaf': 3}, ('#fdae61', '#abd9e9'))]:
    est = GradientBoostingRegressor(n_estimators=1000, max_depth=1, 
                                    learning_rate=1.0)
    est.set_params(**params)
    est.fit(X_train, y_train)
    test_dev, ax = deviance_plot(est, X_test, y_test, ax=ax, label=fmt_params(params),
                                 train_color=train_color, test_color=test_color)
    
ax.annotate('Higher bias', xy=(900, est.train_score_[899]), xytext=(600, 3), **annotation_kw)
ax.annotate('Lower variance', xy=(900, test_dev[899]), xytext=(600, 3.5), **annotation_kw)
plt.legend(loc='upper right')

## Contracción

 * Aprendizaje lento al reducir las predicciones de cada árbol en un pequeño escalar (`` learning_rate`` )
 * Una ``learning_rate``  más baja requiere una mayor cantidad de ``n_estimadores`` 
 * Es una compensación entre tiempo de ejecución y precisión.

In [None]:
fig = plt.figure(figsize=FIGSIZE)
ax = plt.gca()
for params, (test_color, train_color) in [({}, ('#d7191c', '#2c7bb6')),
                                          ({'learning_rate': 0.1},
                                           ('#fdae61', '#abd9e9'))]:
    est = GradientBoostingRegressor(n_estimators=1000, max_depth=1, learning_rate=1.0)
    est.set_params(**params)
    est.fit(X_train, y_train)
    
    test_dev, ax = deviance_plot(est, X_test, y_test, ax=ax, label=fmt_params(params),
                                 train_color=train_color, test_color=test_color)
    
ax.annotate('Requires more trees', xy=(200, est.train_score_[199]), 
            xytext=(300, 1.75), **annotation_kw)
ax.annotate('Lower test error', xy=(900, test_dev[899]),
            xytext=(600, 1.75), **annotation_kw)
plt.legend(loc='upper right')

## Stochastic Gradient Boosting



 * Submuestreo del conjunto de entrenamiento antes de hacer crecer cada árbol (`` subsample ``)
 * Submuestreo de las características antes de encontrar el mejor nodo dividido (`` max_features ``)
 * La última suele funcionar mejor si hay una cantidad suficiente de funciones

In [None]:
fig = plt.figure(figsize=FIGSIZE)
ax = plt.gca()
for params, (test_color, train_color) in [({}, ('#d7191c', '#2c7bb6')),
                                          ({'learning_rate': 0.1, 'subsample': 0.5},
                                           ('#fdae61', '#abd9e9'))]:
    est = GradientBoostingRegressor(n_estimators=1000, max_depth=1, learning_rate=1.0,
                                    random_state=1)
    est.set_params(**params)
    est.fit(X_train, y_train)
    test_dev, ax = deviance_plot(est, X_test, y_test, ax=ax, label=fmt_params(params),
                                 train_color=train_color, test_color=test_color)
    
ax.annotate('Even lower test error', xy=(400, test_dev[399]),
            xytext=(500, 3.0), **annotation_kw)

est = GradientBoostingRegressor(n_estimators=1000, max_depth=1, learning_rate=1.0,
                                subsample=0.5)
est.fit(X_train, y_train)
test_dev, ax = deviance_plot(est, X_test, y_test, ax=ax, label=fmt_params({'subsample': 0.5}),
                             train_color='#abd9e9', test_color='#fdae61', alpha=0.5)
ax.annotate('Subsample alone does poorly', xy=(300, test_dev[299]), 
            xytext=(500, 5.5), **annotation_kw)
plt.legend(loc='upper right', fontsize='small')

## Hyperparameter tuning

  Normalmente sigo esta receta para ajustar los hiperparámetros:

  1. Elija `` n_estimators``  tan grande como sea posible (computacionalmente) (por ejemplo, 3000)
  2. Sintonice `` max_depth``, `` learning_rate``, `` min_samples_leaf`` y `` max_features`` mediante GridSearch
  3. Aumente `` n_estimators`` aún más y ajuste ``learning_rate`` nuevamente manteniendo los otros parámetros fijos

In [None]:
from sklearn.model_selection import GridSearchCV

param_grid = {'learning_rate': [0.1, 0.01, 0.001],
              'max_depth': [4, 6],
              'min_samples_leaf': [3, 5]  ## depends on the nr of training examples
              # 'max_features': [1.0, 0.3, 0.1] ## not possible in our example (only 1 fx)
              }

est = GradientBoostingRegressor(n_estimators=3000)
# this may take some minutes
gs_cv = GridSearchCV(est, param_grid, scoring='neg_mean_squared_error', n_jobs=4).fit(X_train, y_train)

# best hyperparameter setting
print('Best hyperparameters: %r' % gs_cv.best_params_)

In [None]:
# refit model on best parameters
est.set_params(**gs_cv.best_params_)
est.fit(X_train, y_train)

# plot the approximation
plot_data()
plt.plot(x_plot, est.predict(x_plot[:, np.newaxis]), color='r', linewidth=2)

# Use-case: California Housing

* Predecir el valor medio de la vivienda para los grupos de bloques del censo en California
 * 20.000 grupos, 8 características: *ingreso medio*, *edad promedio de la vivienda*, *latitud*, *longitud*, ...
 * Error absoluto medio en la división de prueba de entrenamiento 80-20

In [None]:
from sklearn.datasets.california_housing import fetch_california_housing

cal_housing = fetch_california_housing()

# split 80/20 train-test
X_train, X_test, y_train, y_test = train_test_split(cal_housing.data,
                                                    cal_housing.target,
                                                    test_size=0.2,
                                                    random_state=1)
names = cal_housing.feature_names

## Desafíos

  * características heterogéneas (diferentes escalas y distribuciones, ver gráfico a continuación)
  * interacciones de características no lineales (interacción: latitud y longitud)
  * respuestas extremas (técnicas de regresión robustas)


In [None]:
import pandas as pd
X_df = pd.DataFrame(data=X_train, columns=names)
X_df['MedHouseVal'] = y_train
_ = X_df.hist(column=['Latitude', 'Longitude', 'MedInc', 'MedHouseVal'], figsize=FIGSIZE)

## Evaluation

  * GBRT vs RandomForest vs SVM vs Ridge Regression

In [None]:
import time
from collections import defaultdict
from sklearn.metrics import mean_absolute_error
from sklearn.linear_model import Ridge
from sklearn.ensemble import RandomForestRegressor
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.dummy import DummyRegressor
from sklearn.svm import SVR

res = defaultdict(dict)

def benchmark(est, name=None):
    if not name:
        name = est.__class__.__name__
    t0 = time.clock()
    est.fit(X_train, y_train)
    res[name]['train_time'] = time.clock() - t0
    t0 = time.clock()
    pred = est.predict(X_test)
    res[name]['test_time'] = time.clock() - t0
    res[name]['MAE'] = mean_absolute_error(y_test, pred)
    return est
    
benchmark(DummyRegressor())
benchmark(Ridge(alpha=0.0001, normalize=True))
benchmark(Pipeline([('std', StandardScaler()), 
                    ('svr', SVR(kernel='rbf', C=10.0, gamma=0.1, tol=0.001))]), name='SVR')
benchmark(RandomForestRegressor(n_estimators=100, max_features=5, random_state=0, 
                                bootstrap=False, n_jobs=4))
est = benchmark(GradientBoostingRegressor(n_estimators=500, max_depth=4, learning_rate=0.1,
                                          loss='huber', min_samples_leaf=3, 
                                          random_state=0))

res_df = pd.DataFrame(data=res).T
res_df[['train_time', 'test_time', 'MAE']].sort_values('MAE', ascending=False)

## <font color='green'>**Actividad 2**</font>

El `` GradientBoostingRegressor``  anterior no está ajustado correctamente para este conjunto de datos. Diagnostique el modelo actual y encuentre configuraciones de hiperparámetros más apropiadas.

In [None]:
# diagnose the model
test_dev, ax = deviance_plot(est, X_test, y_test, ylim=(0, 1.0))

In [None]:
## modify the hyperparameters
#tuned_est = benchmark(GradientBoostingRegressor(n_estimators=500, max_depth=4, learning_rate=0.1,
#                                                loss='huber', random_state=0, verbose=1))

## print results
#res_df = pd.DataFrame(data=res).T
#res_df[['train_time', 'test_time', 'MAE']].sort('MAE', ascending=False)

## <font color='green'>**Fin Actividad 2**</font>

## Importancia de la característica

  * ¿Cuáles son las características importantes y cómo contribuyen a predecir la respuesta objetivo?
  * Derivado de los árboles de regresión
  * Se puede acceder a través del atributo `` est.feature_importances_``

In [None]:
fx_imp = pd.Series(est.feature_importances_, index=names)
fx_imp /= fx_imp.max()  # normalize
fx_imp.sort_values()
fx_imp.plot(kind='barh', figsize=FIGSIZE)

## Dependencia parcial

  * Relación entre la respuesta y un conjunto de características, marginando todas las demás características
  * Intuitivamente: respuesta esperada en función de las características a las que condicionamos

In [None]:
from sklearn.ensemble.partial_dependence import plot_partial_dependence

features = ['MedInc', 'AveOccup', 'HouseAge',
            ('AveOccup', 'HouseAge')]
fig, axs = plot_partial_dependence(est, X_train, features, feature_names=names, 
                                   n_cols=2, figsize=FIGSIZE)

## Tips & Tricks

### Características categóricas

Scikit-learn requiere que las variables categóricas estén codificadas como numéricas. Para los métodos basados ​​en árboles, la codificación ordinal es tan efectiva como la codificación one-hot pero más eficiente (menos memoria y tiempo de ejecución más rápido) dado que creces árboles con suficiente profundidad:

In [None]:
df = pd.DataFrame(data={'icao': ['CRJ2', 'A380', 'B737', 'B737']})
# ordinal encoding
df_enc = pd.DataFrame(data={'icao': np.unique(df.icao,
                      return_inverse=True)[1]})
X = np.asfortranarray(df_enc.values, dtype=np.float32)

## Resumen

 - Técnica flexible de clasificación y regresión no paramétrica
 - Aplicable a una variedad de problemas
 - Implementación sólida en scikit-learn
 

## <font color='green'>**Actividad 3**</font>

In [None]:
from sklearn.datasets import fetch_covtype
X, y = fetch_covtype(return_X_y=True)

In [None]:
from sklearn.ensemble import GradientBoostingClassifier


Encuentre los mejores parametros con GridSearchCV e implemente la experimentacion con 5-fold cross-validation. Reporte el F1, precision y recall.

## <font color='green'>**Fin Actividad 3**</font>