# Gradient boosting

**Gradient boosting:** $\;$ FSAM visto como descenso por gradiente para un problema de minimización en un espacio funcional
$$\hat{\boldsymbol{f}}%
=\operatorname*{argmin}_{\boldsymbol{f}}\mathcal{L}(\boldsymbol{f})%
\quad\text{con}\quad%
\mathcal{L}(\boldsymbol{f})=\sum_{i=1}^N \ell(y_i,f(\boldsymbol{x}_i))$$

**Funciones base simplificadas:** $\;$ valores en el conjunto de entrenamiento, $\;\boldsymbol{f}=(f(\boldsymbol{x}_1),\dotsc,f(\boldsymbol{x}_N))^t$

**Descenso por gradiente:** $\;$ escoge la "dirección" de máximo descenso, esto es, la del neg-gradiente de $\mathcal{L}(\boldsymbol{f})$ en $\boldsymbol{f}_{m-1}$, $\boldsymbol{g}_m$
$$\boldsymbol{f}_m=\boldsymbol{f}_{m-1}-\beta_m \boldsymbol{g}_m
\qquad\text{con}\qquad%
g_{im}=\left[\frac{\partial\ell(y_i,f(\boldsymbol{x}_i))}{\partial f(\boldsymbol{x}_i)}\right]_{f_{m-1}(\boldsymbol{x}_i)}$$

**Factor de aprendizaje:** $\;\beta_m$ puede escogerse por búsqueda lineal

**Funciones base generalizadas:** $\;$ para poder generalizar, se ajusta un aprendiz débil al neg-gradiente con pérdida cuadrática
$$F_m=\operatorname*{argmin}_F\sum_{i=1}^N(-g_{im}-F(\boldsymbol{x}_i))^2$$

## Algoritmo básico

El algoritmo básico prescinde de $\beta_m$ pero incluye un **shrinkage factor** $0<\nu\leq 1$ para facilitar la regularización:
1. Inicializar $\,f_0(\boldsymbol{x})=\operatorname{argmin}_F\sum_{i=1}^N\ell(y_i,F(\boldsymbol{x}_i))$
2. **for** $\;m=1:M\;$ **do**
3. $\quad$ Calcular el neg-gradiente o (pseudo-)**residuo** $\,r_{im}=-\left[\dfrac{\partial\ell(y_i,f(\boldsymbol{x}_i))}{\partial f(\boldsymbol{x}_i)}\right]_{f_{m-1}(\boldsymbol{x}_i)}$
4. $\quad$ Usar el aprendiz débil para hallar $\,F_m=\operatorname*{argmin}_F\sum_{i=1}^N(r_{im}-F(\boldsymbol{x}_i))^2$
5. $\quad$ Actualizar $\,f_m(\boldsymbol{x})=f_{m-1}(\boldsymbol{x})+\nu F_m(\boldsymbol{x})$
6. Devolver $\,f(\boldsymbol{x})=f_M(\boldsymbol{x})$

## Regresión

**Salidas:** $\;y_i\in\mathbb{R}$

**Pérdida cuadrática o su mitad:** $\;\ell(y_i,f(\boldsymbol{x}_i))=\frac{1}{2}(y_i-f(\boldsymbol{x}_i))^2\quad$ (como boosting mínimo cuadrados) 

**Neg-gradiente cuadrático:** $\;r_i=y_i-f(\boldsymbol{x}_i)$

**Pérdida valor absoluto:** $\;\ell(y_i,f(\boldsymbol{x}_i))=\lvert y_i-f(\boldsymbol{x}_i)\rvert$

**Neg-gradiente valor absoluto:** $\;r_i=\operatorname{sgn}(y_i-f(\boldsymbol{x}_i))$

## Clasificación binaria

**Salidas:** $\;\tilde{y}_i\in\{-1,+1\}$

**Pérdida exponencial:** $\;\ell(\tilde{y}_i,f(\boldsymbol{x}_i))=\exp(-\tilde{y}_i f(\boldsymbol{x}_i))\quad$ (como Adaboost)

**Neg-gradiente exponencial:** $\;r_i=\tilde{y}_i\exp(-\tilde{y}_i f(\boldsymbol{x}_i))$

**Log-pérdida binaria:** $\;\ell(\tilde{y}_i,f(\boldsymbol{x}_i))=\log(1+\exp(-\tilde{y}_i f(\boldsymbol{x}_i)))\quad$ (como LogitBoost)

**Neg-gradiente log-pérdida binaria:**
$$r_i=-\frac{1}{1+\exp(-\tilde{y}_i f(\boldsymbol{x}_i))}\exp(-\tilde{y}_i f(\boldsymbol{x}_i))(-\tilde{y}_i)%
=\tilde{y}_i\frac{1}{1+\exp(\tilde{y}_i f(\boldsymbol{x}_i))}%
=\tilde{y}_i\sigma(-\tilde{y}_i f(\boldsymbol{x}_i))$$

## Clasificación multiclase

**Salidas:** $\;y_i\in\{1,\dotsc,C\}$

**Log-pérdida:** $\;$ se ajustan $C$ modelos aditivos, uno por cada clase, cuyas predicciones se normalizan mediante una softmax
$$\ell(y_i,f_1(\boldsymbol{x}_i),\dotsc,f_C(\boldsymbol{x}_i))=-\sum_c \mathbb{I}(y_i=c)\log \pi_{ic}%
\quad\text{con}\quad%
\pi_{ic}=S(f_1(\boldsymbol{x}_i),\dotsc,f_C(\boldsymbol{x}_i))_c%
=\frac{\exp(f_c(\boldsymbol{x}_i))}{\sum_{c'=1}^C \exp(f_{c'}(\boldsymbol{x}_i))}$$

**Neg-gradiente log-pérdida:** $\;$ para cada clase $c$
$$\begin{align*}
r_{ic}%
&=-\dfrac{\partial\ell(y_i,f_1(\boldsymbol{x}_i),\dotsc,f_C(\boldsymbol{x}_i))}{\partial f_c(\boldsymbol{x}_i)}\\%
&=\frac{\partial}{\partial f_c(\boldsymbol{x}_i)}\sum_{\tilde{c}} \mathbb{I}(y_i=\tilde{c})\log \pi_{i\tilde{c}}\\%
&=\mathbb{I}(y_i=c)\frac{1}{\pi_{ic}}\pi_{ic}(1-\pi_{ic})\\%
&=\mathbb{I}(y_i=c)(1-\pi_{ic})
\end{align*}$$

## Gradient tree boosting

**Gradient tree boosting:** $\;$ gradient boosting con árbol de regresión como aprendiz débil
$$F_m=\sum_{j=1}^{J_m}w_{jm}\mathbb{I}(\boldsymbol{x}\in R_{jm})$$
* $R_{jm}$ y $w_{jm}$ son la región y salida asociadas a la hoja $j$ del árbol añadido en la iteración $m$
* La salida puede ser un escalar o, más generalmente, un vector (de probabilidades, por ejemplo)

**Aprendizaje de las regiones:** $\;$ CART sobre residuos

**Aprendizaje de las salidas:** $\;$ minimización del riesgo empírico con los datos de la hoja
$$\hat{w}_{jm}=\operatorname*{argmin}_w\sum_{\boldsymbol{x}_i\in R_{jm}}%
\ell(y_i,f_{m-1}(\boldsymbol{x}_i)+w)$$

**Aprendizaje de las salidas con pérdida cuadrática:** $\;\hat{w}_{jm}$ es la media empírica de los residuos de la hoja

## XGBoost

**Extreme gradient boosting (XGBoost):** $\;$ implementación muy popular de gradient tree boosting con algunos refinamientos
* Objetivo regularizado
* Aproximación de segundo orden de la pérdida
* Muestreo de caracterı́sticas en nodos internos
* Técnicas algorítmicas varias para mejorar la escabilidad