# XGBoost ‚Äì Explicaci√≥n Matem√°tica Paso a Paso

XGBoost es una versi√≥n optimizada y regularizada del algoritmo de Gradient Boosting. A diferencia del boosting cl√°sico, utiliza **expansi√≥n de Taylor de segundo orden** y una funci√≥n objetivo regularizada para mejorar la eficiencia y evitar overfitting.

---

## 1. Funci√≥n objetivo de XGBoost

## XGBoost como modelo aditivo

XGBoost es un modelo **aditivo de √°rboles**, lo que significa que construye el modelo final sumando √°rboles uno a uno:

$$
\hat{y}_i^{(t)} = \hat{y}_i^{(t-1)} + f_t(x_i)
$$

Donde:
- $\hat{y}_i^{(t)}$ es la predicci√≥n del ejemplo $i$ en la iteraci√≥n $t$
- $f_t(x_i)$ es el nuevo √°rbol que se entrena en la iteraci√≥n $t$

---

## Objetivo en cada iteraci√≥n

En cada paso, el nuevo √°rbol $f_t$ busca **minimizar la contribuci√≥n marginal** a la funci√≥n de p√©rdida total. Es decir, tomamos la funci√≥n objetivo y la separamos en:

$$
\mathcal{L}^{(t)} =
\underbrace{
\sum_{i=1}^n l(y_i, \hat{y}_i^{(t-1)}) + \sum_{k=1}^{t-1} \Omega(f_k)
}_{\text{Parte ya construida (constante en esta iteraci√≥n)}} +
\underbrace{
\sum_{i=1}^n \left[ l(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)) - l(y_i, \hat{y}_i^{(t-1)}) \right] + \Omega(f_t)
}_{\text{Lo que a√±ade el nuevo √°rbol $f_t$}}
$$

Esto enfatiza que:

- Solo necesitamos **optimizar el segundo t√©rmino**, ya que el primero no cambia en esta iteraci√≥n.
- El nuevo √°rbol $f_t$ se entrena para **mejorar la predicci√≥n actual** $\hat{y}_i^{(t-1)}$ sumando una correcci√≥n.

Sin segmentar: 

$$
\mathcal{L}^{(t)} =
\sum_{i=1}^n l(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)) + \sum_{k=1}^{t} \Omega(f_k)
$$


---


## ‚öôÔ∏è Componentes de la funci√≥n objetivo

- $l(y_i, \hat{y}_i)$: funci√≥n de p√©rdida (por ejemplo, log-loss o MSE)
- $\hat{y}_i^{(t)} = \hat{y}_i^{(t-1)} + f_t(x_i)$: predicci√≥n en el paso $t$
- $\Omega(f_k)$: penalizaci√≥n por la complejidad del √°rbol $f_k$

La regularizaci√≥n $\Omega(f)$ se define como:

$$
\Omega(f) = \gamma T + \frac{1}{2} \lambda \sum_{j=1}^{T} w_j^2
$$

- $T$: n√∫mero de hojas en el √°rbol
- $w_j$: valor predicho por la hoja $j$
- $\gamma$: penalizaci√≥n por cada hoja (controla el crecimiento del √°rbol)
- $\lambda$: penalizaci√≥n L2 sobre los valores de las hojas (controla magnitudes extremas)


---
## 2. Expansi√≥n de Taylor

### Recordatorio r√°pido

Cuando una funci√≥n es complicada, podemos aproximarla cerca de un punto usando una **expansi√≥n de Taylor de segundo orden**:

$$
f(x) \approx f(a) + f'(a)(x - a) + \frac{1}{2} f''(a)(x - a)^2
$$

En particular, si centramos la expansi√≥n en $a = 0$ (como hace XGBoost), tenemos:

$$
f(x) \approx f(0) + f'(0)x + \frac{1}{2} f''(0)x^2
$$

Esto nos da una **aproximaci√≥n cuadr√°tica** que es m√°s informativa que una l√≠nea recta (como en el gradiente descendente cl√°sico), y a√∫n as√≠ es eficiente de optimizar.

---

### Aplicaci√≥n en XGBoost

Para poder usar boosting con funciones de p√©rdida arbitrarias (como log-loss o MAE), XGBoost necesita una forma de **aproximar la p√©rdida** alrededor de las predicciones actuales $\hat{y}_i^{(t-1)}$.

Ah√≠ es donde entra la expansi√≥n de Taylor:

$$
l(y_i, \hat{y}_i^{(t)}) = l(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)) \approx l(y_i, \hat{y}_i^{(t-1)}) + g_i f_t(x_i) + \frac{1}{2} h_i f_t(x_i)^2
$$

Donde:
- $g_i = \left.\frac{\partial l}{\partial \hat{y}_i}\right|_{\hat{y}_i^{(t-1)}}$: gradiente
- $h_i = \left.\frac{\partial^2 l}{\partial \hat{y}_i^2}\right|_{\hat{y}_i^{(t-1)}}$: hessiano
- $f_t(x_i)$ es **la predicci√≥n del nuevo √°rbol**, es decir, la correcci√≥n que se le va a sumar a la predicci√≥n actual

El primer t√©rmino $l(y_i, \hat{y}_i^{(t-1)})$ se puede ignorar en esta iteraci√≥n, ya que es constante.

---

#### üß† Conexi√≥n clave: ¬øpor qu√© aparece $f_t(x_i)$?

Recuerda que en la expansi√≥n de Taylor:

$$
f(x) \approx f(a) + f'(a)(x - a) + \frac{1}{2} f''(a)(x - a)^2
$$

Si definimos:
- $x = \hat{y}_i^{(t)}$
- $a = \hat{y}_i^{(t-1)}$
- Entonces: $x - a = \hat{y}_i^{(t)} - \hat{y}_i^{(t-1)} = f_t(x_i)$

> ‚úÖ As√≠ que en XGBoost, **$f_t(x_i)$ es exactamente el $(x - a)$ de la expansi√≥n de Taylor**.

---

### Resultado

La funci√≥n que efectivamente se optimiza en cada iteraci√≥n es:

$$
\tilde{\mathcal{L}}^{(t)} = \sum_{i=1}^n \left[ g_i f_t(x_i) + \frac{1}{2} h_i f_t(x_i)^2 \right] + \Omega(f_t)
$$

Esto convierte la optimizaci√≥n en un problema **cuadr√°tico respecto a $f_t(x_i)$**, lo que permite construir el nuevo √°rbol de forma eficiente.

---

## ¬øPor qu√© usamos Taylor?

La p√©rdida original puede ser arbitraria (por ejemplo, log-loss o MAE), y no tiene una forma cerrada f√°cil de minimizar al agregar un nuevo √°rbol.  
Por eso, usamos una **expansi√≥n de segundo orden** para aproximarla por una funci√≥n cuadr√°tica, que s√≠ podemos minimizar f√°cilmente al construir un √°rbol hoja por hoja.

---

## 3. √Årboles como funciones pieza por pieza

Cada nuevo √°rbol $f_t$ asigna un valor constante $w_j$ a cada regi√≥n $R_j$ (una hoja). Entonces:

$$
f_t(x_i) = w_j \quad \text{si } x_i \in R_j
$$

Sustituyendo esto en la funci√≥n objetivo aproximada:

$$
\mathcal{L}^{(t)} \approx \sum_{j=1}^{T} \left[
\sum_{i \in R_j} g_i w_j + \frac{1}{2} \sum_{i \in R_j} h_i w_j^2
\right] + \gamma T + \frac{1}{2} \lambda \sum_{j=1}^{T} w_j^2
$$

Agrupando:

$$
\mathcal{L}^{(t)} \approx \sum_{j=1}^{T} \left[
G_j w_j + \frac{1}{2} (H_j + \lambda) w_j^2
\right] + \gamma T
$$

Con:
- $G_j = \sum_{i \in R_j} g_i$
- $H_j = \sum_{i \in R_j} h_i$


---

## 4. Output Value por hoja

Minimizamos el t√©rmino por hoja respecto a $w_j$:

$$
\frac{d}{dw_j} \left( G_j w_j + \frac{1}{2} (H_j + \lambda) w_j^2 \right) = 0
$$

Soluci√≥n:

$$
\textbf{Output value} = w_j^* = -\frac{G_j}{H_j + \lambda}
$$

Nota: esta soluci√≥n es equivalente al paso de Newton-Raphson aplicado a cada hoja, ya que minimizamos una aproximaci√≥n cuadr√°tica local de la p√©rdida.


---
## 5. Similarity Score (calidad de una hoja)

No es una loss en el sentido habitual, pero s√≠ es proporcional a la p√©rdida que se reduce si mantienes esa hoja y usas el output value √≥ptimo.

Recordemos que la funci√≥n de p√©rdida regularizada en una hoja $R_j$ es:

$$
\mathcal{L}_j(w_j) = G_j w_j + \frac{1}{2} (H_j + \lambda) w_j^2
$$

- $G_j = \sum_{i \in R_j} g_i$: suma de gradientes en la hoja
- $H_j = \sum_{i \in R_j} h_i$: suma de hessianos
- $\lambda$: t√©rmino de regularizaci√≥n L2



### Evaluamos cu√°nto mejora la p√©rdida

Sustituimos el valor √≥ptimo de nuevo en la funci√≥n de p√©rdida para ver **cu√°nto mejora**:

$$
\mathcal{L}_j(w_j^*) = G_j w_j^* + \frac{1}{2}(H_j + \lambda)(w_j^*)^2
$$

Sustituyendo:

$$
\mathcal{L}_j(w_j^*) =
G_j \left(-\frac{G_j}{H_j + \lambda} \right) +
\frac{1}{2}(H_j + \lambda) \left( \frac{G_j^2}{(H_j + \lambda)^2} \right)
$$

$$
= -\frac{G_j^2}{H_j + \lambda} + \frac{1}{2} \cdot \frac{G_j^2}{H_j + \lambda}
= -\frac{1}{2} \cdot \frac{G_j^2}{H_j + \lambda}
$$

---

### Resultado

$$
\boxed{
\text{Similarity Score} = \frac{G_j^2}{H_j + \lambda}
}
$$

Este valor representa el **doble de la reducci√≥n en la p√©rdida** que se logra usando esa hoja con su output value √≥ptimo.

- Es √∫til para comparar qu√© tan ‚Äúbuena‚Äù es una hoja antes de hacer un split.
- Cuanto mayor sea, m√°s √∫til es mantener esa hoja o hacer un split basado en ella.

üí° Nota: la funci√≥n de p√©rdida es negativa porque estamos midiendo una reducci√≥n (mejora). El **similarity score** se define como el valor positivo que indica esta ganancia potencial.

---



## 6. Gain (ganancia de un split)

Para saber si vale la pena dividir una hoja en dos, se calcula la **ganancia** del split:


Cuando se eval√∫a un posible split, se calcula la **ganancia esperada**:

$$
\text{Gain} = \frac{1}{2} \left( \text{Similarity}_\text{izq} + \text{Similarity}_\text{der} - \text{Similarity}_\text{padre} \right) - \gamma
$$


Si el gain es positivo, se realiza el split, $\gamma$ es un hiperpar√°metro



---

## 7. Predicci√≥n final

La predicci√≥n final se obtiene sumando todos los √°rboles:

$$
\hat{y}_i = F_0(x_i) + \sum_{t=1}^{M} f_t(x_i)
$$

Y si es clasificaci√≥n, se aplica la funci√≥n sigmoide para convertir a probabilidad:

$$
p_i = \frac{1}{1 + e^{-\hat{y}_i}}
$$

---

## ‚úÖ En resumen

| Concepto            | F√≥rmula                                                       | Interpretaci√≥n                                |
|---------------------|----------------------------------------------------------------|------------------------------------------------|
| Output value        | $w_j = -\frac{G_j}{H_j + \lambda}$                         | Valor √≥ptimo que predice una hoja             |
| Similarity score    | $\frac{G_j^2}{H_j + \lambda}$                              | Calidad de una hoja                           |
| Gain (split)        | Ver f√≥rmula anterior                                           | Reducci√≥n esperada en la p√©rdida si se divide |

---

## Derivadas para diferentes funciones de p√©rdida

A continuaci√≥n se muestran las f√≥rmulas del **gradiente** y el **hessiano** seg√∫n el tipo de problema:

| Tipo de problema       | Funci√≥n de p√©rdida                                 | Gradiente $g_i$                  | Hessiano $h_i$                       |
|------------------------|----------------------------------------------------|----------------------------------|--------------------------------------|
| Regresi√≥n (MSE)        | $\mathcal{L}(y_i, \hat{y}_i) = \frac{1}{2}(y_i - \hat{y}_i)^2$ | $g_i = \hat{y}_i - y_i$          | $h_i = 1$                            |
| Clasificaci√≥n binaria  | $\mathcal{L}(y_i, \hat{y}_i) = -[y_i \log(p_i) + (1 - y_i)\log(1 - p_i)]$ con $p_i = \sigma(\hat{y}_i)$ | $g_i = p_i - y_i$                | $h_i = p_i(1 - p_i)$                 |

- En clasificaci√≥n binaria, $\hat{y}_i$ es el **logit** y $p_i = \frac{1}{1 + e^{-\hat{y}_i}}$
- En regresi√≥n, $\hat{y}_i$ es la predicci√≥n directa del modelo

---


