## √Årbol de decisi√≥n

Un modelo el cual utiliza varios niveles, donde en cada nivel existe una caractr√≠stica que se evalua a trav√©s de un umbral, va dividiendo los datos en los que son mayor o menor al umbral definido en la caracter√≠stica.


### Regresi√≥n

Este algoritmo usa todas las variables y los splits posibles (umbrales) y elige el umbral en cada variable que reduzca en mayor medida la varianza.


$$
\text{Reducci√≥n de varianza} = \text{Varianza total} - \left( \frac{N_1}{N} \times \text{Var}(G1) + \frac{N_2}{N} \times \text{Var}(G2) \right)
$$

Varianza de cada rama ponderada por el n√∫mero de gente de cada una de las ramas.

### Clasificaci√≥n

De igual forma que en la regresi√≥n, el modelo usa todas las variables y prueba todos los umbrales posibles, eligiendo el que cause una mayor reducci√≥n de impureza, la cual se calcula a trav√©s del Gini o de la Entriop√≠a.

$$
Gini = 1 - \sum p_i^2
$$

$$
Entrop√≠a = -\sum p_i \log_2 p_i
$$


$$
\text{Ganancia de Impureza} = \text{Impureza Nodo Padre} - \left( \frac{N_1}{N} \times \text{Impureza}(G1) + \frac{N_2}{N} \times \text{Impureza}(G2) \right)
$$

Impureza de cada rama ponderada por el n√∫mero de personas en cada una de ellas.

---

## Random Forest

Utilizas la t√©cnica de bootsrap para hacer muestreos aleatorios de tus datos, sobre los cuales entrenas tu modelo de √°rbol de decisi√≥n. Cada uno de estos modelos realiza sus predicciones, y el promedio de estas ser√≠a la predicci√≥n utilizada por el algoritmo de Random Forest.

---

## Gradient Boosting

Proceso iterativo el cual mejora los errores cometidos en pasos anteriores. Inicia con una predicci√≥n a la cual le calcula el error, despu√©s se entrena un nuevo √°rbol sobre estos errores, con esto se actualiza la predicci√≥n del modelo total. Esto se hace a trav√©s de un factor de aprendizaje que pondera las predicciones anteriores y se va repitiendo el proceso.

Cada vez usa el error anterior para en cada iteraci√≥n ir haciendo est√© m√°s peque√±o. La predicci√≥n del √°rbol anterior es el promedio de los residuales obtenidos en cada una de las hojas. Modelo nuevo = modelo anteriror + v (nuevo √°rbol). Para clasificaci√≥n se utilizan las log-odds.

---

## XGBoost

Sumas √°rboles √≥ptimos.

XGBoost construye un modelo final a trav√©s de una suma de √°rboles.

$$
\hat{y}_i^{(t)} = \hat{y}_i^{(t-1)} + f_t(x_i)
$$

Donde:
- $\hat{y}_i^{(t)}$ es la predicci√≥n.
- $f_t(x_i)$ es el nuevo √°rbol.

En cada una de las iteraciones se busca minimizar la contribuci√≥n marginal a la funci√≥n de p√©rdida total.

La funci√≥n de p√©rdida se compone de dos partes, una que son los √°rboles anterirores y otra parte que representa el √°rbol actual. La parte de los √°rboles anteriores se usa cmo constante (ya esta dado) y se optimiza lo que aporta el nuevo √°rbol, llegando a:

$$
\mathcal{L}^{(t)} =
\sum_{i=1}^n l(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)) + \sum_{k=1}^{t} \Omega(f_k)
$$

$\Omega(f_k)$ es un factor de regularizaci√≥n el cual castiga √°rboles m√°s complejos.

Como la funci√≥n de p√©rdida es compleja, se utiliza las series de Taylor para poder aproximar la funci√≥n de p√©rdida cerca de las predicciones. La serie de Taylor de segundo orden permite aproximar la funci√≥n de p√©rdida con una forma cuadr√°tica, la cual es m√°s sencilla de optmizar y velve m√°s eficiente el proceso. Utilizando esta expansi√≥n, el gradiente y el hessiano la funci√≥n de p√©rdida queda de la siguiente forma:

$$
\tilde{\mathcal{L}}^{(t)} = \sum_{i=1}^n \left[ g_i f_t(x_i) + \frac{1}{2} h_i f_t(x_i)^2 \right] + \Omega(f_t)
$$

Con ello la optimizaci√≥n es un problema cuadr√°tico m√°s sencillo de optimizar.

Cada nuevo √°rbol $f_t$ asigna un valor constante $w_j$. Entonces:

$$
\mathcal{L}^{(t)} \approx \sum_{j=1}^{T} \left[
G_j w_j + \frac{1}{2} (H_j + \lambda) w_j^2
\right] + \gamma T
$$

Con:
- $G_j = \sum_{i \in R_j} g_i$
- $H_j = \sum_{i \in R_j} h_i$

Despu√©s minimizas la funci√≥n de p√©rdida con respecto de $w_j$ para obtener el output √≥ptimo por hoja:

$$
\textbf{Output value} = w_j^* = -\frac{G_j}{H_j + \lambda}
$$

Con estos valores √≥ptimos calculas el similarity score para saber cuanto mejora la p√©rdida en cada una de loas hojas (nos dice la calidad de la hoja):

$$
\text{Similarity Score} = \frac{G_j^2}{H_j + \lambda}
$$

Cuando calculas el similarity score lo utilizas para obtener el gain, el cual nos dice si vale la pena hacer un split (aumentar la complejidad del √°rbol).

$$
\text{Gain} = \frac{1}{2} \left( \text{Similarity}_\text{izq} + \text{Similarity}_\text{der} - \text{Similarity}_\text{padre} \right) - \gamma
$$

La predicci√≥n final se obtiene sumando todos los √°rboles:

$$
\hat{y}_i = F_0(x_i) + \sum_{t=1}^{M} f_t(x_i)
$$

---

## Comparativa de modelos

La estructura del √°rbol:

* XGBoost produce √°rboles m√°s sim√©tricos y balanceados.

* LightGBM produce √°rboles m√°s profundos y desbalanceados si no se controla.

La precisi√≥n y riesgo de overfitting:

* Leaf-wise (LightGBM) puede encontrar mejores divisiones, pero se sobreajusta m√°s f√°cil.

* Level-wise (XGBoost) es m√°s estable, pero a veces menos preciso.

| Caracter√≠stica              | **XGBoost**                                                | **LightGBM**                                               | **CatBoost**                                                  |
|-----------------------------|------------------------------------------------------------|-------------------------------------------------------------|----------------------------------------------------------------|
| **Velocidad**               | R√°pido, pero m√°s lento que LightGBM y CatBoost             | üî• Muy r√°pido gracias a histogramas y leaf-wise growth      | R√°pido, aunque un poco m√°s lento que LightGBM                  |
| **Precisi√≥n**               | Alta                                                       | Alta, a veces mejor con buen tuning                         | Muy alta, especialmente con categ√≥ricas                        |
| **Variables categ√≥ricas**   | ‚ùå No las maneja (requiere encoding manual)                | ‚ùå No las maneja (requiere encoding manual)                 | ‚úÖ Soporte nativo + regularizaci√≥n secuencial                  |
| **Uso de memoria**          | Moderado                                                   | ‚úÖ Muy eficiente (binning)                                   | Similar a XGBoost                                              |
| **Manejo de missing values**| ‚úÖ Autom√°tico                                               | ‚úÖ Autom√°tico                                                | ‚úÖ Autom√°tico                                                   |
| **Soporte GPU**             | ‚úÖ S√≠ (bastante estable)                                   | ‚úÖ S√≠ (muy r√°pido)                                           | ‚úÖ S√≠ (algo m√°s limitado)                                      |
| **Instalaci√≥n**             | F√°cil (`pip install xgboost`)                             | F√°cil (`pip install lightgbm`)                              | Un poco m√°s pesada (`pip install catboost`)                   |
| **Documentaci√≥n**           | Excelente                                                  | Buena                                                       | Muy buena                                                     |
| **Interacci√≥n con sklearn** | Muy buena                                                  | Muy buena                                                   | Muy buena                                                     |
| **Tolerancia al orden**     | ‚úÖ Neutral                                                  | ‚úÖ Neutral                                                   | ‚ö†Ô∏è Sensible (por codificaci√≥n secuencial)                      |

Lightgbm funciona a trav√©s de bins, mientras que catboost deja las mismas ramas, lo cual hace una predicci√≥n m√°s veloz.

Promedio de tu variable de forma secuancial (categorical encoding). Usa el promedio conocido hasta ese momento.