# Arbol de decisi√≥n

Un √°rbol de decisi√≥n es un modelo de predicci√≥n, el cual utiliza distinos niveles de clasificaci√≥n de datos con base en cierto valor (umbral). Divide los datos en grupos que sobrepasan o no ese umbral.

## Regresi√≥n

Este modelo utiliza todas las varibles y splits posibles, donde finalmente aplica el tipo de split con mayor reducci√≥n de varianza, con base en el error cuadr√°tico medio.

$$\text{Reducci√≥n de varianza} = \text{Varianza total} - \left( \frac{N_1}{N} \times \text{Var}(G1) + \frac{N_2}{N} \times \text{Var}(G2) \right)$$

## Clasificaci√≥n

De manera similar a la regresi√≥n, el calsificador utiliza todas las variables y umbrales posibles, eligiendo en este caso el umbral que maximice la impureza, con base en Gini o entrop√≠a. 

$$\text{Ganancia de Impureza} = \text{Impureza Nodo Padre} - \left( \frac{N_1}{N} \times \text{Impureza}(G1) + \frac{N_2}{N} \times \text{Impureza}(G2) \right)$$


# Random Forest

## Regresi√≥n

Utilizando bootstrap se hacen muestreos aleatorios sobre tus datos, con los cuales se entrena el modelo y se relaiza la predicci√≥n. Al final, cuando se tienen todas las predicciones, se calcula la media de esas predicciones, la cual es la predicci√≥n del random forest.

## Clasificaci√≥n

En el modelo clasificador, en lugar de calcular la media de todas las predicciones, se utiliza la categor√≠a que m√°s repite (modal).

# Gradient boosting

Es un m√©todo que combina varios modelos "d√©biles" como los √°rboles de decisi√≥n, de modo que genera una predicci√≥n inicial y calcula error de la misma, para despues crear un modelo que trate de predecir este error, de modod que logre diminuirlo. Esto se repite iterativamente con un factor de aprendizaje hasta covnverger, muy parecido al decenso en gradiente. 

La predicci√≥n del √°rbol anterior es el promedio de los valores obtenidos por hoja. La diferencia entre el regresor y el clasificador es que en el clasificador usa los log-odds para predecir.

# Light GBM



# Catboost



# XGBoost

Es un modelo que consiste en sumar un nuevo √°rbol iterativamente a la predicci√≥n que ya se tiene.

$$\hat{y}_i^{(t)} = \hat{y}_i^{(t-1)} + f_t(x_i)$$

Donde:
- $\hat{y}_i^{(t)}$ es la predicci√≥n
- $f_t(x_i)$ es el nuevo √°rbol 

Con cada una de estas iteraciones su busca minimizar la contribuci√≥n marginl del nuevo √°rbol a la p√©rdida total. Esta funci√≥n de p√©rdida consiste de 2 partes: 

$$
\mathcal{L}^{(t)} =
\underbrace{
\sum_{i=1}^n l(y_i, \hat{y}_i^{(t-1)}) + \sum_{k=1}^{t-1} \Omega(f_k)
}_{\text{Parte ya construida (constante en esta iteraci√≥n)}} +
\underbrace{
\sum_{i=1}^n \left[ l(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)) - l(y_i, \hat{y}_i^{(t-1)}) \right] + \Omega(f_t)
}_{\text{Lo que a√±ade el nuevo √°rbol $f_t$}}
$$

donde $\Omega$ es un factor de regularizaci√≥n que penaliza la complejidad de los √°rboles.

Ya que esta funci√≥n de p√©rdida es compleja, se utiliza su expansi√≥n de Taylos de grado 2, ya que esta es f√°cil de optimizar.

$$f(x) \approx f(a) + f'(a)(x - a) + \frac{1}{2} f''(a)(x - a)^2$$

Aplicando el gradiente y hessiano con esta l√≥gica, la funci√≥n de p√©rdida queda de la manera:

$$\tilde{\mathcal{L}}^{(t)} = \sum_{i=1}^n \left[ g_i f_t(x_i) + \frac{1}{2} h_i f_t(x_i)^2 \right] + \Omega(f_t)$$

Ya que el modelo utiliza √°boles de decisi√≥n de le agrega la constante $w_j$ a la funci√≥n de p√©rdida, de modo que se logre regularizar:

$$
\mathcal{L}^{(t)} \approx \sum_{j=1}^{T} \left[
G_j w_j + \frac{1}{2} (H_j + \lambda) w_j^2
\right] + \gamma T
$$

Posteriormente, se minimiza el t√©rmino por hoja respecto a $w_j$, obteniendo el output value.

$$\text{Output value} = w_j^* = -\frac{G_j}{H_j + \lambda}$$

Una vez que se tienen estos valores se calcula la mejora que hay en cada hoja por utilizar el √≥ptimo:

$$\text{Similarity Score} = \frac{G_j^2}{H_j + \lambda}$$

Con base en este valor, se obtine el gain, para determinar si es √∫til realizar un split. Si el gain es positivo, se realiza el split, si es negativo se detiene.

$$\text{Gain} = \frac{1}{2} \left( \text{Similarity}_\text{izq} + \text{Similarity}_\text{der} - \text{Similarity}_\text{padre} \right) - \gamma$$

Finalmente con el √°rbol terminado se realiza la predicci√≥n final, sumando todos los √°rboles

$$\hat{y}_i = F_0(x_i) + \sum_{t=1}^{M} f_t(x_i)$$

# Comparaci√≥n de modelos

| Caracter√≠stica              | **XGBoost**                                                | **LightGBM**                                               | **CatBoost**                                                  |
|-----------------------------|------------------------------------------------------------|-------------------------------------------------------------|----------------------------------------------------------------|
| **Velocidad**               | R√°pido, pero m√°s lento que LightGBM y CatBoost             | üî• Muy r√°pido gracias a histogramas y leaf-wise growth      | R√°pido, aunque un poco m√°s lento que LightGBM                  |
| **Precisi√≥n**               | Alta                                                       | Alta, a veces mejor con buen tuning                         | Muy alta, especialmente con categ√≥ricas                        |
| **Variables categ√≥ricas**   | ‚ùå No las maneja (requiere encoding manual)                | ‚ùå No las maneja (requiere encoding manual)                 | ‚úÖ Soporte nativo + regularizaci√≥n secuencial                  |
| **Uso de memoria**          | Moderado                                                   | ‚úÖ Muy eficiente (binning)                                   | Similar a XGBoost                                              |
| **Manejo de missing values**| ‚úÖ Autom√°tico                                               | ‚úÖ Autom√°tico                                                | ‚úÖ Autom√°tico                                                   |
| **Soporte GPU**             | ‚úÖ S√≠ (bastante estable)                                   | ‚úÖ S√≠ (muy r√°pido)                                           | ‚úÖ S√≠ (algo m√°s limitado)                                      |
| **Instalaci√≥n**             | F√°cil (`pip install xgboost`)                             | F√°cil (`pip install lightgbm`)                              | Un poco m√°s pesada (`pip install catboost`)                   |
| **Documentaci√≥n**           | Excelente                                                  | Buena                                                       | Muy buena                                                     |
| **Interacci√≥n con sklearn** | Muy buena                                                  | Muy buena                                                   | Muy buena                                                     |
| **Tolerancia al orden**     | ‚úÖ Neutral                                                  | ‚úÖ Neutral                                                   | ‚ö†Ô∏è Sensible (por codificaci√≥n secuencial)                      |

Cuando usar cada modelo:

| Situaci√≥n                                                  | Recomendaci√≥n                                      |
|------------------------------------------------------------|----------------------------------------------------|
| Dataset tabular peque√±o o mediano                          | ‚úÖ XGBoost o CatBoost                               |
| Dataset grande, muchas variables num√©ricas                 | ‚úÖ LightGBM                                         |
| Muchas variables categ√≥ricas sin preprocesamiento          | ‚úÖ CatBoost (manejo nativo y robusto)              |
| Quieres algo robusto y estable con buen soporte            | ‚úÖ XGBoost (muy probado en producci√≥n y Kaggle)     |
| Entrenamiento r√°pido con buen desempe√±o                    | ‚úÖ LightGBM                                         |
| Quieres interpretabilidad con SHAP                         | ‚úÖ Cualquiera, pero CatBoost da mejores resultados con categ√≥ricas |
| Necesitas buen rendimiento sin mucho tuning                | ‚úÖ CatBoost (buenos defaults)                       |
| Ya tienes pipeline con OneHot/Target Encoding              | ‚úÖ XGBoost o LightGBM                               |
| Tuning autom√°tico (Optuna, GridSearchCV, etc.)             | ‚úÖ LightGBM (r√°pido y convergente)                  |
| Producci√≥n en sistemas legacy o APIs bien documentadas     | ‚úÖ XGBoost (mayor madurez, m√°s integraci√≥n)         |
| Clasificaci√≥n multi-label o problemas no est√°ndar          | ‚úÖ XGBoost (soporte m√°s flexible)                   |

---

- **LightGBM** puede overfittear f√°cilmente ‚Üí cuida `num_leaves` y `min_data_in_leaf`.
- **CatBoost** funciona muy bien con defaults y sin preprocessing.
- **XGBoost** es muy robusto y balanceado, ideal si ya tienes un pipeline con encoding hecho.

La estructura del √°rbol:

* XGBoost produce √°rboles m√°s sim√©tricos y balanceados.

* LightGBM produce √°rboles m√°s profundos y desbalanceados si no se controla.

La precisi√≥n y riesgo de overfitting:

* Leaf-wise (LightGBM) puede encontrar mejores divisiones, pero se sobreajusta m√°s f√°cil.

* Level-wise (XGBoost) es m√°s estable, pero a veces menos preciso.