### Luis Eduardo Jiménez del Muro - 24/04/2025
---

# Examen – Modelos de Ensamble: Árboles y Boosting

**Instrucciones**: Justifica cada respuesta de manera clara. Usa fórmulas donde aplique y sé específico en tus argumentos.

---


## Sección I: Árboles de decisión (15 puntos)

### 1. (5 pts)  
**Explica cómo se construye un árbol y qué criterio usa para decidir los splits. Explica tanto para el caso de clasificación como de regresión.**

Se construye de tal manera donde gracias a los niveles y nodos clasificas a tus datos dependiendo de si sobrepasan o no un umbral establecido. El úmbral óptimo es donde se realiza el split, y para obtenerlo se realiza de la siguiente manera:


#### Regresión

Primero el algoritmo utiliza todas las características y umbrales de división posibles, y con ello, seleccionar los umbrales que logren la mayor reducción de varianza.

$$
\text{Reducción de varianza} = \text{Varianza total} - \left( \frac{N_1}{N} \times \text{Var}(G1) + \frac{N_2}{N} \times \text{Var}(G2) \right)
$$

Esta formula compara la varianza total de las ramas con la varianza despues de ser ponderada por la cantidad de datos en cada rama.

#### Clasificación

Igual que el de regresión, el algoritmo utiliza todas las características y umbrales de división posibles, y con ello, seleccionar que los umbrales que, ahora en este caso, logren la mayor reducción de impureza, calculada por medio de Gini o la Entropía.

$$
Gini = 1 - \sum p_i^2
$$

$$
Entropía = -\sum p_i \log_2 p_i
$$

$$
\text{Ganancia de Impureza} = \text{Impureza Nodo Padre} - \left( \frac{N_1}{N} \times \text{Impureza}(G1) + \frac{N_2}{N} \times \text{Impureza}(G2) \right)
$$

Esta formula compara la impureza del nodo padre con la impureza ponderada por la cantidad de datos en cada rama.


### 2. (5 pts)  
**Da un ejemplo de sobreajuste en un árbol de decisión. Explica cómo se podría evitar sin necesidad de usar ensambles.**

Un arbol puede presentar overfitting si es que tenemos pocos datos, y el arbol que creamos es de mucha profundidad. Esto haría que las reglas establecidas en nuestro árbol de decisión sean tan específicas hasta el punto en el que llegarían a memorizar nuestros datos. La forma de evitar esto es controlar la profundidad máxima de nuestro árbol, para que si no tenemos muchos datos, se limite más y no llegue a memorizar.

### 3. (5 pts)  
**Si te fijas, en clase nunca hicimos escalamiento (`StandardScaler`). ¿Por qué los árboles no lo necesitan?**

Porque el funcionamiento de los árboles se basa en simples reglas donde hay que comprobar si pasa o no pasa el umbral, por lo tanto, el escalamiento no es necesario. En cambio, modelos como el knn donde medimos la distancia entre los vecinos, ahí si es importante que los datos estén escalados y no creemos un mal modelo.

---


## Sección II: Random Forest (20 puntos)

### 4. (10 pts)  
**Explica cómo funciona un Random Forest. ¿En qué se basa? ¿Por qué es una buena idea?**

Utilizando el método de bootstrap, se realiza un muestreo aleatorio de nuestros datos originales y con ello crear varios árboles diferentes. Estos árboles son entrenados y para realizar las predicciones cambiará dependiendo de si es regresión o clasificación. 

+ Si es regresión se promediará la predicción de todos los árboles creados.
+ Si es de clasificación, se toma la categoría más repetida.

El modelo de Random Forest es buena idea porque al crear tantos árboles distintos automáticamente estamos reduciendo las probabilidades de hacer overfitting, así como tambien mejorar las predicciones realizando promedios de muchos modelos diferentes, los cuales son entrenados con datos diferentes gracias al bootstrap.

### 5. (10 pts)  
**Menciona dos ventajas y dos desventajas del Random Forest comparado con un solo árbol. Sé específico, no generalices.**

#### Ventajas

+ Mayor poder predictivo de comparado a los arboles de decisión normales porque al combinar varios árboles diferentes se puede lograr entrenar un modelo que capte relaciones más complejas en nuestros datos.
+ Gracias al muestreo aleatorio se reduce en gran medida el overfitting, dado que el arbol normal puede tender a ajustarse mucho a los datos originales.

#### Desventajas

+ Dado que se generan muchos árboles diferentes el modelo pierde interpretabilidad.
+ Es mas costoso computacionalmente al tener que generar y entrenar muchos árboles.

---

## Sección III: Gradient Boosting (25 puntos)

### 6. (10 pts)  
**Explica, paso a paso, cómo funciona el algoritmo de **Gradient Boosting**. Incluye el concepto de residuales y cómo se minimiza la pérdida en cada iteración.**

Es un modelo en el que se van construyendo árboles de decisión de manera iterativa, donde el modelo aprende con los residuales del árbol anterior, y con ello, se actualiza haciendo un modelo para equivocarse menos. Para minimizar la pérdida en cada iteración, cada nuevo arbol se ajusta a los residuales del arbol anterior. Al igual que en el descenso en gradiente, para actualizar el los árboles con cada iteración se utiliza el factor $\alpha$ de learning rate y se repite hasta converger.

La predicción del modelo sería de la siguiente manera:

$$F_m(x) = F_{m - 1}(x) + \nu (\text{nuevo árbol})$$

La predicción del árbol anterior será el promedio de los residuales de cada hoja.

En clasificación, la predicción estaría en términos de log-odds.


### 7. (15 pts)  
**¿Cuál es la diferencia entre Gradient Boosting y Random Forest en términos de cómo combinan los árboles?**

+ En Random Forest simplemente se crean muchos árboles independientes con datos diferentes gracias a los muestreos aleatorios del bootstrap. Su predicción será el promedio de las predicciones de todos los árboles.

+ Mientras tanto en Gradient boosting, la forma de combinar los árboles no es simultantea, sino que se hace de uno por uno y la predicción del árbol anterior sería promediar los residuales de cada hoja, sumándole los del nuevo arbol ponderándolos por un factor $\alpha$ de learning rate.

---



## Sección IV: XGBoost (20 puntos)

### 8. (10 pts)  
**Explica cómo XGBoost optimiza el proceso de boosting usando una expansión de Taylor de segundo orden.**

Este modelo es la versión optimizada del Gradient Boosting. Este es un modelo aditivo de árboles, en otras palabras, el modelo final se construye sumando árboles, de la siguiente manera:

$$
\hat{y}_i^{(t)} = \hat{y}_i^{(t-1)} + f_t(x_i)
$$

Donde:
- $\hat{y}_i^{(t)}$ es la predicción del ejemplo $i$ en la iteración $t$
- $f_t(x_i)$ es el nuevo árbol que se entrena en la iteración $t$


Con cada iteración, se busca que el nuervo árbol $f_t$ minimice la contribución marginal a la función de pérdida total además se utiliza un factor $\Omega(f) = \gamma T + \frac{1}{2} \lambda \sum_{j=1}^{T} w_j^2$ que es una penalización por la complejidad del árbol $f_k$.


Dado que esta función de pérdada es muy compleja, se utiliza la expansión de Taylor para aproximar esta función por medio de polinomios, y de esta manera hacerla más facil de optimizar:

$$
f(x) \approx f(a) + f'(a)(x - a) + \frac{1}{2} f''(a)(x - a)^2
$$

Despues de áplicar la expansión de Taylor en XGBoost y utilizando el gradiente y hessiano, se llega, a que la función que se optimiza en cada iteración es:


$$
\tilde{\mathcal{L}}^{(t)} = \sum_{i=1}^n \left[ g_i f_t(x_i) + \frac{1}{2} h_i f_t(x_i)^2 \right] + \Omega(f_t)
$$



Cada nuevo árbol $f_t$ asigna un valor constante $w_j$, entonces, sustituyendo esto en la antigua fución objetivo y escribiendo $\Omega(f)$ explícitamente:

$$
\mathcal{L}^{(t)} \approx \sum_{j=1}^{T} \left[
\sum_{i \in R_j} g_i w_j + \frac{1}{2} \sum_{i \in R_j} h_i w_j^2
\right] + \gamma T + \frac{1}{2} \lambda \sum_{j=1}^{T} w_j^2
$$

Simplificando:


$$
\mathcal{L}^{(t)} \approx \sum_{j=1}^{T} \left[
G_j w_j + \frac{1}{2} (H_j + \lambda) w_j^2
\right] + \gamma T
$$

Donde:

$G_j = \sum_{i \in R_j} g_i$

$H_j = \sum_{i \in R_j} h_i$


### 9. (5 pts)  
**¿Qué es el *similarity score*? ¿Qué es el *output value*? ¿De dónde salen estas fórmulas y cuál es su interpretación?**

El output value es el valor predicho en cada hoja y la fórmula viene de minimizar la pérdida en cada hoja. Derivando con respecto a $w_j$, llegamos al siguiente output value:

$$
\textbf{Output value} = w_j^* = -\frac{G_j}{H_j + \lambda}
$$

El similarity score es una medida para evaluar cuanto mejora la pérdida por haber utilizado el óptimo. La formula viene de sustituir el output value óptimo $w_j^*$ en la función objetivo. La función de objetivo o de pérdida por hoja es:

$$ \mathcal{L}_j(w_j) = G_j w_j + \frac{1}{2} (H_j + \lambda) w_j^2 $$  

Sustituyendo el output value óptimo $w_j^*$ en la función objetivo:

$$
\text{Similarity Score} = \frac{G_j^2}{H_j + \lambda}
$$

Posteriormente, con el similarity score podemos calcular el Gain, lo que nos ayudará a ver si es conveniente realizar un nuevo split o aumentar el grado de complejidad de nuestro modelo.

#### Interpretación

+ El output value lo podemos ver como el ajuste óptimo que minimiza la pérdida en el nodo.
+ El similarity nos indica si nuestra división es buena, para que posteriormente con el gain podamos ver si aumentamos o no la complejidad del modelo. 


### 10. (5 pts)  
**XGBoost y otros modelos de gradient boosting permiten evaluar la importancia de las variables con diferentes métricas: `weight` y `gain`. Explica qué representa cada una. ¿Cuál crees que es más útil para interpretar un modelo y por qué?**

+ *Weight*: Veces que se usa una variable en el modelo.
+ *Gain*: En promedio cuanto baja la función de pérdida una variable.

En mi opinión la más importante para interpretar un modelo es el gain, porque ahí podemos ver cual es la variable que mejor ajusta nuestro modelo minimizando la pérdida. Mientras que weight aunque tambien es importante, puede ser que una variable que se use mucho no necesariamente sea buena para lograr que el modelo tenga un mejor ajuste.



---


## Sección V: LightGBM y CatBoost (15 puntos)

### 10. (5 pts)  
**Explica qué es **histogram-based splitting** y cómo lo implementa LightGBM para ganar velocidad.**

Es un proceso que usa LightGBM para que el modelo pueda ser más rápido que XGBoost, dado que, lo que hace es dividir nuestro dataset en una cantidad de bins determinada, por lo que, al agrupar de esta manera nuestros datos se reducen mucho la cantidad de posibles divisiones en el árbol y se vuelve más rápido.

### 11. (5 pts)  
**¿Qué problema específico resuelve CatBoost respecto al manejo de variables categóricas? ¿Cómo lo hace?**

Lo que hace catboost es que para entrenar el modelo no es necesario realizar encoding manual en las variables de nuestro dataset, sino que el modelo ya lo tiene de forma nativa. La forma en la que CatBoost maneja las variables categóricas funciona de la siguiente manera:

1. Ordena las filas de forma aleatoria.
2. Para cada fila se codifica la categoría con el promedio del target acumulato hasta ese momento con las observaciones anteriores.

Dado que nunca se incluye el target de la fila actual, sino de la enteror, esto no introduce data leakege en el modelo.

Esto es realizado con varias permutaciones del dataset, para al final promediar los resultados y lograr un encoding estable.

### 12. (5 pts)  
**Compara LightGBM y CatBoost: ¿cuándo usarías uno sobre el otro? Sé claro y justifica en base a tipo de datos, velocidad o precisión.**

+ LightGBM se usaría en un caso donde se quiere un modelo robusto en muy poco tiempo, en dónde haya muy pocas o ninguna variable categórica, mientras que Catboost lo usaría cuando quiera un modelo rápido tambien pero donde tenga muchas variables categóricas en los datos.

+ Además LightGBM es muy bueno para cuando se tienen enormes cantidades de datos gracias a su división en Bins, por lo que si tenemos muchos datos no sería tan buena idea usar Catboost porque podría tardar mucho más tiempo en entrenar.

+ Por otro lado, si son pocos datos, LightGBM podría ser menos preciso en comparación a Catboost.


## Sección VI: Power Analysis (5 puntos)

### 13. (5 pts)  
**¿Qué es un *power analysis* y para qué sirve? ¿En qué contexto lo hemos usado en clase y por qué es importante antes de correr un experimento?**

Es una técnica utilizada para determinar el tamaño de muestra necesario para lograr observar un efecto con una probabilidad determinada, así como tambie, para ver que tan probable es que mi estudio detecte un efecto real (si es que existe). Por ejemplo, en clase lo hemos utilizado para calcular el tamaño de muestra necesario en los AB testing. Es importante antes de realizar los experimentos para que antes de realizarlos sepamos cuantos datos recopilar para poder lograr resultados que estadísticamente demuestren lo que queremo probar.