# Examen – Modelos de Ensamble: Árboles y Boosting

**Instrucciones**: Justifica cada respuesta de manera clara. Usa fórmulas donde aplique y sé específico en tus argumentos.

---

## Sección I: Árboles de decisión (15 puntos)

### 1. (5 pts)  
Explica cómo se construye un árbol y qué criterio usa para decidir los splits. Explica tanto para el caso de clasificación como de regresión.

Un árbol de decisión es un modelo de predicción, el cual utiliza distinos niveles de clasificación de datos con base en cierto valor (umbral). Divide los datos en grupos (ramas) que sobrepasan o no ese umbral. El modelo de regresión utiliza todas las varibles y splits posibles, donde finalmente aplica el tipo de split con mayor reducción de varianza, con base en el error cuadrático medio. De manera similar a la regresión, el calsificador utiliza todas las variables y umbrales posibles, eligiendo en este caso el umbral que maximice la pureza, con base en Gini o entropía.

### 2. (5 pts)  
Da un ejemplo de sobreajuste en un árbol de decisión. Explica cómo se podría evitar sin necesidad de usar ensambles.

El ejemlo más básico de sobre ajuste en un árbol es si la profundidad del árbol es mucha, ya que finalmente se estaría creando una nueva rama para cada escenario posible, lo que equivale a la memorización de datos.

### 3. (5 pts)  
Si te fijas, en clase nunca hicimos escalamiento (`StandardScaler`). ¿Por qué los árboles no lo necesitan?

No lo necesita, ya que no compara a todos los datos simultaneamente, sino que en cada nodo u hoja toma una variable base con cual toma la decisión de dividir los datos en ramas. Ya que en cada hoja se estan filtrando los datos únicamente por una única variable no es necesario escalar.

---

## Sección II: Random Forest (20 puntos)

### 4. (10 pts)  
Explica cómo funciona un Random Forest. ¿En qué se basa? ¿Por qué es una buena idea?

Un random forest está basado en Bootstrap. El algoritmo realiza este resampleo de datos con boostrap muchas veces, y con cada uno de ellos realiza un árbol de decisión. Finalmente promedia la predicción de todos los diferentes árboles y toma ese valor como predicción del modelo de RF.

### 5. (10 pts)  
Menciona dos ventajas y dos desventajas del Random Forest comparado con un solo árbol. Sé específico, no generalices.

Ventajas:
- Al hacer bootstrap se limita el overfitting que se puede llegar a crear, porque en cada árbol se trabaja con diferentes datos de un mismo dataset y el resultado es el promedio de todo.
- Podría verse como una especie de reductor de varianza, ya que por el mismo bootsrap habría casos en los que no considere outliers, o que tome menos de estos datos en cuanta, mostrando un mejor ajuste.

Desventajas:
- Ya que literalmente el Random Forest está compuesto de cientos de árboles, presenta un costo computacional mucho más elevado, sin contar el proceso de bootstrap que igualmente es costoso, computacionalmente hablando.
- Es menos interpretable. Ya que el resultado final es un promedio de cientos de árboles, no se puede interpretar puntualmente cuales fueron las variables usadas por hoja, o el umbral utilizado para la filtración de datos, mientras que en un único árbos esto si es visible.

---

## Sección III: Gradient Boosting (25 puntos)

### 6. (10 pts)  
Explica, paso a paso, cómo funciona el algoritmo de **Gradient Boosting**. Incluye el concepto de residuales y cómo se minimiza la pérdida en cada iteración.

Es un método secuencial que combina modelos débiles (como árboles) para formar un modelo fuerte. Este corrige los errores del modelo anterior en cada iteración. Comienza con una predicción inicial, y calcula los residuales de la misma (error de la predicción frente a datos reales). Con base en estos residuales se entrena un nuevo árbol, enfocado en mejorar en las áreas en donde más equivocación hubo. Se genera una nueva predicción con este árbol y se suma al modelo que ya se tenía de modo que este sea un poco mejor. Que tanto mejora el modelo depende del learning rate que se defina como hiperparámetro. A partir de este momento se repite iterativamente el modelo hasta que converger y haber encontrado el mejor resultado posible.

### 7. (15 pts)  
¿Cuál es la diferencia entre Gradient Boosting y Random Forest en términos de cómo combinan los árboles? 

La diferencia está en que Random Forest genera muchos árboles y al final promedia las predicciones de todos, mientras que Gradient Boosting comeinza con un modelo inicial e iterativamente agrega factores de nuevos árboles que permiten que el modelo mejore. Se podría decir que RF tiene muchos árboles, mientras que GB tiene máximo 2 de manera simultanea, los cuales junta para tener uno mejor.

---

## Sección IV: XGBoost (20 puntos)

### 8. (10 pts)  
Explica cómo XGBoost optimiza el proceso de boosting usando una expansión de Taylor de segundo orden.

La funcion de pérdida es complica, por lo que mejor se opta por usar la expansión de taylos de segundo orden, ya que esta es fácil de optimizar, resultando en un modelo más sencillo, que si se tratara de optimizar la función de pérdida original. Ya que se utiliza la expansión y no la función original se dice que XGBoost se aproxima al error.

### 9. (5 pts)  
¿Qué es el *similarity score*? ¿Qué es el *output value*? ¿De dónde salen estas fórmulas y cuál es su interpretación?

El output value es la optimización del término $w_j$ es cual es agregado a la función de pérdida como un regularizador. 

$$\text{Output value} = w_j^* = -\frac{G_j}{H_j + \lambda}$$

Su interpretación es la de la penalización que está recibiendo el modelo por hoja. 

Por otro lado el similarity score es la mejora que hay en cada una de las hojas, con base en el output value.

$$\text{Similarity Score} = \frac{G_j^2}{H_j + \lambda}$$

Su interpretación es literalmente esa, la mejora que hay en cada una de las hojas por haber utilizado el penalizador óptimo.

### 10. (5 pts)  
XGBoost y otros modelos de gradient boosting permiten evaluar la importancia de las variables con diferentes métricas: `weight` y `gain`. Explica qué representa cada una. ¿Cuál crees que es más útil para interpretar un modelo y por qué?

La metrica de importancia *weight* indica el número de veces que una variable fue utilizada en las diferentes hojas del modelo. Naturalmente la variable que más se haya utilizado se considera importante pues decisiva para la partición de ramas del modelo.

*Gain* por otro lado muestra la mejora que hubo cada vez que se utilizo la variable. Es decir, por cada vez que se utilizo la variable tal en cada una de las hojas, el ajuse del modelo mejoro en tanta medida.

Creo que la útilidad de interpretabilidad de ambas depende de los gustos de cada persona, ya que ambas son importantes, sin embargo, en lo persona, considero que gain es una mejor métrica, ya que muestra la mejora que hubo en el modelo por utilización y a fin de cuentas lo que se busca es encontrar el mejor modelo posible. 

---

## Sección V: LightGBM y CatBoost (15 puntos)

### 10. (5 pts)  
Explica qué es **histogram-based splitting** y cómo lo implementa LightGBM para ganar velocidad.

Histogram-based splitting es una técnica en donde los vlores continuos del dataset se agrupan en bins, para que el algoritmo no tenga que clacula el corto óptimo de todos los datos, sino que calcula el corte óptimo entre bins. Otra ventaja de esta técnica es que trabaja con el ínidce de los bins, es decir con int's, lo cual es naturalmente más rápido que trabajar con float's.

### 11. (5 pts)  
¿Qué problema específico resuelve CatBoost respecto al manejo de variables categóricas? ¿Cómo lo hace?

La ventaja que presenta CatBoost es que no necesita un encoding manual para la variables categoricas, ya que utiliza una forma especial de target encoding regularizado, diseñado especialmente para evitar overfitting y data leakage.

### 12. (5 pts)  
Compara LightGBM y CatBoost: ¿cuándo usarías uno sobre el otro? Sé claro y justifica en base a tipo de datos, velocidad o precisión.

El uso principal de LightGBM sería en el caso en el que el dataset cuente con muchas variables numéricas y este sea además muy largo. Por su separación en bins sería el adecuado, ya que ahorraría mucho tiempo en generar predicciones.

Por otra parte CatBoost sería usado si se tuviera una gran cantidad de variables categóricas, para aprovechar la codificación nativa que tiene para este tipo de datos.

## Sección VI: Power Analysis (5 puntos)

### 13. (5 pts)  
¿Qué es un *power analysis* y para qué sirve? ¿En qué contexto lo hemos usado en clase y por qué es importante antes de correr un experimento?

El análisis de poder es utilizado principalemnte para ver la cantidad de personas (tamaño de muestra) necesario para considerar como válido un cambio en alguna estadística. De igualmanera, ayuda para determinar la magnitud significativa del cambio que esté analizando. 

El ejemplo más claro en el que se utilice esto es en el AB testing, pues es necesario calcular el tamaño de muestra necesario para aplicar la prueba y con eso se determina la magnitud de cambio que se espera en la efecto que se está analizando. 

Es útil hacer esto antes de correr un experimento, ya que dice la significancia de la prueba que se está haciendo. Si una prueba no es significativa no se pueden validar sus resultados, porque no tienen impacto estadístico en el resultado final.

