# ü§ñ M√©todos de Aprendizaje por Ensamble ‚Äî Introducci√≥n

## üß© ¬øQu√© es el Aprendizaje por Ensamble?

El **aprendizaje por ensamble (ensemble learning)** es una t√©cnica de **aprendizaje supervisado** que combina varios modelos (tambi√©n llamados *predictores*, *modelos base* o *aprendices d√©biles*) para formar un **modelo final m√°s fuerte y robusto** (*strong learner*).

üëâ La idea principal es:  
> ‚ÄúVarios modelos d√©biles, combinados adecuadamente, pueden formar un modelo fuerte.‚Äù

- Se aplica tanto a **clasificaci√≥n** como a **regresi√≥n**.  
- Los modelos base pueden ser de cualquier tipo: **√°rboles de decisi√≥n, redes neuronales, SVM, etc.**

---

## üß† Principales T√©cnicas de Ensamble

### 1. **Bagging (Bootstrap Aggregating)**
- **Objetivo:** Reducir la varianza y evitar el sobreajuste (*overfitting*).
- **C√≥mo funciona:**
  - Se crean **muestras aleatorias con reemplazo** del conjunto de datos (*bootstrap samples*).
  - Se entrena un **modelo diferente** en cada muestra.
  - Las predicciones se combinan:
    - **Regresi√≥n:** Promedio de las salidas.
    - **Clasificaci√≥n:** Votaci√≥n por mayor√≠a.

- **Caracter√≠sticas:**
  - Se puede aplicar a muchos modelos (por ejemplo, √°rboles de decisi√≥n o redes neuronales).
  - Los modelos se entrenan **de forma independiente y en paralelo**.
  - Reduce la **varianza**, pero no necesariamente el **sesgo**.

- **Ejemplo en Scikit-Learn:**  
  `RandomForestClassifier` o `BaggingClassifier`.

---

### 2. **Pasting**
- Similar al *Bagging*, pero:
  - Usa **muestreo sin reemplazo**.
- Tiene un comportamiento estad√≠stico ligeramente distinto, pero busca el mismo objetivo: reducir la varianza.

---

### 3. **Boosting**
- **Objetivo:** Convertir varios modelos d√©biles en un modelo fuerte.
- **C√≥mo funciona:**
  1. Entrena un modelo base sobre los datos.
  2. Eval√∫a los errores y **aumenta el peso** de los ejemplos mal clasificados.
  3. Entrena un nuevo modelo que se enfoca en esos ejemplos dif√≠ciles.
  4. Combina todos los modelos ponderando seg√∫n su **precisi√≥n**.

- **Efecto:** Obliga al algoritmo a aprender m√°s de los errores.

- **Excepciones:**  
  En m√©todos como *Boost by Majority* o *BrownBoost*, los ejemplos mal clasificados repetidamente pueden **disminuir su peso**.

- **Ejemplos populares:**
  - **AdaBoost**
  - **Gradient Boosting**
  - **XGBoost**, **LightGBM**, **CatBoost**

---

### 4. **Stacking (Apilamiento o Generalizaci√≥n Apilada)**
- **Objetivo:** Combinar m√∫ltiples modelos *diferentes* para obtener un modelo final m√°s estable y generalizable.
- **Concepto:**
  - Los **modelos de nivel 1 (base)** se entrenan primero.
  - Un **modelo de nivel 2 (meta-modelo)** aprende a combinar sus predicciones.

- **Pasos:**
  1. Entrenar varios modelos base (por ejemplo, √°rbol de decisi√≥n, regresi√≥n log√≠stica, SVM).
  2. Generar predicciones con esos modelos.
  3. Entrenar un *meta-modelo* que use esas predicciones como variables de entrada.

- **Ventajas:**
  - Funciona mejor cuando los modelos base son **muy diferentes**.
  - Reduce los puntos d√©biles de cada modelo individual.
  - Es una t√©cnica **muy usada en competiciones de Kaggle**.

---

## üßÆ Otros M√©todos de Ensamble

### üîπ Clasificador Bayesiano √ìptimo
- Es el ensamble **te√≥ricamente m√°s preciso** posible.
- Considera **todas las hip√≥tesis** posibles, ponderadas por:
  - La probabilidad de que los datos provengan de esa hip√≥tesis.
  - Su probabilidad *a priori*.
- No se usa en la pr√°ctica, porque requiere conocer todo el espacio de hip√≥tesis.

---

### üîπ Promediado de Modelos Bayesianos (BMA)
- Una aproximaci√≥n pr√°ctica al clasificador bayesiano √≥ptimo.
- **Muestrea hip√≥tesis** del espacio de modelos y las combina usando la **ley de Bayes**.
- Se implementa usando m√©todos Monte Carlo (por ejemplo, **MCMC**).

---

### üîπ Combinaci√≥n de Modelos Bayesianos (BMC)
- Mejora el BMA al **muestrear combinaciones de modelos** en lugar de modelos individuales.
- Los pesos se extraen de una **distribuci√≥n de Dirichlet**.
- Aunque es m√°s costoso computacionalmente, suele dar **mejores resultados** que BMA y Bagging.

---

### üîπ Conjunto o ‚ÄúBucket‚Äù de Modelos
- Usa un algoritmo de selecci√≥n de modelos para elegir **el mejor modelo** seg√∫n el problema.
- Para un solo problema ‚Üí rinde igual que el mejor modelo.  
- En muchos problemas ‚Üí mejora el rendimiento promedio general.

---

## üì¶ Paquetes de R para Ensambles Bayesianos
- **BMS**: *Bayesian Model Selection*  
- **BAS**: *Bayesian Adaptive Sampling*  
- **BMA**: *Bayesian Model Averaging*

---

## ‚öôÔ∏è Puntos Clave

- Los m√©todos de ensamble funcionan mejor con **predictores independientes**.
- Combinar **diferentes tipos de algoritmos** (por ejemplo, √°rbol + lineal + red neuronal) suele producir mejores resultados.
- Principales ventajas:
  - Aumentan la **precisi√≥n**.
  - Reducen la **varianza**.
  - Incrementan la **robustez** del modelo.

---

