# Bagging, Random Forest y Boosting

## 1. Introducción

En el aprendizaje automático, los métodos de ensamble son técnicas poderosas que combinan múltiples modelos para mejorar la precisión y la robustez de las predicciones. En esta clase, nos enfocaremos en dos de las técnicas de ensamble más comunes: **Bagging** (Bootstrap Aggregating) y **Boosting**. Además, veremos cómo el **Random Forest** se construye a partir del concepto de Bagging aplicado a árboles de decisión.

## 2. Bagging

### 2.1 ¿Qué es Bagging?

**Bagging** es una técnica que mejora la estabilidad y precisión de los algoritmos de aprendizaje de máquina al reducir la variabilidad. Se basa en el uso de muestras bootstrap, donde se generan subconjuntos de datos a partir del conjunto de entrenamiento original mediante muestreo con reemplazo. Cada subconjunto se utiliza para entrenar un modelo individual, y las predicciones finales se obtienen mediante votación (en clasificación) o promediando las salidas (en regresión).

### 2.2 Pasos de Bagging

1. **Generación de Bootstrap Samples**: A partir del conjunto de datos de entrenamiento, se generan múltiples subconjuntos mediante muestreo con reemplazo.
2. **Entrenamiento de Modelos**: Cada subconjunto se utiliza para entrenar un modelo independiente (por ejemplo, un árbol de decisión).
3. **Combinación de Predicciones**: Para la clasificación, las predicciones se combinan utilizando la votación mayoritaria. Para la regresión, se promedian las predicciones.

### 2.3 Ventajas y Desventajas

- **Ventajas**:
  - Reduce el sobreajuste (overfitting) al combinar modelos.
  - Fácil de implementar.
- **Desventajas**:
  - Aumenta el costo computacional.
  - No siempre mejora la precisión.

## 3. Random Forest

### 3.1 ¿Qué es Random Forest?

**Random Forest** es una extensión del Bagging que utiliza árboles de decisión como modelos base. La clave de Random Forest es la introducción de aleatoriedad adicional al seleccionar subconjuntos aleatorios de características en cada división de los árboles.

### 3.2 Funcionamiento de Random Forest

1. **Generación de Subconjuntos de Datos**: Igual que en Bagging, se crean subconjuntos bootstrap del conjunto de datos de entrenamiento.
2. **Selección Aleatoria de Características**: En cada nodo de cada árbol, se selecciona un subconjunto aleatorio de características para determinar la mejor división.
3. **Entrenamiento de Árboles**: Los árboles se entrenan sobre los subconjuntos de datos y características seleccionados.
4. **Combinación de Predicciones**: Al igual que en Bagging, se utiliza la votación mayoritaria o el promedio para obtener la predicción final.

### 3.3 Ventajas y Desventajas

- **Ventajas**:
  - Mejora la precisión en comparación con un solo árbol de decisión.
  - Maneja bien conjuntos de datos con muchas características.
  - Reduce la varianza del modelo.
- **Desventajas**:
  - Menos interpretabilidad debido a la combinación de múltiples árboles.
  - Mayor costo computacional.

## 4. Boosting

### 4.1 ¿Qué es Boosting?

**Boosting** es otra técnica de ensamble, pero a diferencia de Bagging, se enfoca en construir modelos de manera secuencial, donde cada modelo nuevo intenta corregir los errores cometidos por los modelos anteriores. Uno de los algoritmos más conocidos de Boosting es **AdaBoost**.

### 4.2 Funcionamiento de Boosting

1. **Inicialización**: Se asignan pesos iguales a todas las observaciones del conjunto de datos.
2. **Entrenamiento Secuencial**: Se entrena un modelo y se calcula el error de predicción. Los pesos de las observaciones incorrectamente clasificadas se incrementan.
3. **Ajuste de Pesos**: Se entrenan modelos adicionales, donde cada uno se enfoca en corregir los errores de los modelos previos.
4. **Combinación de Modelos**: Las predicciones de los modelos se combinan de manera ponderada para formar la predicción final.

### 4.3 Ventajas y Desventajas

- **Ventajas**:
  - Alta precisión.
  - Eficaz para corregir errores de clasificación.
- **Desventajas**:
  - Sensible al ruido en los datos.
  - Requiere más tiempo de entrenamiento.

## 5. Comparación entre Bagging y Boosting

| **Aspecto**       | **Bagging**                               | **Boosting**                               |
|-------------------|-------------------------------------------|--------------------------------------------|
| **Entrenamiento** | Paralelo, independiente entre modelos     | Secuencial, cada modelo depende del anterior |
| **Enfoque**       | Reduce la varianza                        | Reduce el sesgo                            |
| **Sensibilidad al Ruido** | Menos sensible                      | Más sensible                               |
| **Combinación**   | Votación/Promedio simple                  | Combinación ponderada                      |

## 6. Conclusiones

El uso de métodos de ensamble como Bagging, Random Forest, y Boosting permite construir modelos más robustos y precisos. Mientras que Bagging y Random Forest se enfocan en reducir la varianza y evitar el sobreajuste, Boosting busca mejorar el rendimiento corrigiendo los errores de predicción.
