# üöÄ M√≥dulo 2.5: M√©todos de Ensamblado - Boosting
### Curso: **Machine Learning con Python** (IFCD093PO)
**Duraci√≥n estimada:** 10 horas

---

## üéØ Objetivos del M√≥dulo

Si Random Forest es un comit√© de expertos independientes, el Boosting es una l√≠nea de montaje donde cada experto aprende de los errores del anterior. En este m√≥dulo, dominar√°s el **Boosting**, la otra gran familia de m√©todos de ensamblado, conocida por su incre√≠ble rendimiento y por ser la opci√≥n preferida en competiciones de Machine Learning.

Al finalizar, ser√°s capaz de:

- ‚úÖ Entender el concepto de **aprendizaje secuencial** y c√≥mo los modelos de boosting se construyen para corregir errores pasados.
- ‚úÖ Comprender el funcionamiento de **AdaBoost** y **Gradient Boosting**, los pilares del boosting.
- ‚úÖ Implementar y optimizar los algoritmos de vanguardia: **XGBoost** y **LightGBM**.
- ‚úÖ Conocer las ventajas clave de XGBoost y LightGBM, como la velocidad, la regularizaci√≥n y el manejo de datos faltantes.
- ‚úÖ Distinguir claramente entre las filosof√≠as de **Bagging (Random Forest)** y **Boosting**.

**¬°Prep√°rate para construir modelos que aprenden de sus errores para alcanzar la excelencia!**

---

## üìö Tabla de Contenidos

1. [Boosting: Aprendizaje Secuencial](#1-boosting)
   - [La Idea: Corregir Errores Pasados](#1.1-idea)
2. [AdaBoost (Adaptive Boosting)](#2-adaboost)
   - [Poniendo Foco en los Casos Dif√≠ciles](#2.1-foco)
   - [Implementaci√≥n de AdaBoost](#2.2-implementacion-ada)
3. [Gradient Boosting](#3-gradient-boosting)
   - [Aprendiendo de los Errores Residuales](#3.1-residuos)
   - [Implementaci√≥n de Gradient Boosting](#3.2-implementacion-gb)
4. [XGBoost: El Rey de las Competiciones](#4-xgboost)
   - [¬øPor qu√© es tan Popular?](#4.1-popular)
   - [Implementaci√≥n de XGBoost](#4.2-implementacion-xgb)
5. [LightGBM: Velocidad y Eficiencia](#5-lightgbm)
   - [Crecimiento por Hoja (Leaf-wise)](#5.1-leaf-wise)
   - [Implementaci√≥n de LightGBM](#5.2-implementacion-lgbm)
6. [Comparativa Final: Bagging vs. Boosting](#6-comparativa)
7. [Resumen y Pr√≥ximos Pasos](#7-resumen)

---

## üèÉ‚Äç‚ôÇÔ∏è 1. Boosting: Aprendizaje Secuencial <a id='1-boosting'></a>

### 1.1 La Idea: Corregir Errores Pasados <a id='1.1-idea'></a>

A diferencia del Bagging (Random Forest) donde los √°rboles se entrenan en paralelo y de forma independiente, el **Boosting** es un m√©todo **secuencial**.

**El proceso es el siguiente:**
1.  Se entrena un primer modelo simple (un "aprendiz d√©bil", a menudo un √°rbol de decisi√≥n muy corto).
2.  Se eval√∫an las predicciones de este modelo y se identifican sus errores.
3.  Se entrena un **segundo modelo** que se enfoca espec√≠ficamente en **corregir los errores** del primer modelo.
4.  Se entrena un tercer modelo que intenta corregir los errores combinados de los dos primeros.
5.  Este proceso se repite `n` veces (el n√∫mero de estimadores).

La predicci√≥n final es una **suma ponderada** de las predicciones de todos los modelos, donde los modelos que funcionaron mejor tienen m√°s peso.

![Boosting](imagenes/Boosting.png)

## üí™ 2. AdaBoost (Adaptive Boosting) <a id='2-adaboost'></a>

### 2.1 Poniendo Foco en los Casos Dif√≠ciles <a id='2.1-foco'></a>

AdaBoost fue uno de los primeros algoritmos de boosting y su idea es muy intuitiva.

Funciona ajustando el **peso de las muestras de entrenamiento**. Inicialmente, todas las muestras tienen el mismo peso. Despu√©s de entrenar un aprendiz, AdaBoost **aumenta el peso** de las muestras que fueron **mal clasificadas**. En la siguiente iteraci√≥n, el nuevo aprendiz se ver√° forzado a prestar m√°s atenci√≥n a estos casos dif√≠ciles.

Esto hace que el sistema se adapte (de ah√≠ "Adaptive") y se enfoque en las partes m√°s complejas del problema.

In [None]:
from sklearn.ensemble import AdaBoostClassifier ## Importar AdaBoost
from sklearn.tree import DecisionTreeClassifier ## Importar √°rbol de decisi√≥n
from sklearn.datasets import make_moons ## Importar conjunto de datos de lunas
from sklearn.model_selection import train_test_split ## Importar funci√≥n para dividir datos
from sklearn.metrics import accuracy_score ## Importar m√©trica de precisi√≥n
# Eliminamos las advertencias para mayor claridad
import warnings
warnings.filterwarnings("ignore")
# Crear conjunto de datos de lunas
X, y = make_moons(n_samples=500, noise=0.30, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# AdaBoost con 30 √°rboles de decisi√≥n de profundidad 1 (stumps)
# Cada √°rbol contribuye con un learning_rate de 0.5
# n_estimators define el n√∫mero de √°rboles en el ensemble
# algorithm define el m√©todo de actualizaci√≥n de pesos
# algorithm="SAMME" es menos eficiente pero puede ser √∫til en algunos casos
# otros valores posibles son "SAMME.R", que es m√°s eficiente para clasificaci√≥n binaria
# El par√°metro algorithm de AdaBoostClassifier solo acepta 'SAMME' 
# como un valor v√°lido cuando se utiliza un estimador base 
# personalizado (como DecisionTreeClassifier). 
# El valor predeterminado 'SAMME.R' solo es compatible 
# cuando el estimador base admite estimaciones de probabilidad, 
# lo que no siempre es el caso para estimadores personalizados 
# en algunas versiones de scikit-learn.
ada_clf = AdaBoostClassifier(
    DecisionTreeClassifier(max_depth=1),
    n_estimators=30,
    algorithm="SAMME",
    learning_rate=0.5, # El learning_rate controla cu√°nto contribuye cada √°rbol
    random_state=42
)

# Entrenar y evaluar el modelo AdaBoost
ada_clf.fit(X_train, y_train)
y_pred_ada = ada_clf.predict(X_test)

print(f"Accuracy de AdaBoost: {accuracy_score(y_test, y_pred_ada):.4f}")

Accuracy de AdaBoost: 0.8800


## üìâ 3. Gradient Boosting <a id='3-gradient-boosting'></a>

### 3.1 Aprendiendo de los Errores Residuales <a id='3.1-residuos'></a>

Gradient Boosting lleva la idea del boosting un paso m√°s all√°. En lugar de ajustar los pesos de las muestras, intenta ajustar los **errores residuales** del predictor anterior.

**Proceso (para regresi√≥n):**
1.  Se entrena un primer √°rbol de regresi√≥n simple sobre los datos.
2.  Se calculan los **errores (residuales)**: `error = valor_real - predicci√≥n`.
3.  Se entrena un **segundo √°rbol** para que **prediga esos errores**.
4.  La nueva predicci√≥n combinada es `predicci√≥n_arbol_1 + learning_rate * predicci√≥n_arbol_2`.
5.  Se calculan los nuevos residuales y se repite el proceso.

El nombre "Gradient" viene de que este proceso es una forma de optimizaci√≥n por descenso de gradiente en el espacio de las funciones. Es un m√©todo extremadamente potente.

In [4]:
from sklearn.ensemble import GradientBoostingRegressor ## Importar Gradient Boosting Regressor
from sklearn.metrics import mean_squared_error ## Importar m√©trica de error cuadr√°tico medio
import numpy as np ## Importar NumPy

# Datos de ejemplo para regresi√≥n, creando una funci√≥n no lineal con ruido
np.random.seed(42)
X_reg = np.random.rand(100, 1) * 10
y_reg = np.sin(X_reg).ravel() + np.random.randn(100) * 0.5
X_train_r, X_test_r, y_train_r, y_test_r = train_test_split(X_reg, y_reg, random_state=42)

# Entrenar un Gradient Boosting Regressor
gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=120, learning_rate=0.1, random_state=42)
gbrt.fit(X_train_r, y_train_r)

y_pred_gbrt = gbrt.predict(X_test_r)
rmse = np.sqrt(mean_squared_error(y_test_r, y_pred_gbrt))
print(f"RMSE de Gradient Boosting: {rmse:.4f}")

RMSE de Gradient Boosting: 0.4216


---

## üëë 4. XGBoost: El Rey de las Competiciones <a id='4-xgboost'></a>

**XGBoost (eXtreme Gradient Boosting)** es una implementaci√≥n optimizada y mejorada de Gradient Boosting. Durante a√±os, ha sido el algoritmo dominante en competiciones de Machine Learning como Kaggle.

### 4.1 ¬øPor qu√© es tan Popular? <a id='4.1-popular'></a>

1.  **Velocidad y Rendimiento**: Est√° implementado en C++ y es extremadamente r√°pido. Puede entrenar en paralelo (a nivel de caracter√≠sticas).
2.  **Regularizaci√≥n Incorporada**: Incluye regularizaci√≥n L1 (Lasso) y L2 (Ridge) en su funci√≥n de coste, lo que lo hace muy robusto contra el overfitting.
3.  **Manejo de Datos Faltantes**: Puede manejar valores nulos de forma nativa.
4.  **Validaci√≥n Cruzada Integrada**: Puede realizar validaci√≥n cruzada en cada iteraci√≥n.
5.  **Poda de √Årboles Avanzada**: Realiza una poda m√°s inteligente que el Gradient Boosting est√°ndar.

XGBoost no est√° incluido en Scikit-learn por defecto, por lo que necesita ser instalado.

In [5]:
# Para instalar XGBoost, ejecuta en tu terminal:
# pip install xgboost

import xgboost # Importar XGBoost una vez instalado

# Entrenar un clasificador XGBoost
# Los parametros son:
# random_state para reproducibilidad
# use_label_encoder=False para evitar advertencias sobre el codificador de etiquetas
# eval_metric='logloss' para definir la m√©trica de evaluaci√≥n
xgb_clf = xgboost.XGBClassifier(random_state=42, use_label_encoder=False, eval_metric='logloss')
xgb_clf.fit(X_train, y_train)

y_pred_xgb = xgb_clf.predict(X_test)
print(f"Accuracy de XGBoost: {accuracy_score(y_test, y_pred_xgb):.4f}")

Accuracy de XGBoost: 0.8640


## üí° 5. LightGBM: Velocidad y Eficiencia <a id='5-lightgbm'></a>

**LightGBM (Light Gradient Boosting Machine)** es otro framework de boosting desarrollado por Microsoft. Su principal ventaja es su **velocidad y eficiencia en datasets muy grandes**.

### 5.1 Crecimiento por Hoja (Leaf-wise) <a id='5.1-leaf-wise'></a>

La principal diferencia con XGBoost es c√≥mo crecen los √°rboles:
- **XGBoost** crece por **nivel (level-wise)**: Completa un nivel entero del √°rbol antes de pasar al siguiente. Es m√°s sistem√°tico.
- **LightGBM** crece por **hoja (leaf-wise)**: Expande la hoja que m√°s reduce la p√©rdida, lo que lleva a √°rboles m√°s asim√©tricos pero a menudo m√°s eficientes.

![Leaf-wise](imagenes/Leaf-wise.png)

Esto hace que LightGBM sea extremadamente r√°pido, aunque a veces puede ser m√°s propenso al overfitting en datasets peque√±os.

In [6]:
# Para instalar LightGBM, ejecuta en tu terminal:
# pip install lightgbm

import lightgbm

lgbm_clf = lightgbm.LGBMClassifier(random_state=42)
lgbm_clf.fit(X_train, y_train)

y_pred_lgbm = lgbm_clf.predict(X_test)
print(f"Accuracy de LightGBM: {accuracy_score(y_test, y_pred_lgbm):.4f}")

[LightGBM] [Info] Number of positive: 186, number of negative: 189
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000075 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 250
[LightGBM] [Info] Number of data points in the train set: 375, number of used features: 2
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.496000 -> initscore=-0.016000
[LightGBM] [Info] Start training from score -0.016000
Accuracy de LightGBM: 0.8880


Esta salida de LightGBM muestra informaci√≥n y advertencias del proceso de entrenamiento. Lo m√°s importante es la advertencia repetida:

*[LightGBM] [Warning] No further splits with positive gain, best gain: -inf*

Esto significa que, para los datos y par√°metros usados, LightGBM no encuentra ninguna divisi√≥n (split) en los √°rboles que mejore la funci√≥n objetivo (ganancia positiva). Por eso, los √°rboles que construye son muy simples (a veces solo la ra√≠z).

Las causas m√°s comunes son:

- **Muy pocas variables/features:** En tu salida, dice "number of used features: 2". Con solo 2 variables, es f√°cil que no haya splits √∫tiles.
- **Datos poco variados o mal preparados:** Si las variables no tienen suficiente variabilidad o no est√°n bien escaladas/categorizadas, el modelo no puede aprender.
- **Par√°metros restrictivos:** Si usas un valor muy bajo de max_depth, min_data_in_leaf alto, o min_gain_to_split alto, puede impedir que se hagan splits.

**¬øEs un error grave?**
No es un error cr√≠tico si el accuracy es bueno, pero indica que el modelo no est√° aprovechando la estructura de los datos. Si ves muchas advertencias y el accuracy es bajo, revisa tus datos y par√°metros.

**¬øQu√© hacer?**

- Aseg√∫rate de tener suficientes variables predictoras.
- Revisa la preparaci√≥n de los datos.
- Ajusta los hiperpar√°metros (por ejemplo, baja min_gain_to_split, baja min_data_in_leaf, aumenta max_depth).
- Si solo tienes 2 variables, prueba a√±adiendo m√°s o usando otro modelo.

---

## ‚öñÔ∏è 6. Comparativa Final: Bagging vs. Boosting <a id='6-comparativa'></a>

| Caracter√≠stica | Bagging (Random Forest) | Boosting (Gradient Boosting, XGBoost) |
| :--- | :--- | :--- |
| **Filosof√≠a** | Entrena modelos **independientes** en paralelo. | Entrena modelos **secuencialmente**, aprendiendo de errores. |
| **Objetivo Principal** | Reducir la **varianza** (overfitting). | Reducir el **sesgo** (underfitting) y la varianza. |
| **Rendimiento** | Muy bueno y robusto. | A menudo, el **mejor rendimiento** posible (state-of-the-art). |
| **Sensibilidad** | Menos sensible a los hiperpar√°metros. | M√°s sensible a los hiperpar√°metros (`learning_rate`, etc.). |
| **Velocidad** | Puede ser paralelizado f√°cilmente. | Es secuencial, pero XGBoost/LightGBM son muy r√°pidos. |
| **Primer Intento** | Excelente como primer modelo a probar. | Excelente para exprimir el m√°ximo rendimiento. |

---

## üìù 7. Resumen y Pr√≥ximos Pasos <a id='7-resumen'></a>

### üéâ ¬°Has llegado a la cima del Aprendizaje Supervisado!

#### ‚úÖ Lo que has aprendido:

1. **Filosof√≠a del Boosting**
   - El poder del **aprendizaje secuencial**, donde cada modelo se enfoca en corregir los errores de los anteriores.

2. **Algoritmos Clave**
   - **AdaBoost**, que ajusta los pesos de las muestras para centrarse en los casos dif√≠ciles.
   - **Gradient Boosting**, que entrena nuevos modelos para predecir los errores residuales de los anteriores.

3. **Implementaciones de Vanguardia**
   - **XGBoost** y **LightGBM**, las librer√≠as optimizadas que dominan el Machine Learning pr√°ctico por su velocidad, regularizaci√≥n y rendimiento superior.

4. **Bagging vs. Boosting**
   - La diferencia fundamental entre reducir la varianza (Bagging) y reducir el sesgo (Boosting).

---

### üöÄ Pr√≥ximo M√≥dulo: Introducci√≥n al Aprendizaje No Supervisado

Has completado un viaje exhaustivo por el Aprendizaje Supervisado. Ahora, es el momento de cambiar de paradigma. ¬øQu√© hacemos cuando **no tenemos etiquetas**? ¬øCu√°ndo no hay una "respuesta correcta" que aprender?

En el pr√≥ximo m√≥dulo, nos adentraremos en el **Aprendizaje No Supervisado**, donde el objetivo es encontrar patrones, estructura y conocimiento oculto en los datos por s√≠ mismos. Empezaremos con una introducci√≥n a este nuevo y emocionante campo.

**Has aprendido a predecir el futuro bas√°ndote en el pasado. Ahora, ¬°vamos a descubrir la estructura oculta del presente!**