# Gradient Boosting Regressor

El **Gradient Boosting Regressor** es un estimador (implementación del algoritmo) que construye un modelo de manera secuencial, optimizando una función de pérdida.  
Su funcionamiento se basa en los siguientes pasos:

1. Se entrena un modelo inicial (normalmente un árbol de decisión) para predecir el valor objetivo.
2. Se calcula el **error residual** entre las predicciones y los valores reales.
3. Se entrena un nuevo árbol para predecir los errores residuales.
4. Se suma la contribución del nuevo árbol al modelo existente, ponderado por una **tasa de aprendizaje**.
5. Se repiten los pasos 2 a 4 hasta completar el número de iteraciones (el número de árboles se ajusta en `n_estimators`).

Para conjuntos de datos grandes (`n_samples >= 10,000`), se recomienda usar `HistGradientBoostingRegressor`, una variante más eficiente de este algoritmo.

## Parámetros principales

El `GradientBoostingRegressor` ofrece diversos parámetros que ajustan el rendimiento del estimador, entre ellos se encuentran:

- **`loss`**: Función de pérdida a optimizar.
- **`learning_rate`**: Tasa de aprendizaje que controla cuánto contribuye cada árbol al modelo final (por defecto, `0.1`).
- **`n_estimators`**: Número de árboles en el conjunto (por defecto, `100`).
- **`subsample`**: Fracción de datos usados para entrenar cada árbol. (por defecto, `1.0`).
- **`criterion`**: Criterio de división en los árboles (por defecto, `'friedman_mse'`).
- **`min_samples_split`**: Mínimo de muestras requerido para dividir un nodo (por defecto, `2`).
- **`min_samples_leaf`**: Mínimo de muestras que debe tener un nodo hoja (por defecto, `1`).
- **`max_depth`**: Profundidad máxima de los árboles (por defecto, `3`).
- **`random_state`**: Controla la aleatoriedad del modelo, si no se fija, cada vez que entrenes el modelo obtendrás resultados ligeramente diferentes.

Estos parámetros permiten controlar el sobreajuste (Evitar que un modelo se adapte demasiado a los datos de entrenamiento).

---

## Interpretación del modelo en uso

La siguiente configuración ha sido utilizada en el sistema:

```python
model = GradientBoostingRegressor(
    n_estimators=1000, 
    learning_rate=0.01, 
    max_depth=6, 
    subsample=0.8, 
    random_state=42
)
```

### Explicación de los parámetros utilizados:

1. **`n_estimators=1000`**: Se entrenan **1,000 árboles**, lo que permite corregir errores gradualmente y mejorar la precisión del modelo.
2. **`learning_rate=0.01`**: Cada nuevo árbol contribuye solo un **1%** al modelo final, evitando sobreajuste y mejorando la estabilidad.
3. **`max_depth=6`**: Se permite que los árboles tengan **hasta 6 niveles de profundidad**, capturando patrones más complejos. Puede clasificar datos en 64 categorías diferentes antes de llegar a una decisión final.
4. **`subsample=0.8`**: Cada árbol se entrena con el **80% de los datos**, introduciendo aleatoriedad para mejorar la generalización.
5. **`random_state=42`**: Fija un número para que el entrenamiento siempre dé los mismos resultados.

### Conclusión sobre la configuración

Esta configuración busca lograr un buen equilibrio entre precisión y capacidad de generalización (capacidad del modelo para realizar predicciones precisas sobre nuevos datos que no ha visto antes). Usar muchos árboles (1,000) con una tasa de aprendizaje baja (0.01) hace que el modelo mejore poco a poco, evitando errores grandes y haciéndolo más estable. El submuestreo (usar solo el 80% de los datos en cada árbol) introduce algo de aleatoriedad, lo que ayuda a que el modelo no se ajuste demasiado a los datos de entrenamiento y funcione mejor con nuevos datos. Sin embargo, entrenar tantos árboles con una profundidad de 6 puede hacer que el proceso sea más lento y requiera más recursos ⚠️.

---

## Fuente
Parte del contenido de esta documentación se basa en la documentación oficial de Scikit-Learn.
Puedes encontrar más información en:  
🔗 [Scikit-Learn - GradientBoostingRegressor](https://scikit-learn.org/dev/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html#sklearn.ensemble.GradientBoostingRegressor)
Todo el contenido original pertenece a Scikit-Learn.