| **Inicio** | **atrás 18** | **Siguiente 20** |
|----------- |-------------- |---------------|
| [🏠](../README.md) | [⏪](./18_Dimensionality_Reduction_Algorithms.ipynb)| [⏩](./20_Bernoulli_Distribution.ipynb)|

# **19. Gradient Boosting Algorithms**

Los algoritmos de Gradient Boosting son técnicas de aprendizaje automático que construyen un modelo predictivo en forma de un conjunto de modelos más simples, generalmente árboles de decisión débiles. Estos algoritmos se centran en mejorar la precisión del modelo iterativamente mediante la combinación de modelos débiles para formar un modelo más fuerte. XGBoost, LightGBM y CatBoost son ejemplos populares de algoritmos de Gradient Boosting.

**Terminología:**

- **Árbol Débil:** Un modelo de aprendizaje débil, generalmente un árbol de decisión con una profundidad limitada.
- **Residuos:** Las diferencias entre las predicciones actuales y los valores reales.
- **Learning Rate (Tasa de Aprendizaje):** Un parámetro que controla la contribución de cada modelo débil al conjunto final.
- **Regularización:** Técnicas para evitar el sobreajuste, como la poda de árboles o la limitación de la profundidad.
- **Gradient Descent (Descenso de Gradiente):** Un método de optimización que ajusta los parámetros del modelo en la dirección opuesta al gradiente de la función de pérdida.

**Fórmula Matemática:**

En cada iteración, se ajusta un nuevo modelo débil para corregir los errores del modelo anterior. La predicción final es una combinación ponderada de todas las predicciones débiles. La fórmula general es:

$F(x) = F_0(x) + \eta f_1(x) + \eta f_2(x) + \ldots + \eta f_M(x)$

donde:

- $F(x)$ es la predicción final.
- $F_0(x)$ es el modelo inicial.
- $( \eta )$ es la tasa de aprendizaje.
- $f_i(x)$ son los modelos débiles ajustados en cada iteración.

**Ejemplo en Python - XGBoost:**

In [3]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import xgboost as xgb

# Cargar el conjunto de datos de viviendas en California
housing = fetch_california_housing()

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    housing.data, housing.target, test_size=0.2, random_state=42
)

# Crear y entrenar un modelo de regresión con XGBoost
model = xgb.XGBRegressor(objective ='reg:squarederror', random_state=42)
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, y_pred)
print(f'Error Cuadrático Medio: {mse:.2f}')

Error Cuadrático Medio: 0.22


Este ejemplo utiliza el conjunto de datos Boston Housing, entrena un modelo XGBoost y evalúa su rendimiento. La función `plot_importance` muestra la importancia de cada característica en el modelo.

| **Inicio** | **atrás 18** | **Siguiente 20** |
|----------- |-------------- |---------------|
| [🏠](../README.md) | [⏪](./18_Dimensionality_Reduction_Algorithms.ipynb)| [⏩](./20_Bernoulli_Distribution.ipynb)|