# Gradient Boosting Classifier

References:
[Gradient Boosting Classifier](https://towardsdatascience.com/all-you-need-to-know-about-gradient-boosting-algorithm-part-1-regression-2520a34a502)

In [None]:
import numpy as np
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

class CustomGradientBoostingRegressor:
    
    def __init__(self, learning_rate=0.1, n_estimators=20, max_depth=1):
        self.learning_rate = learning_rate
        self.n_estimators = n_estimators
        self.max_depth = max_depth
        self.trees = []
        
    def fit(self, X, y):
        self.F0 = y.mean()
        Fm = np.full(y.shape, self.F0)

        for _ in range(self.n_estimators):
            residuals = y - Fm
            tree = DecisionTreeRegressor(max_depth=self.max_depth, random_state=0)
            tree.fit(X, residuals)
            gamma = tree.predict(X)
            Fm += self.learning_rate * gamma
            self.trees.append(tree)
            
    def predict(self, X):
        Fm = np.full(X.shape[0], self.F0)
        for tree in self.trees:
            Fm += self.learning_rate * tree.predict(X)
        return Fm

# Generar datos sintéticos
X, y = make_regression(n_samples=100, n_features=1, noise=10, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo personalizado
custom_gbm = CustomGradientBoostingRegressor(n_estimators=20, learning_rate=0.1, max_depth=1)
custom_gbm.fit(X_train, y_train)
y_pred_custom = custom_gbm.predict(X_test)
custom_gbm_rmse = np.sqrt(mean_squared_error(y_test, y_pred_custom))

print(f"Custom GBM RMSE: {custom_gbm_rmse:.5f}")

# Modelo de scikit-learn instance of the custom model (This way is how use this model directly from scikit-learn)
sklearn_gbm = GradientBoostingRegressor(n_estimators=20, learning_rate=0.1, max_depth=1)
sklearn_gbm.fit(X_train, y_train)
y_pred_sklearn = sklearn_gbm.predict(X_test)
sklearn_gbm_rmse = np.sqrt(mean_squared_error(y_test, y_pred_sklearn))

print(f"Scikit-learn GBM RMSE: {sklearn_gbm_rmse:.5f}")


Custom GBM RMSE: 16.46861
Scikit-learn GBM RMSE: 16.46861


## Mean Squared Error (MSE)
Es una métrica de evaluación que mide qué tan lejos están las predicciones del modelo con respecto a los valores reales. Se calcula como:

🔹 Interpretación:

Valores más bajos indican un mejor modelo.

Penaliza más los errores grandes debido a la elevación al cuadrado.

## Root Mean Squared Error (RMSE)
La raíz cuadrada del MSE:

🔹 ¿Por qué usamos RMSE en lugar de MSE?

El MSE está en unidades cuadradas y no es fácil de interpretar.

El RMSE devuelve el error en las mismas unidades que los datos originales.


¿Por qué comparamos RMSE entre el modelo personalizado y Scikit-learn?
Nos ayuda a ver qué tan cerca está nuestra implementación manual del algoritmo de Gradient Boosting en Scikit-learn.

Si los valores de RMSE son similares para ambos modelos, significa que nuestra implementación funciona correctamente.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Cargar el dataset de iris
iris = load_iris()
X, y = iris.data, iris.target

# Dividir los datos en conjunto de entrenamiento y prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo Gradient Boosting
gb_clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
gb_clf.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba
y_pred = gb_clf.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo: {accuracy:.2f}")
print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
print("\nMatriz de confusión:")
print(conf_matrix)

# Visualización de la importancia de las características
feature_importance = gb_clf.feature_importances_
plt.barh(iris.feature_names, feature_importance)
plt.xlabel("Importancia de la característica")
plt.ylabel("Características")
plt.title("Importancia de las características en Gradient Boosting")
plt.show()