<a href="https://colab.research.google.com/github/veels3122/Machine-Learning_AMAN/blob/main/gradient_boosting.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [5]:
import pandas as pd  # Para manipulación y análisis de datos
import seaborn as sns  # Para visualización de datos (aunque no se usa en este caso)
from sklearn.compose import ColumnTransformer  # Para aplicar transformaciones a diferentes columnas
from sklearn.ensemble import GradientBoostingClassifier  # Algoritmo de clasificación
from sklearn.metrics import classification_report  # Para generar un informe de clasificación
from sklearn.model_selection import cross_val_score, train_test_split  # Para dividir datos y realizar validación cruzada
from sklearn.pipeline import Pipeline  # Para crear un pipeline de procesamiento
from sklearn.preprocessing import OneHotEncoder, StandardScaler  # Para preprocesamiento de datos

# Cargar el conjunto de datos de diamantes
diamonds = sns.load_dataset("diamonds")

# Separar los datos en características (X) y variable objetivo (y)
X = diamonds.drop("cut", axis=1)  # Características (todas las columnas excepto "cut")
y = diamonds["cut"]  # Variable objetivo (calidad del corte)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42  # 80% para entrenamiento y 20% para prueba

)  # 20% para prueba, semilla aleatoria para reproducibilidad

# Identificar características categóricas y numéricas
categorical_features = X.select_dtypes(include=["object"]).columns.tolist()
numerical_features = X.select_dtypes(include=["float64", "int64"]).columns.tolist()


# Crear un transformador para aplicar diferentes transformaciones a las columnas
preprocessor = ColumnTransformer(
    transformers=[
        ("cat", OneHotEncoder(), categorical_features),  # Codificación one-hot para variables categóricas
        ("num", StandardScaler(), numerical_features)  # Estandarización para variables numéricas
    ]
)

# Crear un pipeline para combinar preprocesamiento y modelo
pipeline = Pipeline([
    ("preprocessor", preprocessor),
    ("classifier", GradientBoostingClassifier(random_state=42))
])

# Realizar validación cruzada de 5 pliegues
cv_scores = cross_val_score(pipeline, X_train, y_train, cv=5)

# Ajustar el modelo a los datos de entrenamiento
pipeline.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = pipeline.predict(X_test)

# Generar un informe de clasificación
print(f"Precisión promedio en validación cruzada: {cv_scores.mean():.4f}")
print("\nInforme de clasificación:")
print(classification_report(y_test, y_pred))

Precisión promedio en validación cruzada: 0.7621

Informe de clasificación:
              precision    recall  f1-score   support

        Fair       0.90      0.91      0.91       335
        Good       0.81      0.63      0.71      1004
       Ideal       0.82      0.91      0.86      4292
     Premium       0.70      0.86      0.77      2775
   Very Good       0.66      0.41      0.51      2382

    accuracy                           0.76     10788
   macro avg       0.78      0.74      0.75     10788
weighted avg       0.75      0.76      0.75     10788

