In [None]:
import pandas as pd
import joblib
import seaborn as sns
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler, LabelEncoder
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestClassifier
from sklearn.impute import SimpleImputer

# Cargamos el dataset
df = sns.load_dataset('diamonds')

# Definimos columnas categóricas y numéricas
categorical_columns = ["color", "clarity"]  # Excluimos 'cut' porque es la columna a predecir
numerical_columns = ["carat", "depth", "table", "x", "y", "z"]

# Codificamos la columna 'cut'
label_encoder = LabelEncoder()
df["cut"] = label_encoder.fit_transform(df["cut"])  # Convertimos 'cut' en valores numéricos

# Guardamos el Labelencoder
joblib.dump(label_encoder, "label_encoder_cut.joblib")

# Pipeline de preprocesamiento
preprocessor = ColumnTransformer([
    ("num", Pipeline([
        ("imputer", SimpleImputer(strategy="median")),
        ("scaler", StandardScaler())
    ]), numerical_columns),
    ("cat", OneHotEncoder(handle_unknown="ignore"), categorical_columns)
])

# Modelo de clasificación
classifier = RandomForestClassifier(n_estimators=100, random_state=42)

# Creamos el pipeline
pipeline = Pipeline([
    ("preprocessor", preprocessor),
    ("classifier", classifier)
])

# Entrenamos el modelo
X = df.drop(columns=["cut"])  # Todas las columnas menos 'cut'
y = df["cut"]  # Columna a predecir
pipeline.fit(X, y)

# Guardamos el pipeline entrenado
joblib.dump(pipeline, "pipeline_clasificacion.joblib")

print("Modelo entrenado y guardado correctamente.")

✅ Modelo entrenado y guardado correctamente.
