# Proyecto Wine ‚Äî Notebook generado a partir de tu script modificado
Este cuaderno contiene el c√≥digo actualizado con los cambios solicitados:
- `penalty='none'` en lugar de `None` para `LogisticRegression`.
- Importaci√≥n de `display` desde IPython si ejecutas fuera de notebook.
- Inserci√≥n de `error_score=np.nan` en `RandomizedSearchCV` para mayor robustez.
- Eliminaci√≥n de variable `y_test_bin` sin uso.


In [None]:
from IPython.display import display
# -*- coding: utf-8 -*-
"""Proyecto_Wine_Act2_Mod11_v2.ipynb

Automatically generated by Colab.

Original file is located at
    https://colab.research.google.com/drive/1zKFZfRF7AXHaHZhws6beOe8uVfqfZ1fL

# Clasificaci√≥n de Vinos (Wine Dataset)

**Curso:** Machine Learning ‚Äî Actividad 2 - Modulo 11  
**Autor:** _John G√≥mez_  
**Fecha:** _2025-10-01_

---

## Prop√≥sito del cuaderno
Este notebook implementa un flujo completo de clasificaci√≥n supervisada sobre el dataset **Wine** (scikit-learn), que incluye:
1) EDA avanzada con correlaciones y an√°lisis de outliers.  
2) B√∫squeda automatizada de hiperpar√°metros (GridSearchCV/RandomizedSearchCV).  
3) An√°lisis de importancia de caracter√≠sticas.  
4) Documentaci√≥n completa de decisiones t√©cnicas.  
5) Pipeline reproducible y listo para portafolio.
"""

# Commented out IPython magic to ensure Python compatibility.
# ==== Configuraci√≥n para Google Colab (opcional) ====
# Ejecuta esta celda SOLO si est√°s en Colab o te faltan librer√≠as.
# En tu entorno local, puedes comentar esta celda.
try:
    # Intenta importar el m√≥dulo google.colab para detectar si se est√° ejecutando en Colab.
    import google.colab  # type: ignore
    # Si estamos en Colab, instala las librer√≠as necesarias usando pip.
    # -q suprime la salida detallada de pip.
#     %pip install -q scikit-learn matplotlib pandas joblib seaborn
except Exception:
    # Si ocurre una excepci√≥n (no estamos en Colab o ya est√°n instaladas), no hacemos nada.
    pass
# Imprime un mensaje para confirmar que el entorno est√° listo.
print("Entorno listo ‚úÖ")

# ==== 1. Importaci√≥n de librer√≠as ====
import os # Para interactuar con el sistema operativo (crear directorios, etc.)
import json # Para trabajar con datos en formato JSON (guardar metadatos)
import joblib # Para guardar y cargar modelos de scikit-learn de forma eficiente
import numpy as np # Para operaciones num√©ricas y arrays multidimensionales
import pandas as pd # Para manipulaci√≥n y an√°lisis de datos (DataFrames)
import matplotlib.pyplot as plt # Para crear visualizaciones est√°ticas
import seaborn as sns # Basado en matplotlib, para visualizaciones estad√≠sticas m√°s atractivas
from scipy import stats # Para funciones estad√≠sticas (ej: skewness)

# Scikit-learn imports
from sklearn.datasets import load_wine # Carga el dataset de vinos
from sklearn.model_selection import train_test_split, StratifiedKFold, RandomizedSearchCV # Para dividir datos, validaci√≥n cruzada y b√∫squeda de hiperpar√°metros
from sklearn.preprocessing import StandardScaler, LabelEncoder # Para escalar caracter√≠sticas y codificar etiquetas
from sklearn.pipeline import Pipeline # Para encadenar pasos de procesamiento de datos y modelado
from sklearn.linear_model import LogisticRegression # Modelo de Regresi√≥n Log√≠stica
from sklearn.ensemble import RandomForestClassifier # Modelo de Bosque Aleatorio
from sklearn.svm import SVC # Modelo de M√°quinas de Vectores de Soporte
from sklearn.metrics import (
    accuracy_score, classification_report, confusion_matrix, ConfusionMatrixDisplay, # M√©tricas de evaluaci√≥n: precisi√≥n, reporte completo, matriz de confusi√≥n
    roc_auc_score, RocCurveDisplay, precision_recall_curve, PrecisionRecallDisplay # M√©tricas basadas en curvas ROC y Precision-Recall
)
from sklearn.inspection import permutation_importance # Para calcular la importancia de caracter√≠sticas por permutaci√≥n

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8') # Aplica un estilo visual a los gr√°ficos
pd.set_option("display.max_columns", 100) # Configura pandas para mostrar hasta 100 columnas
pd.set_option("display.width", 1000) # Configura el ancho de visualizaci√≥n de pandas
sns.set_palette("husl") # Establece la paleta de colores para seaborn

# Confirma que todas las librer√≠as han sido importadas.
print("‚úÖ Todas las librer√≠as importadas correctamente")

"""## 2. Carga de datos y EDA Avanzado
An√°lisis exploratorio completo con visualizaciones mejoradas.
"""

# Carga del dataset
wine = load_wine()
X = pd.DataFrame(wine.data, columns=wine.feature_names)
y = pd.Series(wine.target, name="class")

# Diccionario de traducci√≥n mejorado
column_titles_es = {
    "alcohol": "Contenido de Alcohol",
    "malic_acid": "√Åcido M√°lico",
    "ash": "Ceniza",
    "alcalinity_of_ash": "Alcalinidad de Ceniza",
    "magnesium": "Magnesio",
    "total_phenols": "Fenoles Totales",
    "flavanoids": "Flavonoides",
    "nonflavanoid_phenols": "Fenoles No Flavonoides",
    "proanthocyanins": "Proantocianinas",
    "color_intensity": "Intensidad del Color",
    "hue": "Matiz",
    "od280/od315_of_diluted_wines": "OD280/OD315 de Vinos Diluidos",
    "proline": "Prolina",
}

print("=== INFORMACI√ìN GENERAL DEL DATASET ===")
print(f"üìä Dimensiones: {X.shape}")
print(f"üéØ N√∫mero de clases: {len(np.unique(y))}")
print(f"üî¢ Clases: {wine.target_names.tolist()}")

# Distribuci√≥n de clases
print("\n=== DISTRIBUCI√ìN DE CLASES ===")
class_dist = y.value_counts().sort_index()
for cls, count in class_dist.items():
    print(f"Clase {cls} ({wine.target_names[cls]}): {count} muestras ({count/len(y)*100:.1f}%)")

# An√°lisis de valores nulos
print("\n=== VALORES NULOS ===")
print(X.isnull().sum())

# Estad√≠sticas descriptivas mejoradas
print("\n=== ESTAD√çSTICAS DESCRIPTIVAS ===")
stats_df = X.describe().T
stats_df['cv'] = (stats_df['std'] / stats_df['mean']) * 100  # Coeficiente de variaci√≥n
stats_df['skew'] = X.apply(stats.skew)
display(stats_df.round(3))

"""### 2.1 Visualizaciones Avanzadas de EDA"""

# 1. Histogramas con distribuci√≥n por clase
print("\nüìà HISTOGRAMAS POR CARACTER√çSTICA Y CLASE")
fig, axes = plt.subplots(4, 4, figsize=(20, 15))
axes = axes.ravel()

for i, col in enumerate(X.columns[:13]):
    for cls in range(3):
        axes[i].hist(X[y == cls][col], alpha=0.7, label=f'Clase {cls}', bins=15)
    axes[i].set_title(f"{column_titles_es.get(col, col)}\n({col})", fontsize=10)
    axes[i].set_xlabel(col)
    axes[i].legend()

# Eliminar ejes vac√≠os
for i in range(13, 16):
    fig.delaxes(axes[i])

plt.tight_layout()
plt.show()

# 2. Matriz de correlaci√≥n
print("\nüî• MATRIZ DE CORRELACI√ìN")
plt.figure(figsize=(12, 10))
correlation_matrix = X.corr()
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
sns.heatmap(correlation_matrix, mask=mask, annot=True, cmap='coolwarm', center=0,
            square=True, fmt='.2f', cbar_kws={"shrink": .8})
plt.title('Matriz de Correlaci√≥n entre Caracter√≠sticas', fontsize=14, pad=20)
plt.tight_layout()
plt.show()

# 3. Boxplots para detectar outliers
print("\nüì¶ BOXPLOTS POR CARACTER√çSTICA")
fig, axes = plt.subplots(4, 4, figsize=(20, 15))
axes = axes.ravel()

for i, col in enumerate(X.columns[:13]):
    X[col].plot(kind='box', ax=axes[i], vert=False)
    axes[i].set_title(f"{column_titles_es.get(col, col)}", fontsize=10)
    axes[i].set_xlabel('Valor')

for i in range(13, 16):
    fig.delaxes(axes[i])

plt.tight_layout()
plt.show()

# 4. Pairplot de caracter√≠sticas m√°s importantes
print("\nüîç PAIRPLOT DE CARACTER√çSTICAS PRINCIPALES")
features_for_pairplot = ['alcohol', 'malic_acid', 'ash', 'flavanoids', 'color_intensity', 'proline']
sample_df = X[features_for_pairplot].copy()
sample_df['class'] = y
sample_df['class_name'] = sample_df['class'].map(lambda x: wine.target_names[x])

sns.pairplot(sample_df, hue='class_name', diag_kind='hist')
plt.suptitle('Pairplot de Caracter√≠sticas Seleccionadas por Clase', y=1.02)
plt.show()

"""## 3. Partici√≥n Train/Test (Estratificada)"""

X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.25,
    random_state=42,
    stratify=y
)

print("=== PARTICIONES DE DATOS ===")
print(f"‚úÖ Conjunto de entrenamiento: {X_train.shape[0]} muestras ({X_train.shape[0]/len(X)*100:.1f}%)")
print(f"‚úÖ Conjunto de prueba: {X_test.shape[0]} muestras ({X_test.shape[0]/len(X)*100:.1f}%)")
print(f"‚úÖ Proporci√≥n de clases en train: {np.bincount(y_train) / len(y_train)}")
print(f"‚úÖ Proporci√≥n de clases en test: {np.bincount(y_test) / len(y_test)}")

"""## 4. Definici√≥n de Pipelines y B√∫squeda de Hiperpar√°metros"""

# DECISIONES DE DISE√ëO:
# 1. Estandarizaci√≥n en LogReg y SVM (sensibles a escala)
# 2. RF sin escalado, mantenemos pipeline por consistencia
# 3. Hiperpar√°metros base: LR(max_iter=1000), SVM(probability=True), RF(random_state)
# 4. Validaci√≥n: StratifiedKFold con 5 splits
pipelines = {
    "LogReg": Pipeline([
        ("scaler", StandardScaler()),
        ("clf", LogisticRegression(max_iter=1000, random_state=42))
    ]),
    "RandomForest": Pipeline([
        ("clf", RandomForestClassifier(random_state=42))
    ]),
    "SVM": Pipeline([
        ("scaler", StandardScaler()),
        ("clf", SVC(probability=True, random_state=42))
    ])
}

param_grids = {
    "LogReg": {
        "clf__C": [0.1, 1, 10, 100],
        "clf__penalty": ["l2", 'none'],   # <- usa None (sin comillas)
        "clf__solver": ["lbfgs", "newton-cg"],  # compatibles con l2 y None
    },
    "RandomForest": {
        "clf__n_estimators": [100, 200, 300, 400],
        "clf__max_depth": [None, 10, 20, 30],
        "clf__min_samples_split": [2, 5, 10],
        "clf__min_samples_leaf": [1, 2, 4],
    },
    "SVM": {
        "clf__C": [0.1, 1, 10, 100],
        "clf__gamma": ["scale", "auto", 0.1, 0.01],
        "clf__kernel": ["rbf", "poly"],
    },
}

"""## 5. B√∫squeda de Hiperpar√°metros y Selecci√≥n del Mejor Modelo"""

# Configura la validaci√≥n cruzada estratificada con 5 splits, mezclando los datos y usando una semilla para reproducibilidad.
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
# Diccionarios para almacenar los mejores modelos encontrados y los resultados de la validaci√≥n cruzada.
best_models = {}
cv_results = {}

# Define el n√∫mero de iteraciones (combinaciones de hiperpar√°metros) a probar para cada modelo en RandomizedSearchCV.
# Se ajusta para Logistic Regression (16) y RandomForest/SVM (20), o 20 por defecto.
n_iter_map = {"LogReg": 16, "RandomForest": 20, "SVM": 20}

print("=== B√öSQUEDA DE HIPERPAR√ÅMETROS ===")
# Itera sobre cada nombre de pipeline definido anteriormente ("LogReg", "RandomForest", "SVM").
for name in pipelines.keys():
    print(f"\nüîç Optimizando {name}...")
    # Inicializa RandomizedSearchCV:
    # - `pipelines[name]`: El pipeline a optimizar (modelo + pasos de preprocesamiento si existen).
    # - `param_grids[name]`: El diccionario con los hiperpar√°metros y sus rangos a explorar para el modelo actual.
    # - `cv=cv`: Usa la estrategia de validaci√≥n cruzada definida (StratifiedKFold).
    # - `scoring='accuracy'`: La m√©trica a optimizar (precisi√≥n).
    # - `n_iter=n_iter_map.get(name, 20)`: N√∫mero de combinaciones de hiperpar√°metros a probar aleatoriamente.
    # - `random_state=42`: Semilla para el generador de n√∫meros aleatorios, asegura que la b√∫squeda sea reproducible.
    # - `n_jobs=-1`: Utiliza todos los n√∫cleos disponibles del procesador para acelerar la b√∫squeda.
    # - `error_score="raise"`: Si ocurre un error al evaluar una combinaci√≥n, lanza una excepci√≥n en lugar de asignar NaN (opcional).
    search = RandomizedSearchCV(
        pipelines[name],
        param_grids[name],
        cv=cv,
        scoring='accuracy',
        n_iter=n_iter_map.get(name, 20, error_score=np.nan),   # <- usa el mapa
        random_state=42,
        n_jobs=-1,
        error_score="raise"  # opcional: si quieres que explote en lugar de NaN
    )
    # Ejecuta la b√∫squeda de hiperpar√°metros en el conjunto de entrenamiento.
    search.fit(X_train, y_train)
    # Almacena el mejor modelo encontrado (el que obtuvo la mejor puntuaci√≥n promedio en CV) en el diccionario `best_models`.
    best_models[name] = search.best_estimator_
    # Almacena los resultados relevantes de la b√∫squeda en el diccionario `cv_results`.
    cv_results[name] = {
        'best_score': float(search.best_score_), # La mejor puntuaci√≥n promedio de CV.
        'best_params': search.best_params_, # Los hiperpar√°metros que lograron la mejor puntuaci√≥n.
        'cv_mean': float(search.cv_results_['mean_test_score'].mean()), # Promedio de todas las puntuaciones de CV.
        'cv_std': float(search.cv_results_['mean_test_score'].std()) # Desviaci√≥n est√°ndar de las puntuaciones de CV.
    }
    # Imprime los resultados de la b√∫squeda para el modelo actual.
    print(f"‚úÖ Mejor puntuaci√≥n: {search.best_score_:.4f}")
    print(f"‚úÖ Mejores par√°metros: {search.best_params_}")


# Comparaci√≥n final de modelos:
# Crea un DataFrame para resumir los mejores resultados de CV de cada modelo.
results_df = pd.DataFrame({
    'Modelo': list(cv_results.keys()), # Nombres de los modelos.
    'CV Score Mean': [cv_results[name]['best_score'] for name in cv_results.keys()], # La mejor puntuaci√≥n de CV para cada modelo.
    'CV Score Std': [cv_results[name]['cv_std'] for name in cv_results.keys()], # La desviaci√≥n est√°ndar de las puntuaciones de CV.
    'Best Params': [str(cv_results[name]['best_params'])[:80] + "..." for name in cv_results.keys()] # Los mejores par√°metros (truncados para mejor visualizaci√≥n).
# Ordena el DataFrame por la mejor puntuaci√≥n de CV en orden descendente.
}).sort_values('CV Score Mean', ascending=False)
# Muestra el DataFrame resultante.
results_df

best_model_name = results_df.iloc[0]['Modelo']
best_pipeline = best_models[best_model_name]
best_cv_score = cv_results[best_model_name]['best_score']
best_params = cv_results[best_model_name]['best_params']

print(f"\nüèÜ MEJOR MODELO SELECCIONADO: {best_model_name}")
print(f"üìà Mejor CV Score: {best_cv_score:.4f}")
print(f"‚öôÔ∏è Par√°metros √≥ptimos: {best_params}")

"""## 6. Entrenamiento Final y Evaluaci√≥n Exhaustiva"""

print("=== ENTRENAMIENTO FINAL Y EVALUACI√ìN ===")
# Entrena el mejor pipeline (seleccionado en el paso anterior) con el conjunto de entrenamiento completo.
best_pipeline.fit(X_train, y_train)

# Realiza predicciones en el conjunto de prueba.
y_pred = best_pipeline.predict(X_test)
# Realiza predicciones de probabilidad (si el modelo lo soporta).
y_proba = best_pipeline.predict_proba(X_test)
# Calcula la precisi√≥n del modelo en el conjunto de prueba.
acc = accuracy_score(y_test, y_pred)
print(f"üéØ Accuracy (Test): {acc:.4f}")

print("\nüìã REPORTE DE CLASIFICACI√ìN:")
# Imprime el reporte de clasificaci√≥n completo (precisi√≥n, recall, f1-score) por clase.
print(classification_report(y_test, y_pred, target_names=wine.target_names, digits=4))

# Visualiza la matriz de confusi√≥n.
plt.figure(figsize=(8, 6))
# Calcula la matriz de confusi√≥n.
cm = confusion_matrix(y_test, y_pred)
# Crea un objeto para mostrar la matriz de confusi√≥n.
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=wine.target_names)
# Dibuja la matriz de confusi√≥n con un mapa de colores 'Blues' y valores enteros.
disp.plot(cmap='Blues', values_format='d')
plt.title(f'Matriz de Confusi√≥n - {best_model_name}', fontsize=14, pad=20)
plt.tight_layout()
plt.show()

# Visualiza las curvas ROC por clase.
plt.figure(figsize=(10, 8))
# Codifica las etiquetas de prueba a formato binario para las curvas ROC.
# Itera sobre cada clase para trazar su curva ROC.
for i, cls in enumerate(wine.target_names):
    # Dibuja la curva ROC para la clase actual.
    RocCurveDisplay.from_predictions(
        (y_test == i).astype(int), # Convierte las etiquetas a binario (1 si es la clase actual, 0 en caso contrario).
        y_proba[:, i], # Probabilidades de la clase actual.
        name=f"Clase {cls}", # Nombre de la curva.
        plot_chance_level=(i==0) # Dibuja la l√≠nea de azar solo para la primera clase.
    )
plt.title(f'Curvas ROC por Clase - {best_model_name}', fontsize=14, pad=20)
plt.tight_layout()
plt.show()

# Calcula el √°rea bajo la curva ROC (AUC) macro promedio (estrategia One-vs-Rest).
auc_macro = roc_auc_score(y_test, y_proba, multi_class='ovr', average='macro')
print(f"üìä ROC-AUC Macro (OVR): {auc_macro:.4f}")

"""## 7. An√°lisis de Importancia de Caracter√≠sticas"""

print("=== AN√ÅLISIS DE IMPORTANCIA DE CARACTER√çSTICAS ===")

# Se verifica qu√© modelo fue seleccionado como el mejor para aplicar el m√©todo de importancia de caracter√≠sticas adecuado.
if best_model_name == "RandomForest":
    # Si el mejor modelo es RandomForest, se utiliza el atributo feature_importances_ del clasificador.
    feature_importances = best_pipeline.named_steps['clf'].feature_importances_
    # Se crea un DataFrame para mostrar las importancias junto con los nombres originales y traducidos de las caracter√≠sticas.
    importance_df = pd.DataFrame({
        'Caracter√≠stica': X.columns,
        'Importancia': feature_importances,
        'Nombre_ES': [column_titles_es.get(col, col) for col in X.columns]
    }).sort_values('Importancia', ascending=False) # Se ordena por importancia descendente.
    display(importance_df) # Se muestra el DataFrame.
    # Se crea un gr√°fico de barras para visualizar la importancia de las caracter√≠sticas.
    plt.figure(figsize=(12, 8))
    sns.barplot(data=importance_df, x='Importancia', y='Caracter√≠stica')
    plt.title('Importancia de Caracter√≠sticas - RandomForest', fontsize=14, pad=20)
    plt.xlabel('Importancia (Gini)')
    plt.tight_layout()
    plt.show()

elif best_model_name == "LogReg":
    # Si el mejor modelo es LogisticRegression, se utilizan los coeficientes del modelo.
    # Se toma el valor absoluto promedio de los coeficientes a trav√©s de las clases para obtener una medida de importancia.
    coefficients = best_pipeline.named_steps['clf'].coef_
    avg_importance = np.mean(np.abs(coefficients), axis=0)
    # Se crea un DataFrame similar al de RandomForest.
    importance_df = pd.DataFrame({
        'Caracter√≠stica': X.columns,
        'Importancia': avg_importance,
        'Nombre_ES': [column_titles_es.get(col, col) for col in X.columns]
    }).sort_values('Importancia', ascending=False) # Se ordena por importancia descendente.
    display(importance_df) # Se muestra el DataFrame.
    # Se crea un gr√°fico de barras para visualizar la importancia de las caracter√≠sticas.
    plt.figure(figsize=(12, 8))
    sns.barplot(data=importance_df, x='Importancia', y='Caracter√≠stica')
    plt.title('Importancia de Caracter√≠sticas - Regresi√≥n Log√≠stica', fontsize=14, pad=20)
    plt.xlabel('Importancia (|coef| promedio)')
    plt.tight_layout()
    plt.show()

else:
    # Si el mejor modelo es SVM (u otro que no tenga feature_importances_), se calcula la importancia por permutaci√≥n.
    print("üîç Calculando importancia por permutaci√≥n...")
    # Se calcula la importancia por permutaci√≥n en el conjunto de prueba.
    perm_importance = permutation_importance(
        best_pipeline, X_test, y_test,
        n_repeats=10, random_state=42, n_jobs=-1 # Se repite 10 veces y se usan todos los n√∫cleos disponibles.
    )
    # Se crea un DataFrame con la importancia promedio calculada.
    importance_df = pd.DataFrame({
        'Caracter√≠stica': X.columns,
        'Importancia': perm_importance.importances_mean,
        'Nombre_ES': [column_titles_es.get(col, col) for col in X.columns]
    }).sort_values('Importancia', ascending=False) # Se ordena por importancia descendente.
    display(importance_df) # Se muestra el DataFrame.
    # Se crea un gr√°fico de barras para visualizar la importancia de las caracter√≠sticas.
    plt.figure(figsize=(12, 8))
    sns.barplot(data=importance_df, x='Importancia', y='Caracter√≠stica')
    plt.title('Importancia de Caracter√≠sticas - Permutaci√≥n', fontsize=14, pad=20)
    plt.xlabel('Disminuci√≥n promedio en accuracy') # Se especifica la m√©trica utilizada.
    plt.tight_layout()
    plt.show()

"""## 8. Persistencia del Modelo y Recursos"""

# ==== 8. Persistencia del Modelo y Recursos ====

# Crea el directorio 'model' si no existe para guardar los archivos.
os.makedirs("model", exist_ok=True)
# Define la ruta donde se guardar√° el mejor modelo, incluyendo el nombre del modelo y una versi√≥n.
model_path = f"model/best_model_{best_model_name}_v2.joblib"
# Guarda el objeto pipeline del mejor modelo en el archivo especificado usando joblib.
joblib.dump(best_pipeline, model_path)

# Crea un diccionario con metadatos relevantes sobre el modelo entrenado.
model_metadata = {
    'model_name': best_model_name, # Nombre del mejor modelo.
    'accuracy_test': float(acc), # Accuracy en el conjunto de prueba.
    'auc_macro': float(auc_macro), # ROC-AUC macro promedio.
    'best_parameters': best_params, # Par√°metros √≥ptimos encontrados.
    'feature_importances': importance_df.to_dict('records'), # Importancia de caracter√≠sticas como lista de diccionarios.
    'timestamp': pd.Timestamp.now().strftime("%Y-%m-%d %H:%M:%S"), # Fecha y hora de guardado.
    'version': '2.0' # Versi√≥n del modelo/notebook.
}

# Guarda los metadatos en un archivo JSON.
with open('model/model_metadata.json', 'w') as f:
    json.dump(model_metadata, f, indent=2) # Usa indent=2 para un formato legible.

# Confirma que el modelo y los metadatos han sido guardados.
print("‚úÖ MODELO Y METADATOS GUARDADOS")
print(f"üìÅ Modelo: {model_path}")
print(f"üìÅ Metadatos: model/model_metadata.json")

# ==== 9. Ejemplo de Inferencia con el Modelo Guardado ====

# Define una funci√≥n para realizar predicciones con un nuevo sample.
# Toma el modelo entrenado y los datos del sample como entrada.
def predict_new_sample(model, sample_data):
    # Verifica si el modelo tiene el m√©todo predict_proba (para obtener probabilidades).
    if hasattr(model, 'predict_proba'):
        # Si lo tiene, predice las probabilidades y la clase.
        proba = model.predict_proba(sample_data)
        prediction = model.predict(sample_data)
        return prediction, proba # Retorna la predicci√≥n y las probabilidades.
    else:
        # Si no tiene predict_proba, solo predice la clase.
        prediction = model.predict(sample_data)
        return prediction, None # Retorna solo la predicci√≥n.

print("\nüéØ EJEMPLO DE INFERENCIA:")
# Selecciona una muestra del conjunto de prueba para el ejemplo.
sample_idx = 0 # √çndice de la muestra (la primera).
sample = X_test.iloc[sample_idx:sample_idx+1] # Extrae la fila como DataFrame (necesario para el pipeline).
true_class = y_test.iloc[sample_idx] # Obtiene la clase real de la muestra.
# Realiza la predicci√≥n con el mejor pipeline.
pred_class = best_pipeline.predict(sample)[0] # Obtiene la clase predicha.
pred_proba = best_pipeline.predict_proba(sample)[0] # Obtiene las probabilidades predichas.

# Imprime los resultados del ejemplo.
print(f"Muestra: {sample_idx}")
print(f"Clase real: {true_class} ({wine.target_names[true_class]})") # Muestra la clase real con su nombre.
print(f"Clase predicha: {pred_class} ({wine.target_names[pred_class]})") # Muestra la clase predicha con su nombre.
print(f"Probabilidades: {np.round(pred_proba, 3)}") # Muestra las probabilidades redondeadas.

"""## 9. Plantilla de Revisi√≥n por Pares (Completar)

**Nombre del/la revisor/a:** ___________________  
**Fecha de revisi√≥n:** __________________

**Fortalezas observadas:**
- [ ] EDA avanzado con visualizaciones √∫tiles.
- [ ] Uso de validaci√≥n cruzada y b√∫squeda de hiperpar√°metros.
- [ ] Evaluaci√≥n exhaustiva con ROC-AUC y matriz de confusi√≥n.
- [ ] Pipeline reproducible y documentaci√≥n clara.

**√Åreas de mejora:**
- [ ] Analizar impacto de normalizaci√≥n en cada modelo.
- [ ] Comparar otras m√©tricas (macro F1, balanced accuracy).
- [ ] Probar otros clasificadores (XGBoost/LightGBM si se permite).
- [ ] Reducir dimensionalidad (PCA) y comparar.

**Ajustes realizados por m√≠ (autor/a) despu√©s de la revisi√≥n:**
-  
-  
-  
"""