# Entrenamiento del Modelo: Clasificación de Vinos utilizando Naive Bayes y PCA

En este notebook se documenta el proceso de entrenamiento de un modelo Naive Bayes utilizando el dataset de vinos. Aplicamos PCA para reducir la dimensionalidad de los datos y observamos el impacto en la exactitud del modelo.


## Importación de Librerías

Las siguientes librerías son esenciales para el análisis y entrenamiento del modelo.


In [28]:
import pandas as pd
import numpy as np
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import joblib


## Carga y Preprocesamiento de los Datos

En este paso, cargamos el dataset `cleaned_wine_data.csv` y realizamos el preprocesamiento correspondiente, que incluye la división de los datos en conjunto de entrenamiento y prueba, y el escalado de las características.


In [46]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Cargar los datos
file_path = '../data/processed/cleaned_wine_data.csv'  # Ajusta la ruta según sea necesario

def load_data(file_path):
    """
    Cargar datos desde un archivo CSV.
    """
    try:
        df = pd.read_csv(file_path)
        print(f"Datos cargados exitosamente desde {file_path}")
        return df
    except FileNotFoundError:
        print(f"El archivo {file_path} no fue encontrado.")
        return None

df = load_data(file_path)

# Verificar que los datos se hayan cargado correctamente
if df is not None:
    # Preprocesar los datos
    def preprocess_data(df):
        """
        Preprocesar los datos: separación de características y etiquetas,
        escalado y división en conjunto de entrenamiento y prueba.
        """
        # Separar características y etiquetas
        X = df.iloc[:, 1:]  # Características
        y = df.iloc[:, 0].astype(int)  # Etiquetas

        # Dividir en conjunto de entrenamiento y prueba
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

        # Escalar los datos
        scaler = StandardScaler()
        X_train_scaled = scaler.fit_transform(X_train)
        X_test_scaled = scaler.transform(X_test)

        print("Datos escalados y divididos en conjunto de entrenamiento y prueba.")
        return X_train_scaled, X_test_scaled, y_train, y_test

    X_train_scaled, X_test_scaled, y_train, y_test = preprocess_data(df)
else:
    print("Error: No se pudo cargar el dataset.")


Datos cargados exitosamente desde ../data/processed/cleaned_wine_data.csv
Datos escalados y divididos en conjunto de entrenamiento y prueba.


## Reducción de Dimensionalidad con PCA

La técnica de PCA (Análisis de Componentes Principales) se aplica para reducir la dimensionalidad del conjunto de datos, lo que nos permite acelerar el proceso de entrenamiento sin perder información importante.


In [47]:
# Aplicar PCA
n_components = 2  # Selección de 2 componentes principales basada en análisis previo

pca = PCA(n_components=n_components)
X_train_pca = pca.fit_transform(X_train_scaled)
X_test_pca = pca.transform(X_test_scaled)

print(f"PCA aplicado con {n_components} componentes principales.")


PCA aplicado con 2 componentes principales.


## Entrenamiento del Modelo Naive Bayes

Se entrena un modelo de clasificación Naive Bayes utilizando los datos transformados por PCA.


In [48]:
# Entrenar el clasificador Naive Bayes
classifier = GaussianNB()
classifier.fit(X_train_pca, y_train)

print("Modelo Naive Bayes entrenado.")

Modelo Naive Bayes entrenado.


## Evaluación del Modelo

Una vez entrenado el modelo, se procede a realizar predicciones en el conjunto de prueba y se calcula su exactitud. También se presenta la matriz de confusión y el reporte de clasificación.


In [49]:
# Predecir y evaluar el modelo
y_pred = classifier.predict(X_test_pca)

# Calcular la exactitud
accuracy = accuracy_score(y_test, y_pred)
print(f"Exactitud del modelo: {accuracy:.2f}")

# Matriz de confusión
print("Matriz de Confusión:")
print(confusion_matrix(y_test, y_pred))

# Reporte de clasificación
print("Reporte de Clasificación:")
print(classification_report(y_test, y_pred))


Exactitud del modelo: 1.00
Matriz de Confusión:
[[14  0  0]
 [ 0 14  0]
 [ 0  0  8]]
Reporte de Clasificación:
              precision    recall  f1-score   support

           1       1.00      1.00      1.00        14
           2       1.00      1.00      1.00        14
           3       1.00      1.00      1.00         8

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



## Guardar el Modelo Entrenado

El modelo entrenado se guarda en un archivo para su uso posterior.


In [51]:
# Asegúrate de que el directorio de modelos exista
model_directory = '../models'
if not os.path.exists(model_directory):
    os.makedirs(model_directory)

# Guardar el modelo entrenado
model_file_path = os.path.join(model_directory, 'naive_bayes_model.pkl')
joblib.dump(classifier, model_file_path)
print(f"Modelo guardado en {model_file_path}")

Modelo guardado en ../models\naive_bayes_model.pkl


## Conclusiones

El modelo Naive Bayes entrenado con una reducción de dimensionalidad mediante PCA ha logrado una alta exactitud en el conjunto de prueba. La reducción a 2 componentes principales fue efectiva para mantener la precisión del modelo mientras se reducían las dimensiones.

Este modelo puede ser utilizado para realizar predicciones en nuevas muestras de vino y ha sido guardado en formato `.pkl` para su reutilización.
