Explicación:

Usamos un modelo de regresión con RandomForestRegressor para predecir la calidad del vino.

Evaluamos el modelo utilizando MSE (Error cuadrático medio) y R2 (coeficiente de determinación).

Ubicación del código:

Guarda este código en el notebook Model_training_notebook.ipynb dentro de la carpeta src/notebooks/.

In [20]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
import joblib
from sklearn.preprocessing import StandardScaler  # Añadir el escalador

In [21]:
# Cargar los datasets de vino tinto y vino blanco con la ruta completa
red_wine = pd.read_csv(r'C:\Users\angel\OneDrive\Documentos\DATA_SCIENCE\Bootcamp\ML_WineQuality\data\winequality-red.csv', delimiter=';')
white_wine = pd.read_csv(r'C:\Users\angel\OneDrive\Documentos\DATA_SCIENCE\Bootcamp\ML_WineQuality\data\winequality-white.csv', delimiter=';')

In [22]:
# Dividir los datos en características (X) y etiquetas (y) para el vino tinto
X_red = red_wine.drop('quality', axis=1)  # Características del vino tinto
y_red = red_wine['quality']  # Etiqueta de calidad del vino tinto

# Dividir los datos en características (X) y etiquetas (y) para el vino blanco
X_white = white_wine.drop('quality', axis=1)  # Características del vino blanco
y_white = white_wine['quality']  # Etiqueta de calidad del vino blanco

# Dividir los datos en conjuntos de entrenamiento y prueba para el vino tinto
X_train_red, X_test_red, y_train_red, y_test_red = train_test_split(X_red, y_red, test_size=0.2, random_state=42)

# Dividir los datos en conjuntos de entrenamiento y prueba para el vino blanco
X_train_white, X_test_white, y_train_white, y_test_white = train_test_split(X_white, y_white, test_size=0.2, random_state=42)

In [23]:
# Escalar las características
scaler = StandardScaler()

# Aplicar la normalización a los conjuntos de entrenamiento y prueba de vino tinto
X_train_red = scaler.fit_transform(X_train_red)
X_test_red = scaler.transform(X_test_red)

# Aplicar la normalización a los conjuntos de entrenamiento y prueba de vino blanco
X_train_white = scaler.fit_transform(X_train_white)
X_test_white = scaler.transform(X_test_white)


In [24]:
# Modelo para vino tinto
model_red = RandomForestRegressor(random_state=42)
model_red.fit(X_train_red, y_train_red)

# Hacer predicciones para el vino tinto
y_pred_red = model_red.predict(X_test_red)

# Evaluar el modelo para el vino tinto
mse_red = mean_squared_error(y_test_red, y_pred_red)
r2_red = r2_score(y_test_red, y_pred_red)

print("Vino Tinto - MSE:", mse_red)
print("Vino Tinto - R2:", r2_red)

# Modelo para vino blanco
model_white = RandomForestRegressor(random_state=42)
model_white.fit(X_train_white, y_train_white)

# Hacer predicciones para el vino blanco
y_pred_white = model_white.predict(X_test_white)

# Evaluar el modelo para el vino blanco
mse_white = mean_squared_error(y_test_white, y_pred_white)
r2_white = r2_score(y_test_white, y_pred_white)

print("Vino Blanco - MSE:", mse_white)
print("Vino Blanco - R2:", r2_white)


Vino Tinto - MSE: 0.3006603124999999
Vino Tinto - R2: 0.5399271357910311
Vino Blanco - MSE: 0.3482283673469388
Vino Blanco - R2: 0.5503674032406387


In [25]:
# Guardar los modelos entrenados
joblib.dump(model_red, r'C:\Users\angel\OneDrive\Documentos\DATA_SCIENCE\Bootcamp\ML_WineQuality\src\models\model_red_wine.pkl')
joblib.dump(model_white, r'C:\Users\angel\OneDrive\Documentos\DATA_SCIENCE\Bootcamp\ML_WineQuality\src\models\model_white_wine.pkl')


['C:\\Users\\angel\\OneDrive\\Documentos\\DATA_SCIENCE\\Bootcamp\\ML_WineQuality\\src\\models\\model_white_wine.pkl']

In [26]:
# Guardar las métricas de evaluación
metrics = {
    "Vino Tinto": {
        "MSE": mse_red,
        "R2": r2_red
    },
    "Vino Blanco": {
        "MSE": mse_white,
        "R2": r2_white
    }
}

# Mostrar las métricas
print(metrics)


{'Vino Tinto': {'MSE': 0.3006603124999999, 'R2': 0.5399271357910311}, 'Vino Blanco': {'MSE': 0.3482283673469388, 'R2': 0.5503674032406387}}


In [27]:
def predict_quality(model, test_data):
    return model.predict(test_data)

# Usar la función de predicción
prediction_white_test = predict_quality(model_white, test_data)
prediction_red_test = predict_quality(model_red, test_data)

print(f"Predicción calidad vino blanco (test): {prediction_white_test}")
print(f"Predicción calidad vino tinto (test): {prediction_red_test}")

Predicción calidad vino blanco (test): [6.84]
Predicción calidad vino tinto (test): [6.33]
