Explicación:

Usamos un modelo de regresión con RandomForestRegressor para predecir la calidad del vino.

Evaluamos el modelo utilizando MSE (Error cuadrático medio) y R2 (coeficiente de determinación).

Ubicación del código:

Guarda este código en el notebook Model_training_notebook.ipynb dentro de la carpeta src/notebooks/.

In [47]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
import joblib
from sklearn.preprocessing import StandardScaler  # Añadir el escalador

In [48]:
# Cargar los datasets de vino tinto y vino blanco con la ruta completa, usando delimitador ';'
red_wine = pd.read_csv(r'C:\Users\angel\OneDrive\Documentos\DATA_SCIENCE\Bootcamp\ML_WineQuality\data\winequality-red.csv', delimiter=';')
white_wine = pd.read_csv(r'C:\Users\angel\OneDrive\Documentos\DATA_SCIENCE\Bootcamp\ML_WineQuality\data\winequality-white.csv', delimiter=';')

# Verificar las primeras filas de cada DataFrame para confirmar que se cargaron correctamente
print("Vino Tinto (red wine) - Primeras filas:")
print(red_wine.head())
print("\nVino Blanco (white wine) - Primeras filas:")
print(white_wine.head())

# Limpiar los nombres de las columnas (eliminar comillas y espacios extras si es necesario)
red_wine.columns = red_wine.columns.str.replace('"', '').str.strip()
white_wine.columns = white_wine.columns.str.replace('"', '').str.strip()

# Verificar las columnas
print("Columnas vino tinto:")
print(red_wine.columns)
print("Columnas vino blanco:")
print(white_wine.columns)

Vino Tinto (red wine) - Primeras filas:
   fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0            7.4              0.70         0.00             1.9      0.076   
1            7.8              0.88         0.00             2.6      0.098   
2            7.8              0.76         0.04             2.3      0.092   
3           11.2              0.28         0.56             1.9      0.075   
4            7.4              0.70         0.00             1.9      0.076   

   free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
0                 11.0                  34.0   0.9978  3.51       0.56   
1                 25.0                  67.0   0.9968  3.20       0.68   
2                 15.0                  54.0   0.9970  3.26       0.65   
3                 17.0                  60.0   0.9980  3.16       0.58   
4                 11.0                  34.0   0.9978  3.51       0.56   

   alcohol  quality  
0      9.4        5  
1 

In [49]:
# Separar las características (X) y la etiqueta (y) para vino tinto
X_red = red_wine.drop('quality', axis=1)  # Eliminar la columna 'quality' para obtener las características
y_red = red_wine['quality']  # La columna 'quality' es la etiqueta

# Separar las características (X) y la etiqueta (y) para vino blanco
X_white = white_wine.drop('quality', axis=1)  # Eliminar la columna 'quality' para obtener las características
y_white = white_wine['quality']  # La columna 'quality' es la etiqueta

# Dividir los datos en entrenamiento y prueba (80% entrenamiento, 20% prueba) para vino tinto
X_train_red, X_test_red, y_train_red, y_test_red = train_test_split(X_red, y_red, test_size=0.2, random_state=42)

# Dividir los datos en entrenamiento y prueba (80% entrenamiento, 20% prueba) para vino blanco
X_train_white, X_test_white, y_train_white, y_test_white = train_test_split(X_white, y_white, test_size=0.2, random_state=42)


In [50]:
# Escalar las características
scaler = StandardScaler()

# Aplicar la normalización a los conjuntos de entrenamiento y prueba de vino tinto
X_train_red = scaler.fit_transform(X_train_red)
X_test_red = scaler.transform(X_test_red)

# Aplicar la normalización a los conjuntos de entrenamiento y prueba de vino blanco
X_train_white = scaler.fit_transform(X_train_white)
X_test_white = scaler.transform(X_test_white)


In [51]:
# Modelo para vino tinto
model_red = RandomForestRegressor(random_state=42)
model_red.fit(X_train_red, y_train_red)

# Hacer predicciones para el vino tinto
y_pred_red = model_red.predict(X_test_red)

# Evaluar el modelo para el vino tinto
mse_red = mean_squared_error(y_test_red, y_pred_red)
r2_red = r2_score(y_test_red, y_pred_red)

print("Vino Tinto - MSE:", mse_red)
print("Vino Tinto - R2:", r2_red)

# Modelo para vino blanco
model_white = RandomForestRegressor(random_state=42)
model_white.fit(X_train_white, y_train_white)

# Hacer predicciones para el vino blanco
y_pred_white = model_white.predict(X_test_white)

# Evaluar el modelo para el vino blanco
mse_white = mean_squared_error(y_test_white, y_pred_white)
r2_white = r2_score(y_test_white, y_pred_white)

print("Vino Blanco - MSE:", mse_white)
print("Vino Blanco - R2:", r2_white)


Vino Tinto - MSE: 0.3006603124999999
Vino Tinto - R2: 0.5399271357910311
Vino Blanco - MSE: 0.3482283673469388
Vino Blanco - R2: 0.5503674032406387


In [52]:
# Guardar los modelos entrenados
joblib.dump(model_red, r'C:\Users\angel\OneDrive\Documentos\DATA_SCIENCE\Bootcamp\ML_WineQuality\src\models\model_red_wine.pkl')
joblib.dump(model_white, r'C:\Users\angel\OneDrive\Documentos\DATA_SCIENCE\Bootcamp\ML_WineQuality\src\models\model_white_wine.pkl')


['C:\\Users\\angel\\OneDrive\\Documentos\\DATA_SCIENCE\\Bootcamp\\ML_WineQuality\\src\\models\\model_white_wine.pkl']

In [53]:
# Guardar las métricas de evaluación
metrics = {
    "Vino Tinto": {
        "MSE": mse_red,
        "R2": r2_red
    },
    "Vino Blanco": {
        "MSE": mse_white,
        "R2": r2_white
    }
}

# Mostrar las métricas
print(metrics)


{'Vino Tinto': {'MSE': 0.3006603124999999, 'R2': 0.5399271357910311}, 'Vino Blanco': {'MSE': 0.3482283673469388, 'R2': 0.5503674032406387}}


In [54]:
# Entrenamiento del modelo para vino tinto
model_red = RandomForestRegressor()
model_red.fit(X_train_red, y_train_red)

# Entrenamiento del modelo para vino blanco
model_white = RandomForestRegressor()
model_white.fit(X_train_white, y_train_white)

# Predicción para vino tinto
prediction_red_test = model_red.predict(X_test_red)

# Predicción para vino blanco
prediction_white_test = model_white.predict(X_test_white)

# Imprimir las predicciones
print(f"Predicción calidad vino tinto (test): {prediction_red_test}")
print(f"Predicción calidad vino blanco (test): {prediction_white_test}")



Predicción calidad vino tinto (test): [5.27 5.16 5.39 5.2  5.98 5.1  5.03 4.96 6.1  5.88 6.77 5.38 5.68 5.24
 5.51 6.36 5.34 5.76 6.88 5.09 4.92 5.89 5.24 5.87 5.46 5.98 6.39 5.26
 5.36 5.92 5.3  5.39 5.81 5.49 5.82 5.06 6.33 5.95 5.44 6.05 5.15 5.24
 6.26 5.03 5.55 5.68 6.51 5.65 5.17 5.68 5.08 5.22 5.52 6.93 5.17 5.57
 5.96 6.01 5.52 5.01 5.56 6.23 5.51 5.31 6.7  5.18 6.71 5.53 6.7  5.47
 6.02 5.21 5.81 5.45 6.05 5.02 6.49 5.11 6.02 6.54 5.08 6.93 5.18 5.72
 5.8  6.56 5.08 6.   6.53 5.46 6.48 5.52 4.91 5.14 5.32 5.39 5.15 6.04
 4.5  5.45 5.01 5.07 5.85 6.57 5.52 6.68 5.83 5.29 5.25 5.15 6.5  5.06
 6.42 5.   5.17 6.15 5.41 5.16 5.09 5.57 6.18 5.73 5.85 5.44 5.63 5.18
 6.46 5.39 5.21 5.49 5.81 5.46 4.98 6.39 5.68 5.05 5.03 5.3  5.18 5.86
 6.64 6.3  6.59 5.34 5.52 5.09 5.65 5.58 5.42 5.03 5.81 6.2  5.5  5.21
 5.81 5.5  5.61 6.36 5.18 5.96 6.04 5.66 6.36 5.09 5.33 5.78 5.47 5.1
 4.53 5.23 5.12 4.95 6.35 5.37 6.27 5.92 6.18 5.1  5.34 5.14 4.42 5.87
 5.5  6.3  5.07 6.41 5.65 5.78 6.76 5.37