# Problema de regresión: Estimación de la calidad del vino

A continuación se presenta un conjunto de datos llamado CalidadVino.csv. Este archivo csv contiene las propiedades de más de 6000 vinos distintos. Nuestro objetivo es crear un modelo de regresión utilizando la columna de calidad (quality), de tal forma que seamos capaces de estimar a partir de las características de un vino, determinar su calidad.
Recuerda que debes realizar los siguientes pasos:


*   Eliminar las filas con registros nulos
*   Eliminar la columna type con información categórica.
*   Dividir el dataframe entre datos de entrada y de salida.
*   Dividir el conjunto de datos en entrenamiento y test.
*   Estandarizar los datos.
*   Definir la arquitectura del modelo.
*   Compilar el modelo definiendo la función optimzadora y la función de pérdidas.
*   Entrenar el modelo
*   Evalua el rendimiento del modelo con el conjunto de test.
*   Predice la calidad para alguno de los elementos del conjunto de test.

In [1]:
# Importamos las librerías que vamos a utilizar
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import tensorflow as tf

# Importamos el csv
df = pd.read_csv('CalidadVino.csv')

# Eliminamos los registros que son nulos
df = df.dropna()

# Eliminamos la columna del tipo, ya que es categórica y no aporta mucha información
df.drop('type', axis=1, inplace=True)

# Los atributos son el dataframe eliminando la columna de la calidad
X = df.drop('quality', axis=1)

# Los valores a estimar es la calidad del vino (1-10)
y = df['quality']

# Hacemos la división entre el conjunto de datos de entrenamiento y test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Normalización de los datos
train_mean_x = X_train.mean()
train_std_x = X_train.std()

X_train_scaled = (X_train - train_mean_x) / train_std_x
X_test_scaled = (X_test - train_mean_x) / train_std_x

# Definimos la arquitectura del modelo
model = tf.keras.Sequential([
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(256, activation='relu'),
    tf.keras.layers.Dense(256, activation='relu'),
    tf.keras.layers.Dense(1, activation='relu')])

# Compilamos el modelo con su optimizador y función de activación
model.compile(
    loss=tf.keras.losses.mean_squared_error,
    optimizer=tf.keras.optimizers.Adam(learning_rate=0.03))

# Entrenamos el modelo
history = model.fit(X_train_scaled, y_train, epochs=50)




Epoch 1/50

Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


In [5]:
# Evalua el modelo usando el conjunto de datos de test
results = model.evaluate(X_test_scaled, y_test)
print("Test loss:", results)

# Muestra la predicción de dos casos de test
model.predict(X_test_scaled.iloc[:2,:])

Test loss: 0.464690625667572


array([[5.665968 ],
       [6.3167467]], dtype=float32)