In [8]:
# pip install -r requirements.txt

In [19]:
import pandas as pd                                                # Para manipulación de datos, CSV I/O (e.g. pd.read_csv).
import numpy as np                                                 # Para álgebra linear (Operaciones de matrices).
import tensorflow as tf                                             # Para construir y entrenar modelos de aprendizaje profundo.
from tensorflow import keras                                        # Para construir y entrenar modelos de aprendizaje profundo.
from tensorflow.keras import layers                                 # Para construir y entrenar modelos de aprendizaje profundo.
import matplotlib.pyplot as plt                                    # Para visualización de datos.
import seaborn as sns                                              # Para visualización de datos.
from ucimlrepo import fetch_ucirepo                                # Para obtener datasets de UCI Machine Learning Repository.
from sklearn.preprocessing import StandardScaler                   # Para normalizar los datos.
from sklearn.model_selection import train_test_split               # Para dividir los datos en conjuntos de entrenamiento y pruebas.
from sklearn.metrics import accuracy_score, classification_report   # Para evaluar el rendimiento del modelo.

# **Paso 1: Dataset**

## Obtención del cuadro de datos

In [30]:
# fetch dataset
df = pd.read_csv('winequality-white.csv', sep=';')
# Construcción del cuadro de datos para los dos tipos de vino (con variables categóricas):

DatasetNotFoundError: Error reading data csv file for "Wine Quality" dataset (id=186).

# **Paso 2: Comprensión del dataset**

## Análisis de los datos

In [29]:
# Mostrar las primeras filas del dataset
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
1,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
2,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6


In [23]:
# Información general del dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4898 entries, 0 to 4897
Data columns (total 1 columns):
 #   Column                                                                                                                                                                   Non-Null Count  Dtype 
---  ------                                                                                                                                                                   --------------  ----- 
 0   fixed acidity;"volatile acidity";"citric acid";"residual sugar";"chlorides";"free sulfur dioxide";"total sulfur dioxide";"density";"pH";"sulphates";"alcohol";"quality"  4898 non-null   object
dtypes: object(1)
memory usage: 38.4+ KB


In [24]:
# Estadísticas descriptivas del dataset
df.describe()

Unnamed: 0,"fixed acidity;""volatile acidity"";""citric acid"";""residual sugar"";""chlorides"";""free sulfur dioxide"";""total sulfur dioxide"";""density"";""pH"";""sulphates"";""alcohol"";""quality"""
count,4898
unique,3961
top,7.3;0.19;0.27;13.9;0.057;45;155;0.99807;2.94;0...
freq,8


In [25]:
# Identificar las columnas del dataset
df.columns

Index(['fixed acidity;"volatile acidity";"citric acid";"residual sugar";"chlorides";"free sulfur dioxide";"total sulfur dioxide";"density";"pH";"sulphates";"alcohol";"quality"'], dtype='object')

## Resumen

Wine Quality Dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 6497

    :Number of Attributes: 13 (12 numeric features and 1 target)

    :Attribute Information:
        - fixed_acidity
        - volatile_acidity
        - citric_acid
        - residual_sugar
        - chlorides
        - free_sulfur_dioxide
        - total_sulfur_dioxide
        - density
        - pH
        - sulphates
        - alcohol
        - quality (score between 0 and 10)
        - color (red or white)

    :Summary Statistics:

    ===================================== ======
                                           Min    Max
    ===================================== ====== ======
    fixed_acidity                          3.8    14.2
    volatile_acidity                       0.08   1.58
    citric_acid                            0.0    1.0
    residual_sugar                         0.6    65.8
    chlorides                              0.012  0.611
    free_sulfur_dioxide                    1.0    289.0
    total_sulfur_dioxide                   6.0    440.0
    density                                0.9901 1.0037
    pH                                     2.72   4.01
    sulphates                              0.22   2.0
    alcohol                                8.4    14.9
    quality                                3      9
    ===================================== ====== ======

    :Missing Attribute Values: None

    :Class Distribution:
        - Quality 0 to 6: 63 instances
        - Quality 6 to 9: 1319 instances

    :Creator: Paulo Cortez, University of Minho, Guimarães, Portugal, http://www3.dsi.uminho.pt/pcortez
    :Donor: Paulo Cortez (pcortez@ics.uminho.pt), Antonio Cerdeira, Fernando Almeida, Telmo Matos and José Reis (see also http://www3.dsi.uminho.pt/pcortez)

    :Date: March, 2009

This dataset is also available from the UCI machine learning repository, https://archive.ics.uci.edu/ml/datasets/Wine+Quality

.. topic:: References

   - P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. Modeling wine preferences by data mining from physicochemical properties. In Decision Support Systems, Elsevier, 47(4):547-553, 2009.
   - S. Moro, P. Cortez and P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, June 2014.

## Análisis Gráfico

In [26]:
plt.figure(figsize=(10, 6))
sns.countplot(x='quality', data=df, hue='quality', palette='viridis', dodge=False, legend=False)
plt.title('Distribución de la Calidad del Vino')
plt.xlabel('Calidad')
plt.ylabel('Frecuencia')
plt.show()


ValueError: Could not interpret value `quality` for `x`. An entry with this name does not appear in `data`.

<Figure size 1000x600 with 0 Axes>

In [None]:
df_dummed = pd.get_dummies(df, columns=['color'])
correlation_matrix = df_dummed.corr()

# Graficar el mapa de calor
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Mapa de Calor de las Correlaciones entre Variables')
plt.show()

# **Paso 3: Preprocesamiento de la información**


## Dumificacion de variables categóricas

In [None]:
# Dumificación de la variable categórica "color"
df = pd.get_dummies(df, columns=['color'])

## Identificación y Tratamiento de Valores Nulos

In [None]:
# Verificar la existencia de valores nulos (no hay)
print(df.isnull().sum())

## Normalización de Datos

In [None]:
# Normalización de las características
features = df.drop('quality', axis=1)
scaler = StandardScaler()
features_scaled = scaler.fit_transform(features)

# Crear un nuevo DataFrame con las características normalizadas
df_scaled = pd.DataFrame(features_scaled, columns=features.columns)
df_scaled['quality'] = df['quality']

## Búsqueda y Eliminación de Datos Atípicos


In [None]:
plt.figure(figsize=(20, 15))
for i, column in enumerate(df_scaled.columns[:-1][:11], 1):
    plt.subplot(4, 3, i)
    sns.boxplot(data=df_scaled, y=column)
    plt.title(f'Boxplot of {column}')
plt.tight_layout()
plt.show()

In [None]:
# Crea una copia del DataFrame original
cleaned_df = df_scaled.copy()

# Itera sobre cada columna (excepto la última)
for column in cleaned_df.columns[:-1][:11]:
    
    # Calcula el rango intercuartílico (IQR)
    Q1 = cleaned_df[column].quantile(0.25)
    Q3 = cleaned_df[column].quantile(0.75)
    IQR = Q3 - Q1

    # Identifica los valores atípicos
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = cleaned_df[(cleaned_df[column] < lower_bound) | (cleaned_df[column] > upper_bound)]

    # Elimina los valores atípicos de la columna
    cleaned_df = cleaned_df[(cleaned_df[column] >= lower_bound) & (cleaned_df[column] <= upper_bound)]

    print(f"Valores atípicos eliminados en la columna '{column}': {len(outliers)}")

In [None]:
# Visualización de los boxplots después de eliminar valores atípicos
plt.figure(figsize=(20, 15))
for i, column in enumerate(cleaned_df.columns[:-1][:11], 1):
    plt.subplot(4, 3, i)
    sns.boxplot(data=cleaned_df, y=column)
    plt.title(f'Boxplot of {column}')
plt.tight_layout()
plt.show()

In [None]:
# Itera sobre cada columna (excepto la última)
for column in cleaned_df.columns[:-1][:11]:
    # Calcula el rango intercuartílico (IQR)
    Q1 = cleaned_df[column].quantile(0.25)
    Q3 = cleaned_df[column].quantile(0.75)
    IQR = Q3 - Q1

    # Identifica los valores atípicos
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = cleaned_df[(cleaned_df[column] < lower_bound) | (cleaned_df[column] > upper_bound)]

    # Elimina los valores atípicos de la columna
    cleaned_df = cleaned_df[(cleaned_df[column] >= lower_bound) & (cleaned_df[column] <= upper_bound)]

    print(f"Valores atípicos eliminados en la columna '{column}': {len(outliers)}")

In [None]:
# Visualización de los boxplots después de eliminar valores atípicos
plt.figure(figsize=(20, 15))
for i, column in enumerate(cleaned_df.columns[:-1][:11], 1):
    plt.subplot(4, 3, i)
    sns.boxplot(data=cleaned_df, y=column)
    plt.title(f'Boxplot of {column}')
plt.tight_layout()
plt.show()

In [None]:
# Itera sobre cada columna (excepto la última)
for column in cleaned_df.columns[:-1][:11]:
    # Calcula el rango intercuartílico (IQR)
    Q1 = cleaned_df[column].quantile(0.25)
    Q3 = cleaned_df[column].quantile(0.75)
    IQR = Q3 - Q1

    # Identifica los valores atípicos
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = cleaned_df[(cleaned_df[column] < lower_bound) | (cleaned_df[column] > upper_bound)]

    # Elimina los valores atípicos de la columna
    cleaned_df = cleaned_df[(cleaned_df[column] >= lower_bound) & (cleaned_df[column] <= upper_bound)]

    print(f"Valores atípicos eliminados en la columna '{column}': {len(outliers)}")

In [None]:
# Visualización de los boxplots después de eliminar valores atípicos
plt.figure(figsize=(20, 15))
for i, column in enumerate(cleaned_df.columns[:-1][:11], 1):
    plt.subplot(4, 3, i)
    sns.boxplot(data=cleaned_df, y=column)
    plt.title(f'Boxplot of {column}')
plt.tight_layout()
plt.show()

In [None]:
# Itera sobre cada columna (excepto la última)
for column in cleaned_df.columns[:-1][:11]:
    # Calcula el rango intercuartílico (IQR)
    Q1 = cleaned_df[column].quantile(0.25)
    Q3 = cleaned_df[column].quantile(0.75)
    IQR = Q3 - Q1

    # Identifica los valores atípicos
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = cleaned_df[(cleaned_df[column] < lower_bound) | (cleaned_df[column] > upper_bound)]

    # Elimina los valores atípicos de la columna
    cleaned_df = cleaned_df[(cleaned_df[column] >= lower_bound) & (cleaned_df[column] <= upper_bound)]

    print(f"Valores atípicos eliminados en la columna '{column}': {len(outliers)}")

In [None]:
# Visualización de los boxplots después de eliminar valores atípicos
plt.figure(figsize=(20, 15))
for i, column in enumerate(cleaned_df.columns[:-1][:11], 1):
    plt.subplot(4, 3, i)
    sns.boxplot(data=cleaned_df, y=column)
    plt.title(f'Boxplot of {column}')
plt.tight_layout()
plt.show()

In [None]:
# Itera sobre cada columna (excepto la última)
for column in cleaned_df.columns[:-1][:11]:
    # Calcula el rango intercuartílico (IQR)
    Q1 = cleaned_df[column].quantile(0.25)
    Q3 = cleaned_df[column].quantile(0.75)
    IQR = Q3 - Q1

    # Identifica los valores atípicos
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = cleaned_df[(cleaned_df[column] < lower_bound) | (cleaned_df[column] > upper_bound)]

    # Elimina los valores atípicos de la columna
    cleaned_df = cleaned_df[(cleaned_df[column] >= lower_bound) & (cleaned_df[column] <= upper_bound)]

    print(f"Valores atípicos eliminados en la columna '{column}': {len(outliers)}")

In [None]:
# Visualización de los boxplots después de eliminar valores atípicos
plt.figure(figsize=(20, 15))
for i, column in enumerate(cleaned_df.columns[:-1][:11], 1):
    plt.subplot(4, 3, i)
    sns.boxplot(data=cleaned_df, y=column)
    plt.title(f'Boxplot of {column}')
plt.tight_layout()
plt.show()

In [None]:
# Itera sobre cada columna (excepto la última)
for column in cleaned_df.columns[:-1][:11]:
    # Calcula el rango intercuartílico (IQR)
    Q1 = cleaned_df[column].quantile(0.25)
    Q3 = cleaned_df[column].quantile(0.75)
    IQR = Q3 - Q1

    # Identifica los valores atípicos
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = cleaned_df[(cleaned_df[column] < lower_bound) | (cleaned_df[column] > upper_bound)]

    # Elimina los valores atípicos de la columna
    cleaned_df = cleaned_df[(cleaned_df[column] >= lower_bound) & (cleaned_df[column] <= upper_bound)]

    print(f"Valores atípicos eliminados en la columna '{column}': {len(outliers)}")

In [None]:
cleaned_df.info()

# **Paso 4: Construcción del dataset**

In [None]:
# Dividir el dataset en conjunto de entrenamiento y conjunto de pruebas (80-20)
X = cleaned_df.drop('quality', axis=1)
y = cleaned_df['quality']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# **Paso 5: Elaboración del modelo**

## Perceptrón

In [None]:
perceptron = keras.Sequential([
    layers.Input(shape=(X_train.shape[1],)),
    layers.Dense(units=1, activation='sigmoid', use_bias=True)
])

## Red neuronal con una capa oculta con un número de neuronas igual al número de entradas:

In [None]:
model_1 = keras.Sequential([
    layers.Input(shape=(X_train.shape[1],)),
    layers.Dense(units=X_train.shape[1], activation='sigmoid', use_bias=True),
    layers.Dense(units=1, activation='sigmoid', use_bias=True)
])

## Red neuronal con dos capas ocultas con dos neuronas en cada capa oculta:

In [None]:
model_2 = keras.Sequential([
    layers.Input(shape=(X_train.shape[1],)),
    layers.Dense(units=X_train.shape[1], activation='sigmoid', use_bias=True),
    layers.Dense(units=2, activation='sigmoid', use_bias=True),
    layers.Dense(units=1, activation='sigmoid', use_bias=True)
])

# **Paso 6: Análisis de Resultados**

## Compilar los modelos

### Compilar modelo #1 (Perceptrón)

In [None]:
perceptron.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy', tf.keras.metrics.Recall(),tf.keras.metrics.Precision(), tf.keras.metrics.AUC(), tf.keras.metrics.F1Score()])

### Compilar modelo #2 (Red neuronal con una capa oculta)

In [None]:
model_1.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy', tf.keras.metrics.Recall(),tf.keras.metrics.Precision(), tf.keras.metrics.AUC(), tf.keras.metrics.F1Score()])

### Compilar modelo #3 (Red neuronal con dos capas ocultas)

In [None]:
model_2.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy', tf.keras.metrics.Recall(),tf.keras.metrics.Precision(), tf.keras.metrics.AUC(), tf.keras.metrics.F1Score()])

## Entrenar los modelos

### Entrenar el modelo #1 (Perceptrón)

In [None]:
# Entrenar los modelos
perceptron.fit(X_train, y_train, epochs=1000, batch_size=32, verbose=0, validation_data=(X_test, y_test))

### Entrenar el modelo #2 (Red neuronal con una capa oculta)

In [None]:
model_1.fit(X_train, y_train, epochs=1000, batch_size=32, verbose=0, validation_data=(X_test, y_test))

### Entrenar el modelo #3 (Red neuronal con dos capas ocultas)

In [None]:
model_2.fit(X_train, y_train, epochs=1000, batch_size=32, verbose=0, validation_data=(X_test, y_test))

## Después de entrenar los modelos, evaluamos su rendimiento en los datos de ejemplo:


In [None]:
print("Perceptrón:")
print(perceptron.evaluate(X_test, y_test))

print("\nRed neuronal con una capa oculta:")
print(model_1.evaluate(X_test, y_test))

print("\nRed neuronal con dos capas ocultas:")
print(model_2.evaluate(X_test, y_test))

In [None]:
# Para el perceptrón
preds_perceptron = perceptron.predict(X_test)
print("Perceptrón:")
print(classification_report(y_test, preds_perceptron))

In [None]:
# Para la red neuronal con una capa oculta (model_1)
preds_model_1 = model_1.predict(X_test)
print("\nRed neuronal con una capa oculta:")
print(classification_report(y_test, preds_model_1))

In [None]:
# Para la red neuronal con dos capas ocultas (model_2)
preds_model_2 = model_2.predict(X_test)
print("\nRed neuronal con dos capas ocultas:")
print(classification_report(y_test, preds_model_2))