Dado que el entrenamiento de redes neuronales es una tarea  muy costosa, **se recomienda ejecutar el notebooks en [Google Colab](https://colab.research.google.com)**, por supuesto también se puede ejecutar en local.

Al entrar en [Google Colab](https://colab.research.google.com) bastará con hacer click en `upload` y subir este notebook. No olvide luego descargarlo en `File->Download .ipynb`

**El examen deberá ser entregado con las celdas ejecutadas, si alguna celda no está ejecutadas no se contará.**

El examen se divide en preguntas de código y preguntas teóricas, con la puntuación que se indica a continuación. La puntuación máxima será 10.

- [Actividad 1: Redes Densas](#actividad_1): 10 pts
    - Correcta normalización: máximo de 0.5 pts
    - [Cuestión 1](#1.1): 1.5 pts
    - [Cuestión 2](#1.2): 1.5 pts
    - [Cuestión 3](#1.3): 1.5 pts
    - [Cuestión 4](#1.4): 1 pts
    - [Cuestión 5](#1.5): 1 pts
    - [Cuestión 6](#1.6): 1 pts
    - [Cuestión 7](#1.7): 1 pts
    - [Cuestión 8](#1.8): 1 pts


In [1]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

<a name='actividad_1'></a>
# Actividad 1: Redes Densas

Para esta actividad vamos a utilizar el [wine quality dataset](https://archive.ics.uci.edu/ml/datasets/wine+quality). Con el que trataremos de predecir la calidad del vino.

La calidad del vino puede tomar valores decimales (por ejemplo 7.25), independientemente de que en el dataset de entrenamiento sean números enteros. Por lo tanto, el problema es una `regresión`.

**Puntuación**:

Normalizar las features correctamente (x_train, x_test): 0.5 pts

- Correcta normalización: máximo de 0.5 pts
- [Cuestión 1](#1.1): 1 pt
- [Cuestión 2](#1.2): 1 pt
- [Cuestión 3](#1.3): 0.5 pts
- [Cuestión 4](#1.4): 0.5 pts
- [Cuestión 5](#1.5): 0.5 pts
- [Cuestión 6](#1.6): 0.5 pts
- [Cuestión 7](#1.7): 0.5 pts
- [Cuestión 8](#1.8): 0.5 pts



In [2]:
# Descargar los datos con pandas
df_red = pd.read_csv(
    'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv',
    sep=';'
)
df_white = pd.read_csv(
    'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv',
    sep=';'
)
df = pd.concat([df_red, df_white])

df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [3]:
feature_names = [
    'fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides',
    'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol'
]


# separar features y target
y = df.pop('quality').values
X = df.copy().values

In [4]:
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

print('x_train, y_train shapes:', x_train.shape, y_train.shape)
print('x_test, y_test shapes:', x_test.shape, y_test.shape)
print('Some qualities: ', y_train[:5])

x_train, y_train shapes: (4872, 11) (4872,)
x_test, y_test shapes: (1625, 11) (1625,)
Some qualities:  [6 7 8 5 6]


In [5]:
## Si quiere, puede normalizar las features
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

x_train = scaler.fit_transform(x_train)
x_test = scaler.transform(x_test)

In [6]:
#Comprobación de la normalización
print('x_train mean:', x_train.mean(axis=0))
print('x_train std:', x_train.std(axis=0))

x_train mean: [ 1.15064863e-15  1.43563322e-15  2.53269400e-14  3.71760641e-15
 -3.57372975e-16 -1.09096731e-16 -5.61862407e-18  1.85223021e-12
 -3.61682951e-14  5.10059975e-15 -4.98973924e-14]
x_train std: [1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


<a name='1.1'></a>
## Cuestión 1: Cree un modelo secuencial que contenga 4 capas ocultas(hidden layers), con más de 60 neuronas  por capa, sin regularización y obtenga los resultados.

Puntuación:
- Obtener el modelo correcto: 0.8 pts
- Compilar el modelo: 0.1pts
- Acertar con la función de pérdida: 0.1 pts

In [7]:
model = tf.keras.models.Sequential()
# Código aquí
# 1 CAPA
model.add(layers.Dense(64, input_shape=(11,), activation='relu'))
# 2 CAPA
model.add(layers.Dense(64, activation='relu'))
# 3 CAPA
model.add(layers.Dense(64, activation='relu'))
# 4 CAPA
model.add(layers.Dense(64, activation='relu'))
# CAPA DE SALIDA
model.add(layers.Dense(1))  # Activación lineal por defecto


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


In [8]:
# Compilación del modelo
# Código aquí
model.compile(
    optimizer='adam',
    loss='mse',
    metrics=['mae']
)

model.summary()

In [9]:
# No modifique el código
model.fit(x_train,
          y_train,
          epochs=200,
          batch_size=32,
          validation_split=0.2,
          verbose=1)

Epoch 1/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 7ms/step - loss: 15.5099 - mae: 3.2557 - val_loss: 1.8111 - val_mae: 0.9797
Epoch 2/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 1.3406 - mae: 0.9050 - val_loss: 1.1786 - val_mae: 0.7916
Epoch 3/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - loss: 0.8098 - mae: 0.7051 - val_loss: 0.7821 - val_mae: 0.6639
Epoch 4/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - loss: 0.6130 - mae: 0.6113 - val_loss: 0.6076 - val_mae: 0.5880
Epoch 5/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 0.5368 - mae: 0.5645 - val_loss: 0.5440 - val_mae: 0.5653
Epoch 6/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 4ms/step - loss: 0.4700 - mae: 0.5364 - val_loss: 0.5771 - val_mae: 0.5878
Epoch 7/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms

<keras.src.callbacks.history.History at 0x7d6c9af7c990>

In [10]:
# No modifique el código
results = model.evaluate(x_test, y_test, verbose=1)
print('Test Loss: {}'.format(results))

[1m51/51[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - loss: 0.5947 - mae: 0.5665
Test Loss: [0.6247455477714539, 0.5787404775619507]


<a name='1.2'></a>
## Cuestión 2: Utilice el mismo modelo de la cuestión anterior pero añadiendo al menos dos técnicas distinas de regularización. No es necesario reducir el test loss.

Ejemplos de regularización: [Prevent_Overfitting.ipynb](https://github.com/ezponda/intro_deep_learning/blob/main/class/Fundamentals/Prevent_Overfitting.ipynb)

In [11]:
model = tf.keras.models.Sequential()
# Código aquí
from tensorflow.keras import regularizers

# Capa 1: L2 regularization + Dropout después
model.add(layers.Dense(64, input_shape=(11,), activation='relu',
                       kernel_regularizer=regularizers.l2(0.001)))
model.add(layers.Dropout(0.3))  # Dropout del 30%

# Capa 2
model.add(layers.Dense(64, activation='relu',
                       kernel_regularizer=regularizers.l2(0.001)))
model.add(layers.Dropout(0.3))

# Capa 3
model.add(layers.Dense(64, activation='relu',
                       kernel_regularizer=regularizers.l2(0.001)))

# Capa 4
model.add(layers.Dense(64, activation='relu',
                       kernel_regularizer=regularizers.l2(0.001)))

# Capa de salida (regresión)
model.add(layers.Dense(1))


In [12]:
# Compilación del modelo
# Código aquí
model.compile(
    optimizer='adam',
    loss='mse',
    metrics=['mae']
)

In [13]:
batch_size=32

In [14]:
# No modifique el código
model.fit(x_train,
          y_train,
          epochs=200,
          batch_size=batch_size,
          validation_split=0.2,
          verbose=1)

Epoch 1/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 6ms/step - loss: 10.7426 - mae: 2.6594 - val_loss: 3.1927 - val_mae: 1.4590
Epoch 2/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 6ms/step - loss: 2.1811 - mae: 1.1201 - val_loss: 1.9731 - val_mae: 1.1120
Epoch 3/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - loss: 1.4514 - mae: 0.8713 - val_loss: 1.9678 - val_mae: 1.1407
Epoch 4/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 4ms/step - loss: 1.1335 - mae: 0.7543 - val_loss: 1.3771 - val_mae: 0.8879
Epoch 5/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 4ms/step - loss: 0.8659 - mae: 0.6373 - val_loss: 0.9323 - val_mae: 0.6674
Epoch 6/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 6ms/step - loss: 0.8429 - mae: 0.6226 - val_loss: 0.9241 - val_mae: 0.6666
Epoch 7/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 6ms

<keras.src.callbacks.history.History at 0x7d6c98ade850>

In [15]:
# No modifique el código
results = model.evaluate(x_test, y_test, verbose=1)
print('Test Loss: {}'.format(results))

[1m51/51[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - loss: 0.4683 - mae: 0.5156
Test Loss: [0.49958279728889465, 0.5312662720680237]


<a name='1.3'></a>
## Cuestión 3: Utilice el mismo modelo de la cuestión anterior pero añadiendo un callback de early stopping. No es necesario reducir el test loss.

In [16]:
model = tf.keras.models.Sequential()
# Código aquí
# Capa 1: L2 regularization + Dropout después
model.add(layers.Dense(64, input_shape=(11,), activation='relu',
                       kernel_regularizer=regularizers.l2(0.001)))
model.add(layers.Dropout(0.3))  # Dropout del 30%

# Capa 2
model.add(layers.Dense(64, activation='relu',
                       kernel_regularizer=regularizers.l2(0.001)))
model.add(layers.Dropout(0.3))

# Capa 3
model.add(layers.Dense(64, activation='relu',
                       kernel_regularizer=regularizers.l2(0.001)))

# Capa 4
model.add(layers.Dense(64, activation='relu',
                       kernel_regularizer=regularizers.l2(0.001)))

# Capa de salida (regresión)
model.add(layers.Dense(1))


In [17]:
# Compilación del modelo
# Código aquí
model.compile(
    optimizer='adam',
    loss='mse',
    metrics=['mae']
)

In [18]:
## definir el early stopping callback
# Código aquí
from tensorflow.keras.callbacks import EarlyStopping

early_stop = EarlyStopping(
    monitor='val_loss',
    patience=15,
    restore_best_weights=True
)

model.fit(x_train,
          y_train,
          epochs=200,
          batch_size=32,
          validation_split=0.2,
          verbose=1,
          callbacks=[early_stop]) # Código aquí

Epoch 1/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 5ms/step - loss: 16.0567 - mae: 3.3230 - val_loss: 2.5681 - val_mae: 1.2191
Epoch 2/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 2.3118 - mae: 1.1426 - val_loss: 2.1221 - val_mae: 1.1492
Epoch 3/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 4ms/step - loss: 1.5987 - mae: 0.9198 - val_loss: 1.8710 - val_mae: 1.0852
Epoch 4/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 5ms/step - loss: 1.2567 - mae: 0.8083 - val_loss: 1.2822 - val_mae: 0.8372
Epoch 5/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 6ms/step - loss: 0.9697 - mae: 0.6825 - val_loss: 1.1700 - val_mae: 0.7868
Epoch 6/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 4ms/step - loss: 0.8900 - mae: 0.6451 - val_loss: 0.8560 - val_mae: 0.6188
Epoch 7/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 6ms

<keras.src.callbacks.history.History at 0x7d6c8f7ef190>

In [19]:
# No modifique el código
results = model.evaluate(x_test, y_test, verbose=1)
print('Test Loss: {}'.format(results))

[1m51/51[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - loss: 0.4745 - mae: 0.5245
Test Loss: [0.5020849704742432, 0.5387829542160034]


<a name='1.4'></a>
## Cuestión 4: ¿Podría haberse usado otra función de activación de la neurona de salida? En caso afirmativo especifíquela.

Sí, podrían haberse usado otras funciones de activación en la neurona de salida, pero la elección depende del tipo de problema y del rango esperado de salida.

En este caso, como el enunciado indica que la calidad del vino puede tomar valores decimales (como 7.25), estamos ante un problema de regresión, y por tanto lo más adecuado es usar una activación lineal (es decir, sin aplicar ninguna función que limite la salida), que permite predecir cualquier número real.

No obstante, si el problema tuviera restricciones en el rango de la salida, se podrían considerar otras activaciones:

sigmoid: útil si quisiéramos que las predicciones estén entre 0 y 1, como en una probabilidad o una escala normalizada.

tanh: si quisiéramos limitar las salidas entre -1 y 1.

ReLU: si solo se permiten salidas mayores o iguales a 0 (aunque no limite un rango superior).

softmax: solo sería apropiada si se reformula el problema como una clasificación multiclase, ya que esta función devuelve probabilidades distribuidas entre clases, no valores continuos.

Sin embargo, todas estas opciones imponen restricciones artificiales al rango de salida. Como en este caso se busca predecir una calidad sin límite exacto y en escala continua, la activación lineal sigue siendo la opción más adecuada.

In [20]:
import numpy as np

# Ver cuántos valores diferentes hay en la columna 'quality'
valores_unicos = np.unique(y)
print("Valores únicos en 'quality':", valores_unicos)
print("Cantidad de clases distintas:", len(valores_unicos))

Valores únicos en 'quality': [3 4 5 6 7 8 9]
Cantidad de clases distintas: 7


En este conjunto de datos concreto, la columna quality contiene únicamente 7 valores enteros distintos (de 3 a 9). Esto permitiría tratar el problema como una clasificación multiclase si se deseara. Sin embargo, según el planteamiento original de la actividad, se espera que el modelo pueda predecir valores decimales, por lo que el enfoque adecuado sigue siendo la regresión.

Vamos a ver un ejemplo de modelo tratando a quality como categorica.

In [21]:
from tensorflow.keras.utils import to_categorical

# Reetiquetar las clases para que comiencen desde 0
# (3 → 0, 4 → 1, ..., 9 → 6)
y_train_class = y_train.astype(int) - 3
y_test_class = y_test.astype(int) - 3

# One-hot encoding para softmax
y_train_cat = to_categorical(y_train_class, num_classes=7)
y_test_cat = to_categorical(y_test_class, num_classes=7)

In [25]:
# Callbacks
early_stop = EarlyStopping(
    monitor='val_loss',
    patience=10,
    restore_best_weights=True
)

# Modelo
model = keras.Sequential()

# Capa 1
model.add(layers.Dense(64, activation='relu', input_shape=(x_train.shape[1],),
                       kernel_regularizer=regularizers.l2(0.001)))
model.add(layers.Dropout(0.3))

# Capa 2
model.add(layers.Dense(64, activation='relu',
                       kernel_regularizer=regularizers.l2(0.001)))
model.add(layers.Dropout(0.3))

# Capa 3
model.add(layers.Dense(64, activation='relu',
                       kernel_regularizer=regularizers.l2(0.001)))

# Capa de salida (7 clases)
model.add(layers.Dense(7, activation='softmax'))

# Compilación
model.compile(
    optimizer='adam',
    loss='categorical_crossentropy',
    metrics=['accuracy']
)

In [26]:
model.fit(
    x_train,
    y_train_cat,
    epochs=200,
    batch_size=32,
    validation_split=0.2,
    verbose=1,
    callbacks=[early_stop]
)

Epoch 1/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 5ms/step - accuracy: 0.3966 - loss: 1.6985 - val_accuracy: 0.5292 - val_loss: 1.3083
Epoch 2/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.4791 - loss: 1.3314 - val_accuracy: 0.5456 - val_loss: 1.2382
Epoch 3/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - accuracy: 0.5379 - loss: 1.2389 - val_accuracy: 0.5241 - val_loss: 1.2240
Epoch 4/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.5460 - loss: 1.2111 - val_accuracy: 0.5538 - val_loss: 1.1843
Epoch 5/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.5458 - loss: 1.1992 - val_accuracy: 0.5374 - val_loss: 1.1767
Epoch 6/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.5438 - loss: 1.1726 - val_accuracy: 0.5682 - val_loss: 1.1561
Epoch 7/200
[1m122/12

<keras.src.callbacks.history.History at 0x7d6c8e5df190>

In [27]:
results = model.evaluate(x_test, y_test_cat, verbose=1)
print("Test Loss:", results[0])
print("Test Accuracy:", results[1])

[1m51/51[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5637 - loss: 1.0530
Test Loss: 1.0764167308807373
Test Accuracy: 0.5550768971443176


Aunque es posible abordar el problema como una clasificación multiclase (dado que la variable quality tiene solo 7 clases enteras), los resultados obtenidos muestran un rendimiento aceptable pero no óptimo (~55–59% de precisión). Además, este enfoque no capta bien las diferencias sutiles entre calidades cercanas. Por tanto, la clasificación es viable, pero la regresión sigue siendo la opción más adecuada para este tipo de problema.

<a name='1.5'></a>
## Cuestión 5:  ¿Qué es lo que una neurona calcula?

**a)** Una función de activación seguida de una suma ponderada  de las entradas.

**b)** Una suma ponderada  de las entradas seguida de una función de activación.

**c)** Una función de pérdida, definida sobre el target.

**d)** Ninguna  de las anteriores es correcta


La respuesta correcta es:

 b) Una suma ponderada de las entradas seguida de una función de activación.

<a name='1.6'></a>
## Cuestión 6:  ¿Cuál de estas funciones de activación no debería usarse en una capa oculta (hidden layer)?

**a)** `sigmoid`

**b)** `tanh`

**c)** `relu`

**d)** `linear`


La respuesta correcta es:

d) linear

<a name='1.7'></a>
## Cuestión 7:  ¿Cuál de estas técnicas es efectiva para combatir el overfitting en una red con varias capas ocultas? Ponga todas las que lo sean.

**a)** Dropout

**b)** Regularización L2.

**c)** Aumentar el tamaño del test set.

**d)** Aumentar el tamaño del validation set.

**e)** Reducir el número de capas de la red.

**f)** Data augmentation.

La respuestas correctas son:

a) Dropout
b) Regularización L2
e) Reducir el número de capas de la red
f) Data augmentation


<a name='1.8'></a>
## Cuestión 8:  Supongamos que queremos entrenar una red para un problema de clasificación de imágenes con las siguientes clases: {'perro','gato','persona'}. ¿Cuántas neuronas y que función de activación debería tener la capa de salida? ¿Qué función de pérdida (loss function) debería usarse?


Como es un problema de clasificación con tres clases (perro, gato, persona), la capa de salida debe tener **3 NEURONAS**, una por clase, y usar la **ACTIVACIÓN SOFTMAX**, ya que es perfecta para problemas de clasificación multiclase.
La función de pérdida recomendada sería **categorical_crossentropy** si las etiquetas están en formato one-hot.
En caso de que las etiquetas estén codificadas como enteros (por ejemplo, 0, 1, 2), se puede usar **sparse_categorical_crossentropy**, que no requiere codificación one-hot.