Dado que el entrenamiento de redes neuronales es una tarea  muy costosa, **se recomienda ejecutar el notebooks en [Google Colab](https://colab.research.google.com)**, por supuesto también se puede ejecutar en local.

Al entrar en [Google Colab](https://colab.research.google.com) bastará con hacer click en `upload` y subir este notebook. No olvide luego descargarlo en `File->Download .ipynb`

**El examen deberá ser entregado con las celdas ejecutadas, si alguna celda no está ejecutadas no se contará.**

El examen se divide en preguntas de código y preguntas teóricas, con la puntuación que se indica a continuación. La puntuación máxima será 10.

- [Actividad 1: Redes Densas](#actividad_1): 10 pts
    - Correcta normalización: máximo de 0.5 pts
    - [Cuestión 1](#1.1): 1.5 pts
    - [Cuestión 2](#1.2): 1.5 pts
    - [Cuestión 3](#1.3): 1.5 pts
    - [Cuestión 4](#1.4): 1 pts
    - [Cuestión 5](#1.5): 1 pts
    - [Cuestión 6](#1.6): 1 pts
    - [Cuestión 7](#1.7): 1 pts
    - [Cuestión 8](#1.8): 1 pts


In [1]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

<a name='actividad_1'></a>
# Actividad 1: Redes Densas

Para esta actividad vamos a utilizar el [wine quality dataset](https://archive.ics.uci.edu/ml/datasets/wine+quality). Con el que trataremos de predecir la calidad del vino.

La calidad del vino puede tomar valores decimales (por ejemplo 7.25), independientemente de que en el dataset de entrenamiento sean números enteros. Por lo tanto, el problema es una `regresión`.

**Puntuación**:

Normalizar las features correctamente (x_train, x_test): 0.5 pts

- Correcta normalización: máximo de 0.5 pts
- [Cuestión 1](#1.1): 1 pt
- [Cuestión 2](#1.2): 1 pt
- [Cuestión 3](#1.3): 0.5 pts
- [Cuestión 4](#1.4): 0.5 pts
- [Cuestión 5](#1.5): 0.5 pts
- [Cuestión 6](#1.6): 0.5 pts
- [Cuestión 7](#1.7): 0.5 pts
- [Cuestión 8](#1.8): 0.5 pts



In [2]:
# Descargar los datos con pandas
df_red = pd.read_csv(
    'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv',
    sep=';'
)
df_white = pd.read_csv(
    'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv',
    sep=';'
)
df = pd.concat([df_red, df_white])

df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [7]:
df['quality'].agg(['min','max'])

Unnamed: 0,quality
min,3
max,9


In [3]:
feature_names = [
    'fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides',
    'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol'
]


# separar features y target
y = df.pop('quality').values
X = df.copy().values

In [4]:
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

print('x_train, y_train shapes:', x_train.shape, y_train.shape)
print('x_test, y_test shapes:', x_test.shape, y_test.shape)
print('Some qualities: ', y_train[:5])

x_train, y_train shapes: (4872, 11) (4872,)
x_test, y_test shapes: (1625, 11) (1625,)
Some qualities:  [6 7 8 5 6]


In [None]:
## Si quiere, puede normalizar las features

In [5]:

from sklearn.preprocessing import StandardScaler



x_scaler = StandardScaler()
x_scaler.fit(x_train)
x_train_scaled = x_scaler.transform(x_train).astype(np.float32)
x_test_scaled  = x_scaler.transform(x_test).astype(np.float32)


print(x_train_scaled.mean(axis=0)[:3], x_train_scaled.std(axis=0)[:3])


[-1.2160718e-08 -1.4411796e-08 -6.0020604e-08] [1.0000017 1.0000048 1.0000017]


<a name='1.1'></a>
## Cuestión 1: Cree un modelo secuencial que contenga 4 capas ocultas(hidden layers), con más de 60 neuronas  por capa, sin regularización y obtenga los resultados.

Puntuación:
- Obtener el modelo correcto: 0.8 pts
- Compilar el modelo: 0.1pts
- Acertar con la función de pérdida: 0.1 pts

In [6]:
n_features = x_train_scaled.shape[1]

In [7]:

model = tf.keras.models.Sequential([
    layers.Input(shape=(n_features,)),
    layers.Dense(64, activation="relu"),   # >60
    layers.Dense(64, activation="relu"),
    layers.Dense(64, activation="relu"),
    layers.Dense(64, activation="relu"),
    layers.Dense(1)                        # regression：a linear output with no activation
])
model.summary()

In [8]:
# Compilación del modelo

model.compile(
    optimizer=tf.keras.optimizers.Adam(),
    loss="mae",          # or "mse"
    metrics=["mae"]
)

In [9]:
# No modifique el código
model.fit(x_train,
          y_train,
          epochs=200,
          batch_size=32,
          validation_split=0.2,
          verbose=1)

Epoch 1/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 4ms/step - loss: 1.3545 - mae: 1.3545 - val_loss: 1.0648 - val_mae: 1.0648
Epoch 2/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 0.6997 - mae: 0.6997 - val_loss: 0.7222 - val_mae: 0.7222
Epoch 3/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 0.6590 - mae: 0.6590 - val_loss: 0.8682 - val_mae: 0.8682
Epoch 4/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 0.7270 - mae: 0.7270 - val_loss: 0.7671 - val_mae: 0.7671
Epoch 5/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 0.6685 - mae: 0.6685 - val_loss: 0.6240 - val_mae: 0.6240
Epoch 6/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 0.6260 - mae: 0.6260 - val_loss: 0.6080 - val_mae: 0.6080
Epoch 7/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/

<keras.src.callbacks.history.History at 0x7fad4de4e150>

In [10]:
# No modifique el código
results = model.evaluate(x_test, y_test, verbose=1)
print('Test Loss: {}'.format(results))

[1m51/51[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - loss: 0.5831 - mae: 0.5831
Test Loss: [0.5870789885520935, 0.5870789885520935]


<a name='1.2'></a>
## Cuestión 2: Utilice el mismo modelo de la cuestión anterior pero añadiendo al menos dos técnicas distinas de regularización. No es necesario reducir el test loss.

Ejemplos de regularización: [Prevent_Overfitting.ipynb](https://github.com/ezponda/intro_deep_learning/blob/main/class/Fundamentals/Prevent_Overfitting.ipynb)

In [11]:
from tensorflow.keras import layers, regularizers

In [12]:
model = tf.keras.models.Sequential()


# regularization: L2 + Dropout


n_features = x_train_scaled.shape[1]

model = tf.keras.models.Sequential([
    layers.Input(shape=(n_features,)),

    layers.Dense(64, activation="relu",
                 kernel_regularizer=regularizers.l2(1e-4)),
    layers.Dropout(0.30),

    layers.Dense(64, activation="relu",
                 kernel_regularizer=regularizers.l2(1e-4)),
    layers.Dropout(0.30),

    layers.Dense(64, activation="relu",
                 kernel_regularizer=regularizers.l2(1e-4)),
    layers.Dropout(0.30),

    layers.Dense(64, activation="relu",
                 kernel_regularizer=regularizers.l2(1e-4)),

    layers.Dense(1)
])


In [13]:
# Compilación del modelo


model.compile(
    optimizer=tf.keras.optimizers.Adam(),
    loss="mae",
    metrics=["mae"]
)


In [18]:
batch_size= 128 #increase batch size to smooth gradients, and reduce steps per epoch


In [19]:
# No modifique el código
model.fit(x_train,
          y_train,
          epochs=200,
          batch_size=batch_size,
          validation_split=0.2,
          verbose=1)

Epoch 1/200
[1m31/31[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 12ms/step - loss: 0.5422 - mae: 0.5334 - val_loss: 0.5436 - val_mae: 0.5347
Epoch 2/200
[1m31/31[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 11ms/step - loss: 0.5439 - mae: 0.5351 - val_loss: 0.5421 - val_mae: 0.5333
Epoch 3/200
[1m31/31[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 11ms/step - loss: 0.5453 - mae: 0.5365 - val_loss: 0.5586 - val_mae: 0.5498
Epoch 4/200
[1m31/31[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 9ms/step - loss: 0.5474 - mae: 0.5386 - val_loss: 0.5407 - val_mae: 0.5319
Epoch 5/200
[1m31/31[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 5ms/step - loss: 0.5439 - mae: 0.5351 - val_loss: 0.5554 - val_mae: 0.5466
Epoch 6/200
[1m31/31[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step - loss: 0.5548 - mae: 0.5460 - val_loss: 0.5523 - val_mae: 0.5435
Epoch 7/200
[1m31/31[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step - loss

<keras.src.callbacks.history.History at 0x7fad4c450a40>

In [20]:
# No modifique el código
results = model.evaluate(x_test, y_test, verbose=1)
print('Test Loss: {}'.format(results))

[1m51/51[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 0.5487 - mae: 0.5394
Test Loss: [0.5561681389808655, 0.5468693375587463]


<a name='1.3'></a>
## Cuestión 3: Utilice el mismo modelo de la cuestión anterior pero añadiendo un callback de early stopping. No es necesario reducir el test loss.

In [26]:
model = tf.keras.models.Sequential()
# regularization: L2 + Dropout


n_features = x_train_scaled.shape[1]

model = tf.keras.models.Sequential([
    layers.Input(shape=(n_features,)),

    layers.Dense(64, activation="relu",
                 kernel_regularizer=regularizers.l2(1e-4)),
    layers.Dropout(0.30),

    layers.Dense(64, activation="relu",
                 kernel_regularizer=regularizers.l2(1e-4)),
    layers.Dropout(0.30),

    layers.Dense(64, activation="relu",
                 kernel_regularizer=regularizers.l2(1e-4)),
    layers.Dropout(0.30),

    layers.Dense(64, activation="relu",
                 kernel_regularizer=regularizers.l2(1e-4)),

    layers.Dense(1)
])



In [27]:
# Compilación del modelo


model.compile(
    optimizer=tf.keras.optimizers.Adam(),
    loss="mae",
    metrics=["mae"]
)

In [28]:
## definir el early stopping callback

early_stopping = tf.keras.callbacks.EarlyStopping(
    monitor="val_loss",
    patience=20,
    min_delta=1e-4,
    restore_best_weights=True
)

model.fit(x_train,
          y_train,
          epochs=200,
          batch_size=32,
          validation_split=0.2,
          verbose=1,
          callbacks=[early_stopping])

Epoch 1/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 6ms/step - loss: 4.5354 - mae: 4.5156 - val_loss: 3.1616 - val_mae: 3.1433
Epoch 2/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 1.9008 - mae: 1.8825 - val_loss: 2.8313 - val_mae: 2.8133
Epoch 3/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - loss: 1.4780 - mae: 1.4600 - val_loss: 2.5297 - val_mae: 2.5119
Epoch 4/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 1.2455 - mae: 1.2277 - val_loss: 2.3749 - val_mae: 2.3572
Epoch 5/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 1.0905 - mae: 1.0729 - val_loss: 2.1287 - val_mae: 2.1111
Epoch 6/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - loss: 0.9847 - mae: 0.9672 - val_loss: 2.2014 - val_mae: 2.1840
Epoch 7/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/

<keras.src.callbacks.history.History at 0x7fad45dbf020>

In [29]:
# No modifique el código
results = model.evaluate(x_test, y_test, verbose=1)
print('Test Loss: {}'.format(results))

[1m51/51[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - loss: 0.5696 - mae: 0.5615
Test Loss: [0.5722163915634155, 0.5640775561332703]


<a name='1.4'></a>
## Cuestión 4: ¿Podría haberse usado otra función de activación de la neurona de salida? En caso afirmativo especifíquela.

Sí, pero solo si queremos imponer restricciones al rango.

Por defecto, al ser regresión, la salida correcta es lineal (sin activación).

Alternativas válidas según el caso:

[3, 9] acotado: reescalar el objetivo y usar una activación acotada.
ej.: sigmoid(con target value en [0,1])con y_scaled=(y-3)/6, 0 tanh(con target value en [-1,1]) con y_scaled = (y-6)/3


Si no se requieren estas restricciones, me parace mantener salida lineal es lo más adecuado; usar sigmoid/tanh sin reescalar puede introducir sesgo y saturación del gradiente.

Yes, but only if you want to enforce bounds on the prediction range.
By default,since this is regression—the correct output is linear (no activation).


Valid alternatives depending on the case where the quality range is [3,9]:


Bounded to [3, 9]: rescale the target and use a bounded activation.


sigmoid (target in [0,1]): yscaled=(y−3)/6


tanh (target in [-1,1]): yscaled=(y−6)/3




If these constraints aren’t required, we'd prefer keep a linear output; using sigmoid/tanh without rescaling can introduce bias and gradient saturation.

<a name='1.5'></a>
## Cuestión 5:  ¿Qué es lo que una neurona calcula?

**a)** Una función de activación seguida de una suma ponderada  de las entradas.

**b)** Una suma ponderada  de las entradas seguida de una función de activación.

**c)** Una función de pérdida, definida sobre el target.

**d)** Ninguna  de las anteriores es correcta


b)

<a name='1.6'></a>
## Cuestión 6:  ¿Cuál de estas funciones de activación no debería usarse en una capa oculta (hidden layer)?

**a)** `sigmoid`

**b)** `tanh`

**c)** `relu`

**d)** `linear`


d)

<a name='1.7'></a>
## Cuestión 7:  ¿Cuál de estas técnicas es efectiva para combatir el overfitting en una red con varias capas ocultas? Ponga todas las que lo sean.

**a)** Dropout

**b)** Regularización L2.

**c)** Aumentar el tamaño del test set.

**d)** Aumentar el tamaño del validation set.

**e)** Reducir el número de capas de la red.

**f)** Data augmentation.

a) b) e) f)

<a name='1.8'></a>
## Cuestión 8:  Supongamos que queremos entrenar una red para un problema de clasificación de imágenes con las siguientes clases: {'perro','gato','persona'}. ¿Cuántas neuronas y que función de activación debería tener la capa de salida? ¿Qué función de pérdida (loss function) debería usarse?


número neuronas en la salida: 3 (una por clase: perro, gato, persona).

Activación: softmax (clases mutuamente excluyentes - distribución de probabilidad que suma 1).

Pérdida (loss):

Si las etiquetas están one-hot -> categorical_crossentropy.

Si las etiquetas son enteros 0/1/2 -> sparse_categorical_crossentropy.

(Métrica típica: accuracy.)