Dado que el entrenamiento de redes neuronales es una tarea  muy costosa, **se recomienda ejecutar el notebooks en [Google Colab](https://colab.research.google.com)**, por supuesto también se puede ejecutar en local.

Al entrar en [Google Colab](https://colab.research.google.com) bastará con hacer click en `upload` y subir este notebook. No olvide luego descargarlo en `File->Download .ipynb`

**El examen deberá ser entregado con las celdas ejecutadas, si alguna celda no está ejecutadas no se contará.**

El examen se divide en preguntas de código y preguntas teóricas, con la puntuación que se indica a continuación. La puntuación máxima será 10.

- [Actividad 1: Redes Densas](#actividad_1): 10 pts
    - Correcta normalización: máximo de 0.5 pts
    - [Cuestión 1](#1.1): 1.5 pts
    - [Cuestión 2](#1.2): 1.5 pts
    - [Cuestión 3](#1.3): 1.5 pts
    - [Cuestión 4](#1.4): 1 pts
    - [Cuestión 5](#1.5): 1 pts
    - [Cuestión 6](#1.6): 1 pts
    - [Cuestión 7](#1.7): 1 pts
    - [Cuestión 8](#1.8): 1 pts


In [None]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

<a name='actividad_1'></a>
# Actividad 1: Redes Densas

Para esta actividad vamos a utilizar el [wine quality dataset](https://archive.ics.uci.edu/ml/datasets/wine+quality). Con el que trataremos de predecir la calidad del vino.

La calidad del vino puede tomar valores decimales (por ejemplo 7.25), independientemente de que en el dataset de entrenamiento sean números enteros. Por lo tanto, el problema es una `regresión`.

**Puntuación**:

Normalizar las features correctamente (x_train, x_test): 0.5 pts

- Correcta normalización: máximo de 0.5 pts
- [Cuestión 1](#1.1): 1 pt
- [Cuestión 2](#1.2): 1 pt
- [Cuestión 3](#1.3): 0.5 pts
- [Cuestión 4](#1.4): 0.5 pts
- [Cuestión 5](#1.5): 0.5 pts
- [Cuestión 6](#1.6): 0.5 pts
- [Cuestión 7](#1.7): 0.5 pts
- [Cuestión 8](#1.8): 0.5 pts



In [26]:
# Descargar los datos con pandas
df_red = pd.read_csv(
    'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv',
    sep=';'
)
df_white = pd.read_csv(
    'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv',
    sep=';'
)
df = pd.concat([df_red, df_white])

df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [27]:
feature_names = [
    'fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides',
    'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol'
]

# separar features y target
y = df.pop('quality').values
X = df.copy().values

In [28]:
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

print('x_train, y_train shapes:', x_train.shape, y_train.shape)
print('x_test, y_test shapes:', x_test.shape, y_test.shape)
print('Some qualities: ', y_train[:5])

x_train, y_train shapes: (4872, 11) (4872,)
x_test, y_test shapes: (1625, 11) (1625,)
Some qualities:  [6 7 8 5 6]


In [29]:
from sklearn.preprocessing import StandardScaler


## Si quiere, puede normalizar las features
scaler = StandardScaler()
x_train_scaled = scaler.fit_transform(x_train)
x_test_scaled  = scaler.transform(x_test)

<a name='1.1'></a>
## Cuestión 1: Cree un modelo secuencial que contenga 4 capas ocultas(hidden layers), con más de 60 neuronas  por capa, sin regularización y obtenga los resultados.

Puntuación:
- Obtener el modelo correcto: 0.8 pts
- Compilar el modelo: 0.1pts
- Acertar con la función de pérdida: 0.1 pts

In [30]:
model = tf.keras.models.Sequential([
    keras.Input(shape=(11,)),
    layers.Dense(64, activation='relu', name='hidden1'),
    layers.Dense(64, activation='relu', name='hidden2'),
    layers.Dense(64, activation='relu', name='hidden3'),
    layers.Dense(64, activation='relu', name='hidden4'),
    layers.Dense(1, name='output')
])

In [31]:
# Compilación del modelo
# Código aquí
model.compile(
    optimizer='adam',
    loss='mse',
    metrics=['mae']
)

In [32]:
# No modifique el código
model.fit(x_train_scaled,
          y_train,
          epochs=200,
          batch_size=32,
          validation_split=0.2,
          verbose=1)

Epoch 1/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 5ms/step - loss: 16.5823 - mae: 3.4137 - val_loss: 1.9210 - val_mae: 1.0080
Epoch 2/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 1.4450 - mae: 0.9534 - val_loss: 1.1881 - val_mae: 0.8050
Epoch 3/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - loss: 0.9507 - mae: 0.7661 - val_loss: 0.8700 - val_mae: 0.6918
Epoch 4/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - loss: 0.7063 - mae: 0.6574 - val_loss: 0.6618 - val_mae: 0.6144
Epoch 5/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 4ms/step - loss: 0.5707 - mae: 0.5969 - val_loss: 0.6062 - val_mae: 0.5880
Epoch 6/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 5ms/step - loss: 0.5159 - mae: 0.5656 - val_loss: 0.5431 - val_mae: 0.5677
Epoch 7/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 5ms

<keras.src.callbacks.history.History at 0x7a82fac4f0d0>

In [34]:
# No modifique el código
results = model.evaluate(x_test_scaled, y_test, verbose=1)
print('Test Loss: {}'.format(results))

[1m51/51[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step - loss: 0.6561 - mae: 0.5833
Test Loss: [0.7006070613861084, 0.5896413922309875]


<a name='1.2'></a>
## Cuestión 2: Utilice el mismo modelo de la cuestión anterior pero añadiendo al menos dos técnicas distinas de regularización. No es necesario reducir el test loss.

Ejemplos de regularización: [Prevent_Overfitting.ipynb](https://github.com/ezponda/intro_deep_learning/blob/main/class/Fundamentals/Prevent_Overfitting.ipynb)

In [35]:
from tensorflow.keras import regularizers

model = keras.Sequential([
    keras.Input(shape=(11,)),
    layers.Dense(
        64, activation='relu',
        kernel_regularizer=regularizers.l2(1e-3),  # L2 λ=0.001
        name='hidden1_l2'
    ),
    layers.Dropout(0.3),  # veremos en el punto 2
    layers.Dense(
        64, activation='relu',
        kernel_regularizer=regularizers.l2(1e-3),
        name='hidden2_l2'
    ),
    layers.Dropout(0.3),
    layers.Dense(
        64, activation='relu',
        kernel_regularizer=regularizers.l2(1e-3),
        name='hidden3_l2'
    ),
    layers.Dropout(0.3),
    layers.Dense(
        64, activation='relu',
        kernel_regularizer=regularizers.l2(1e-3),
        name='hidden4_l2'
    ),
    layers.Dense(1, name='output')
])

In [36]:
# Compilación del modelo
model.compile(
    optimizer='adam',
    loss='mse',
    metrics=['mae']
)

In [None]:
batch_size=64

In [37]:
# No modifique el código
model.fit(x_train_scaled,
          y_train,
          epochs=200,
          batch_size=batch_size,
          validation_split=0.2,
          verbose=1)

Epoch 1/200
[1m61/61[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 16ms/step - loss: 18.2360 - mae: 3.7397 - val_loss: 3.3090 - val_mae: 1.3857
Epoch 2/200
[1m61/61[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 9ms/step - loss: 3.4936 - mae: 1.4610 - val_loss: 2.7309 - val_mae: 1.2933
Epoch 3/200
[1m61/61[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 10ms/step - loss: 2.5759 - mae: 1.2326 - val_loss: 2.1500 - val_mae: 1.1364
Epoch 4/200
[1m61/61[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step - loss: 2.2147 - mae: 1.1192 - val_loss: 2.1331 - val_mae: 1.1602
Epoch 5/200
[1m61/61[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - loss: 1.9057 - mae: 1.0359 - val_loss: 1.9925 - val_mae: 1.1228
Epoch 6/200
[1m61/61[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - loss: 1.7270 - mae: 0.9566 - val_loss: 1.7233 - val_mae: 1.0232
Epoch 7/200
[1m61/61[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step - loss

<keras.src.callbacks.history.History at 0x7a8302271a10>

In [38]:
# No modifique el código
results = model.evaluate(x_test_scaled, y_test, verbose=1)
print('Test Loss: {}'.format(results))

[1m51/51[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step - loss: 0.4698 - mae: 0.5118
Test Loss: [0.4924577474594116, 0.5248380303382874]


<a name='1.3'></a>
## Cuestión 3: Utilice el mismo modelo de la cuestión anterior pero añadiendo un callback de early stopping. No es necesario reducir el test loss.

In [39]:
model = keras.Sequential([
    keras.Input(shape=(11,)),
    layers.Dense(
        64, activation='relu',
        kernel_regularizer=regularizers.l2(1e-3),  # L2 λ=0.001
        name='hidden1_l2'
    ),
    layers.Dropout(0.3),  # veremos en el punto 2
    layers.Dense(
        64, activation='relu',
        kernel_regularizer=regularizers.l2(1e-3),
        name='hidden2_l2'
    ),
    layers.Dropout(0.3),
    layers.Dense(
        64, activation='relu',
        kernel_regularizer=regularizers.l2(1e-3),
        name='hidden3_l2'
    ),
    layers.Dropout(0.3),
    layers.Dense(
        64, activation='relu',
        kernel_regularizer=regularizers.l2(1e-3),
        name='hidden4_l2'
    ),
    layers.Dense(1, name='output')
])

In [40]:
# Compilación del modelo
model.compile(
    optimizer='adam',
    loss='mse',
    metrics=['mae']
)

In [41]:
from tensorflow.keras.callbacks import EarlyStopping

## definir el early stopping callback
early_stop = EarlyStopping(
    monitor='val_loss',
    patience=10,
    restore_best_weights=True
)


model.fit(x_train_scaled,
          y_train,
          epochs=200,
          batch_size=32,
          validation_split=0.2,
          verbose=1,
          callbacks=[early_stop])

Epoch 1/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 5ms/step - loss: 14.7419 - mae: 3.2208 - val_loss: 2.2432 - val_mae: 1.0932
Epoch 2/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 4ms/step - loss: 2.9140 - mae: 1.2950 - val_loss: 1.7823 - val_mae: 1.0257
Epoch 3/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 1.8821 - mae: 1.0364 - val_loss: 1.3503 - val_mae: 0.8587
Epoch 4/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - loss: 1.5612 - mae: 0.8936 - val_loss: 1.5177 - val_mae: 0.9485
Epoch 5/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - loss: 1.2318 - mae: 0.7877 - val_loss: 1.0457 - val_mae: 0.7103
Epoch 6/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 5ms/step - loss: 1.0929 - mae: 0.7417 - val_loss: 0.7881 - val_mae: 0.6026
Epoch 7/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms

<keras.src.callbacks.history.History at 0x7a82f893ba50>

In [42]:
# No modifique el código
results = model.evaluate(x_test_scaled, y_test, verbose=1)
print('Test Loss: {}'.format(results))

[1m51/51[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 0.4962 - mae: 0.5250
Test Loss: [0.523128092288971, 0.5384411215782166]


<a name='1.4'></a>
## Cuestión 4: ¿Podría haberse usado otra función de activación de la neurona de salida? En caso afirmativo especifíquela.

Se podría utilizar la función 'relu' como función de activación de la neurona de salida.

<a name='1.5'></a>
## Cuestión 5:  ¿Qué es lo que una neurona calcula?

**a)** Una función de activación seguida de una suma ponderada  de las entradas.

**b)** Una suma ponderada  de las entradas seguida de una función de activación. ✓

**c)** Una función de pérdida, definida sobre el target.

**d)** Ninguna  de las anteriores es correcta


b) Una suma ponderada de las entradas seguida de una función de activación.

<a name='1.6'></a>
## Cuestión 6:  ¿Cuál de estas funciones de activación no debería usarse en una capa oculta (hidden layer)?

**a)** `sigmoid`

**b)** `tanh`

**c)** `relu`

**d)** `linear` ✓


d) **linear**

<a name='1.7'></a>
## Cuestión 7:  ¿Cuál de estas técnicas es efectiva para combatir el overfitting en una red con varias capas ocultas? Ponga todas las que lo sean.

**a)** Dropout ✓

**b)** Regularización L2. ✓

**c)** Aumentar el tamaño del test set.

**d)** Aumentar el tamaño del validation set.

**e)** Reducir el número de capas de la red. ✓

**f)** Data augmentation. ✓

**a)** Dropout

**b)** Regularización L2.

**e)** Reducir el número de capas de la red.

**f)** Data augmentation.

<a name='1.8'></a>
## Cuestión 8:  Supongamos que queremos entrenar una red para un problema de clasificación de imágenes con las siguientes clases: {'perro','gato','persona'}. ¿Cuántas neuronas y que función de activación debería tener la capa de salida? ¿Qué función de pérdida (loss function) debería usarse?


**Número de neuronas**: 3

**Función de activación**: softmax

**Función de pérdida**: categorical_crossentropy