Dado que el entrenamiento de redes neuronales es una tarea  muy costosa, **se recomienda ejecutar el notebooks en [Google Colab](https://colab.research.google.com)**, por supuesto también se puede ejecutar en local.

Al entrar en [Google Colab](https://colab.research.google.com) bastará con hacer click en `upload` y subir este notebook. No olvide luego descargarlo en `File->Download .ipynb`

**El examen deberá ser entregado con las celdas ejecutadas, si alguna celda no está ejecutadas no se contará.**

El examen se divide en preguntas de código y preguntas teóricas, con la puntuación que se indica a continuación. La puntuación máxima será 10.

- [Actividad 1: Redes Densas](#actividad_1): 10 pts
    - Correcta normalización: máximo de 0.5 pts
    - [Cuestión 1](#1.1): 1.5 pts
    - [Cuestión 2](#1.2): 1.5 pts
    - [Cuestión 3](#1.3): 1.5 pts
    - [Cuestión 4](#1.4): 1 pts
    - [Cuestión 5](#1.5): 1 pts
    - [Cuestión 6](#1.6): 1 pts
    - [Cuestión 7](#1.7): 1 pts
    - [Cuestión 8](#1.8): 1 pts


In [None]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split 

<a name='actividad_1'></a>
# Actividad 1: Redes Densas

Para esta actividad vamos a utilizar el [wine quality dataset](https://archive.ics.uci.edu/ml/datasets/wine+quality). Con el que trataremos de predecir la calidad del vino.

La calidad del vino puede tomar valores decimales (por ejemplo 7.25), independientemente de que en el dataset de entrenamiento sean números enteros. Por lo tanto, el problema es una `regresión`.

**Puntuación**: 

Normalizar las features correctamente (x_train, x_test): 0.5 pts 

- Correcta normalización: máximo de 0.5 pts
- [Cuestión 1](#1.1): 1 pt
- [Cuestión 2](#1.2): 1 pt
- [Cuestión 3](#1.3): 0.5 pts
- [Cuestión 4](#1.4): 0.5 pts
- [Cuestión 5](#1.5): 0.5 pts
- [Cuestión 6](#1.6): 0.5 pts
- [Cuestión 7](#1.7): 0.5 pts
- [Cuestión 8](#1.8): 0.5 pts



In [12]:
# Descargar los datos con pandas
df_red = pd.read_csv(
    'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv',
    sep=';'
)
df_white = pd.read_csv(
    'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv',
    sep=';'
)
df = pd.concat([df_red, df_white])

df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [15]:
feature_names = [
    'fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides', 
    'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol'
]


# separar features y target
y = df.pop('quality').values
X = df.copy().values

In [16]:
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

print('x_train, y_train shapes:', x_train.shape, y_train.shape)
print('x_test, y_test shapes:', x_test.shape, y_test.shape)
print('Some qualities: ', y_train[:5])

x_train, y_train shapes: (4872, 11) (4872,)
x_test, y_test shapes: (1625, 11) (1625,)
Some qualities:  [6 7 8 5 6]


In [27]:
## Si quiere, puede normalizar las features
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

x_train = scaler.fit_transform(x_train)
x_test = scaler.transform(x_test)

from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
y_train = encoder.fit_transform(y_train)
y_test = encoder.transform(y_test)


<a name='1.1'></a>
## Cuestión 1: Cree un modelo secuencial que contenga 4 capas ocultas(hidden layers), con más de 60 neuronas  por capa, sin regularización y obtenga los resultados.

Puntuación: 
- Obtener el modelo correcto: 0.8 pts
- Compilar el modelo: 0.1pts
- Acertar con la función de pérdida: 0.1 pts

In [68]:
model = tf.keras.models.Sequential()
# Código aquí

# Primera capa
model.add(layers.Dense(256, activation='relu', input_shape=(11,), ))
# Segunda capa
model.add(layers.Dense(128, activation='relu'))
# Tercera capa
model.add(layers.Dense(64, activation='tanh'))
# Cuarta capa
model.add(layers.Dense(64, activation='tanh'))

model.add(layers.Dense(7, activation='softmax'))

In [69]:
# Compilación del modelo
# Código aquí
model.compile(
    optimizer='adam',
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

In [70]:
# No modifique el código
model.fit(x_train,
          y_train,
          epochs=200,
          batch_size=32,
          validation_split=0.2,
          verbose=1)

Epoch 1/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - accuracy: 0.4724 - loss: 1.2945 - val_accuracy: 0.5549 - val_loss: 1.0853
Epoch 2/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5674 - loss: 1.0550 - val_accuracy: 0.5744 - val_loss: 1.0330
Epoch 3/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.5761 - loss: 0.9943 - val_accuracy: 0.5610 - val_loss: 1.0341
Epoch 4/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5625 - loss: 1.0234 - val_accuracy: 0.5600 - val_loss: 1.0259
Epoch 5/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5903 - loss: 0.9741 - val_accuracy: 0.5856 - val_loss: 1.0168
Epoch 6/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5842 - loss: 0.9642 - val_accuracy: 0.5815 - val_loss: 1.0097
Epoch 7/200
[1m122/12

<keras.src.callbacks.history.History at 0x1e1febb0790>

In [71]:
# No modifique el código
results = model.evaluate(x_test, y_test, verbose=1)
print('Test Loss: {}'.format(results))

[1m51/51[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6227 - loss: 3.1332
Test Loss: [3.3006839752197266, 0.6030769348144531]


<a name='1.2'></a>
## Cuestión 2: Utilice el mismo modelo de la cuestión anterior pero añadiendo al menos dos técnicas distinas de regularización. No es necesario reducir el test loss.

Ejemplos de regularización: [Prevent_Overfitting.ipynb](https://github.com/ezponda/intro_deep_learning/blob/main/class/Fundamentals/Prevent_Overfitting.ipynb)

In [73]:
from tensorflow.keras import regularizers

model = tf.keras.models.Sequential()
# Código aquí
# Primera capa
model.add(layers.Dense(256, activation='relu', input_shape=(11,), ))
model.add(layers.Dropout(0.3))
# Segunda capa
model.add(layers.Dense(128, activation='relu', kernel_regularizer=regularizers.l1_l2(l1=1e-5,l2=5e-4)))
model.add(layers.Dropout(0.3))
# Tercera capa
model.add(layers.Dense(64, activation='tanh'))
model.add(layers.BatchNormalization())
# Cuarta capa
model.add(layers.Dense(64, activation='tanh'))
model.add(layers.BatchNormalization())

model.add(layers.Dense(7, activation='softmax'))

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


In [74]:
# Compilación del modelo
# Código aquí
model.compile(
    optimizer='adam',
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

In [75]:
batch_size=64

In [76]:
# No modifique el código
model.fit(x_train,
          y_train,
          epochs=200,
          batch_size=batch_size,
          validation_split=0.2,
          verbose=1)

Epoch 1/200
[1m61/61[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 6ms/step - accuracy: 0.2888 - loss: 2.1722 - val_accuracy: 0.5385 - val_loss: 1.6280
Epoch 2/200
[1m61/61[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.4826 - loss: 1.6034 - val_accuracy: 0.5487 - val_loss: 1.3904
Epoch 3/200
[1m61/61[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.5086 - loss: 1.4025 - val_accuracy: 0.5477 - val_loss: 1.2479
Epoch 4/200
[1m61/61[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.5454 - loss: 1.2621 - val_accuracy: 0.5528 - val_loss: 1.1899
Epoch 5/200
[1m61/61[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.5671 - loss: 1.1897 - val_accuracy: 0.5538 - val_loss: 1.1579
Epoch 6/200
[1m61/61[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.5384 - loss: 1.1764 - val_accuracy: 0.5764 - val_loss: 1.1386
Epoch 7/200
[1m61/61[0m [32m━━━

<keras.src.callbacks.history.History at 0x1e18107a940>

In [77]:
# No modifique el código
results = model.evaluate(x_test, y_test, verbose=1)
print('Test Loss: {}'.format(results))

[1m51/51[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.5873 - loss: 1.1760
Test Loss: [1.2536938190460205, 0.6000000238418579]


<a name='1.3'></a>
## Cuestión 3: Utilice el mismo modelo de la cuestión anterior pero añadiendo un callback de early stopping. No es necesario reducir el test loss.

In [83]:
from tensorflow.keras import regularizers

model = tf.keras.models.Sequential()
# Código aquí
# Primera capa
model.add(layers.Dense(256, activation='relu', input_shape=(11,), ))
model.add(layers.Dropout(0.3))
# Segunda capa
model.add(layers.Dense(128, activation='relu', kernel_regularizer=regularizers.l1_l2(l1=1e-5,l2=5e-4)))
model.add(layers.Dropout(0.3))
# Tercera capa
model.add(layers.Dense(64, activation='tanh'))
model.add(layers.BatchNormalization())
# Cuarta capa
model.add(layers.Dense(64, activation='tanh'))
model.add(layers.BatchNormalization())

model.add(layers.Dense(7, activation='softmax'))

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


In [84]:
# Compilación del modelo
# Código aquí
model.compile(
    optimizer='adam',
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

In [85]:
## definir el early stopping callback
# Código aquí
import datetime

log_dir = 'log/fit/' + datetime.datetime.now().strftime('%Y%m%d-%H%M%S')

tensorboard_callback = tf.keras.callbacks.TensorBoard(log_dir=log_dir, histogram_freq=1)

es_callback = keras.callbacks.EarlyStopping(
    monitor='val_loss',
    patience=20,
    restore_best_weights=True,
    verbose=1
)

model.fit(x_train,
          y_train,
          epochs=200,
          batch_size=32,
          validation_split=0.2,
          verbose=1,
          callbacks=[tensorboard_callback, es_callback]) # Código aquí

Epoch 1/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 5ms/step - accuracy: 0.3412 - loss: 2.0837 - val_accuracy: 0.5333 - val_loss: 1.4396
Epoch 2/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.5100 - loss: 1.4414 - val_accuracy: 0.5446 - val_loss: 1.2166
Epoch 3/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 4ms/step - accuracy: 0.5236 - loss: 1.2574 - val_accuracy: 0.5467 - val_loss: 1.1681
Epoch 4/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 4ms/step - accuracy: 0.5172 - loss: 1.2060 - val_accuracy: 0.5395 - val_loss: 1.1518
Epoch 5/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 4ms/step - accuracy: 0.5718 - loss: 1.1262 - val_accuracy: 0.5354 - val_loss: 1.1510
Epoch 6/200
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 4ms/step - accuracy: 0.5393 - loss: 1.1564 - val_accuracy: 0.5538 - val_loss: 1.1328
Epoch 7/200
[1m122/12

<keras.src.callbacks.history.History at 0x1e1878fa760>

In [86]:
# No modifique el código
results = model.evaluate(x_test, y_test, verbose=1)
print('Test Loss: {}'.format(results))

[1m51/51[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5712 - loss: 1.0578
Test Loss: [1.0869908332824707, 0.5612307786941528]


<a name='1.4'></a>
## Cuestión 4: ¿Podría haberse usado otra función de activación de la neurona de salida? En caso afirmativo especifíquela.

- Respuesta: 

    - No. La función de activación adecuada para este problema de clasificación es **Softmax** ya que convierte la salida en probabilidades que suman 1 para cada una de las 7 clases, facilitando así la clasificación exclusiva
    - En el caso de la función de activación 'sigmoid', funcionaría siempre y cuando el problema fuese multilabel(clases independientes).

<a name='1.5'></a>
## Cuestión 5:  ¿Qué es lo que una neurona calcula?

**a)** Una función de activación seguida de una suma ponderada  de las entradas.

**b)** Una suma ponderada  de las entradas seguida de una función de activación.

**c)** Una función de pérdida, definida sobre el target.

**d)** Ninguna  de las anteriores es correcta


- **Respuesta**:
    - b) Una suma ponderada de las entradas seguida de una función de activación.

<a name='1.6'></a>
## Cuestión 6:  ¿Cuál de estas funciones de activación no debería usarse en una capa oculta (hidden layer)?

**a)** `sigmoid`

**b)** `tanh`

**c)** `relu`

**d)** `linear`


- **Respuesta**: 
    - d) linear. Porque es como si no 'hiciese nada'

<a name='1.7'></a>
## Cuestión 7:  ¿Cuál de estas técnicas es efectiva para combatir el overfitting en una red con varias capas ocultas? Ponga todas las que lo sean.

**a)** Dropout

**b)** Regularización L2.

**c)** Aumentar el tamaño del test set.

**d)** Aumentar el tamaño del validation set.

**e)** Reducir el número de capas de la red.

**f)** Data augmentation.

- **Respuestas**: 
    - a) Dropout
    - b) Regularizaicón L2
    - f) Data augmentation

<a name='1.8'></a>
## Cuestión 8:  Supongamos que queremos entrenar una red para un problema de clasificación de imágenes con las siguientes clases: {'perro','gato','persona'}. ¿Cuántas neuronas y que función de activación debería tener la capa de salida? ¿Qué función de pérdida (loss function) debería usarse?


- Respuestas:
    - La cantidad de neuronas en la capa de salida deberían ser **3** (una por clase).
    - La función de activación de la capa de salida debería ser **softmax**, ya que estamos tratando con una clasificación multiclase.
    - La función de pérdida (loss function) debería ser **categorical_crossentropy**, ya que estamos tratando con una clasificación multiclase.