Dado que el entrenamiento de redes neuronales es una tarea  muy costosa, **se recomienda ejecutar el notebooks en [Google Colab](https://colab.research.google.com)**, por supuesto también se puede ejecutar en local.

Al entrar en [Google Colab](https://colab.research.google.com) bastará con hacer click en `upload` y subir este notebook. No olvide luego descargarlo en `File->Download .ipynb`

**El examen deberá ser entregado con las celdas ejecutadas, si alguna celda no está ejecutadas no se contará.**

El examen se divide en preguntas de código y preguntas teóricas, con la puntuación que se indica a continuación. La puntuación máxima será 10.

- [Actividad 1: Redes Densas](#actividad_1): 10 pts
    - Correcta normalización: máximo de 0.5 pts
    - [Cuestión 1](#1.1): 1.5 pts
    - [Cuestión 2](#1.2): 1.5 pts
    - [Cuestión 3](#1.3): 1.5 pts
    - [Cuestión 4](#1.4): 1 pts
    - [Cuestión 5](#1.5): 1 pts
    - [Cuestión 6](#1.6): 1 pts
    - [Cuestión 7](#1.7): 1 pts
    - [Cuestión 8](#1.8): 1 pts


In [18]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense,Dropout
from tensorflow.keras.regularizers import l2
from tensorflow.keras.callbacks import EarlyStopping


<a name='actividad_1'></a>
# Actividad 1: Redes Densas

Para esta actividad vamos a utilizar el [wine quality dataset](https://archive.ics.uci.edu/ml/datasets/wine+quality). Con el que trataremos de predecir la calidad del vino.

La calidad del vino puede tomar valores decimales (por ejemplo 7.25), independientemente de que en el dataset de entrenamiento sean números enteros. Por lo tanto, el problema es una `regresión`.

**Puntuación**: 

Normalizar las features correctamente (x_train, x_test): 0.5 pts 

- Correcta normalización: máximo de 0.5 pts
- [Cuestión 1](#1.1): 1 pt
- [Cuestión 2](#1.2): 1 pt
- [Cuestión 3](#1.3): 0.5 pts
- [Cuestión 4](#1.4): 0.5 pts
- [Cuestión 5](#1.5): 0.5 pts
- [Cuestión 6](#1.6): 0.5 pts
- [Cuestión 7](#1.7): 0.5 pts
- [Cuestión 8](#1.8): 0.5 pts



In [19]:
# Descargar los datos con pandas
df_red = pd.read_csv(
    'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv',
    sep=';'
)
df_white = pd.read_csv(
    'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv',
    sep=';'
)
df = pd.concat([df_red, df_white])

df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [20]:
feature_names = [
    'fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides', 
    'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol'
]


# separar features y target
y = df.pop('quality').values
X = df.copy().values

In [21]:
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

print('x_train, y_train shapes:', x_train.shape, y_train.shape)
print('x_test, y_test shapes:', x_test.shape, y_test.shape)
print('Some qualities: ', y_train[:5])

x_train, y_train shapes: (4872, 11) (4872,)
x_test, y_test shapes: (1625, 11) (1625,)
Some qualities:  [6 7 8 5 6]


In [22]:
## Si quiere, puede normalizar las features
scaler = StandardScaler()
x_train = scaler.fit_transform(x_train)
x_test = scaler.transform(x_test)


<a name='1.1'></a>
## Cuestión 1: Cree un modelo secuencial que contenga 4 capas ocultas(hidden layers), con más de 60 neuronas  por capa, sin regularización y obtenga los resultados.

Puntuación: 
- Obtener el modelo correcto: 0.8 pts
- Compilar el modelo: 0.1pts
- Acertar con la función de pérdida: 0.1 pts

In [23]:
model = tf.keras.models.Sequential()
# Código aquí
 
model = Sequential([
    Dense(61, activation='relu', input_shape=(11,)),  # Asumiendo que hay 11 características de entrada
    Dense(61, activation='relu'),
    Dense(61, activation='relu'),
    Dense(61, activation='relu'),
    Dense(1, activation='linear')  # Asumiendo que es una regresión
])

In [24]:
# Compilación del modelo
# Código aquí
model.compile(optimizer='adam', loss='mean_squared_error')  # Usar mean_squared_error para problemas de regresión

In [25]:
# No modifique el código
model.fit(x_train,
          y_train,
          epochs=200,
          batch_size=32,
          validation_split=0.2,
          verbose=1)

Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

Epoch 161/200
Epoch 162/200
Epoch 163/200
Epoch 164/200
Epoch 165/200
Epoch 166/200
Epoch 167/200
Epoch 168/200
Epoch 169/200
Epoch 170/200
Epoch 171/200
Epoch 172/200
Epoch 173/200
Epoch 174/200
Epoch 175/200
Epoch 176/200
Epoch 177/200
Epoch 178/200
Epoch 179/200
Epoch 180/200
Epoch 181/200
Epoch 182/200
Epoch 183/200
Epoch 184/200
Epoch 185/200
Epoch 186/200
Epoch 187/200
Epoch 188/200
Epoch 189/200
Epoch 190/200
Epoch 191/200
Epoch 192/200
Epoch 193/200
Epoch 194/200
Epoch 195/200
Epoch 196/200
Epoch 197/200
Epoch 198/200
Epoch 199/200
Epoch 200/200


<keras.src.callbacks.History at 0x2d31941a8f0>

In [27]:
# No modifique el código
results = model.evaluate(x_test, y_test, verbose=1)
print('Test Loss: {}'.format(results))

Test Loss: 0.663686215877533


<a name='1.2'></a>
## Cuestión 2: Utilice el mismo modelo de la cuestión anterior pero añadiendo al menos dos técnicas distinas de regularización. No es necesario reducir el test loss.

Ejemplos de regularización: [Prevent_Overfitting.ipynb](https://github.com/ezponda/intro_deep_learning/blob/main/class/Fundamentals/Prevent_Overfitting.ipynb)

In [48]:
model = tf.keras.models.Sequential()
# Código aquí
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.regularizers import l2
from tensorflow.keras.callbacks import EarlyStopping
model = Sequential([
    Dense(61, activation='relu', kernel_regularizer=l2(0.01), input_shape=(11,)),  # Añadir regularización L2
    Dropout(0.5),  # Añadir Dropout
    Dense(61, activation='relu', kernel_regularizer=l2(0.01)),  # Añadir regularización L2
    Dropout(0.5),  # Añadir Dropout
    Dense(61, activation='relu', kernel_regularizer=l2(0.01)),  # Añadir regularización L2
    Dropout(0.5),  # Añadir Dropout
    Dense(61, activation='relu', kernel_regularizer=l2(0.01)),  # Añadir regularización L2
    Dropout(0.5),  # Añadir Dropout
    Dense(1, activation='linear')  # Salida para regresión
])




In [49]:
# Compilación del modelo
# Código aquí
model.compile(optimizer='adam', loss='mean_squared_error')



In [50]:
batch_size=32

In [31]:
# No modifique el código
model.fit(x_train,
          y_train,
          epochs=200,
          batch_size=batch_size,
          validation_split=0.2,
          verbose=1)

Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

Epoch 161/200
Epoch 162/200
Epoch 163/200
Epoch 164/200
Epoch 165/200
Epoch 166/200
Epoch 167/200
Epoch 168/200
Epoch 169/200
Epoch 170/200
Epoch 171/200
Epoch 172/200
Epoch 173/200
Epoch 174/200
Epoch 175/200
Epoch 176/200
Epoch 177/200
Epoch 178/200
Epoch 179/200
Epoch 180/200
Epoch 181/200
Epoch 182/200
Epoch 183/200
Epoch 184/200
Epoch 185/200
Epoch 186/200
Epoch 187/200
Epoch 188/200
Epoch 189/200
Epoch 190/200
Epoch 191/200
Epoch 192/200
Epoch 193/200
Epoch 194/200
Epoch 195/200
Epoch 196/200
Epoch 197/200
Epoch 198/200
Epoch 199/200
Epoch 200/200


<keras.src.callbacks.History at 0x2d319431a20>

In [32]:
# No modifique el código
results = model.evaluate(x_test, y_test, verbose=1)
print('Test Loss: {}'.format(results))

Test Loss: 0.5791063904762268


<a name='1.3'></a>
## Cuestión 3: Utilice el mismo modelo de la cuestión anterior pero añadiendo un callback de early stopping. No es necesario reducir el test loss.

In [33]:
model = tf.keras.models.Sequential()
# Código aquí
model = Sequential([
    Dense(61, activation='relu', kernel_regularizer=l2(0.01), input_shape=(11,)),  # Añadir regularización L2
    Dropout(0.5),  # Añadir Dropout
    Dense(61, activation='relu', kernel_regularizer=l2(0.01)),  # Añadir regularización L2
    Dropout(0.5),  # Añadir Dropout
    Dense(61, activation='relu', kernel_regularizer=l2(0.01)),  # Añadir regularización L2
    Dropout(0.5),  # Añadir Dropout
    Dense(61, activation='relu', kernel_regularizer=l2(0.01)),  # Añadir regularización L2
    Dropout(0.5),  # Añadir Dropout
    Dense(1, activation='linear')  # Salida para regresión
])


In [41]:
# Compilación del modelo
# Código aquí
model.compile(optimizer='adam', loss='mean_squared_error')


In [42]:
## definir el early stopping callback
# Código aquí

early_stopping = EarlyStopping(monitor='val_loss', patience=10)

model.fit(x_train,
          y_train,
          epochs=200,
          batch_size=32,
          validation_split=0.2,
          verbose=1,
          callbacks=[early_stopping]) 

Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200


<keras.src.callbacks.History at 0x2d31c11afe0>

In [43]:
# No modifique el código
results = model.evaluate(x_test, y_test, verbose=1)
print('Test Loss: {}'.format(results))

Test Loss: 0.6167688965797424


<a name='1.4'></a>
## Cuestión 4: ¿Podría haberse usado otra función de activación de la neurona de salida? En caso afirmativo especifíquela.

Sí, se podría haber utilizado otra función de activación en la neurona de salida, dependiendo del problema que estemos tratando de resolver. En este caso, como estamos trabajando con un problema de regresión, la función de activación lineal (o ninguna, que es equivalente) es una elección común porque puede producir una gama de valores de salida real.

Sin embargo, si tuviéramos un problema de clasificación binaria, podríamos usar la función de activación sigmoide, que devuelve un valor entre 0 y 1, lo que puede interpretarse como una probabilidad. Para problemas de clasificación multiclase, la función de activación softmax es una elección común para la capa de salida porque devuelve una distribución de probabilidad sobre las clases.

Por lo tanto, aunque la función de activación lineal es una elección razonable para este problema, siempre es importante considerar el contexto del problema al elegir la función de activación.

<a name='1.5'></a>
## Cuestión 5:  ¿Qué es lo que una neurona calcula?

**a)** Una función de activación seguida de una suma ponderada  de las entradas.

**b)** Una suma ponderada  de las entradas seguida de una función de activación.

**c)** Una función de pérdida, definida sobre el target.

**d)** Ninguna  de las anteriores es correcta


La respuesta es la **b) Una suma ponderada de las entradas seguida de una función de activación.**

En una red neuronal, cada neurona recibe varias entradas y cada una de estas entradas se multiplica por un peso asociado. Estos productos se suman junto con un término de sesgo para producir la salida neta de la neurona. A esta salida neta se le aplica luego una función de activación para producir la salida final de la neurona. Por lo tanto, una neurona calcula una suma ponderada de sus entradas y luego aplica una función de activación a esta suma.

<a name='1.6'></a>
## Cuestión 6:  ¿Cuál de estas funciones de activación no debería usarse en una capa oculta (hidden layer)?

**a)** `sigmoid`

**b)** `tanh`

**c)** `relu`

**d)** `linear`


La **d) linear**.

Las funciones de activación lineales pueden ser útiles en la capa de salida en ciertos tipos de problemas de regresión, pero en las capas ocultas, no introducen la no linealidad necesaria para que la red aprenda de datos más complejos. En cambio, las funciones de activación como sigmoid, tanh y relu son comúnmente usadas en las capas ocultas.

<a name='1.7'></a>
## Cuestión 7:  ¿Cuál de estas técnicas es efectiva para combatir el overfitting en una red con varias capas ocultas? Ponga todas las que lo sean.

**a)** Dropout

**b)** Regularización L2.

**c)** Aumentar el tamaño del test set.

**d)** Aumentar el tamaño del validation set.

**e)** Reducir el número de capas de la red.

**f)** Data augmentation.

Las técnicas que son efectivas para combatir el sobreajuste (overfitting) en una red con varias capas ocultas son:

**a) Dropout:** Esta es una técnica de regularización en la que durante el entrenamiento, algunas neuronas de la red se “apagan” o se ignoran. Esto ayuda a prevenir el sobreajuste ya que obliga a la red a aprender características más robustas y generalizables.

**b) Regularización L2:** Esta es otra técnica de regularización que añade un término de penalización a la función de pérdida basado en los pesos de las neuronas. Esto ayuda a prevenir el sobreajuste al desalentar a la red de aprender pesos demasiado grandes.

**d) Aumentar el tamaño del validation set:** Un conjunto de validación más grande puede ayudar a detectar el sobreajuste más temprano durante el entrenamiento, ya que proporciona una mejor estimación del rendimiento del modelo en datos no vistos.

**e) Reducir el número de capas de la red:** Una red con menos capas tiene menos parámetros y por lo tanto, es menos propensa al sobreajuste. Sin embargo, también puede ser menos capaz de aprender
patrones complejos en los datos.

**f) Data augmentation:** Esta técnica genera datos de entrenamiento adicionales al aplicar transformaciones aleatorias a las imágenes existentes, como rotaciones, desplazamientos, volteos, etc. Esto puede ayudar a prevenir el sobreajuste al proporcionar más variedad y cantidad de datos de entrenamiento.

<a name='1.8'></a>
## Cuestión 8:  Supongamos que queremos entrenar una red para un problema de clasificación de imágenes con las siguientes clases: {'perro','gato','persona'}. ¿Cuántas neuronas y que función de activación debería tener la capa de salida? ¿Qué función de pérdida (loss function) debería usarse?


Para un problema de clasificación multiclase como en este caso, donde las clases son {‘perro’, ‘gato’, ‘persona’}, la capa de salida de la red neuronal debería tener 3 neuronas, una para cada clase.

La función de activación más comúnmente utilizada en la capa de salida para problemas de clasificación multiclase es softmax. La función softmax convierte las salidas de las neuronas en probabilidades que suman 1, lo que permite interpretar las salidas como probabilidades para cada clase.

En cuanto a la función de pérdida, la elección más común para problemas de clasificación multiclase es la entropía cruzada categórica (Categorical Cross-Entropy). Esta función de pérdida es adecuada porque mide la “distancia” entre la distribución de probabilidad predicha por el modelo y la distribución de probabilidad real (es decir, qué clase es la correcta). 