<a href="https://colab.research.google.com/github/DCDPUAEM/DCDP/blob/main/04%20Deep%20Learning/notebooks/02-MLP-Regresion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Redes Neuronales MLP para regresi√≥n

‚úÖ Conectar la notebook en modo GPU (**en este caso no es muy necesario**)

Entorno de ejecuci√≥n ‚Üí Cambiar tipo de entorno de ejecuci√≥n

Algunas consideraciones:

* No dejar la notebook conectada sin actividad ya que Colab penaliza esto al asignar un entorno con GPU.
* No pedir el entorno con GPU si no se va a usar.

En esta notebook describiremos c√≥mo resolver un problema de regresi√≥n usando una red neuronal MLP.

Usaremos el conjunto de datos [Auto MPG](https://archive.ics.uci.edu/ml/datasets/auto+mpg) y construiremos un modelo para predecir la eficiencia en el uso de combustible (en MPG, millas por gal√≥n) de vehiculos hechos entre 1970 y 1980. La descripci√≥n de cada veh√≠culo incluye atributos como: n√∫mero de cil√≠ndros, potencia, pa√≠s de origen y peso.

Recuerda la simbolog√≠a de las secciones:

* üîΩ Esta secci√≥n no forma parte del proceso usual de Machine Learning. Es una exploraci√≥n did√°ctica de alg√∫n aspecto del funcionamiento del algoritmo.
* ‚ö° Esta secci√≥n incluye t√©cnicas m√°s avanzadas destinadas a optimizar o profundizar en el uso de los algoritmos.
* ‚≠ï Esta secci√≥n contiene un ejercicio o pr√°ctica a realizar. A√∫n si no se establece una fecha de entrega, es muy recomendable realizarla para practicar conceptos clave de cada tema.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

## El conjunto de datos

El dataset original se puede encontrar en [UCI Machine Learning Repository](https://archive.ics.uci.edu/dataset/9/auto+mpg).


Leemo el conjunto de datos en un dataframe.

In [None]:
url = "https://raw.githubusercontent.com/DCDPUAEM/DCDP/main/04%20Deep%20Learning/data/auto-mpg.data"

df = pd.read_csv(url,
                header=0,
                index_col=0,
                na_values = "?",
                comment='\t',
                skipinitialspace=True)
df

### Limpieza de los datos

El dataset contiene algunos valores desconocidos.

In [None]:
df.isna().sum()

Eliminemos las filas con valores faltantes, ya que son pocas. Tambi√©n podr√≠amos imputar valores.

In [None]:
clean_df = df.dropna()

La columna `"Origin"` es categorica, la codificamos con "one-hot" encoding

In [None]:
oh_df = pd.get_dummies(data=clean_df,columns=['Origin'],
                       drop_first=True,dtype=int)
oh_df

Reemplazamos los nombres del origen

In [None]:
oh_df.rename(columns={
                    # 'Origin_1':'USA',
                      'Origin_2':'Europe',
                      'Origin_3':'Japan'},
             inplace=True)
oh_df

Separamos las features y la variable dependiente.

In [None]:
X = oh_df.iloc[:,1:].values
y = oh_df['MPG'].values

print(X.shape, y.shape)

### Divisi√≥n en conjuntos de entrenamiento y prueba

Ahora dividimos el set de datos en un set de entrenamiento y otro de prueba.

Usaremos el conjunto de prueba en la evaluacion final de nuestro modelo.

In [None]:
# from tensorflow.python import train
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,train_size=0.85,random_state=189)

print(f"Train size: {X_train.shape[0]}")
print(f"Test size: {X_test.shape[0]}")

### Normalizamos

Inspeccionemos los rangos de las variables continuas

In [None]:
oh_df.iloc[:,1:7].plot.hist(subplots=True, legend=True)

Es una buena pr√°ctica normalizar funciones que utilizan diferentes escalas y rangos. Aunque el modelo *podr√≠a* converger sin normalizaci√≥n de features, esto suele dificultar el entrenamiento.

**Observaciones**:
1. Aunque s√≥lo entrenamos el escalador con el conjunto de datos de entrenamiento, este escalador tambi√©n se utilizar√° para normalizar el conjunto de datos de prueba. Necesitamos hacer eso para proyectar el conjunto de datos de prueba en la misma distribuci√≥n en la que el modelo ha sido entrenado.
2. El reescalamiento debe aplicarse a cualquier otro dato que entre al modelo, junto con la codificaci√≥n de un punto que hicimos anteriormente. Eso incluye el conjunto de pruebas, as√≠ como los datos en vivo cuando el modelo se usa en producci√≥n.

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scl = scaler.fit_transform(X_train)
X_test_scl = scaler.transform(X_test)

## El modelo

### Construcci√≥n del modelo

Construyamos nuestro modelo. Aqu√≠, utilizaremos un modelo `sequential` con dos capas ocultas y una capa de salida que devuelve un √∫nico valor continuo.

Observa la elecci√≥n de optimizador, m√©tricas de rendimiento, funci√≥n de costo y funciones de activaci√≥n.

Podemos definir directamente el modelo, como en la notebook pasada:

In [None]:
model = keras.Sequential([
layers.Dense(64, activation='relu', input_shape=[X_train_scl.shape[1]]),
layers.Dense(64, activation='relu'),
layers.Dense(1, activation=None)
])

optimizer = tf.keras.optimizers.RMSprop(0.001)

model.compile(loss='mse',
            optimizer=optimizer,
            metrics=['mae', 'mse'])

‚ö° Podemos tambi√©n definirlo por medio de una funci√≥n para generar nuevos modelos similares posteriormente:

In [None]:
def build_model():
    model = keras.Sequential([
    layers.Dense(64, activation='relu', input_shape=[X_train_scl.shape[1]]),
    layers.Dense(64, activation='relu'),
    layers.Dense(1)
    ])
    optimizer = tf.keras.optimizers.RMSprop(0.001)
    model.compile(loss='mse',
                optimizer=optimizer,
                metrics=['mae', 'mse'])
    return model

### Inspeccionemos el modelo

Use el m√©todo `.summary` para imprimir una descripci√≥n simple del modelo

In [None]:
model.summary()

### üîΩ Acerca de la inicializaci√≥n de los pesos

Observemos que ya podr√≠amos realizar predicciones con el modelo sin entrenar. Es decir, los pesos est√°n inicializados

Tomamos un *batch* de 10 ejemplos de los datos de entrenamiento y realizamos las predicciones.

In [None]:
example_batch = X_train_scl[:10]
example_predictions = model.predict(example_batch)
example_predictions

Podr√≠amos medir su error MSE, o cualquier otra m√©trica de rendimiento.

In [None]:
from sklearn.metrics import mean_squared_error

mean_squared_error(y_train[:10],example_predictions)

### Entrenamos el modelo

Entrenamos el modelo durante 1000 √©pocas, registramos la precisi√≥n de entrenamiento y validaci√≥n en el objeto `history`.

*El entrenamiendo deber√≠a durar alrededor de 1 minuto.*

In [None]:
EPOCHS = 1000

history = model.fit(
  X_train_scl, y_train,
  epochs=EPOCHS, validation_split = 0.2, verbose=1)

Podr√≠amos visualizar la historia del entrenamiento durante cada √©poca en un dataframe usando las estad√≠sticas almacenadas en el diccionario `history.history`.

Realizaremos algunas manipulaciones adicionales con las historia del entrenamiento.

In [None]:
hist = pd.DataFrame(history.history)
hist['epoch'] = history.epoch
hist.tail()

Definimos la siguiente funci√≥n para graficar las m√©tricas de rendimiento durante el entrenamiento.

In [None]:
def plot_history(history):
    plt.figure()
    plt.xlabel('Epoch')
    plt.ylabel('Mean Abs Error [MPG]')
    plt.plot(history.epoch, history.history['mae'],
            label='Train Error')
    plt.plot(history.epoch, history.history['val_mae'],
            label = 'Val Error')
    plt.legend()

    plt.figure()
    plt.xlabel('Epoch')
    plt.ylabel('Mean Square Error [$MPG^2$]')
    plt.plot(history.epoch, history.history['mse'],
            label='Train Error')
    plt.plot(history.epoch, history.history['val_mse'],
            label = 'Val Error')
    plt.legend()
    plt.show()

In [None]:
plot_history(history)

Este gr√°fico muestra poca mejora, o incluso degradaci√≥n en el error de validaci√≥n despu√©s de aproximadamente 100 √©pocas. **Esta es una se√±al de overfitting**.

Repitamos el entrenamiento con menos √©pocas.

Observa el par√°metro `verbose`

In [None]:
model_me = build_model()

EPOCHS = 100

history = model_me.fit(X_train_scl, y_train, epochs=EPOCHS,
                    validation_split = 0.2, verbose=0)

plot_history(history)

### M√©tricas de rendimiento

Veamos qu√© tan bien generaliza el modelo al usar el **conjunto de prueba**, el cual no fue usado para entrenar el modelo. Esto nos dice qu√© tan bien podemos esperar que el modelo prediga cu√°ndo lo usamos en el mundo real.

In [None]:
loss, mae, mse = model_me.evaluate(X_test_scl, y_test, verbose=2)

print(f"MAE para las predicciones en el conjunto de prueba: {np.round(mae,4)} MPG")

### Predicciones

Finalmente, predecimos los valores de MPG utilizando los datos del conjunto de prueba

In [None]:
y_pred = model_me.predict(X_test_scl).flatten()

plt.scatter(y_test, y_pred)
plt.xlabel('True Values [MPG]')
plt.ylabel('Predictions [MPG]')
plt.axis('equal')
plt.axis('square')
plt.xlim([0,plt.xlim()[1]])
plt.ylim([0,plt.ylim()[1]])
_ = plt.plot([-100, 100], [-100, 100])


Veamos la distribuci√≥n de errores.

In [None]:
error = y_pred - y_test
plt.hist(error, bins = 25)
plt.xlabel("Error en la predicci√≥n [MPG]")
plt.ylabel("Conteos")
plt.show()

## ‚≠ï Pr√°ctica

Realiza las siguientes tareas. En las primeras 5 tareas el objetivo es experimentar y reflexionar sobre el efecto de distintos aspectos del entrenamiento en el rendimiento del modelo.

1. Repite el entrenamiendo del modelo usando 100 √©pocas **sin normalizar los datos**, ¬øqu√© le sucede a las m√©tricas de rendimiento y curvas de entrenamiento?

2. Repite el entrenamiendo del modelo usando 100 √©pocas, normalizaci√≥n de los datos y **con alguna funci√≥n de activaci√≥n en la capa de salida (tanh o sigmoide)**, ¬øqu√© le sucede a las m√©tricas de rendimiento y curvas de entrenamiento?

4. Repite el entrenamiendo del modelo usando 100 √©pocas, normalizaci√≥n de los datos y **con la funci√≥n de activaci√≥n ReLU en la capa de salida**, ¬øqu√© le sucede a las m√©tricas de rendimiento y curvas de entrenamiento?

5. Comprueba el modelo que entrenamos en la notebook (con 100 √©pocas, normalizaci√≥n y sin funci√≥n de activaci√≥n en la salida) con los siguientes algoritmos de ML cl√°sico:
 * Regresi√≥n Lineal
 * Regresi√≥n Polinomial
 * Regresor KNN
 Comprueba los modelos usando MAE en el conjunto de prueba. ¬øCu√°l tuvo mejor desempe√±o?  

El objetivo en la siguiente tarea es experimentar para encontrar un mejor modelo que suba las m√©tricas de rendimiento del modelo. **Cuidado con el overfitting.**

5. Usando los datos normalizados, prueba con diferentes combinaciones de los par√°metros del m√≥delo:
    * N√∫mero de capas ocultas
    * N√∫mero de nueronas en las capas ocultas
    * Funciones de activaci√≥n de las capas ocultas
    * Optimizador y tasa de entrenamiento

 Puedes hacer el modelo m√°s sencillo o m√°s complejo. Reporta la combinaci√≥n de par√°metros que produjo el mejor resultado.

En esta √∫ltima tarea probaras c√≥mo es recibir nuevos datos para realizar predicciones con tu mejor modelo que hayas obtenido.

6. Ya que tengas tu mejor modelo, toma el archivo `mpg_new_data.csv` del repositorio y obten las predicciones para estos datos. Compararemos contra los valores reales. Guarda estas predicciones en un archivo CSV.

## Conclusiones

* El error cuadr√°tico medio (MSE) es una funci√≥n de p√©rdida com√∫n utilizada para problemas de regresi√≥n. Otra m√©trica de regresi√≥n com√∫n es el error absoluto medio (MAE).
* Cuando las features de datos de entrada num√©ricos tienen valores con diferentes rangos, cada caracter√≠stica debe escalarse independientemente al mismo rango.
* Si no hay muchos datos de entrenamiento, es preferible usar una red peque√±a con pocas capas ocultas para evitar el sobreajuste.
* El entrenamiento con pocas √©pocas es una t√©cnica √∫til para evitar el sobreajuste. Otra t√©cnica es el *early stopping* (coming soon...).