# Linear Regression: Validation, final evaluation, and metrics
M2U3 - Exercise 4

## What are we going to do?
- Create a synthetic dataset for multivariate linear regression
- Preprocess the data
- We will train the model on the training subset and check its suitability
- We will find the optimal *lambda* hyperparameter for the validation subset
- We will evaluate the model on the test subset
- We will make predictions about new future examples

Remember to follow the instructions for the submission of assignments indicated in [Submission Instructions](https://github.com/Tokio-School/Machine-Learning-EN/blob/main/Submission_instructions.md).

In [None]:
import time
import numpy as np
from matplotlib import pyplot as plt

## Create a synthetic dataset for linear regression

We will start, as usual, by creating a synthetic dataset for this exercise.

This time, for the error term, use a non-symmetric range, different from [-1, 1], such as [-a, b], with parameters *a* and *b* that you can control. In this way we can modify this distribution at later points to force a greater difference between the training and validation subsets

In [None]:
# TODO: Generate a synthetic dataset manually, with a bias term and an error term

m = 1000
n = 3

X = [...]

Theta_true = [...]

error = 0.2

Y = [...]

# Check the values and dimensions of the vectors
print('Theta to be estimated and its dimensions:')
print()
print()

print('First 10 rows and 5 columns of X and Y:')
print()
print()

print('Dimensions of X and Y:')
print()

## Preprocess the data

We will preprocess the data completely, to leave it ready to train the model.

To preprocess the data, we will follow the steps below:
- Randomly rearrange the data.
- Normalise the data.
- Divide the dataset into training, validation, and test subsets.

### Randomly rearrange the dataset

This time we are going to use a synthetic dataset created using random data. Therefore, it will not be necessary to rearrange the data, as it is already randomized and disorganized by default.

However, we may often encounter real datasets whose data has a certain order or pattern, which can confound our training.

Therefore, before starting to process the data, the first thing we need to do is to randomly reorder it, especially before splitting it into training, validation, and test subsets.

*Note*: Very important! Remember to always reorder the *X* and *Y* examples and results in the same order, so that each example is assigned the same result before and after reordering.

In [None]:
# TODO: Randomly reorder the dataset

print('First 10 rows and 5 columns of X and Y:')
print()
print()

# Use an initial random state of 42, in order to maintain reproducibility
print('Reorder X and Y:')
X, Y = [...]

print('First 10 rows and 5 columns of X and Y:')
print()
print()

print('Dimensions of X and Y:')
print()

Check that *X* and *Y* have the correct dimensions and a different order than before..

## Normalise the dataset

Once the data has been randomly reordered, we will proceed with the normalisation of the *X* examples dataset.

To do this, copy the code cells from the previous exercises to normalise it.

*Nota*: En ejercicios pasados usábamos 2 celdas de código diferentes, una para definir la función de normalización y otra para normalizar el dataset. Puedes combinar ambas celdas en una para guardar dicho preprocesamiento en una celda reutilizable en el futuro.

In [None]:
# TODO: Normaliza el dataset con una función de normalización

def normalize(x, mu=None, std=None):
    """ Normaliza un dataset con ejemplos X
    
    Argumentos posicionales:
    x -- array 2D de Numpy con los ejemplos, sin término de bias
    mu -- vector 1D de Numpy con la media de cada característica/columna
    std -- vector 1D de Numpy con la desviación típica de cada característica/columna
    
    Devuelve:
    x_norm -- ndarray 2D con los ejemplos, con sus características normalizadas
    mu, std -- si mu y std son None, calcula y devuelve dichos parámetros. Si no, usa dichos parámetros para normalizar x sin devolverlos
    """
    return [...]

# Halla la media y la desviación típica de las características de X (columnas), excepto la primera (bias)
mu = [...]
std = [...]

print('X original (primeras 10 filas y columnas):')
print(X[:10, :10])
print(X.shape)

print('Media y desviación típica de las características:')
print(mu)
print(mu.shape)
print(std)
print(std.shape)

print('X normalizada:')
X_norm = np.copy(X)
X_norm[...] = normalize(X[...], mu, std)    # Normaliza sólo la columna 1 y siguientes, no la 0
print(X_norm)
print(X_norm.shape)

### Dividir el dataset en subsets de entrenamiento, validación y test

Por último, vamos a dividir el dataset en los 3 subsets a utilizar.

Para ello, vamos a usar en esta ocasión un ratio de 60%/20%/20%, ya que partimos de 1000 ejemplos.
Como decíamos, para un nº de ejemplos diferente, podemos modificar el ratio:

In [None]:
# TODO: Divide el dataset X e Y en los 3 subsets según los ratios indicados

ratio = [60,20,20]
print('Ratio:\n', ratio, ratio[0] + ratio[1] + ratio[2])

# Calcula los índices de corte para X e Y
# Consejo: la función round() y el atributo x.shape pueden serte útiles
r = [0, 0]
r[0] = [...]
r[1] = [...]
print('Índices de corte:\n', r)

# Consejo: la función np.array_split() puede serte útil
X_train, X_val, X_test = [...]
Y_train, Y_val, Y_test = [...]

print('Tamaños de los subsets:')
print(X_train.shape)
print(Y_train.shape)
print(X_val.shape)
print(Y_val.shape)
print(X_test.shape)
print(Y_test.shape)

## Entrenar un modelo inicial sobre el subset de entrenamiento

Antes de comenzar a optimizar el hiper-parámetro *lambda*, vamos a entrenar un modelo inicial sin regularización sobre el subset de entrenamiento, para comprobar su rendimiento e idoneidad, y estar seguros que tiene sentido entrenar un modelo de regresión lineal multivariable sobre dicho dataset, ya que las características podrían no ser las adecuadas, haber una baja relación entre ellas, no seguir una relación lineal, etc.

Para ello, vamos a seguir los siguientes pasos:
- Entrenar un modelo inicial, sin regularización, con *lambda* a 0.
- Representar el histórico de la función de coste para comprobar su evolución.
- Reentrenar el modelo si es necesario, p. ej. variando el ratio de aprendizaje *alpha*.

Copia las celdas de ejercicios anteriores donde implementabas las funciones de coste y gradient descent regularizadas, y copia la celda donde entrenabas el modelo:

In [None]:
# TODO: Copia las celdas con las funciones de coste y gradient descent regularizadas

In [None]:
# TODO: Copia la celda donde entrenamos el modelo
# Entrena tu modelo sobre el subset de entrenamiento sin regularizar y obtén el coste final y el histórico de su evolución

De la misma forma que hacíamos antes, comprueba el entrenamiento del modelo, representando gráficamente la evolución de la función de coste según el nº de iteraciones, copiando la celda de código correspondiente:

In [None]:
# TODO: Representa la evolución de la función de coste vs el nº de iteraciones

plt.figure(1)

Como decíamos antes, revisa el entrenamiento de tu modelo y modifica algún parámetro si es necesario para reentrenarlo, buscando que tenga un buen rendimiento: el ratio de aprendizaje, el punto de convergencia, el nº máx. de iteraciones, etc., excepto el parámetro de regularización *lambda*, que debe estar a 0.

*Nota*: Este punto es importante, puesto que por lo general, estos hiper-parámetros serán los mismos que utilizaremos para lo que resta de la optimización del modelo, por lo que ahora es el momento de encontrar los valores idóneos.

### Comprobar si existe desviación o sobreajuste, *bias* o *varianza*

Hay un test que podemos hacer rápidamente para comprobar si nuestro modelo inicial sufre claramente de desviación, varianza, o tiene un funcionamiento más o menos aceptable.

Vamos a representar gráficamente la evolución de la función de coste de 2 modelos, uno entrenado sobre los primeros *n* ejemplos del subset de entrenamiento y otro entrenado sobre los primeros *n* ejemplos del subset de validación.

Puesto que el subset de entrenamiento y el subset de validación no tienen el mismo tamaño, usa únicamente el mismo nº de ejemplos para este subset que ejemplos totales tenga el de validación.

Para ello entrena 2 modelos en igualdad de condiciones, copiando de nuevo las celdas de código correspondientes:

In [None]:
# TODO: Establece una theta_ini e hiper-parámetros comunes a ambos modelos, para entrenarlos en igualdad de condiciones

theta_ini = [...]

print('Theta inicial:')
print(theta_ini)

alpha = 1e-1
lambda_ = 0.
e = 1e-3
iter_ = 1e3

print('Hiper-arámetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

In [None]:
# TODO: Entrena un modelo sin regularización sobre los n primeros valores de X_train, donde n es el nº de
# ejemplos disponibles en X_val
# Usa j_hist_train y theta_train como nombres de variables para distinguirlos del otro modelo

*Nota*: Comprueba que *theta_ini* no se ha modificado, o modifica tu código para que ambos modelos usen la misma *theta_ini*.

In [None]:
# TODO: Del mismo modo, entrena un modelo sin regularización sobre X_val con los mismos parámetros
# Recuerda usar j_hist_val y theta_val como nobmres de variables

Ahora representa gráficamente ambas evoluciones sobre la misma gráfica, con colores diferentes, para poder compararlas:

In [None]:
# TODO: Representa en una gráfica de líneas las evoluciones del coste en ambos datasets para compararlas

plt.figure(2)

plt.title()
plt.xlabel()
plt.ylabel()

# Usa colores diferentes para ambas series, e indica una leyenda para distinguirlos
plt.plot()
plt.plot()

plt.show()

Con un dataset sintético aleatorio es difícil que se diera sobre-ajuste, ya que los datos originales seguirán el mismo patrón, pero de esta forma podríamos apreciar dichos problemas de la siguiente forma:

- Si el coste final en ambos subsets es alto, puede haber un problema de desviación o *bias*.
- Si el coste final en ambos subsets es muy diferente entre sí, puede haber un problema de sobreajuste o *varianza*, especialmente cuando el coste en el subset de entrenamiento es bastante inferior a en el subset de validación,

Recordamos qué significaban la desviación y sobre-ajuste:
- La desviación se produce cuando el modelo no puede ajustar suficientemente bien la curva del dataset, sea porque no son las características correctas (o faltarían otras), sea porque los datos tienen demasiado error, o sea porque el modelo sigue una relación distinta o sea demasiado simple.
- El sobreajuste se produce cuando el modelo ajusta muy bien la curva del dataset, demasiado bien, demasiado ajustada a los ejemplos sobre los que se ha entrenado, y cuando tiene que predecir sobre nuevos resultados no lo hace correctamente.

### Comprobar la idoneidad del modelo

Como decíamos, otra razón para entrenar un modelo inicial es comprobar si tiene sentido entrenar un modelo de regresión lineal multivariable sobre dicho dataset.

Si vemos que el modelo sufre de sobreajuste, siempre podemos corregirla con la regularización. Sin embargo, si vemos que sufre de una alta desviación, i.e. que el coste final es muy alto, puede que nuestro tipo de modelo o las características escogidas no sean idóneas para este problema.

En este caso, hemos comprobado que el error es suficientemente bajo para que resulte prometedor continuar entrenando dicho modelo de regresión lineal multivariable.

## Hallar el hiper-parámetro *lambda* óptimo sobre el subset de validación

Ahora, para conseguir hallar la *lambda* óptima, vamos a entrenar un modelo diferente por cada valor de *lambda* a considerar, sobre el subset de entrenamiento, y comprobar su precisión sobre el subset de validación.

Vamos a representar gráficamente el error o coste final de cada modelo vs el valor de *lambda* usado, para ver qué modelo tiene un error o coste menor en el subset de validación.

De esta forma, entrenamos todos los modelos sobre el mismo subset y en igualdad de condiciones (excepto *lambda*), y los evaluamos en un subset de datos que no han visto previamente, que no hemos usado para entrenarlos.

El subset de validación, por tanto, no se usa para entrenar el modelo, sino sólo para evaluar el valor de *lambda* óptimo. Excepto en el punto anterior, donde hemos hecho una evaluación inicial rápida sobre la posible aparición de sobreajuste.

In [None]:
# TODO: Entrena un modelo por cada valor de lambda diferente sobre X_train y evalúalo sobre X_val

lambdas = [0., 1e-3, 3e-3, 1e-2, 3e-2, 1e-1, 3e-1, 1e0, 3e0, 1e1]
# BONUS: Genera un array de lambdas con 10 valores en una escala logarítmica entre 10^-3 y 10, alternando entre valores cuyo primer decimal no-cero es un 1 y un 3, como esta lista

# Completa el código para entrenar un modelo diferente para cada valor de lambda sobre X_train
# Almacena su theta y error/coste final
# Posteriormente, evalúa su coste total en el subset de validación

# Almacena dicha información en los siguientes arrays, del mismo tamaño que el de lambdas
j_train = [...]
j_val = [...]
theta_val = [...]

Una vez entrenados todos los modelos, representa en una gráfica de líneas su coste final sobre el subset de entrenamiento y el coste final sobre el de validación vs el valor de *lambda* utilizado:

In [None]:
# TODO: Representa gráficamente el error final para cada valor de lambda

plt.figure(3)

# Completa con tu código

Una vez representados dichos errores finales, podríamos elegir automáticamente el modelo con el valor de *lambda* óptimo:

In [None]:
# TODO: Escoge el modelo y el valor de lambda óptimos, con el menor error sobre el subset de validación

# Itera sobre la  theta y lambda de todos los modelos y escoge el de menor coste en el subset de validación

j_final = [...]
theta_final = [...]
lambda_final = [...]

Una vez implementados todos los pasos anteriores, tenemos nuestro modelo entrenado y sus hiper-parámetros optimizados.

## Evaluar el modelo finalmente sobre el subset de test

Finalmente, hemos encontrado nuestros coeficientes *theta* e hiper-parámetro *lambda* óptimos, por lo que ya disponemos de un modelo entrenado y listo para ser usado.

Sin embargo, aunque hemos calculado su error o coste final sobre el subset de validación, hemos usado dicho subset para escoger el modelo o para "terminar de entrenarlo". Por tanto, no hemos comprobado todavía cómo funcionará este modelo sobre datos que no ha visto nunca antes.

Para ello, vamos a evaluarlo finalmente sobre el subset de test, sobre un subset que no hemos utilizado aún ni para entrenar el modelo ni para escoger sus hiper-parámetros. Un subset separado que el entrenamiento del modelo no ha visto aún.

Por tanto, vamos a calcular el error o coste total sobre el subset de test y comprobar gráficamente los residuos del modelo sobre el mismo:

In [None]:
# TODO: Calcula el error del modelo sobre el subset de test usando la función de coste con las correspondientes
# theta y lambda

j_test = [...]

In [None]:
# TODO: Calcula las predicciones del modelo sobre el subset de test, sus resíduos y represéntalos

Y_test_pred = [...]

residuos = [...]

plt.figure(4)

# Completa con tu código

plt.show()

De esta forma podemos hacernos una idea más real sobre la precisión de nuestro modelo y cómo se comportará con nuevos ejemplos en el futuro.

## Realizar predicciones sobre nuevos ejemplos

Con nuestro modelo ya entrenado, optimizado y evaluado, lo único que nos queda es ponerlo en funcionamiento realizando predicciones con nuevos ejemplos.

Para ello, vamos a:
- Generar un nuevo ejemplo, siguiendo el mismo patrón que el dataset original.
- Normalizar sus características antes de poder realizar predicciones sobre ellos.
- Generar una predicción para dicho nuevo ejemplo.

In [None]:
# TODO: Genera un nuevo ejemplo siguiendo el patrón original, con término de bias y error aleatorio

X_pred = [...]

# Normaliza sus características (excepto el término de bias) con las medias y desviaciones típicas originales
X_pred = [...]

# Genera una predicción para dicho ejemplo
Y_pred = [...]

## Preprocesamiento de datos con Scikit-learn

Para acabar, busca y utiliza las funciones disponibles en Scikit-learn para preprocesar los datos:
1. [Reordenando aleatoriamente](https://scikit-learn.org/stable/modules/generated/sklearn.utils.shuffle.html?highlight=shuffle#sklearn.utils.shuffle)
1. [Normalizando/escalando](https://scikit-learn.org/stable/modules/preprocessing.html#standardization-or-mean-removal-and-variance-scaling)
1. [Dividiendo los datos en los 3 subsets correspondientes](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html?highlight=split#sklearn.model_selection.train_test_split)

In [None]:
# TODO: Utiliza las funciones de Scikit-learn para reordenar aleatoriamente, normalizar y dividir los datos en los subsets de entrenamiento, validación y test
# Utiliza la X original en lugar de X_norm

X_reord = [...]

X_escalada = [...]

X_train, X_val, X_test, Y_train, Y_val, Y_test = [...]

*BONUS*: ¿Puedes corregir tu código para conseguir aplicar dichas operaciones estándar en las menos líneas posibles y dejarlo listo para reutilizarlo en cada ocasión?