# Linear Regression: Synthetic dataset example
M2U2 - Exercise 5

## What are we going to do?
- Use an automatically generated synthetic dataset to check our implementation
- Train a multivariate linear regression ML model
- Check the training evolution of the model
- Evaluate a simple model
- Make predictions about new future examples

Remember to follow the instructions for the submission of assignments indicated in [Submission Instructions](https://github.com/Tokio-School/Machine-Learning-EN/blob/main/Submission_instructions.md).

In [None]:
import time
import numpy as np
from matplotlib import pyplot as plt

## Creation of a synthetic dataset

We are going to create a synthetic dataset to check our implementation.

Following the methods that we have used in previous exercises, create a synthetic dataset using the NumPy method.

Include a controllable error term in that dataset, but initialise it to 0, since to make the first implementation of this multivariate linear regression ML model we do not want any error in the data that could hide an error in our model.

Afterwards, we will introduce an error term to check that our implementation can also train the model under these more realistic circumstances.

### The bias or intercept term

This time, we are going to generate the synthetic dataset with a small modification: we are going to add a first column of 1s to X, or a 1. (float) as the first value of the features of each example.

Furthermore, since we have added one more feature n to the matrix X, we have also added one more feature or value to the vector $\Theta$, so we now have n + 1 features.

Why do we add this column, this new term or feature?

Because this is the simplest way to implement the linear equation in a single linear algebra operation, i.e., to vectorise it.

In this way, we thus convert $Y = m \times X + b$ en $Y = X \times \Theta$, saving us an addition operation and implementing the equation in a single matrix multiplication operation.

The term *b*, therefore, is incorporated as the first term of the vector $\Theta$, which when multiplied by the first column of X, which has a value of 1 for all its rows, allows us to add said term *b* to each example.

In [None]:
# TODO: Generate a synthetic dataset in whatever way you choose, with error term initially set to 0

m = 100
n = 3

# Create a matrix of random numbers in the interval [-1, 1)
X = [...]
# Insert a vector of 1s as the 1st column of X
# Tips: np.insert(), np.ones(), index 0, axis 1...
X = [...]

# Generate a vector of random numbers in the interval [0, 1) of size n + 1 (to add the bias term)
Theta_verd = [...]

# Añade al vector Y un término de error aleatorio en % (0.1 = 10%) inicializado a 0
# Dicho término representa un error en +/- dicho porcentaje, p. ej., +/- 5%, +/- 10%, etc., no sólo a sumar
# El porcentaje de error se calcula sobre Y, por lo tanto el error sería p. ej. el +3,14% de Y, -4,12% de Y...
error = 0.

Y = np.matmul(X, Theta_verd)
Y = Y + [...] * error

# Comprueba los valores y dimensiones de los vectores
print('Theta a estimar y sus dimensiones:')
print()
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print()

Fíjate en la operación de multiplicación matricial implementada: $Y = X \times \Theta$

Comprueba las dimensiones de cada vector: X, Y, $\Theta$.
*¿Crees que es una operación posible según las reglas del álgebra lineal?*

Si tienes dudas, puedes consultar la documentación de Numpy relativa a la función np.matmul.

Comprueba el resultado, tal vez reduciendo el nº de ejemplos y características original, y asegúrate de que es un resultado correcto.

## Entrenamiento del modelo

Copia del ejercicio anterior tu implementación de la función de coste y su optimización por gradient descent:

In [None]:
# TODO: Copia el código de tus funciones de coste y descenso de gradiente

def cost_function(x, y, theta):
    """ Computa la función de coste para el dataset y coeficientes considerados.
    
    Argumentos posicionales:
    x -- array 2D de Numpy con los valores de las variables independientes de los ejemplos, de tamaño m x n + 1
    y -- array 1D de Numpy con la variable dependiente/objetivo, de tamaño m x 1
    theta -- array 1D de Numpy con los pesos de los coeficientes del modelo, de tamaño 1 x n + 1(vector fila)
    
    Devuelve:
    j -- float con el coste para dicho array theta
    """
    pass

def gradient_descent(x, y, theta, alpha, e, iter_):
    """ Entrena el modelo optimizando su función de coste por gradient descent
    
    Argumentos posicionales:
    x -- array 2D de Numpy con los valores de las variables independientes de los ejemplos, de tamaño m x n + 1
    y -- array 1D de Numpy con la variable dependiente/objetivo, de tamaño m x 1
    theta -- array 1D de Numpy con los pesos de los coeficientes del modelo, de tamaño 1 x n + 1 (vector fila)
    alpha -- float, ratio de entrenamiento
    
    Argumentos nombrados (keyword):
    e -- float, diferencia mínima entre iteraciones para declarar que el entrenamiento ha convergido finalmente
    iter_ -- int/float, nº de iteraciones
    
    Devuelve:
    j_hist -- list/array con la evolución de la función de coste durante el entrenamiento, de tamaño nº de iteraciones que ha usado el modelo
    theta -- array de Numpy con el valor de theta en la última iteración, de tamaño 1 x n + 1
    """
    pass

Vamos a utilizar dichas funciones para entrenar nuestro modelo de ML.

Recordamos los pasos que vamos a seguir:
- Iniciar $\Theta$ con valores aleatorios
- Optimizar $\Theta$ reduciendo el coste asociado a cada iteración de sus valores
- Cuando hayamos encontrado el valor mínimo de la función de coste, tomar su $\Theta$ asociada como los coeficientes de nuestro modelo

Por tanto, completa el código de la siguiente celda:

In [None]:
# TODO: Entrena tu modelo de ML optimizando sus coeficientes Theta por gradient descent

# Inicializa theta con n + 1 valores aleatorios
theta_ini = [...]

print('Theta inicial:')
print(theta_ini)

alpha = 1e-1
e = 1e-4
iter_ = 1e5

print('Hiper-parámetros a utilizar:')
print('Alpha: {}, e: {}, nº máx. iter: {}'.format(alpha, e, iter_))

t = time.time()
j_hist, theta = gradient_descent([...])

print('Tiempo de entrenamiento (s):', time.time() - t)

# TODO: completar
print('\nÚltimos 10 valores de la función de coste')
print(j_hist[...])
print('\Coste final:')
print(j_hist[...])
print('\nTheta final:')
print(theta)

print('Valores verdaderos de Theta y diferencia con valores entrenados:')
print(Theta_verd)
print(theta - Theta_verd)

Comprueba que no se ha modificado la $\Theta$ inicial. Tu implementación debe copiar un nuevo objeto de Python en cada iteración y no modificarla durante el entrenamiento.

In [None]:
# TODO: Comprueba que no se ha modificado la Theta inicial

print('Theta inicial y theta final:')
print(theta_ini)
print(theta)

### Comprobar el entrenamiento del modelo

Para comprobar el entrenamiento del modelo, vamos a representar gráficamente la evolución de la función de coste, para comprobar que no ha habido ningún gran salto y que haya avanzado constantemente hacia un valor mínimo:

In [None]:
# TODO: Representa la evolución de la función de coste vs el nº de iteraciones

plt.figure(1)

plt.title('Función de coste')
plt.xlabel('Iteraciones')
plt.ylabel('Coste')

plt.plot([...])    # Completa los argumentos

plt.show()

## Realizar predicciones

Vamos a utilizar la $\Theta$, el resultado de nuestro proceso de entrenamiento del modelo, para realizar predicciones sobre nuevos ejemplos que llegaran en el futuro.

Generaremos un nuevo conjunto de datos X siguiendo los mismos pasos que hemos seguido anteriormente. Por tanto, si X tiene el mismo nº de características (n + 1) y sus valores están en el mismo rango de la X generada previamente, se comportarán igual que los datos usados para entrenar el modelo.

In [None]:
# TODO: Realiza predicciones usando la theta calculada

# Genera una nueva matriz X con nuevos ejemplos. Usa el mismo nº de características y el mismo rango de valores
# aleatorios, pero un nº de ejemplos menor (p. ej., 25% del original)
# Recuerda añadir el término bias, o una primera columna de 1s a la matriz, de tamaño m x n + 1
X_pred = [...]

# Calcula las predicciones para dichos nuevos datos
y_pred = [...]    # Pista: de nuevo, matmul

print('Predicciones:')
print(y_pred)    # Puedes imprimir todo el vector o sólo los primeros valores, si es demasiado largo

## Evaluación del modelo

Para evaluar el modelo tenemos varias opciones. En este punto, vamos a hacer una evaluación más simple, rápida e informal del mismo. En siguientes módulos del curso veremos cómo evaluar nuestros modelos de una forma más formal y precisa.

Vamos a hacer una evaluación gráfica, para comprobar simplemente que nuestra implementación funciona como esperamos:

In [None]:
# TODO: Representa gráficamente los residuos entre la Y inicial y la Y predicha para los mismos ejemplos

# Realiza predicciones para cada valor de la X original con la theta entrenada por el modelo
Y_pred = [...]

plt.figure(2)

plt.title('Dataset original y predicciones')
plt.xlabel('X')
plt.ylabel('Residuos')

# Calcula los residuos para cada ejemplo
# Recuerda que son la diferencia en valor absoluto entre la Y real y la Y predicha para cada ejemplo
residuos = [...]

# Usa una gráfica con series diferentes: Y de entrenamiento, Y predicha y residuos
# Usa una gráfica de puntos para la Y de entrenamiento, de línea para la Y predicha y de barra para los residuos, superpuestas
plt.scatter([...])

plt.show()

Si nuestra implementación es correcta, nuestro modelo debe haber podido entrenarse correctamente y tener unos resíduos prácticamente nulos, una diferencia prácticamente nula entre los resultados originales (Y) y los resultados que calcularía nuestro modelo.

Sin embargo, como recordamos, en el primer punto hemos creado un dataset con el término de error a 0. Por tanto, cada valor de Y no tiene ninguna diferencia o variación aleatoria sobre su valor real.

En la vida real, sea porque no hemos tenido en cuenta todas las características que afectarían a nuestra variable objetivo, sea porque los datos contienen algún pequeño error, o sea porque, por lo general, los datos no siguen un comportamiento completamente preciso, siempre tendremos algún término de error, más o menos aleatorio.

Por tanto, *¿y si vuelves a la primera celda y modificas tu término de error, y ejecutas de nuevo las siguientes para entrenar y evaluar un nuevo modelo de regresión lineal sobre datos más parecidos a la realidad?*

Comprueba de dicha forma la robustez de tu implementación.