# Linear Regression: Regularisation
M2U3 - Exercise 2

## What are we going to do?
- We will implement a regularised cost function for multivariate linear regression
- We will implement the regularisation for gradient descent

Remember to follow the instructions for the submission of assignments indicated in [Submission Instructions](https://github.com/Tokio-School/Machine-Learning-EN/blob/main/Submission_instructions.md).

In [None]:
import time
import numpy as np

from matplotlib import pyplot as plt

## Creation of a synthetic dataset

To test your implementation of a regularised gradient descent and cost function, retrieve your cells from the previous notebooks on synthetic datasets and generate a dataset for this exercise.

Don't forget to add a bias term to *X* and an error term to *Y*, initialized to 0 for now.

In [None]:
# TODO: Manually generate a synthetic dataset, with a bias term and an error term initialised to 0

m = 1000
n = 3

X = [...]

Theta_true = [...]

error = 0.

Y = [...]

# Check the values and dimensions of the vectors
print('Theta to be estimated and its dimensions:')
print()
print()

print('First 10 rows and 5 columns of X and Y:')
print()
print()

print('Dimensions of X and Y:')
print()

## Regularised cost function

We will now modify our implementation of the cost function from the previous exercise to add the regularisation term.

Recall that the regularised cost function is:

$$ h_\theta(x^i) = Y = X \times \Theta^T $$
$$J_\theta = \frac{1}{2m} [\sum\limits_{i=0}^{m} (h_\theta(x^i)-y^i)^2 + \lambda \sum\limits_{j=1}^{n} \theta^2_j]$$

In [None]:
# TODO: Implement the regularised cost function according to the following template

def regularized_cost_function(x, y, theta, lambda_=0.):
    """ Computes the cost function for the considered dataset and coefficients.
    
    Positional arguments:
    x -- Numpy 2D array with the values of the independent variables from the examples, of size m x n
    y -- Numpy 1D array with the dependent/target variable, of size m x 1
    theta -- Numpy 1D array with the weights of the model coefficients, of size 1 x n (row vector)
    
    Named arguments:
    lambda -- float with the regularisation parameter
    
    Return:
    j -- float with the cost for this theta array
    """
    m = [...]
    
    # Remember to check the dimensions of the matrix multiplication to perform it correctly
    # Remember not to regularize the coefficient of the bias parameter (first value of theta)
    j = [...]
    
    return j

*NOTE:* Check that the function simply returns a float value, and not an array or matrix. Use the `ndarray.resize((size0, size1))` method if you need to change the dimensions of any array before you multiply it with `np.matmul()` and make sure the result dimensions match, or returns `j[0,0]` as the `float` value.

As the synthetic dataset has the error term set at 0, the result of the cost function for the *Theta_true* with parameter *lambda* = 0 must be exactly 0.

As before, as we move away with different values of θ, the cost should increase. Similarly, the higher the *lambda* regularisation parameter, the higher the penalty and cost, and the higher the *Theta* value, the higher the penalty and cost as well.

Check your implementation in these 5 scenarios:
1. Using *Theta_true* and with *lambda* at 0, the cost should still be 0.
1. With *lambda* still at 0, as the value of *theta* moves away from *Theta_true*, the cost should increase.
1. Using *Theta_true* and with a *lambda* other than 0, the cost must now be greater than 0.
1. With a *lambda* other than 0, for a *theta* other than *Theta_true*, the cost must be higher than with *lambda* equal to 0.
1. With a *lambda* other than 0, the higher the values of the coefficients of *theta* (positive or negative), the higher the penalty and the higher the cost.

Recall that the value of lambda must always be positive and generally less than 0: `[0, 1e-1, 3e-1, 1e-2, 3e-2, ...]`

In [None]:
# TODO: Check the implementation of your regularised cost function in these scenarios

theta = Theta_true    # Modify and test various values of theta

j = regularized_cost_function(X, Y, theta)

print('Cost of the model:')
print(j)
print('Tested Theta and actual Theta:')
print(theta)
print(Theta_true)

Record your experiments and results in this cell (in Markdown or code):
1. Experiment 1
1. Experiment 2
1. Experiment 3
1. Experiment 4
1. Experiment 5

## Regularised gradient descent

Now we will also regularise the training by gradient descent. We will modify the *Theta* updates so that they now also contain the *lambda* regularisation parameter:

$$ \theta_0 := \theta_0 - \alpha \frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_0^i $$
$$ \theta_j := \theta_j - \alpha [\frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_j^i + \frac{\lambda}{m} \theta_j]; \space j \in [1, n] $$
$$ \theta_j := \theta_j (1 - \alpha \frac{\lambda}{m}) - \alpha \frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_j^i; \space j \in [1, n] $$

Remember to build again on your previous implementation of the gradient descent function.

In [None]:
# TODO: Implement the function that trains the regularised gradient descent model

def regularized_gradient_descent(x, y, theta, alpha, lambda_=0., e, iter_):
    """ Trains the model by optimising its cost function using gradient descent
    
    Positional arguments:
    x -- Numpy 2D array with the values of the independent variables from the examples, of size m x n
    y -- Numpy 1D array with the dependent/target variable, of size m x 1
    theta -- Numpy 1D array with the weights of the model coefficients, of size 1 x n (row vector)
    alpha -- float, training rate
    
    Argumentos nombrados (keyword):
    lambda -- float con el parámetro de regularización
    e -- float, diferencia mínima entre iteraciones para declarar que el entrenamiento ha convergido finalmente
    iter_ -- int/float, nº de iteraciones
    
    Devuelve:
    j_hist -- list/array con la evolución de la función de coste durante el entrenamiento
    theta -- array de Numpy con el valor de theta en la última iteración
    """
    # TODO: declara unos valores por defecto para e e iter_ en los argumentos nombrados (keyword) de la función
    
    iter_ = int(iter_)    # Si has declarado iter_ en notación científica (1e3) o float (1000.), conviértelo
    
    # Inicializa j_hist como una list o un array de Numpy. Recuerda que no sabemos qué tamaño tendrá finalmente
    j_hist = [...]
    
    m, n = [...]    # Obtén m y n a partir de las dimensiones de X
    
    for k in [...]:    # Itera sobre el nº de iteraciones máximo
        # Declara una theta para cada iteración como "deep copy" de theta, ya que debemos actualizarla valor a valor
        theta_iter = [...]
        
        for j in [...]:    # Itera sobre el nº de características
            # Actualiza theta_iter para cada característica, según la derivada de la función de coste
            # Incluye el ratio de entrenamiento alpha
            # Cuidado con las multiplicaciones matriciales, su órden y dimensiones
            
            if j > 0:
                # Regulariza todo coeficiente excepto el del parámetro bias (primer coef.)
                pass
            
            theta_iter[j] = theta[j] - [...]
            
        theta = theta_iter
        
        cost = cost_function([...])    # Calcula el coste para la iteración de theta actual
        
        j_hist[...]    # Añade el coste de la iteración actual al histórico de costes
        
        # Comprueba si la diferencia entre el coste de la iteración actual y el de la última iteración en valor
        # absoluto son menores que la diferencia mínima para declarar convergencia, e
        if k > 0 and [...]:
            print('Converge en la iteración nº: ', k)
            
            break
    else:
        print('Nº máx. de iteraciones alcanzado')
        
    return j_hist, theta

*Nota*: Recuerda que las plantillas de código son sólo una ayuda. En ocasiones, puede que quieras usar un código diferente con la misma funcionalidad, p. ej. que itere sobre los elementos de otra forma, etc. ¡Síentete libre de modificarlos a tu antojo!

## Comprobación del gradient descent regularizado

Para comprobar tu implementación de nuevo, comprueba con *lambda* a 0 usando varios valores de *theta_ini*, tanto con la *Theta_verd* como valores cada vez más alejados de ella, y comprueba que finalmente el modelo converge a la *Theta_verd*:

In [None]:
# TODO: Comprueba tu implementación entrenando un modelo sobre el dataset sintético creado previamente

# Crea una theta inicial con un valor dado, aleatorio o escogido a mano
theta_ini = [...]

print('Theta inicial:')
print(theta_ini)

alpha = 1e-1
lambda_ = 0.
e = 1e-3
iter_ = 1e3    # Comprueba que tu función puede admitir valores float o modifícalo

print('Hiper-arámetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

t = time.time()
j_hist, theta_final = regularized_gradient_descent([...])

print('Tiempo de entrenamiento (s):', time.time() - t)

# TODO: completar
print('\nÚltimos 10 valores de la función de coste')
print(j_hist[...])
print('\Coste final:')
print(j_hist[...])
print('\nTheta final:')
print(theta_final)

print('Valores verdaderos de Theta y diferencia con valores entrenados:')
print(Theta_verd)
print(theta_final - Theta_verd)

Ahora comprueba de nuevo el entrenamiento de un modelo en algunas de las circunstancias anteriores:
1. Usando una *theta_ini* aleatoria y con *lambda* a 0, el coste final debe seguir siendo cercano a 0 y la *theta* final cercana a *Theta_verd*.
1. Usando una *theta_ini* aleatoria y con *lambda* pequeña y distinta de 0, el coste final debe ser cercano a 0, aunque el modelo puede empezar a tener peor precisión.
1. Según aumenta el valor de *lambda*, el modelo perderá más precisión.

Para ello recuerda que puedes modificar los valores de las celdas y reejecutarlas.

Anota tus experimentos y resultados en esta celda (en Markdown o código):
1. Experimento 1
1. Experimento 2
1. Experimento 3
1. Experimento 4
1. Experimento 5

## ¿Por qué necesitábamos utilizar regularización?

El objetivo de la regularización era penalizar el modelo cuando sufre sobre-ajuste, cuando el modelo comienza a memorizar resultados más que aprender a generalizar.

Ésto supone un problema cuando los datos de entrenamiento y sobre los que debemos hacer predicciones en producción siguen distribuciones significativamente diferentes.

Para comprobar nuestro entrenamiento con descenso de gradiente regularizado, vuelve al apartado de generación del dataset y genera uno con un ratio de ejemplos a características bastante menor y con un ratio de error bastante superior.

Comienza a jugar con dichos valores y luego ve modificando la *lambda* del modelo para ver si un valor de *lambda* diferente a 0 comienza a tener más precisión que *lambda* = 0.