# Regresión lineal: Regularización
M2U3 - Ejercicio 2

## ¿Qué vamos a hacer?
- Implementar la función de coste regularizada para la regresión lineal multivariable
- Implementar la regularización para el gradient descent

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

In [None]:
import time
import numpy as np

from matplotlib import pyplot as plt

## Creación de un dataset sintético

Para comprobar tu implementación de una función de coste y gradient descent regularizado, rescata tus celdas de los notebooks anteriores acerca de datasets sintéticos y genera un dataset para este ejercicio.

No olvides añadirle un término de bias a la *X* y un término de error a la *Y*, inicializado a 0 por ahora.

In [None]:
# TODO: Genera un dataset sintéitico manualmente, con término de bias y término de error inicializado a 0

m = 1000
n = 3

X = [...]

Theta_verd = [...]

error = 0.

Y = [...]

# Comprueba los valores y dimensiones de los vectores
print('Theta a estimar y sus dimensiones:')
print()
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print()

## Función de coste regularizada

Ahora vamos a modificar nuestra implementación de la función de coste de ejercicios anteriores para añadirle el término de regularización.

Recuerda que la función de coste regularizada es:

$$ h_\theta(x^i) = Y = X \times \Theta^T $$
$$J_\theta = \frac{1}{2m} [\sum\limits_{i=0}^{m} (h_\theta(x^i)-y^i)^2 + \lambda \sum\limits_{j=1}^{n} \theta^2_j]$$

In [None]:
# TODO: Implementa la función de coste regularizada siguiendo la siguiente plantilla

def regularized_cost_function(x, y, theta, lambda_=0.):
    """ Computa la función de coste para el dataset y coeficientes considerados.
    
    Argumentos posicionales:
    x -- array 2D de Numpy con los valores de las variables independientes de los ejemplos, de tamaño m x n
    y -- array 1D de Numpy con la variable dependiente/objetivo, de tamaño m x 1
    theta -- array 1D de Numpy con los pesos de los coeficientes del modelo, de tamaño 1 x n (vector fila)
    
    Argumentos nombrados:
    lambda -- float con el parámetro de regularización
    
    Devuelve:
    j -- float con el coste regularizada para dicho array theta
    """
    m = [...]
    
    # Recuerda comprobar las dimensiones de la multiplicación matricial para hacerla correctamente
    # Recuerda no regularizar el coeficiente del parámetro bias (primer valor de theta)
    j = [...]
    
    return j

*NOTA:* Comprueba que la función devuelve un valor float simplemente, y no un array o matriz. Utiliza el método `ndarray.resize((size0, size1))` si necesitas cambiar las dimensiones de cualquier array antes de multliplicarlo con `np.matmul()` y asegúrate que las dimensiones del resultado cuadren, o devuelve `j[0,0]` como valor `float`.

Como el dataset sintético tiene el término de error a 0, el resultado de la función de coste para la *Theta_verd* con parámetro *lambda* = 0 debe ser exactamente 0.

Al igual que antes, según nos alejamos con valores de $\theta$ diferentes, el coste debe aumentar. Del mismo modo, a mayor parámetro de regularización *lambda*, mayor penalización y coste, y a mayor valor de *Theta*, también mayor penalización y coste.

Comprueba tu implementación en estas 5 circunstancias:
1. Usando *Theta_verd* y con *lambda* a 0, el coste debe seguir siendo 0.
1. Con *lambda* 0 aún, según los valores de *theta* se alejen de *Theta_verd*, el coste debe ser mayor.
1. Usando *Theta_verd* y con *lambda* distinta de 0, el coste ahora debe ser mayor de 0.
1. Con *lambda* distinta de 0, para una *theta* distinta a *Theta_verd* el coste debe ser mayor que con *lambda* igual a 0.
1. Con *lambda* distinta de 0, cuanto mayores sean los valores de los coeficientes de *theta* (en sentido positivo o negativo), mayor será la penalización y el coste.

Recordamos que el valor de *lambda* siempre debe ser positivo y generalmente menor de 0: `[0, 1e-1, 3e-1, 1e-2, 3e-2, ...]`

In [None]:
# TODO: Comprueba la implementación de tu función de coste regularizada en dichas circunstancias

theta = Theta_verd    # Modifica y comprueba varios valores de theta

j = regularized_cost_function(X, Y, theta)

print('Coste del modelo:')
print(j)
print('Theta comprobada y Theta real:')
print(theta)
print(Theta_verd)

Anota tus experimentos y resultados en esta celda (en Markdown o código):
1. Experimento 1
1. Experimento 2
1. Experimento 3
1. Experimento 4
1. Experimento 5

## Gradient descent regularizado

Ahora vamos a regularizar también el entrenamiento por gradient descent. Vamos a modificar las actualizaciones de *Theta* para que ahora contengan también el parámetro de regularización *lambda*:

$$ \theta_0 := \theta_0 - \alpha \frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_0^i $$
$$ \theta_j := \theta_j - \alpha [\frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_j^i + \frac{\lambda}{m} \theta_j]; \space j \in [1, n] $$
$$ \theta_j := \theta_j (1 - \alpha \frac{\lambda}{m}) - \alpha \frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_j^i; \space j \in [1, n] $$

Recuerda basarte de nuevo en tu implementación anterior de la función de descenso de gradiente.

In [None]:
# TODO: Implementar la función que entrena el modelo por gradient descent regularizado

def regularized_gradient_descent(x, y, theta, alpha, lambda_=0., e, iter_):
    """ Entrena el modelo optimizando su función de coste por gradient descent
    
    Argumentos posicionales:
    x -- array 2D de Numpy con los valores de las variables independientes de los ejemplos, de tamaño m x n
    y -- array 1D de Numpy con la variable dependiente/objetivo, de tamaño m x 1
    theta -- array 1D de Numpy con los pesos de los coeficientes del modelo, de tamaño 1 x n (vector fila)
    alpha -- float, ratio de entrenamiento
    
    Argumentos nombrados (keyword):
    lambda -- float con el parámetro de regularización
    e -- float, diferencia mínima entre iteraciones para declarar que el entrenamiento ha convergido finalmente
    iter_ -- int/float, nº de iteraciones
    
    Devuelve:
    j_hist -- list/array con la evolución de la función de coste durante el entrenamiento
    theta -- array de Numpy con el valor de theta en la última iteración
    """
    # TODO: declara unos valores por defecto para e e iter_ en los argumentos nombrados (keyword) de la función
    
    iter_ = int(iter_)    # Si has declarado iter_ en notación científica (1e3) o float (1000.), conviértelo
    
    # Inicializa j_hist como una list o un array de Numpy. Recuerda que no sabemos qué tamaño tendrá finalmente
    j_hist = [...]
    
    m, n = [...]    # Obtén m y n a partir de las dimensiones de X
    
    for k in [...]:    # Itera sobre el nº de iteraciones máximo
        # Declara una theta para cada iteración como "deep copy" de theta, ya que debemos actualizarla valor a valor
        theta_iter = [...]
        
        for j in [...]:    # Itera sobre el nº de características
            # Actualiza theta_iter para cada característica, según la derivada de la función de coste
            # Incluye el ratio de entrenamiento alpha
            # Cuidado con las multiplicaciones matriciales, su órden y dimensiones
            
            if j > 0:
                # Regulariza todo coeficiente excepto el del parámetro bias (primer coef.)
                pass
            
            theta_iter[j] = theta[j] - [...]
            
        theta = theta_iter
        
        cost = cost_function([...])    # Calcula el coste para la iteración de theta actual
        
        j_hist[...]    # Añade el coste de la iteración actual al histórico de costes
        
        # Comprueba si la diferencia entre el coste de la iteración actual y el de la última iteración en valor
        # absoluto son menores que la diferencia mínima para declarar convergencia, e
        if k > 0 and [...]:
            print('Converge en la iteración nº: ', k)
            
            break
    else:
        print('Nº máx. de iteraciones alcanzado')
        
    return j_hist, theta

*Nota*: Recuerda que las plantillas de código son sólo una ayuda. En ocasiones, puede que quieras usar un código diferente con la misma funcionalidad, p. ej. que itere sobre los elementos de otra forma, etc. ¡Síentete libre de modificarlos a tu antojo!

## Comprobación del gradient descent regularizado

Para comprobar tu implementación de nuevo, comprueba con *lambda* a 0 usando varios valores de *theta_ini*, tanto con la *Theta_verd* como valores cada vez más alejados de ella, y comprueba que finalmente el modelo converge a la *Theta_verd*:

In [None]:
# TODO: Comprueba tu implementación entrenando un modelo sobre el dataset sintético creado previamente

# Crea una theta inicial con un valor dado, aleatorio o escogido a mano
theta_ini = [...]

print('Theta inicial:')
print(theta_ini)

alpha = 1e-1
lambda_ = 0.
e = 1e-3
iter_ = 1e3    # Comprueba que tu función puede admitir valores float o modifícalo

print('Hiper-arámetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

t = time.time()
j_hist, theta_final = regularized_gradient_descent([...])

print('Tiempo de entrenamiento (s):', time.time() - t)

# TODO: completar
print('\nÚltimos 10 valores de la función de coste')
print(j_hist[...])
print('\Coste final:')
print(j_hist[...])
print('\nTheta final:')
print(theta_final)

print('Valores verdaderos de Theta y diferencia con valores entrenados:')
print(Theta_verd)
print(theta_final - Theta_verd)

Ahora comprueba de nuevo el entrenamiento de un modelo en algunas de las circunstancias anteriores:
1. Usando una *theta_ini* aleatoria y con *lambda* a 0, el coste final debe seguir siendo cercano a 0 y la *theta* final cercana a *Theta_verd*.
1. Usando una *theta_ini* aleatoria y con *lambda* pequeña y distinta de 0, el coste final debe ser cercano a 0, aunque el modelo puede empezar a tener peor precisión.
1. Según aumenta el valor de *lambda*, el modelo perderá más precisión.

Para ello recuerda que puedes modificar los valores de las celdas y reejecutarlas.

Anota tus experimentos y resultados en esta celda (en Markdown o código):
1. Experimento 1
1. Experimento 2
1. Experimento 3
1. Experimento 4
1. Experimento 5

## ¿Por qué necesitábamos utilizar regularización?

El objetivo de la regularización era penalizar el modelo cuando sufre sobre-ajuste, cuando el modelo comienza a memorizar resultados más que aprender a generalizar.

Ésto supone un problema cuando los datos de entrenamiento y sobre los que debemos hacer predicciones en producción siguen distribuciones significativamente diferentes.

Para comprobar nuestro entrenamiento con descenso de gradiente regularizado, vuelve al apartado de generación del dataset y genera uno con un ratio de ejemplos a características bastante menor y con un ratio de error bastante superior.

Comienza a jugar con dichos valores y luego ve modificando la *lambda* del modelo para ver si un valor de *lambda* diferente a 0 comienza a tener más precisión que *lambda* = 0.