# Regresión lineal: Regularización
M2U3 - Ejercicio 2

## ¿Qué vamos a hacer?
- Implementar la función de coste regularizada para la regresión lineal multivariable
- Implementar la regularización para el gradient descent

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

In [1]:
import time
import numpy as np
from matplotlib import pyplot as plt

## Creación de un dataset sintético

Para comprobar tu implementación de una función de coste y gradient descent regularizado, rescata tus celdas de los notebooks anteriores acerca de datasets sintéticos y genera un dataset para este ejercicio.

No olvides añadirle un término de bias a la *X* y un término de error a la *Y*, inicializado a 0 por ahora.

In [2]:
# TODO: Genera un dataset sintéitico manualmente, con término de bias y término de error inicializado a 0

m = 1000
n = 3

X = np.random.uniform(-1, 1, size=(m, n))

X = np.insert(X, 0, values=np.ones(m), axis=1)

Theta_verd = np.random.rand(n + 1)

Y = np.matmul(X, Theta_verd)

error = 0


# Comprueba los valores y dimensiones de los vectores
print("Theta a estimar y sus dimensiones:")
print(Theta_verd)
print(Theta_verd.shape)

print("\nPrimeras 10 filas de X:")
print(X[:10, :])

print("\nPrimeros 10 valores de Y:")
print(Y[:10])

print("\nDimensiones de X e Y:")
print(X.shape, Y.shape, Y.shape)

Theta a estimar y sus dimensiones:
[0.92691383 0.61857306 0.62626344 0.12639697]
(4,)

Primeras 10 filas de X:
[[ 1.         -0.81126272 -0.34758769 -0.03401943]
 [ 1.         -0.92766097 -0.10534224 -0.11439129]
 [ 1.         -0.93509459 -0.01384949 -0.31813497]
 [ 1.          0.25490999 -0.61852029  0.43625633]
 [ 1.         -0.03294079  0.37250579  0.6749047 ]
 [ 1.          0.77144682  0.54339245  0.33026595]
 [ 1.         -0.6120878   0.05395429  0.30548144]
 [ 1.         -0.80708146 -0.21490029 -0.64165936]
 [ 1.         -0.3562002   0.0655629   0.50524808]
 [ 1.         -0.28182704  0.17994046 -0.60046792]]

Primeros 10 valores de Y:
[0.20310715 0.27265704 0.29960478 0.75237911 1.22513021 1.78616149
 0.62069433 0.21198699 0.81149945 0.78937602]

Dimensiones de X e Y:
(1000, 4) (1000,) (1000,)


## Función de coste regularizada

Ahora vamos a modificar nuestra implementación de la función de coste de ejercicios anteriores para añadirle el término de regularización.

Recuerda que la función de coste regularizada es:

$$ h_\theta(x^i) = Y = X \times \Theta^T $$
$$J_\theta = \frac{1}{2m} [\sum\limits_{i=0}^{m} (h_\theta(x^i)-y^i)^2 + \lambda \sum\limits_{j=1}^{n} \theta^2_j]$$

In [3]:
# TODO: Implementa la función de coste regularizada siguiendo la siguiente plantilla

def regularized_cost_function(x, y, theta, lambda_=0.):

    m = len(y)  # número de ejemplos

    # Predicciones del modelo
    predictions = x @ theta
    error = predictions - y

    # Coste base (MSE)
    cost = (1 / (2 * m)) * np.sum(error ** 2)

    # Regularización (no incluye theta[0])
    reg_term = (lambda_ / (2 * m)) * np.sum(theta[1:] ** 2)

    j = cost + reg_term

    # Asegurar que devolvemos float
    return float(j)


*NOTA:* Comprueba que la función devuelve un valor float simplemente, y no un array o matriz. Utiliza el método `ndarray.resize((size0, size1))` si necesitas cambiar las dimensiones de cualquier array antes de multliplicarlo con `np.matmul()` y asegúrate que las dimensiones del resultado cuadren, o devuelve `j[0,0]` como valor `float`.

Como el dataset sintético tiene el término de error a 0, el resultado de la función de coste para la *Theta_verd* con parámetro *lambda* = 0 debe ser exactamente 0.

Al igual que antes, según nos alejamos con valores de $\theta$ diferentes, el coste debe aumentar. Del mismo modo, a mayor parámetro de regularización *lambda*, mayor penalización y coste, y a mayor valor de *Theta*, también mayor penalización y coste.

Comprueba tu implementación en estas 5 circunstancias:
1. Usando *Theta_verd* y con *lambda* a 0, el coste debe seguir siendo 0.
1. Con *lambda* 0 aún, según los valores de *theta* se alejen de *Theta_verd*, el coste debe ser mayor.
1. Usando *Theta_verd* y con *lambda* distinta de 0, el coste ahora debe ser mayor de 0.
1. Con *lambda* distinta de 0, para una *theta* distinta a *Theta_verd* el coste debe ser mayor que con *lambda* igual a 0.
1. Con *lambda* distinta de 0, cuanto mayores sean los valores de los coeficientes de *theta* (en sentido positivo o negativo), mayor será la penalización y el coste.

Recordamos que el valor de *lambda* siempre debe ser positivo y generalmente menor de 0: `[0, 1e-1, 3e-1, 1e-2, 3e-2, ...]`

In [4]:
# TODO: Comprueba la implementación de tu función de coste regularizada en dichas circunstancias

theta = Theta_verd    # Modifica y comprueba varios valores de theta

j = regularized_cost_function(X, Y, theta)

print("Coste del modelo:")
print(j)
print("Theta comprobada y Theta real:")
print(theta)
print(Theta_verd)

Coste del modelo:
0.0
Theta comprobada y Theta real:
[0.92691383 0.61857306 0.62626344 0.12639697]
[0.92691383 0.61857306 0.62626344 0.12639697]


In [5]:
# Experimento 2
theta = Theta_verd + 0.4
j = regularized_cost_function(X, Y, theta)

print("Coste del modelo:")
print(j)
print("Theta comprobada y Theta real:")
print(theta)
print(Theta_verd)

Coste del modelo:
0.1648547999052746
Theta comprobada y Theta real:
[1.32691383 1.01857306 1.02626344 0.52639697]
[0.92691383 0.61857306 0.62626344 0.12639697]


In [6]:
# Experimento 3
theta = Theta_verd
j = regularized_cost_function(X, Y, theta, lambda_ = 0.1)

print("Coste del modelo:")
print(j)
print("Theta comprobada y Theta real:")
print(theta)
print(Theta_verd)

Coste del modelo:
3.954073608354915e-05
Theta comprobada y Theta real:
[0.92691383 0.61857306 0.62626344 0.12639697]
[0.92691383 0.61857306 0.62626344 0.12639697]


In [7]:
# Experimento 4
theta = Theta_verd + 0.4
j = regularized_cost_function(X, Y, theta, lambda_ = 3e-1)

print("Coste del modelo:")
print(j)
print("Theta comprobada y Theta real:")
print(theta)
print(Theta_verd)

Coste del modelo:
0.16520997012978542
Theta comprobada y Theta real:
[1.32691383 1.01857306 1.02626344 0.52639697]
[0.92691383 0.61857306 0.62626344 0.12639697]


In [8]:
# Experimento 5
theta = Theta_verd + 0.8
j = regularized_cost_function(X, Y, theta, lambda_ = 3e-1)

print("Coste del modelo:")
print(j)
print("Theta comprobada y Theta real:")
print(theta)
print(Theta_verd)

Coste del modelo:
0.6601549178618694
Theta comprobada y Theta real:
[1.72691383 1.41857306 1.42626344 0.92639697]
[0.92691383 0.61857306 0.62626344 0.12639697]


## Gradient descent regularizado

Ahora vamos a regularizar también el entrenamiento por gradient descent. Vamos a modificar las actualizaciones de *Theta* para que ahora contengan también el parámetro de regularización *lambda*:

$$ \theta_0 := \theta_0 - \alpha \frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_0^i $$
$$ \theta_j := \theta_j - \alpha [\frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_j^i + \frac{\lambda}{m} \theta_j]; \space j \in [1, n] $$
$$ \theta_j := \theta_j (1 - \alpha \frac{\lambda}{m}) - \alpha \frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_j^i; \space j \in [1, n] $$

Recuerda basarte de nuevo en tu implementación anterior de la función de descenso de gradiente.

In [9]:
def regularized_gradient_descent(x, y, theta, alpha, lambda_=0., e=1e-6, iter_=1000):

    m, n = x.shape
    j_hist = []

    theta = theta.copy()  # evitar modificar el original

    for k in range(iter_):
        predictions = x @ theta
        error = predictions - y

        theta_iter = theta.copy()

        for j in range(n):
            grad = (1/m) * np.sum(error * x[:, j])  # gradiente base

            if j > 0:
                theta_iter[j] = theta[j]*(1 - alpha*lambda_/m) - alpha*grad
            else:
                theta_iter[j] = theta[j] - alpha*grad

        theta = theta_iter

        # Calculamos el coste con regularización
        cost = regularized_cost_function(x, y, theta, lambda_)
        j_hist.append(cost)

        # Comprobamos convergencia
        if k > 0 and abs(j_hist[-2] - j_hist[-1]) < e:
            print(f"Converge en la iteración nº {k}")
            break
    else:
        print("Nº máximo de iteraciones alcanzado")

    return j_hist, theta


*Nota*: Recuerda que las plantillas de código son sólo una ayuda. En ocasiones, puede que quieras usar un código diferente con la misma funcionalidad, p. ej. que itere sobre los elementos de otra forma, etc. ¡Síentete libre de modificarlos a tu antojo!

## Comprobación del gradient descent regularizado

Para comprobar tu implementación de nuevo, comprueba con *lambda* a 0 usando varios valores de *theta_ini*, tanto con la *Theta_verd* como valores cada vez más alejados de ella, y comprueba que finalmente el modelo converge a la *Theta_verd*:

In [10]:
# TODO: Comprueba tu implementación entrenando un modelo sobre el dataset sintético creado previamente

# Crea una theta inicial con un valor dado, aleatorio o escogido a mano
theta_ini = np.ones(X.shape[1]) * 0.2

print("Theta inicial:")
print(theta_ini)

alpha = 1e-1
lambda_ = 0.
e = 1e-3
iter_ =  int(1e3)    # Comprueba que tu función puede admitir valores float o modifícalo

print("Hiper-arámetros usados:")
print("Alpha:", alpha, "Error máx.:", e, "Nº iter", iter_)

t = time.time()
j_hist, theta_final = regularized_gradient_descent(X, Y, theta_ini, alpha, lambda_=lambda_, e=e, iter_=iter_)
print("Tiempo de entrenamiento (s):", time.time() - t)

# TODO: completar
print("\nÚltimos 10 valores de la función de coste")
print(j_hist[-10:])
print(r"\Coste final:")
print(j_hist[-1])
print("\nTheta final:")
print(theta_final)

print("Valores verdaderos de Theta y diferencia con valores entrenados:")
print(Theta_verd)
print(theta_final - Theta_verd)

Theta inicial:
[0.2 0.2 0.2 0.2]
Hiper-arámetros usados:
Alpha: 0.1 Error máx.: 0.001 Nº iter 1000
Converge en la iteración nº 25
Tiempo de entrenamiento (s): 0.004179477691650391

Últimos 10 valores de la función de coste
[0.02641811896732234, 0.0237889108060106, 0.021504900038005717, 0.019510473868620523, 0.01775994294796295, 0.016215696868310647, 0.014846707615664546, 0.013627314995458153, 0.012536240586124904, 0.01155578692554396]
\Coste final:
0.01155578692554396

Theta final:
[0.87964245 0.45306821 0.44078605 0.17107007]
Valores verdaderos de Theta y diferencia con valores entrenados:
[0.92691383 0.61857306 0.62626344 0.12639697]
[-0.04727138 -0.16550485 -0.18547739  0.0446731 ]


In [11]:
# Experimento 2
# Crea una theta inicial con un valor dado, aleatorio o escogido a mano
theta_ini = np.ones(X.shape[1]) * 0.2

print("Theta inicial:")
print(theta_ini)

alpha = 1e-1
lambda_ = 0.3
e = 1e-3
iter_ =  int(1e3)    # Comprueba que tu función puede admitir valores float o modifícalo

print("Hiper-arámetros usados:")
print("Alpha:", alpha, "Error máx.:", e, "Nº iter", iter_)

t = time.time()
j_hist, theta_final = regularized_gradient_descent(X, Y, theta_ini, alpha, lambda_=lambda_, e=e, iter_=iter_)
print("Tiempo de entrenamiento (s):", time.time() - t)

# TODO: completar
print("\nÚltimos 10 valores de la función de coste")
print(j_hist[-10:])
print(r"\Coste final:")
print(j_hist[-1])
print("\nTheta final:")
print(theta_final)

print("Valores verdaderos de Theta y diferencia con valores entrenados:")
print(Theta_verd)
print(theta_final - Theta_verd)

Theta inicial:
[0.2 0.2 0.2 0.2]
Hiper-arámetros usados:
Alpha: 0.1 Error máx.: 0.001 Nº iter 1000
Converge en la iteración nº 25
Tiempo de entrenamiento (s): 0.0034966468811035156

Últimos 10 valores de la función de coste
[0.026485339108855806, 0.023858390800127586, 0.02157656140542039, 0.01958423888515308, 0.0178357348665732, 0.016293440110826198, 0.014926327936915755, 0.013708739622354473, 0.012619398334034117, 0.011640608294168095]
\Coste final:
0.011640608294168095

Theta final:
[0.87964345 0.45287872 0.44060426 0.17097597]
Valores verdaderos de Theta y diferencia con valores entrenados:
[0.92691383 0.61857306 0.62626344 0.12639697]
[-0.04727038 -0.16569434 -0.18565918  0.04457901]


In [12]:
# Experimento 3

m = 10000
n = 4

X = np.random.uniform(-1, 1, size=(m, n))

X = np.insert(X, 0, values=np.ones(m), axis=1)

Theta_verd = np.random.rand(n + 1)

Y = np.matmul(X, Theta_verd)

error = 0.3

ruido = np.random.normal(0, error * np.abs(Y))
Y += ruido
# Crea una theta inicial con un valor dado, aleatorio o escogido a mano
theta_ini = np.ones(X.shape[1]) * 0.2

print("Theta inicial:")
print(theta_ini)

alpha = 1e-1
lambda_ = 10
e = 1e-3
iter_ =  int(1e3)    # Comprueba que tu función puede admitir valores float o modifícalo

print("Hiper-arámetros usados:")
print("Alpha:", alpha, "Error máx.:", e, "Nº iter", iter_)

t = time.time()
j_hist, theta_final = regularized_gradient_descent(X, Y, theta_ini, alpha, lambda_=lambda_, e=e, iter_=iter_)
print("Tiempo de entrenamiento (s):", time.time() - t)

# TODO: completar
print("\nÚltimos 10 valores de la función de coste")
print(j_hist[-10:])
print(r"\nCoste final:")
print(j_hist[-1])
print("\nTheta final:")
print(theta_final)

print("Valores verdaderos de Theta y diferencia con valores entrenados:")
print(Theta_verd)
print(theta_final - Theta_verd)

Theta inicial:
[0.2 0.2 0.2 0.2 0.2]
Hiper-arámetros usados:
Alpha: 0.1 Error máx.: 0.001 Nº iter 1000
Converge en la iteración nº 44
Tiempo de entrenamiento (s): 0.021642208099365234

Últimos 10 valores de la función de coste
[0.09831496492319075, 0.09664506714212476, 0.09508399286687227, 0.09362443171900789, 0.09225960523629045, 0.09098322076563475, 0.08978943059251315, 0.0886727955377794, 0.08762825238454443, 0.08665108460528621]
\Coste final:
0.08665108460528621

Theta final:
[0.72513108 0.64141989 0.71799738 0.64822166 0.81441259]
Valores verdaderos de Theta y diferencia con valores entrenados:
[0.73320741 0.77433904 0.87838037 0.77189857 0.99637205]
[-0.00807634 -0.13291915 -0.160383   -0.12367691 -0.18195946]
