# Regresión lineal multivariable: Descenso de gradiente
M2U2 - Ejercicio 2

## ¿Qué vamos a hacer?
- Implementar la optimización de la función de coste por gradient descent, o lo que es lo mismo, entrenar el modelo

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

## Instrucciones

Este ejercicio es una continuación del ejercicio anterior "Función de coste", por lo que debes basarte en el mismo.

In [None]:
import time
import numpy as np

from matplotlib import pyplot as plt

## Tarea 1: Implementar la función de coste para regresión lineal multivariable

En esta tarea, debes copiar la celda correspondiente del ejercicio anterior, trayendo tu código para implementar la función de coste vectorizada:

In [None]:
# TODO: Implementa la función de coste vectorizada siguiendo la siguiente plantilla

def cost_function(x, y, theta):
    """ Computa la función de coste para el dataset y coeficientes considerados.
    
    Argumentos posicionales:
    x -- array 2D de Numpy con los valores de las variables independientes de los ejemplos, de tamaño m x n
    y -- array 1D de Numpy con la variable dependiente/objetivo, de tamaño m x 1
    theta -- array 1D de Numpy con los pesos de los coeficientes del modelo, de tamaño 1 x n (vector fila)
    
    Devuelve:
    j -- float con el coste para dicho array theta
    """
    m = [...]
    
    # Recuerda comprobar las dimensiones de la multiplicación matricial para hacerla correctamente
    j = [...]
    
    return j

## Tarea 2: Implementar la optimización de dicha función de coste por gradient descent

Ahora vamos a resolver la optimización de dicha función de coste para entrenar el modelo, mediante el método de gradient descent de forma vectorizada. El modelo se considerará entrenado cuando su función de coste haya alcanzado un valor mínimo y estable.

$$Y = h_\Theta(X) = X \times \Theta^T$$

$$J_\theta = \frac{1}{2m} \sum_{i = 0}^{m} (h_\theta(x^i) - y^i)^2$$

$$\theta_j := \theta_j - \alpha [\frac{1}{m} \sum_{i = 0}^{m}{(h_\theta(x^i) - y^i) x_j^i}]$$

Para ello, de nuevo, rellena la plantilla de código de la siguiente celda.

Consejos:
- Si lo prefieres, puedes implementar primero la función con bucles e iteraciones y por último de forma vectorizada
- Recuerda las dimensiones de cada vector/matriz
- De nuevo, anota las operaciones por orden paso a paso en una hoja o celda auxiliar
- En cada paso, anota las dimensiones de su resultado, que también puedes comprobar en tu código
- Usa numpy.matmul() como multiplicación de matrices
- Al inicio de cada iteración de entrenamiento, debes copiar toda $\Theta$, puesto que vas a iterar actualizando cada uno de sus valores basándote en el vector completo

In [None]:
# TODO: Implementa la función que entrena el modelo por gradient descent

def gradient_descent(x, y, theta, alpha, e, iter_):
    """ Entrena el modelo optimizando su función de coste por gradient descent
    
    Argumentos posicionales:
    x -- array 2D de Numpy con los valores de las variables independientes de los ejemplos, de tamaño m x n
    y -- array 1D de Numpy con la variable dependiente/objetivo, de tamaño m x 1
    theta -- array 1D de Numpy con los pesos de los coeficientes del modelo, de tamaño 1 x n (vector fila)
    alpha -- float, ratio de entrenamiento
    
    Argumentos nombrados (keyword):
    e -- float, diferencia mínima entre iteraciones para declarar que el entrenamiento ha convergido finalmente
    iter_ -- int/float, nº de iteraciones
    
    Devuelve:
    j_hist -- list/array con la evolución de la función de coste durante el entrenamiento
    theta -- array de Numpy con el valor de theta en la última iteración
    """
    # TODO: declara unos valores por defecto para e e iter_ en los argumentos nombrados (keyword) de la función
    
    iter_ = int(iter_)    # Si has declarado iter_ en notación científica (1e3) o float (1000.), conviértelo
    
    # Inicializa j_hist como una list o un array de Numpy. Recuerda que no sabemos qué tamaño tendrá finalmente
    # Su nº máx. de elementos será el nº máx. de iteraciones
    j_hist = [...]
    
    m, n = [...]    # Obtén m y n a partir de las dimensiones de X
    
    for k in [...]:    # Itera sobre el nº de iteraciones máximo
        theta_iter = [...]    # Copia con "deep copy" la theta para cada iteración, ya que debemos actualizarla
        
        for j in [...]:    # Itera sobre el nº de características
            # Actualiza theta_iter para cada característica, según la derivada de la función de coste
            # Incluye el ratio de entrenamiento alpha
            # Cuidado con las multiplicaciones matriciales, su órden y dimensiones
            theta_iter[j] = theta[j] - [...]
            
        theta = theta_iter    # Actualiza toda la theta, lista para la siguiente iteración
        
        cost = cost_function([...])    # Calcula el coste para la iteración de theta actual
        
        j_hist[...]    # Añade el coste de la iteración actual al histórico de costes
        
        # Comprueba si la diferencia entre el coste de la iteración actual y el de la última iteración en valor
        # absoluto son menores que la diferencia mínima para declarar convergencia, e, para toda iteración
        # excepto la primera
        if k > 0 and [...]:
            print('Converge en la iteración nº: ', k)
            
            break
    else:
        print('Nº máx. de iteraciones alcanzado')
        
    return j_hist, theta

## Tarea 3: Comprobar la implementación del gradient descent

Para comprobar tu implementación, de nuevo, utiliza la misma celda variando sus parámetros varias veces, representando gráficamente la evolución de la función de coste y viendo cómo su valor va acercándose a 0.

En cada caso, comprueba que la $\Theta$ inicial y final son muy similares en los siguientes escenarios:
1. Genera varios datasets sintéticos, comprobando cada uno
1. Modifica el nº de ejemplos y características, m y n
1. Modifica el parámetro de error, lo que puede hacer que la $\Theta$ inicial y final no concuerden del todo, y a mayor error más diferencia puede haber
1. Comprueba los hiper-parámetros del nº máx. de iteraciones o el ratio de entrenamiento $\alpha$, que hará que el modelo tarde más o menos en entrenarse, dentro de unos valores mínimos y máximos

In [None]:
# TODO: Genera un dataset sintético, con término de error, de la forma que escojas, con Numpy o Scikit-learn

m = 0
n = 0
e = 0.

X = [...]

Theta_verd = [...]

Y = [...]

# Comprueba los valores y dimensiones (forma o "shape") de los vectores
print('Theta real a estimar:')
print()
print('shape')

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print('shape', 'shape')

In [None]:
# TODO: Comprueba tu implementación entrenando un modelo sobre el dataset sintético creado previamente

# Utiliza una theta iniciada aleatoriamente o la Theta_verd, en función del escenario a comprobar
theta_ini = [...]

print('Theta inicial:')
print(theta_ini)

alpha = 1e-1
e = 1e-3
iter_ = 1e3    # Comprueba que tu función puede admitir valores float o modifícalo

print('Hiper-arámetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

t = time.time()
j_hist, theta_final = gradient_descent([...])

print('Tiempo de entrenamiento (s):', time.time() - t)

# TODO: completar
print('\nÚltimos 10 valores de la función de coste')
print(j_hist[...])
print('\nCoste final:')
print(j_hist[...])
print('\nTheta final:')
print(theta_final)

print('Valores verdaderos de Theta y diferencia con valores entrenados:')
print(Theta_verd)
print(theta_final - Theta_verd)

Representa gráficamente el histórico de la función de coste para comprobar tu implementación:

In [None]:
# TODO: Representa gráficamente la función de coste vs el nº de iteraciones

plt.figure()

plt.title('Función de coste')
plt.xlabel('nº iteraciones')
plt.ylabel('coste')

plt.plot([...])    # Completar

plt.grid()
plt.show()

Para comprobar completamente la implementación de dichas funciones, modifica el dataset sintético original para comprobar que la función de coste y el entrenamiento por gradient descent siguen funcionando correctamente.

P. ej., modifica el nº de ejemplos y el nº de características.

También añádele de nuevo un término de error a la Y. En este caso, puede que la Theta inicial y la final no concuerden del todo, ya que hemos introducido error o "ruido" en el dataset de entrenamiento.

Por último, comprueba todos los hiper-parámetros de tu implementación. Utiliza varios valores de alpha, e, nº de iteraciones, etc., y comprueba que los resultados son los esperados.