# Regresión lineal multivariable: Función de coste y gradient descent

## ¿Qué vamos a hacer?

- Implementar la función de coste para regresión lineal multivariable
- Implementar la optimización de dicha función de coste por gradient descent

In [None]:
import time
import numpy as np

from matplotlib import pyplot as plt

## Tarea 1: Implementar la función de coste para regresión lineal multivariable

En esta tarea, debes implementar la función de coste para regresión lineal multivariable en Python usando Numpy. La función de coste debe seguir la función incluida en las diapositvas y en el manual del curso.

Para ello, rellena el código de la siguiente celda:

In [None]:
# TODO: Implementa la función de coste siguiendo la siguiente plantilla

def cost_function(x, y, theta):
    """ Computa la función de coste para el dataset y coeficientes considerados.
    
    Argumentos posicionales:
    x -- array 2D de Numpy con los valores de las variables independientes de los ejemplos, de tamaño m x n
    y -- array 1D de Numpy con la variable dependiente/objetivo, de tamaño m x 1
    theta -- array 1D de Numpy con los pesos de los coeficientes del modelo, de tamaño 1 x n (vector fila)
    
    Devuelve:
    j -- float con el coste para dicho array theta
    """
    m = [...]
    
    # Recuerda comprobar las dimensiones de la multiplicación matricial para hacerla correctamente
    j = [...]
    
    return j

Para comprobar tu implementación, rescata tu código del notebook anterior acerca de datasets sintéticos y sigue las siguientes instrucciones:

In [None]:
# TODO: Genera un dataset sintético, sin término de error, de la forma que escojas

m = 0
n = 0

X = [...]

Theta_verd = [...]

Y = [...]

# Comprueba los valores y dimensiones (forma o "shape") de los vectores
print('Theta a estimar:')
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print('shape', 'shape')

Como el dataset sintético no tiene término de error, la función de coste para la Theta correcta debe ser exactamente 0, aumentando su valor según nos alejamos de la misma.

Comprueba tu implementación de la función de coste comprobando su valor con diferentes valores de su argumento theta, comprobando varios valores desde la Theta incorrecta a valores más alejados de la misma:

In [None]:
#TODO: Comprueba la implementación de tu función de coste

theta = Theta_verd    # Modifica y comprueba varios valores de theta

j = cost_function(X, Y, theta)

print('Coste del modelo:')
print(j)
print('Theta comprobado y Theta real:')
print(theta)
print(Theta_verd)

## Tarea 2: Implementar la optimización de dicha función de coste por gradient descent

Ahora vamos a resolver la optimización de dicha función de coste para entrenar el modelo, mediante el método de gradient descent. El modelo se considerará entrenado cuando su función de coste haya alcanzado un valor mínimo.

Para ello, de nuevo, rellena la plantilla de código de la siguiente celda:

In [None]:
# TODO: Implementa la función que entrena el modelo por gradient descent

def gradient_descent(x, y, theta, alpha, e, iter_):
    """ Entrena el modelo optimizando su función de coste por gradient descent
    
    Argumentos posicionales:
    x -- array 2D de Numpy con los valores de las variables independientes de los ejemplos, de tamaño m x n
    y -- array 1D de Numpy con la variable dependiente/objetivo, de tamaño m x 1
    theta -- array 1D de Numpy con los pesos de los coeficientes del modelo, de tamaño 1 x n (vector fila)
    alpha -- float, ratio de entrenamiento
    
    Argumentos nombrados (keyword):
    e -- float, diferencia mínima entre iteraciones para declarar que el entrenamiento ha convergido finalmente
    iter_ -- int/float, nº de iteraciones
    
    Devuelve:
    j_hist -- list/array con la evolución de la función de coste durante el entrenamiento
    theta -- array de Numpy con el valor de theta en la última iteración
    """
    # TODO: declara unos valores por defecto para e e iter_ en los argumentos nombrados (keyword) de la función
    
    iter_ = int(iter_)    # Si has declarado iter_ en notación científica (1e3) o float (1000.), conviértelo
    
    # Inicializa j_hist como una list o un array de Numpy. Recuerda que no sabemos qué tamaño tendrá finalmente
    j_hist = [...]
    
    m, n = [...]    # Obtén m y n a partir de las dimensiones de X
    
    for k in [...]:    # Itera sobre el nº de iteraciones máximo
        theta_iter = [...]    # Declara una theta para cada iteración, ya que debemos actualizarla
        
        for j in [...]:    # Itera sobre el nº de características
            # Actualiza theta_iter para cada característica, según la derivada de la función de coste
            # Incluye el ratio de entrenamiento alpha
            # Cuidado con las multiplicaciones matriciales, su órden y dimensiones
            theta_iter[j] = theta[j] - [...]
            
        theta = theta_iter
        
        cost = cost_function([...])    # Calcula el coste para la iteración de theta actual
        
        j_hist[...]    # Añade el coste de la iteración actual al histórico de costes
        
        # Comprueba si la diferencia entre el coste de la iteración actual y el de la última iteración en valor
        # absoluto son menores que la diferencia mínima para declarar convergencia, e
        if k > 0 and [...]:
            print('Converge en la iteración nº: ', k)
            
            break
    else:
        print('Nº máx. de iteraciones alcanzado')
        
    return j_hist, theta

Para comprobar tu implementación, de nuevo, usa varios valores de Theta, tanto la Theta correcta como valores cada vez más alejados de ella, y comprueba que finalmente el modelo converge a la Theta correcta:

In [None]:
# TODO: Comprueba tu implementación entrenando un modelo sobre el dataset sintético creado previamente

# Crea una theta inicial con un valor dado.
# Primero usa el valor de Theta correcto, luego unos valores cada vez más alejados.
# Finalmente, comprueba también tu implementación con valores de theta_ini aleatorios
theta_ini = [...]

print('Theta inicial:')
print(theta_ini)

alpha = 1e-1
e = 1e-3
iter_ = 1e3    # Comprueba que tu función puede admitir valores float o modifícalo

print('Hiper-arámetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

t = time.time()
j_hist, theta_final = gradient_descent([...])

print('Tiempo de entrenamiento (s):', time.time() - t)

# TODO: completar
print('\nÚltimos 10 valores de la función de coste')
print(j_hist[...])
print('\Coste final:')
print(j_hist[...])
print('\nTheta final:')
print(theta_final)

print('Valores verdaderos de Theta y diferencia con valores entrenados:')
print(Theta_verd)
print(theta_final - Theta_verd)

### Representar la función de coste

Representa gráficamente el histórico de la función de coste para comprobar tu implementación:

In [None]:
# TOOD: Representa gráficamente la función de coste vs el nº de iteraciones

plt.figure()

plt.title('Función de coste')
plt.xlabel('nº iteraciones')
plt.ylabel('coste')

plt.plot([...])    # Completa

plt.grid()
plt.show()

Para comprobar completamente la implementación de dichas funciones, modifica el dataset sintético original para comprobar que la función de coste y el entrenamiento por gradient descent siguen funcionando correctamente.

P. ej., modifica el nº de ejemplos y el nº de características.

También añádele de nuevo un término de error a la Y. En este caso, puede que la Theta inicial y la final no concuerden del todo, ya que hemos introducido error o "ruido" en el dataset de entrenamiento.

Por último, comprueba todos los hiper-parámetros de tu implementación. Utiliza varios valores de alpha, e, nº de iteraciones, etc., y comprueba que los resultados son los esperados.