# Regresión lineal multivariable: Función de coste
M2U2 - Ejercicio 1

## ¿Qué vamos a hacer?
- Implementar la función de coste para regresión lineal multivariable

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

In [24]:
import numpy as np

## Tarea 1: Implementar la función de coste para regresión lineal multivariable no vectorizada

En esta tarea, debes implementar la función de coste para regresión lineal multivariable en Python. La función de coste debe seguir la función incluida en las diapositvas y en el manual del curso.

Para ello, primero rellena el código de la siguiente celda para implementar la función de coste no vectorizada.

Las diferencias entre una implementación vectorizada y no vectorizada son las siguientes:
- La vectorizada utiliza operaciones de álgebra lineal, de operaciones entre vectores/matrices.
- La no vectorizada se implementa con bucles de control for en Python, iterando entre las secuencias/listas de elementos uno a uno.
- La vectorizada utiliza Numpy, sus arrays ndarray y operaciones como np.matmul().
- La no vectorizada es menos eficiente, ya que no utiliza los métodos numéricos de Numpy sobre operaciones de C++.
- Sin embargo, la no vectorizada es bastante más sencilla de comprender en un primer momento, al ser Python puro, sin depender de otras funciones y dimensiones de vectores.

Recuerda la ecuación:

$$Y = h_\Theta(X) = X \times \Theta^T$$

$$J_\theta = \frac{1}{2m} \sum_{i = 0}^{m} (h_\theta(x^i) - y^i)^2$$

Para implementarla, sigue estos pasos:
1. Tómate un tiempo para revisar la ecuación y asegúrate que comprendes todas las operaciones matemáticas reflejadas en ella
1. Vuelve a ejercicios anteriores o revisa las diapositivas y anota en una hoja de papel (o celda auxiliar) las dimensiones de cada vector o matriz de la ecuación
1. Anota en dicho papel o celda auxiliar las operaciones de álgebra lineal paso a paso
    1. Comienza por sustituir $h_{\theta}$ en la 2ª ecuación por su valor de la 1ª
    1. La primera operación es hallar la $h_{\theta}$ o Y predicha para cada fila de X (multiplicándola por $\Theta$)
    1. La 2ª, restarle el valor de Y para dicho ejemplo/fila de X, hayando su residuo
    1. Luego elevar al cuadrado el resultado
    1. A continuación, sumar todos los cuadrados de los residuos para todos los ejemplos/filas de X
    1. Por último, dividirlos por 2 * m
1. Anota al lado de cada paso las dimensiones que debería tener su resultado. Recuerda que el resultado final de la función de coste es un escalar o número
1. Por último, piensa cómo iterar con bucles for por cada valor de X, $\Theta$ e Y para implementar la función de coste:
    1. Implementa la fórmula usando únicamente bucles for y la función sum() de la librería estándar de Python, sin usar métodos ni operadores de Numpy
    1. Itera por todas las filas o ejemplos de X (m filas)
    1. Dentro de dicho bucle, itera por las características o valores de X y $\Theta$ para calcular la Y predicha para dicho ejemplo
    1. Una vez hallados todos los residuos, halla el coste total

*Notas:*
- Los pasos mencionados son sólo una guía, una ayuda. En cada ejercicio, implementa tu código a tu manera, con el planteamiento que prefieras, utilizando el esquema de código de la celda o no
- No te preocupes demasiado por ahora por saber si funciona correctamente o no, puesto que en la siguiente tarea la comprobaremos. Si hubiera algún error, puedes volver a esta celda para corregir tu código.

In [25]:
# TODO: Implementa la función de coste no vectorizada siguiendo la siguiente plantilla


def cost_function_non_vectorized(x, y, theta):
    """ Computa la función de coste para el dataset y coeficientes considerados.

    Argumentos posicionales:
    x -- array 2D de Numpy con los valores de las variables independientes de los ejemplos, de tamaño m x n
    y -- array 1D de Numpy con la variable dependiente/objetivo, de tamaño m x 1
    theta -- array 1D de Numpy con los pesos de los coeficientes del modelo, de tamaño 1 x n (vector fila)

    Devuelve:
    j -- float con el coste para dicho array theta
    """
    m = x.shape[0]   # número de filas
    suma_residuos = 0

    # recorrer todas las filas de X
    for i in range(m):
        y_pred = 0
        # recorrer todas las columnas de la fila i
        for j in range(x.shape[1]):
            y_pred += x[i][j] * theta[j]

        residuo = y_pred - y[i]
        suma_residuos += residuo ** 2

    j = (1 / (2 * m)) * suma_residuos
    return j



## Tarea 2: Comprueba tu implementación

Para comprobar tu implementación, rescata tu código del notebook anterior acerca de datasets sintéticos para regresión lineal multivariable y utilízalos para generar un dataset en la siguiente celda:

In [26]:
# TODO: Genera un dataset sintético, con término de error, de la forma que escojas, con Numpy o Scikit-learn

from sklearn.datasets import make_regression

X, Y, Theta_verd  = make_regression(n_samples= 200, n_features= 10, coef= True, noise = 0.3)

# Comprueba los valores y dimensiones (forma o "shape") de los vectores
print('Theta real a estimar:')
print(Theta_verd)
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print(X[:10,:5])
print(Y[:10])

print('Dimensiones de X e Y:')

print('X.shape:', X.shape)
print('Y.shape:', Y.shape)


Theta real a estimar:
[ 6.75969225 78.27284043 99.60549133 52.76020854 17.74471972 81.39205358
  5.4145887  23.38892204 80.74281302 94.34950677]

Primeras 10 filas y 5 columnas de X e Y:
[[-0.73003074  0.68344879  0.19762018 -0.19513234 -0.31123127]
 [-2.12448995  0.56549566 -0.71215787 -0.35109066 -1.83968414]
 [-0.63176418 -0.69439356  1.25867505  0.05134935  1.02630299]
 [-0.23735674 -1.77064685  0.50849684 -1.10505314  0.59151003]
 [ 0.27895845 -0.19614134 -0.67487573  1.03640937  0.4127931 ]
 [-0.30569096  0.86755685  0.66618156  0.0861426   0.43285752]
 [ 1.37351418 -0.81369131  0.96718912 -1.43781097  0.53996167]
 [-0.11197933  0.69812549 -0.26626036 -1.82781948 -0.8619834 ]
 [-0.90771237  0.342469   -0.49101012  0.14543868 -1.58150686]
 [ 0.00524442 -0.12407644  0.92044771  0.37290051 -2.29880417]]
[ -44.89763855  131.96236155   79.77753007 -102.26789646 -157.60079916
  -42.26581998 -168.29250357  -96.39826536  125.15781437   57.2509931 ]
Dimensiones de X e Y:
X.shape: (200, 10

Ahora vamos a comprobar tu implementación de la función de coste en las siguientes celdas.

Recuerda que la función de coste representa el "error" de tu modelo, el sumatorio de los cuadrados de los resíduos del mismo.

Por ello, la función de coste tiene las siguientes características:
- No tiene unidades, por lo que no podemos saber si su valor es "demasiado alto o bajo", simplemente comparar los costes de dos modelos (conjuntos de $\Theta$) diferentes
- Tiene un valor de 0 para la $\Theta$ teóricamente óptima
- Sus valores siempre son positivos
- Tiene un valor más alto cuanto más se aleja la $\Theta$ utilizada de la $\Theta$ óptima
- Su valor crece con el cuadrado de los residuos del modelo

Por lo tanto, utiliza la siguiente celda para comprobar la implementación de tu función con diferentes $\Theta$, corrigiendo tu función si es necesario. Comprueba que:
1. Si la $\Theta$ es igual que la $\Theta_{verd}$ (obtenida al definir el dataset), el coste es 0
1. Si la $\Theta$ es distinta que la $\Theta_{verd}$, el coste es distinto a 0 y positivo
1. Cuanto más alejada está la $\Theta$ de la $\Theta_{verd}$, mayor es el coste (compruébalo con 3 $\Theta$ diferentes a $\Theta_{verd}$, en orden de menor a mayor)

*Nota:* Para ello, utiliza la misma celda, modificando sus variables varias veces.

In [27]:
#TODO: Comprueba la implementación de tu función de coste


# theta cercano
theta_cercano = Theta_verd + 0.1*np.random.randn(Theta_verd.shape[0])

# theta medio
theta_medio = Theta_verd + 1*np.random.randn(Theta_verd.shape[0])

# theta lejano
theta_lejos = Theta_verd + 5*np.random.randn(Theta_verd.shape[0])

# calcular costes
coste_real = cost_function_non_vectorized(X, Y, Theta_verd)
coste_cercano = cost_function_non_vectorized(X, Y, theta_cercano)
coste_medio = cost_function_non_vectorized(X, Y, theta_medio)
coste_lejos = cost_function_non_vectorized(X, Y, theta_lejos)

# mostrar resultados
print("Coste con theta verdadero:", coste_real)
print("Coste con theta cercano:", coste_cercano)
print("Coste con theta medio:", coste_medio)
print("Coste con theta lejano:", coste_lejos)

print("\nTheta verdadero:")
print(Theta_verd)
print("\nTheta cercano:")
print(theta_cercano)
print("\nTheta medio:")
print(theta_medio)
print("\nTheta lejano:")
print(theta_lejos)


Coste con theta verdadero: 0.054117321290945694
Coste con theta cercano: 0.079563533625605
Coste con theta medio: 4.752124679051454
Coste con theta lejano: 54.96703641508773

Theta verdadero:
[ 6.75969225 78.27284043 99.60549133 52.76020854 17.74471972 81.39205358
  5.4145887  23.38892204 80.74281302 94.34950677]

Theta cercano:
[ 6.82983943 78.2018553  99.63130425 52.89227802 17.67523207 81.28139131
  5.39912003 23.24218374 80.72558987 94.25843004]

Theta medio:
[  5.48591698  78.99331707 100.37542014  52.98833287  18.3709719
  79.19209417   5.29166981  23.66034567  81.40675917  95.19065648]

Theta lejano:
[ 11.82528326  70.95494334 102.89007672  50.78440755  13.15125253
  80.96369821   6.01045967  24.72012473  82.34757607  98.1819578 ]


## Tarea 3: Vectorizar la función de coste

Ahora vamos a implementar una nueva función de coste, pero en esta ocasión vectorizada.

Una función vectorizada es aquella que se realiza en base a operaciones de álgebra lineal, en lugar de p. ej. los bucles for utilizados en la primera función, y por tanto su computación es mucho más rápida y eficiente, más aún si se realiza en GPUs o procesadores especializados.

Implementa de nuevo la función de coste, pero esta vez utilizando exclusivamente las operaciones de álgebra lineal para operar con vectores/arrays de Numpy.

Consejos:
- Comprueba las dimensiones del resultado de cada operación o paso intermedio una a una si lo necesitas
- Intenta implementar la ecuación con el mínimo número de operaciones posibles, sin bucles ni iteraciones
- Utiliza funciones como [numpy.matmul()](https://numpy.org/doc/stable/reference/generated/numpy.matmul.html) o numpy.sum().
- Utiliza ndarray.reshape() para *theta* si te da algún problema en la multiplicación matricial, para conseguir un vector ndarray 2D (n+1, 1) en lugar de un 1D (n+1,)
- Asegúrate de devolver un valor *j* float, no un ndarray 2D con 1 solo elemento. Extráelo con sus índices si es necesario.

In [28]:
# TODO: Implementa la función de coste vectorizada siguiendo la siguiente plantilla

def cost_function(x, y, theta):
    """Computa la función de coste de manera vectorizada.

    Argumentos:
    x -- array 2D de Numpy, tamaño m x n
    y -- array 1D de Numpy, tamaño m
    theta -- array 1D de Numpy, tamaño n

    Devuelve:
    j -- float con el coste para theta
    """
    # número de ejemplos
    m = x.shape[0]

    # asegurar que theta sea un vector columna (n x 1) para multiplicación matricial
    theta = theta.reshape(-1, 1)  # ahora es n x 1

    # predecir todas las Y usando multiplicación matricial
    h = np.matmul(x, theta)

    # convertir y en vector columna si es necesario
    y = y.reshape(-1, 1)  # m x 1

    # calcular residuos (diferencia entre predicción y valores reales)
    residuos = h - y  # m x 1

    # elevar al cuadrado y sumar todos los residuos
    suma_cuadrados = np.sum(residuos**2)

    # coste final según la fórmula J(theta) = 1/(2*m) * sum((h-y)^2)
    j = suma_cuadrados / (2*m)

    # asegurar que devuelva float y no array 2D
    return float(j)


In [29]:
#TODO: Comprueba la implementación de tu función de coste


# theta cercano
theta_cercano = Theta_verd + 0.1*np.random.randn(Theta_verd.shape[0])

# theta medio
theta_medio = Theta_verd + 1*np.random.randn(Theta_verd.shape[0])

# theta lejano
theta_lejos = Theta_verd + 5*np.random.randn(Theta_verd.shape[0])

# calcular costes
coste_real = cost_function(X, Y, Theta_verd)
coste_cercano = cost_function(X, Y, theta_cercano)
coste_medio = cost_function(X, Y, theta_medio)
coste_lejos = cost_function(X, Y, theta_lejos)

# mostrar resultados
print("Coste con theta verdadero:", coste_real)
print("Coste con theta cercano:", coste_cercano)
print("Coste con theta medio:", coste_medio)
print("Coste con theta lejano:", coste_lejos)

print("\nTheta real:")
print(Theta_verd)
print("\nTheta cercano:")
print(theta_cercano)
print("\nTheta medio:")
print(theta_medio)
print("\nTheta lejano:")

print(theta_lejos)

Coste con theta verdadero: 0.0541173212909457
Coste con theta cercano: 0.09866060804948734
Coste con theta medio: 9.682224920650068
Coste con theta lejano: 104.39906698631904

Theta real:
[ 6.75969225 78.27284043 99.60549133 52.76020854 17.74471972 81.39205358
  5.4145887  23.38892204 80.74281302 94.34950677]

Theta cercano:
[ 6.82006981 77.98717417 99.68198735 52.82453491 17.65993083 81.43298891
  5.35927311 23.37286988 80.68236485 94.50943621]

Theta medio:
[ 5.60617712 81.35613023 97.21174011 52.3951491  18.40949967 83.1186333
  5.96162842 23.75839188 79.88120266 94.97292166]

Theta lejano:
[  4.49523148  81.39536276 100.41057624  53.22699768  20.08470422
  90.58235129  11.52564093  20.35715108  81.92400618 101.19865123]


In [30]:
from sklearn.metrics import mean_squared_error

# y_pred: predicciones del modelo
y_pred = np.matmul(X, Theta_verd)  # o cualquier theta que quieras probar

# MSE puro
mse = mean_squared_error(Y, y_pred)

# Función de coste equivalente a la que implementaste (MSE/2)
coste = mse / 2

print("MSE puro:", mse)
print("Coste (MSE/2):", coste)


MSE puro: 0.1082346425818914
Coste (MSE/2): 0.0541173212909457
