# Regresión lineal multivariable: Método analítico vs iterativo
M2U2 - Ejercicio 3

## ¿Qué vamos a hacer?
- Resolver la regresión lineal por el método analítico

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

## Resolver el modelo por el método analítico

En esta ocasión, vamos a resolver o entrenar el modelo usando la ecuación normal, que tiene la siguiente forma:

$\Theta_{(n,1)} = (X^T \times X)^{-1} \times X^T \times Y$

In [1]:
import numpy as np

### Tarea 1: Genera un dataset sintético sin término de error

In [27]:
# TODO: Genera un dataset sintético, sin término de error, de la forma que prefieras

from sklearn.datasets import make_regression


X, Y, Theta_verd = make_regression(n_samples = 150, n_features = 5, coef = True, noise= 0)


m = X.shape[0]
X_b = np.c_[np.ones((m, 1)), X]

# Comprueba los valores y dimensiones (forma o "shape") de los vectores
print('Theta a estimar:')
print(Theta_verd)
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print(X[:10,:5])
print(Y[:5,])
print()

print('Dimensiones de X e Y:')
print('Theta shape:', Theta_verd.shape)
print('X.shape:', X.shape)
print('Y.shape:', Y.shape)

Theta a estimar:
[29.64304678 94.44014252 34.04152085 87.78091841 37.8701433 ]

Primeras 10 filas y 5 columnas de X e Y:
[[ 0.23988734 -0.76614409  0.11758472 -0.76586519 -0.92477032]
 [ 1.33158958  1.32685081  0.48147445 -0.15719028  2.20859107]
 [ 1.0578358   0.31113145 -0.07437706 -0.95919065  1.33968313]
 [-1.00016062 -0.27452339  0.36480627  0.21374184  1.55623228]
 [ 0.88985709 -0.46078984  0.50762632  0.8858395   1.1775299 ]
 [-1.11513425 -0.5073535  -1.71096231  0.43131348 -0.00937639]
 [ 0.80480491  0.53956461  0.79863323  0.2504685  -0.86299848]
 [-0.10097092 -1.17946995  0.30838813  0.79949409 -0.62005782]
 [-0.54775696  0.65667575  0.46932698  0.08344269  1.56103903]
 [-1.06635624 -2.04200802  0.69438479 -0.26261507  0.53383434]]
[-163.49053699  251.01182832   24.7442231    34.54191823  122.49441971]

Dimensiones de X e Y:
Theta shape: (6,)
X.shape: (150, 5)
Y.shape: (150,)


### Tarea 2: Implementa la ecuación normal

Implementa la siguiente función para resolver el modelo de regresión lineal, optimizando sus coeficientes $\Theta$, completando la siguiente celda:

In [28]:
# TODO: Implementa la función que resuelve la ecuación normal

def normal_equation(x, y):
    """ Calcula la theta óptima usando la ecuación normal para regresión lineal multivariable

    Argumentos posicionales:
    x -- array 2D de Numpy con los valores de las variables independientes de los ejemplos, de tamaño m x n
    y -- array 1D de Numpy con la variable dependiente/objetivo, de tamaño m x 1

    Devuelve:
    theta -- array 1D de Numpy con los pesos de los coeficientes del modelo, de tamaño 1 x n (vector fila)
    """

    theta = np.linalg.inv(x.T @ x) @ x.T @ y
    return theta

## Tarea 3: Comprueba la implementación

Usa el dataset sintético que has creado anteriormente para comprobar que tu implementación devuelve el mismo valor de $\Theta$ original, o muy similar.

Intenta comprobarlo varias veces, modificando parámetros como el nº de ejemplos y el nº de características.

También añádele de nuevo un término de error a la Y. En este caso, la $\Theta$ inicial y la final no concordarán del todo ya que hemos introducido error o "ruido" en el dataset de entrenamiento.

En algunas ocasiones, la ecuación normal no es invertible, por lo que puedes encontrarte con dicho error. En este caso, no te preocupes, es una limitación del método analítico y no de tu implementación en concreto si funciona en el resto de casos.

In [29]:
# TODO: Comprueba la implementación de tu ecuación normal

theta = normal_equation(X, Y)

print('Theta original:')
print(Theta_verd)
print('Theta estimada:')
print(theta)
print('Formas de ambas thetas:')
print(Theta_verd.shape, theta.shape)

print('Diferencia entre ambas Thetas:')
print(Theta_verd - theta)

Theta original:
[29.64304678 94.44014252 34.04152085 87.78091841 37.8701433 ]
Theta estimada:
[29.64304678 94.44014252 34.04152085 87.78091841 37.8701433 ]
Formas de ambas thetas:
(5,) (5,)
Diferencia entre ambas Thetas:
[-7.10542736e-15 -2.84217094e-14  0.00000000e+00 -1.42108547e-14
  1.42108547e-14]


In [31]:
# Añadimos ruido aleatorio ±10%
error = 0.1
Y_ruido = Y * (1 + np.random.uniform(-error, error, size=Y.shape))

theta_ruido = normal_equation(X_b, Y_ruido)

print("Theta estimada con ruido:", theta_ruido[1:])
print("Diferencia con Theta original:", theta_ruido[1:] - Theta_verd)


Theta estimada con ruido: [29.70290456 94.27484939 33.01866551 87.54194706 37.71066372]
Diferencia con Theta original: [ 0.05985778 -0.16529313 -1.02285534 -0.23897135 -0.15947958]
