In [None]:
import numpy as np
import matplotlib.pyplot as plt
import ipywidgets as widgets
%matplotlib widget
layout = widgets.Layout(align_items = 'center')

<h2>ECUACIÓN NORMAL</h2>
 
 Método <strong>no iterativo</strong> de <strong>minimización de la función costo $J(\theta)$</strong>.
 <ul>
    <li>Tomar las derivadas de la función costo $J(\theta)$ con respecto a cada $\theta_j$.</li>
    <li>Igualar cada derivada a cero.</li>
    <li>Obtener los valores de $\theta_j$ que minimizan $J(\theta)$.</li>
</ul>

Para obtener la ecuación normal se parte de la función hipótesis que se define como:

$$
    h_{\theta}(x)=\theta_0x_0+\theta_1x_1+...+\theta_nx_n
$$

$$
     h_{\theta}(x)=\theta^Tx
$$

La función costo que se busca minimizar al hacer una Regresión Lineal es:

$$
    J(\theta)=\frac{1}{2m}\sum_{i=1}^m\left[h_\theta(x^i)-y^i\right]^2
$$

Los términos de la sumatoria, sin el cuadrado, pueden representarse de manera vectorial como:
$$
   \begin{bmatrix}
        h_\theta(x^0)\\
        h_\theta(x^1)\\
        ... \\
        h_\theta(x^m)
    \end{bmatrix}
    -
    \begin{bmatrix}
        y^0\\
        y^1\\
        ... \\
        y^m
    \end{bmatrix}
$$

$$
   \begin{bmatrix}
        \theta^T(x^0)\\
        \theta^T(x^1)\\
        ... \\
        \theta^T(x^m)
    \end{bmatrix}
    -
    \begin{bmatrix}
        y^0\\
        y^1\\
        ... \\
        y^m
    \end{bmatrix}
$$

$$
    X\theta-y
$$

Para obtener el cuadrado de la matriz, se multiplica la misma por su transpuesta, obteniendose la función costo representada de manera vectorial (sin el factor $1/(2m)$): 

$$
    (X\theta-y)^T (X\theta-y)
$$

Por lo tanto:

$$
 \frac{\partial J(\theta)}{\partial\theta}=\frac{\partial}{\partial\theta}\left[(X\theta-y)^T (X\theta-y)\right]
$$

$$
   \frac{\partial J(\theta)}{\partial\theta} = 2X^TX\theta - 2X^Ty
$$

De manera que igualando esta derivada a cero:

$$
    2X^TX\theta - 2X^Ty = 0
$$

$$
    \boxed{\theta = \left(X^T X\right)^{-1}\left(X^T y\right)}
$$
<br>
<table>
  <tr>
    <th>Gradiente descendente</th>
    <th>Ecuación normal</th>
  </tr>
  <tr>
    <td>Requiere la selección del parámetro $\alpha$</td>
    <td>No requiere la selección del parámetro $\alpha$</td>
  </tr>
  <tr>
      <td>Requiere muchas iteraciones</td>
      <td>No requiere iteraciones</td>
  </tr>
  <tr>
      <td>Funciona correctamente para $n$ muy grande</td>
      <td>Es lento para $n$ muy grande</td>
  </tr>
   <tr>
      <td></td>
      <td>Su complejidad de cálculo aumenta para $n$ grande por el cálculo de la inversa</td>
  </tr>
</table>

<strong>EJEMPLO CON REGRESIÓN LINEAL</strong>
Utilizando los mismos datos que en el ejemplo de gradiente descendente

In [None]:
x_ecN = np.arange(0, 11, 1).reshape(-1,1) 
y_ecN = np.arange(0, 11, 1).reshape(-1,1)

x0_ecN = np.ones_like(x_ecN).reshape(-1, 1)

xM_ecN = np.hstack((x0_ecN , x_ecN))    # La columna 0 de la matriz de parámetros X siempre 
                                        # tiene valores igual a 1, ya que se multiplicarán con theta_0

xMtrans_ecN = xM_ecN.T

theta_ecN = np.linalg.inv(xMtrans_ecN.dot(xM_ecN)).dot(xMtrans_ecN).dot(y_ecN)

out0_ecN = widgets.HTMLMath(value = fr'El valor obtenido para $\theta_0$ con ecuación normal es: {theta_ecN[0,0]:.2f}')
out1_ecN = widgets.HTMLMath(value = fr'El valor obtenido para $\theta_1$ con ecuación normal es: {theta_ecN[1,0]:.2f}')

grid_ecN = widgets.GridspecLayout(1, 1)
grid_ecN[0, 0] = widgets.VBox([out0_ecN, out1_ecN])
grid_ecN