In [None]:
import numpy as np
import matplotlib.pyplot as plt
import ipywidgets as widgets
%matplotlib widget
layout = widgets.Layout(align_items = 'center')

<h2>OVERFITTING vs UNDERFITTING</h2>

<dl>
    <dt><strong>UNDERFITTING</strong> (HIGH BIAS)</dt>
  <dd>Cuando la forma de la función hipótesis mapea pobremente 
      la tendencia de los datos. Es causado por una función 
      muy simple o con muy pocas variables.</dd>
<br>
  <dt><strong>OVERFITTING</strong> (HIGH VARIANCE)</dt>
  <dd>Cuando la función hipótesis se ajusta a todos los datos 
      de entrenamiento pero no es buena para predecir nuevos 
      datos. Es causado por una función demasiado compleja, 
      que crea curvas y ángulos innecesarios, no relacionados 
      con los datos.</dd>
</dl>

<center>
<img src="./figures/underVsover.jpg" height="700" width="700"/>
</center>
    
<hr>
<h3>REGULARIZACIÓN</h3>
Para solucionar un problema de <strong>overfitting</strong> es 
posible reducir el "peso" de algunos de los términos incrementando 
su costo.
Por ejemplo: Si se desea que la función 
$h_\theta(x)= \theta_0 + \theta_1 x_1 + \theta_2 x^2 + \theta_3 x^3 + \theta_4 x^4$ 
tenga un comportamiento más similar a una función cuadrática, se 
debe eliminar la influencia de los términos $\theta_3x^3$ y 
$\theta_4x^4$. Sin necesidad de eliminar estas variables, o cambiar 
la forma de la función hipótesis, esto es posible de lograr 
modificando la función costo:

$$
    \min_{\theta}\frac{1}{2m}\sum_{i=1}^m\left(h_\theta(x^i)-y^i\right)^2+1000.\theta_3^2+1000.\theta_4^2
$$

Para que la nueva función de costo se aproxime a cero, es necesario 
reducir $\theta_3$ y $\theta_4$ a valores cercanos a cero. De manera
que los valores de $\theta_3x^3$ y $\theta_4x^4$ de la función 
hipótesis se reducen también, obteniendose una función con un 
comportamiento similar a una cuadrática.

Este proceso, denominado <strong>regularización</strong>, puede ser 
aplicado a todos los parámetros $\theta$ en una única suma. 

<strong>REGRESIÓN LINEAL CON REGULARIZACIÓN</strong>
<dl>
    <dt>FUNCIÓN DE COSTO</dt>
    <dd>

$$
    J(\theta)=\frac{1}{2m}\sum_{i=1}^m\left(h_\theta(x^i)-y^i\right)^2+\frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2
$$

<ul>
    <li>$\lambda$ es el <strong>parámetro de regularización</strong>, el cual determina cuanto son aumentados los costos de los parámetros $\theta$.</li>
    <li>Si $\lambda$ es muy grande, la función puede ser suavizada demasiado, generando underfitting.</li>
</ul>    
    </dd>
   <dt>GRADIENTE DESCENDENTE</dt>
       <dd>Repetir hasta la convergencia:
           $$
               \theta_0 := \theta_0 - \alpha\frac{1}{m}\sum_{i=1}^m \left(h_\theta(x^i)-y^i\right)x_0^i
           $$
           $$
               \theta_j := \theta_j- \alpha\left[\frac{1}{m}\sum_{i=1}^m \left(\left(h_\theta(x^i)-y^i\right)x_j^i\right)+\frac{\lambda}{m}\theta_j\right] \quad j\in \text\{1,2,...,n\text\}
           $$
           <br>
           El término $\frac{\lambda}{m}\theta_j$ realiza la regularización, la cual <strong>no se aplica a $\theta_0$</strong>, puede ser representado también como:
           $$
               \theta_j := \theta_j\left(1-\alpha\frac{\lambda}{m}\right) - \alpha\frac{1}{m}\sum_{i=1}^m \left(h_\theta(x^i)-y^i\right)x_j^i
           $$
           El término $\left(1-\alpha\frac{\lambda}{m}\right)$ siempre es menor a 1, por lo que el valor de $\theta_j$ se reduce en cada iteración.
        </dd>
<br>
    
  <dt>ECUACIÓN NORMAL</dt>
      <dd>$$
              \theta = \left(X^T X+\lambda L\right)^{-1}\left(X^T y\right)
          $$
          $L$ es una matriz de dimensión $(n+1).(n+1)$:
          $$
           \begin{bmatrix}
                0 0 0 ... 0\\
                0 1 0 ... 0\\
                0 0 1 ... 0\\
                ... \\
                0 0 0 ... 1
            \end{bmatrix}
          $$
    </dd>
</dl>