In [None]:
import numpy as np
import matplotlib.pyplot as plt
import ipywidgets as widgets
%matplotlib widget
layout = widgets.Layout(align_items = 'center')

<h2>GRADIENTE DESCENDENTE</h2>
 
 Método de <strong>minimización de la función costo $J(\theta)$</strong>.

<ul>
    <li>Graficar la función costo ($J$) como una función de 
        los parámetros $\theta$ de la función hipótesis.</li>
    <li>Hallar los valores mínimos en el gráfico calculando 
        la <strong>derivada</strong> de la función costo.</li>
  <li> El valor de la derivada en un punto de la función es la 
      <strong>pendiente de la tangente</strong> a dicho punto. 
      Por lo tanto, el valor de la pendiente dará la 
      <strong>dirección</strong> hacia la cual es necesario cambiar 
      el valor de $\theta$ para hallar el valor mínimo de la función 
      de costo $J(\theta)$.</li>
  <li> El tamaño de los pasos realizados son determinados por el 
      parámetro $\alpha$ denominado <strong>tasa de aprendizaje</strong>. 
      Un $\alpha$ pequeño resulta en un pequeño cambio del valor de 
      $\theta$ y un $\alpha$ grande, en un cambio mayor.</li>
</ul>


El algorítmo de gradiente descendente se basa en <strong>repetir hasta 
    la convergencia</strong>:

$$
    \theta_j := \theta_j - \alpha \frac{\partial}{\partial\theta_j}J(\theta_0, \theta_1)
$$

<br>
Si se considera que se tiene un único parámetro ($\theta_1 = \omega$), 
el algorítmo sería:
Repetir hasta la convergencia: $\theta_1 := \theta_1 - \alpha \frac{\partial}{\partial\theta_1}J(\theta_1)$

<center>
<img src="./figures/gradientDesc.jpeg" height="600" width="600"/>
</center>

- Cuando la pendiente es negativa, el valor de $\theta_1$ es incrementado 
($\theta_1 := \theta_1 - \alpha.\text{valor negativo}$), desplazandonos 
hacia la derecha en el gráfico de $J(\omega)$
- Cuando la pendiente es positiva, el valor de $\theta_1$ decrece 
($\theta_1 := \theta_1 - \alpha.\text{valor positivo}$) desplazandonos hacia 
la izquierda en el gráfico de $J(\omega)$
- En el mínimo de la función,$\frac{\partial}{\partial\theta_1}J(\theta_1)$ 
será siempre igual a cero.
 
<b>Cosas a tener en cuenta:</b>
<ol>
    <li>Si $\alpha$ es muy pequeño, el gradiente descendente puede ser muy 
        lento.</li>
    <li>Si $\alpha$ es muy grande, el gradiente descendente puede no converger 
        nunca.</li>
    <li>Dependiendo del punto de partida, se podrían obtener distintos valores, 
        correspondientes a distintos valores mínimos. Esto no sucede en la 
        regresión lineal ya que la función $J(\theta)$ tiene un único mínimo 
        global.</li>
    <li>La función de costo $J(\theta)$ debería decrecer su valor en cada iteración 
        si el gradiente descendente funciona correctamente.</li>
</ol>

<center>
<img src="./figures/learning-rate.png" height="600" width="600"/>
</center>    

<strong>EJEMPLO CON REGRESIÓN LINEAL</strong>

In [None]:
x_linearR_gd = np.linspace(0, 1, 10)
y_linearR_gd = x_linearR_gd

alpha_slider = widgets.FloatSlider(min = 0,max = 0.99,step = 0.001,value = 0.5,description = r'$\alpha$')

def plot_J_gd(alpha, x, y):
    m = x.size
    
    t0 = np.array([0])
    t1 = np.array([0])
    J = np.array([])

    for i in range(0,50):
        h = t0[i] + t1[i] * x
        J = np.append(J, 1/(2 * m) * np.sum(np.square(h - y)))

        t0 = np.append(t0, t0[i] - alpha/m * np.sum(h - y))
        t1 = np.append(t1, t1[i] - alpha/m * np.sum((h - y) * x))
        
    return t0[-1], t1[-1], J

def h_gd(t0,t1,x):
    h = t0 + t1 * x
    return h
    
plots_lr_gd = widgets.Output()

with plots_lr_gd:
    fig_lr_gd, axs_lr_gd = plt.subplots(1,2,figsize = (10,4),tight_layout = True)
    fig_lr_gd.suptitle(r'Regresión lineal con gradiente descendente')
    
    axs_lr_gd[1].set_title(fr'Variación de función de costo $J(\theta)$')
    t0, t1, J_linearR_gd = plot_J_gd(alpha_slider.value, x_linearR_gd, y_linearR_gd)
    line3, = axs_lr_gd[1].plot(J_linearR_gd)
    axs_lr_gd[1].set_ylabel(r'$J(\theta)$')   
    axs_lr_gd[1].set_xlabel(r'N° de iteraciones')   
    axs_lr_gd[1].grid(True)
    
    axs_lr_gd[0].set_title(fr'Hipótesis vs Valores de salida reales')
    line4, = axs_lr_gd[0].plot(x_linearR_gd, h_gd(t0, t1, x_linearR_gd),label='Valor predicho')
    axs_lr_gd[0].plot(x_linearR_gd, y_linearR_gd,'o', label = 'Salida real')
    axs_lr_gd[0].legend()
    axs_lr_gd[0].grid(True)
    

out_t0_linearR_gd = widgets.HTMLMath(value = fr'El valor de $\theta_0$ después de 50 iteraciones es: {t0:.2f}')
    
out_t1_linearR_gd = widgets.HTMLMath(value = fr'El valor de $\theta_1$ después de 50 iteraciones es: {t1:.2f}')

out_linearR_gd = widgets.HTMLMath(value = fr'Los valores correctos serían $\theta_0=0$ y $\theta_1=1$')

def update_J_linearR_gd (change):
    t0, t1, J_linearR_gd = plot_J_gd(alpha_slider.value, x_linearR_gd, y_linearR_gd)
    line3.set_ydata(J_linearR_gd)
    line4.set_ydata(h_gd(t0, t1,x_linearR_gd))
    out_t0_linearR_gd.value = fr'El valor de $\theta_0$ después de 50 iteraciones es: {t0:.2f}'
    out_t1_linearR_gd.value = fr'El valor de $\theta_1$ después de 50 iteraciones es: {t1:.2f}'
    
alpha_slider.observe(update_J_linearR_gd ,'value')

widgets.VBox([plots_lr_gd,alpha_slider, out_t0_linearR_gd, out_t1_linearR_gd,out_linearR_gd],layout=layout)
 

<h3>TRATAMIENTO DE VARIABLES</h3>
Para mejorar el desempeño del gradiente descendente, los 
<strong>valores de entrada</strong> deben ubicarse en el 
<strong>mismo rango</strong>:
$$
    -1 \leq X_j \leq 1
$$
$$
    -0.5 \leq X_j \leq 0.5
$$
<dl>
  <dt>Escalamiento de variables:</dt>
  <dd>- Dividir los valores de entrada por el rango (valor
      máximo menos valor mínimo) de la misma variable, 
      resultando en un nuevo rango de 1. Es posible utilizar 
      también la desviación estandar de la variable para realizar 
      su escalamiento.</dd>
<br>
  <dt>Normalización de media:</dt>
  <dd>- Restar el valor promedio de una variable a sus valores 
      de entrada, resultando en un nuevo valor promedio para esa 
      variable de 0.</dd>
</dl>
    $$
        x_i := \frac{x_i-\mu_i}{s_i}
    $$

<ul>
    <li>$\mu_i$: PROMEDIOS de todos los valores de la variable $i$.</li>
    <li>$s_i$: RANGO de valores de la variable $i$ o DESVIACIÓN 
        ESTANDAR.</li>
</ul>