In [None]:
%matplotlib inline
from fastai.basics import *


En esta parte de la lectura, explicamos Stochastic Gradient Descent (SGD) el cual es un metodo de **optimization** ampliamente utilizado en redes neuronales. Los siguientes son ejemplos ilustrativos.


#  Regresion Lineal

El objetivo es ajustar una linea recta a un set de puntos.

In [None]:
n=100

In [None]:
x = torch.ones(n,2) 
x[:,0].uniform_(-1.,1)
x[:5]

In [None]:
a = tensor(3.,2); a

In [None]:
y = x@a + torch.rand(n)

In [None]:
plt.scatter(x[:,0], y);

Se desea encontrar **parametros** (pesos) `a` tal que minimicen el *error* entre los puntos y la linea `x@a`. Note que  `a` es desconocido. Para un problema de regreasion la *funcion de error* o *funcion de perdida* es la **media cuadrada del error**. 

In [None]:
def mse(y_hat, y): return ((y_hat-y)**2).mean()

Suponga que `a = (-1.0,1.0)` entonces podemos calcular `y_hat` la *prediction* y calcular el error.

In [None]:
a = tensor(-1.,1)

In [None]:
y_hat = x@a
mse(y_hat, y)

In [None]:
plt.scatter(x[:,0],y)
plt.scatter(x[:,0],y_hat);

Ya esta especificado el *modelo* (regresion lineal) y el *criterio de evaluacion* (o *funcion de perdida*). Ahora necesitamos manejar la  *optimizacion*; esto es, como encontrar el mejor valor para `a`? Como encontramos el mejor *ajuste* de la regresion lineal.

# Decendente del Gradiente

Queremos encontrar valores de `a` que minimicen `mse_loss`.

**Decendente del Gradiente** Es un algoritmo que minimiza funciones. dada una función definida por un set de parametros , Decendente del Gradiente comienza con un set inicial de valores e iterativamente avanza hacia el set de parametros que minimizan la función. Esta minimización es alcanzada en direccion opuesta del gradiente.

In [None]:
a = nn.Parameter(a); a

In [None]:
def update():
    y_hat = x@a
    loss = mse(y, y_hat)
    if t % 10 == 0: print(loss)
    loss.backward()
    with torch.no_grad():
        a.sub_(lr * a.grad)
        a.grad.zero_()

In [None]:
lr = 1e-1
for t in range(100): update()

In [None]:
plt.scatter(x[:,0],y)
plt.scatter(x[:,0],x@a);

## Animado!

In [None]:
from matplotlib import animation, rc
rc('animation', html='jshtml')

In [None]:
a = nn.Parameter(tensor(-1.,1))

fig = plt.figure()
plt.scatter(x[:,0], y, c='orange')
line, = plt.plot(x[:,0], x@a)
plt.close()

def animate(i):
    update()
    line.set_ydata(x@a)
    return line,

animation.FuncAnimation(fig, animate, np.arange(0, 100), interval=20)

## Terminología

- Learning rate
- Epoch
- Minibatch
- SGD
- Model / Architecture
- Parameters
- Loss function

Para problemas de clasificación, utilizamos *cross entropy loss*,conocida como *negative log likelihood loss*. .