## Neural Networks
Ahora que sabemos como funcionan (más o menos) los tensores y el paquete de autograd para ayudarnos a calcular la backprop, podemos empezar creando una red neuronal con PyTorch

Para ello se utiliza el módulo torch.nn, que depende en autograd.

Un ejemplo de red neuronal sería la siguiente clasificación de dígitos
![image.png](attachment:image.png)

Es la clásica "convnet"

Es una red feed-forward. Introduce los párametros de entrada a través de varias capas y al final nos da una salida

Una definición genérica para entrenar esta red sería:
- Define the neural network that has some learnable parameters (or weights)
- Iterate over a dataset of inputs
- Process input through the network
- Compute the loss (how far is the output from being correct)
- Propagate gradients back into the network’s parameters
- Update the weights of the network, typically using a simple update rule: weight = weight - learning_rate * gradient

#### Vamos a hacerlo!
Lo primero, definimos la red. En general nos entra 1 imagen. Podemos aplicar 2 etapas de convolución de 5x5, de 1 a 6 y de 6 a 16 canales. y luego aplicar 3 salidas lineales para acabar con 10 salidas (para clasíficar los 10 digitos posibles)

Supondremos que las imagenes de entrada son de 32x32. A parte, podríamos aplicar las capas de max pooling de 2x2 a las salidas de las capas de convolución y con las funciones de activación tipo RELU

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F


class Net(nn.Module):

    def __init__(self):
        super(Net, self).__init__()
        # 1 input image channel, 6 output channels, 5x5 square convolution
        # kernel
        self.conv1 = nn.Conv2d(1, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        # an affine operation: y = Wx + b
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        # Max pooling over a (2, 2) window
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        # If the size is a square you can only specify a single number
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = x.view(-1, self.num_flat_features(x))
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

    def num_flat_features(self, x):
        size = x.size()[1:]  # all dimensions except the batch dimension
        num_features = 1
        for s in size:
            num_features *= s
        return num_features


net = Net()
print(net)

Net(
  (conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=400, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)


Definiendo las etapas forward, las etapas de backward quedan definidas automáticamente por autograd. Los pesos que tienen que ser entrenados se pueden extraer con la siguiente función

In [2]:
params = list(net.parameters())
print(len(params))
print(params[0].size())  # conv1's .weight

10
torch.Size([6, 1, 5, 5])


In [3]:
params

[Parameter containing:
 tensor([[[[-0.0002, -0.1693,  0.1242,  0.0607,  0.1852],
           [ 0.1793,  0.0281,  0.1005,  0.1706,  0.1188],
           [-0.0660, -0.0081,  0.1091, -0.0868, -0.1188],
           [-0.1414,  0.0059,  0.1545,  0.1038, -0.0606],
           [-0.0730, -0.0219, -0.1207, -0.0428, -0.1813]]],
 
 
         [[[-0.0831,  0.0785, -0.0052, -0.0898,  0.0557],
           [-0.1862, -0.1568,  0.0814, -0.1644, -0.0278],
           [-0.0877,  0.1118, -0.0693,  0.0786,  0.0165],
           [-0.0417,  0.0973,  0.0943,  0.0536,  0.1428],
           [-0.0311, -0.0943, -0.0703,  0.0111, -0.1007]]],
 
 
         [[[-0.0865, -0.0396,  0.1780,  0.0879,  0.0047],
           [ 0.0334,  0.1777,  0.1422, -0.1630, -0.1394],
           [ 0.1248,  0.1130,  0.0759,  0.0236,  0.0100],
           [-0.0490,  0.0147,  0.1781, -0.0873, -0.1126],
           [ 0.0746, -0.1910,  0.1495, -0.1132,  0.0532]]],
 
 
         [[[ 0.0410,  0.1541, -0.0008,  0.0409,  0.0301],
           [-0.0283,  0.0423,  

Veamos que pasa si introducimos una imagen cualquiera de 32x32 a esta red

In [4]:
input = torch.randn(1, 1, 32, 32)
out = net(input)
print(out)

tensor([[ 0.0674,  0.0737, -0.0476, -0.0160,  0.0001,  0.0331,  0.0484,  0.0249,
          0.0051,  0.0767]], grad_fn=<AddmmBackward>)


In [6]:
input

tensor([[[[ 0.1789, -0.7228, -0.3763,  ...,  0.1157, -1.2088, -0.3106],
          [-1.1750,  0.2584,  0.2163,  ...,  0.0163, -0.0694, -2.1495],
          [ 0.2772, -0.3456, -0.5202,  ...,  0.1272, -0.8552, -1.3079],
          ...,
          [ 1.3802, -1.5768,  0.5902,  ..., -0.2501,  2.2619,  0.3283],
          [ 0.5914,  0.3638, -0.3269,  ...,  1.2293,  0.9728,  0.0623],
          [-0.2350, -0.7573,  0.2037,  ...,  1.0704,  1.9184, -0.1048]]]])

Fijamos a cero los buffers de los gradientes de los parámetros y hacemos backprop con gradientes aleatorios

In [5]:
net.zero_grad()
out.backward(torch.randn(1, 10))

![image.png](attachment:image.png)

### Función de pérdida.
Ahora necesitamos elegir una función de pérdida que nos diga como se parece nuestra salida a nuestro objetivo. Y esa función va a estimar como de "lejos" estamos de nuestro objetivo. PyTorch posee varias funciones de pérdidas como puede ser **nn.MSELoss** que calcula el "mean-squared error" entre la salida y el objetivo.

Por ejemplo:

In [7]:
output = net(input)
target = torch.randn(10)  # a dummy target, for example
target = target.view(1, -1)  # make it the same shape as output
criterion = nn.MSELoss()

loss = criterion(output, target)
print(loss)

tensor(2.0222, grad_fn=<MseLossBackward>)


El gráfico del loss sería
![image.png](attachment:image.png)

Si ahora llamamos a **loss.backward** el gráfico entero sería diferenciado (computado) a través de los tensores . Podríamos seguir el gráfico

In [9]:
print(loss.grad_fn)  # MSELoss
print(loss.grad_fn.next_functions[0][0])  # Linear
print(loss.grad_fn.next_functions[0][0].next_functions[0][0])  # ReLU

<MseLossBackward object at 0x000001A0F3DA4BA8>
<AddmmBackward object at 0x000001A0F1A5F898>
<AccumulateGrad object at 0x000001A0F35FBA58>


### Backprop
Lo último sería propagar el error de la función de pérdida, para saber en que dirección debemos de modificar los pesos de los parámetros 

In [10]:
net.zero_grad()     # zeroes the gradient buffers of all parameters

print('conv1.bias.grad before backward')
print(net.conv1.bias.grad)

loss.backward()

print('conv1.bias.grad after backward')
print(net.conv1.bias.grad)

conv1.bias.grad before backward
tensor([0., 0., 0., 0., 0., 0.])
conv1.bias.grad after backward
tensor([ 0.0267,  0.0019, -0.0289, -0.0002, -0.0158,  0.0069])


Y para actualizar los pesos, la regla más simple es la siguiente. Que la podemos implementar con simple Python
![image.png](attachment:image.png)

In [11]:
learning_rate = 0.01
for f in net.parameters():
    f.data.sub_(f.grad.data * learning_rate)

Sin embargo, existen otras muchas formas de actualizar los pesos como SGD, Nesterov-SGD, Adam, RMSProp, etc. Para ello, torch tiene el paquete optim.

In [12]:
import torch.optim as optim

# create your optimizer
optimizer = optim.SGD(net.parameters(), lr=0.01)

# in your training loop:
optimizer.zero_grad()   # zero the gradient buffers
output = net(input)
loss = criterion(output, target)
loss.backward()
optimizer.step()    # Does the update