# Creando tu Primera Red Neuronal con Pytorch

### Overview

Tal como vimos en los contenidos la red poseera la siguente estructura

**Input -> Conv -> ReLU -> MaxPool -> Conv -> ReLU -> MaxPool -> View -> Linear -> ReLU -> Linear -> ReLU -> Linear -> MSELoss -> Loss**



#### Definiendo Nuestra Red


In [28]:
# importamos pytorch y sus clases de redes neuronales
import torch
import torch.nn as nn
import torch.nn.functional as F


# Definimos la clase de red heredando desde la clase madre de Neural Networks

# En este modelo simple nuestra red tendra un input de imagen, 6 output de clase y convoluciones de 3x3
class Net(nn.Module):

    def __init__(self):
        super(Net, self).__init__()
        # Definimos la red
        # kernel (Nucleo de la red)
        self.conv1 = nn.Conv2d(1, 6, 3)  #definimos la primera layer convolucional
        self.conv2 = nn.Conv2d(6, 16, 3)
        # Realizamos una operacion lineal con redes de neuronas lineales (y = wx + b)
        
        self.fc1 = nn.Linear(16 * 6 * 6, 120)  # 6*6 por la dimension de las imagenes
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)
    
    #definimos lo que ocurre a las salidas de las capas
    def forward(self, x):
        # Max pooling sobre una ventana 2 x 2
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        # Si el tamaño es cuadrado solo se puede definir una ventana
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = x.view(-1, self.num_flat_features(x))
        
        # definimos la rectificacion sobre las capas lineales
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        
        #generamos la salida
        x = self.fc3(x)
        return x
    
    # calculamos el total de features
    def num_flat_features(self, x):
        size = x.size()[1:]  # Todas las dimensiones excepto el lote de entrada
        num_features = 1
        for s in size:
            num_features *= s
        return num_features

# imprimimos nuestra red
net = Net()
print(net)


Net(
  (conv1): Conv2d(1, 6, kernel_size=(3, 3), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(3, 3), stride=(1, 1))
  (fc1): Linear(in_features=576, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)


Podemos observar que reducimos considerablemente el numero de features a calcular en la ultima layer. la gracia de pytorch es que una vez definida la funcion de avance, se calcula se forma automatica la funcion de backward para realizar la backpropagation de los pesos. 

Ahora analizamos cuales son los parametros de aprendizaje que soporta nuestro modelo

In [29]:
params = list(net.parameters())
print(len(params))
print(params[0].size())  # Pesos de las convoluciones*

10
torch.Size([6, 1, 3, 3])


Ahora probemos darle de input una "" imagen "" de 32x32 de 2 dimensiones generada aleatoriamente

In [30]:
input = torch.randn(1, 1, 32, 32)
out = net(input)
print(out)

tensor([[ 0.0133, -0.0326,  0.0448, -0.0999,  0.0685,  0.0557,  0.1693, -0.1791,
         -0.0557, -0.0451]], grad_fn=<AddmmBackward>)


Ahora realizamos la operacion de zero_grad, para realizar la backpropagation (vease Contenidos-Backpropagation)

In [31]:
net.zero_grad()
out.backward(torch.randn(1, 10))

#### Nota
Si bien hemos dicho que pytorch es maravilloso, tambien tiene algunas peculiaridades, una de las mas importantes a considerar es que torch.nn solo soporta mini lotes. esto significa que toda la libreria torch.nn solo soporta inputs que son lotes de inputs (samples) y nunca un solo elemento. Si quieres solo una dimension por ejemplo, has de nescesariamente agregar dimensionalidad falsa para que sea ejecutable


### Explicaciones y Recapitulacion hasta el momento

* torch.Tensor - array multidimensional con soporte para operaciones como backward(). ademas contiene el gradiente de la funcion de perdida

* nn.Module - Modulo de red neuronal. Forma facil de guardar parametros

* nn.Parameter - una especie de tensor, se asigna como parametro al asignarse un atributo al modulo

* autograd.Function - genera forward() y backward() de la operacion de calculo de gradiente. toda operacion de tensores crea al menos un nodo se funciones simples que conecta el tensor creado y comprime su historial

#### Hasta el momento hemos aprendido

* Definir una red neuronal
* Procesar input y realizar la backpropagation

#### ¿Que haremos ahora?

* Calcular la loss function
* Actualizar los pesos de la red a travez de nuestros metodos anteriores


### Computar la funcion de perdida

Utilizaremos la funcion MSELoss o en español, error cuadratico medio. 

In [32]:

# ponemos un nombre a la red
output = net(input)
target = torch.randn(10)  # Definimos un target arbitrario
target = target.view(1, -1)  # lo hacemos de misma dimension que el input

# definimos el criterio de la funcion loss
# es importante notar que MSE es built-in en pytorch, pero es perfectamente viable
# utilizar funciones definidas por uno mismo.
criterion = nn.MSELoss()

# Calculamos el loss inicial de la red
loss = criterion(output, target)
print(f'Perdida de la funcion {loss}')

Perdida de la funcion 0.9286238551139832


### Realizamos la Backprop

In [33]:
net.zero_grad()     # hacemos el gradiente igual a zero

print('conv1.bias.grad before backward')
print(net.conv1.bias.grad)

loss.backward()

print('conv1.bias.grad after backward')
print(net.conv1.bias.grad)

conv1.bias.grad before backward
tensor([0., 0., 0., 0., 0., 0.])
conv1.bias.grad after backward
tensor([-0.0108,  0.0120, -0.0192, -0.0005,  0.0094, -0.0021])


Nos queda solo una cosa que hacer, Ajustar los pesos.
Para esto haremos la operacion mas tradicional y simple de ajuste de parametros

$$new\_weight = weight - ratio\_de\_aprendizaje \cdot gradiente$$

ó, de forma formal

$$w_{k_i+1} = w_{k_i} - h_{net} \cdot \nabla F$$

con $\nabla F = \frac {\sum_i^N \nabla f_i}{N} $

In [34]:
learning_rate = 0.01
for f in net.parameters():
    f.data.sub_(f.grad.data * learning_rate)

Es importante ir analizando constantemente los resultados, para observar si existe posibilidad de optimizacion con los diversos metodos existentes. Por ahora utilizaremos el metodo SGD, o de optimizacion por disminucion de gradiente 

In [35]:
import torch.optim as optim

# create your optimizer
optimizer = optim.SGD(net.parameters(), lr=0.01)

# in your training loop:
optimizer.zero_grad()   # zero the gradient buffers
output = net(input)
loss = criterion(output, target)
loss.backward()
optimizer.step()    # Does the update

### Y ya esta, creaste tu primera red neuronal convolucional. Ahora continuaremos con aplicar una red similar ha un modelo predictivo