In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

Este es el modelo que entrenaremos.  Si le parece familiar, es porque es una variante de LeNet, adaptada para imágenes de 3 colores.

In [2]:
class Net(nn.Module):

    def __init__(self):
        super(Net, self).__init__()
        # 1 canal de imagen de entrada, 6 canales de salida, convolución cuadrada de 5x5
        # núcleo
        self.conv1 = nn.Conv2d(1, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        # una operación afín: y = Wx + b
        self.fc1 = nn.Linear(16 * 5 * 5, 120)  # 5*5 de la dimensión de la imagen
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        # Agrupación máxima sobre una ventana (2, 2)
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        # Si el tamaño es un cuadrado, puede especificar con un solo número
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = torch.flatten(x, 1) # Aplanar todas las dimensiones excepto la dimensión del lote
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x


net = Net()
print(net)

Net(
  (conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=400, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)


Solo tienes que definir la función **forward**, y la funcion **backward** (donde se calculan los gradientes) se define automáticamente para usted usando **autograd.** Puede usar cualquiera de las operaciones de Tensor en la funcion **forward**.

Los parámetros aprendibles de un modelo son devueltos por net.parameters()

In [3]:
params = list(net.parameters())
print(len(params))
print(params[0].size())  # peso de conv1

10
torch.Size([6, 1, 5, 5])


Probemos una entrada aleatoria de 32x32.  Nota: el tamaño de entrada esperado de esta red (LeNet) es 32x32.  Para usar esta red en el conjunto de datos MNIST, cambie el tamaño de las imágenes del conjunto de datos a 32x32.

In [4]:
input = torch.randn(1, 1, 32, 32)
out = net(input)
print(out)

tensor([[-0.1584, -0.1281, -0.0253,  0.0690,  0.0573,  0.1196,  0.0716,  0.0188,
          0.1474,  0.0272]], grad_fn=<AddmmBackward0>)


creamos una entrada ficticia que representa una imagen de 32x32 con 1
 canal de color  Normalmente, cargaría un mosaico de imagen y lo convertiría a
 un tensor de esta forma.

 Es posible que haya notado una dimensión adicional en nuestro tensor: el * lote
 dimensión.* Los modelos de PyTorch asumen que están trabajando en *lotes* de datos
 - por ejemplo, un lote de 16 de nuestros mosaicos de imágenes tendría la forma
 ``(16, 1, 32, 32)``.  Como solo estamos usando una imagen, creamos un lote
 de 1 con forma ``(1, 1, 32, 32)``.

 Le pedimos al modelo una inferencia llamándolo como una función:
 ``red(entrada)``.  La salida de esta llamada representa el modelo
 confianza de que la entrada representa un dígito particular.  (Desde esto
 instancia del modelo aún no ha aprendido nada, no deberíamos esperar
 para ver cualquier señal en la salida.) Mirando la forma de ``salida``, podemos
 puede ver que también tiene una dimensión de lote, cuyo tamaño debe
 siempre coincida con la dimensión del lote de entrada.  Si hubiésemos pasado en una entrada
 lote de 16 instancias, ``salida`` tendría una forma de ``(16, 10)``.



Cero los buffers de gradiente de todos los parámetros y backprops con random gradientes: 

In [5]:
net.zero_grad()
out.backward(torch.randn(1, 10))

<div class="alert alert-info"><h4>Nota</h4><p>``torch.nn`` solo admite mini lotes.  Todo ``torch.nn``
     El paquete solo admite entradas que son un mini lote de muestras, y no
     una sola muestra


    For example, ``nn.Conv2d`` will take in a 4D Tensor of
    ``nSamples x nChannels x Height x Width``.

    If you have a single sample, just use ``input.unsqueeze(0)`` to add
    a fake batch dimension.</p></div>

Antes de continuar, recapitulemos todas las clases que has visto hasta ahora.

**Recap:**
  -  ``torch.Tensor`` - UN *matriz multidimensional* compatible con autograd
     operaciones como ``backward()``. Tambine *mantiene el gradiente* w.r.t. el
     tensor.
  -  ``nn.Module`` - Módulo de red neuronal.  * Manera conveniente de
      encapsulando parámetros*, con asistentes para moverlos a la GPU,
      exportar, cargar, etc.
  -  ``nn.Parameter`` - Una especie de Tensor, que es *automáticamente
      registrado como parámetro cuando se asigna como atributo a un*
     ``Module``.
  -  ``autograd.Function``- Implementa *definiciones hacia adelante y hacia atrás
      de una operación de autograduación*. Cada ``Tensor`` la operación crea en
      menos un solo nodo ``Función`` que se conecta a las funciones que
      creó un ``Tensor`` y *codifica su historial*.

**En este punto, cubrimos:**
   - Definición de una red neuronal
   - Procesamiento de entradas y llamadas hacia atrás.

**Aún quedan:**
   - Cálculo de la pérdida
   - Actualización de los pesos de la red.

Función de pérdida
-------------
Una función de pérdida toma el par de entradas (salida, objetivo) y calcula una
valor que estima qué tan lejos está la salida del objetivo.

Hay varios diferentes
`funcion loss <https://pytorch.org/docs/nn.html#loss-functions>`_ bajo el
nn paquete
Una pérdida simple es: ``nn.MSELoss`` que calcula el error cuadrático medio
entre la salida y el destino.

Por ejemplo:

In [6]:
output = net(input)
target = torch.randn(10)   # un objetivo ficticio, por ejemplo
target = target.view(1, -1)# haz que tenga la misma forma que la salida
criterion = nn.MSELoss()

loss = criterion(output, target)
print(loss)

tensor(1.0299, grad_fn=<MseLossBackward0>)


**Ahora**, si sigues ``loss`` en dirección hacia atrás, usando su
 atributo ``.grad_fn``, verá un gráfico de cálculos que parece
 como esto:

    input -> conv2d -> relu -> maxpool2d -> conv2d -> relu -> maxpool2d
          -> flatten -> linear -> relu -> linear -> relu -> linear
          -> MSELoss
          -> loss

Entonces, cuando llamamos a ``loss.backward()``, todo el gráfico se diferencia
 escriba los parámetros de la red neuronal y todos los tensores en el gráfico que tienen
 ``requires_grad=True`` tendrá su Tensor ``.grad`` acumulado con el
 degradado.

 A modo de ilustración, sigamos unos pasos hacia atrás:

In [7]:
print(loss.grad_fn)  # MSELoss
print(loss.grad_fn.next_functions[0][0])  # Linear
print(loss.grad_fn.next_functions[0][0].next_functions[0][0])  # ReLU

<MseLossBackward0 object at 0x7fe76416e5b0>
<AddmmBackward0 object at 0x7fe76416e850>
<AccumulateGrad object at 0x7fe76416e5b0>


backprop
 --------
 Para retropropagar el error todo lo que tenemos que hacer es ``loss.backward()``.
 Sin embargo, debe borrar los gradientes existentes, de lo contrario, los gradientes serán
 acumulado a los gradientes existentes.


 Ahora llamaremos a ``loss.backward()``, y echaremos un vistazo al sesgo de conv1
 gradientes antes y después del retroceso.

In [8]:
net.zero_grad()     # pone a cero los búferes de gradiente de todos los parámetros

print('conv1.bias.grad antes de backward')
print(net.conv1.bias.grad)

loss.backward()

print('conv1.bias.grad después de backward')
print(net.conv1.bias.grad)

conv1.bias.grad antes de backward
tensor([0., 0., 0., 0., 0., 0.])
conv1.bias.grad después de backward
tensor([-0.0196,  0.0107,  0.0166, -0.0220,  0.0309,  0.0162])


Ahora, hemos visto cómo usar las funciones de pérdida.

 **Leer más tarde:**

   El paquete de red neuronal contiene varios módulos y funciones de pérdida
   que forman los componentes básicos de las redes neuronales profundas.  Una lista completa con
   la documentación está `aquí <https://pytorch.org/docs/nn>`_.

 **Lo único que queda por aprender es:**

 …implementa todos estos métodos.  Usarlo es muy simple:



In [9]:
import torch.optim as optim

# crea tu optimizador
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

# en tu ciclo de entrenamiento:
optimizer.zero_grad()   # poner a cero los búferes de gradiente

output = net(input)
loss = criterion(output, target)
loss.backward()
optimizer.step()       # Actualizamos

.. Note::

       Observe cómo los búferes de gradiente tenían que establecerse manualmente en cero usando
       ``optimizador.zero_grad()``.  Esto se debe a que los gradientes se acumulan
       como se explica en la sección `Backprop`_.

Gracias A:
----------------
Documentacion oficial de pytorch: https://pytorch.org/tutorials/intermediate/torchvision_tutorial.html

Traducido por: Mi :)