In [None]:
%matplotlib inline

Optimizing Model Parameters
===========================
Ahora que tenemos un modelo y datos, es hora de entrenar, validar y probar nuestro modelo optimizando sus parámetros en
 nuestros datos.  El entrenamiento de un modelo es un proceso iterativo;  en cada iteración (llamada *época*), el modelo hace una conjetura sobre la salida, calcula
 el error en su conjetura (*pérdida*), recoge las derivadas del error con respecto a sus parámetros (como vimos en
 la `sección anterior <autograd_tutorial.html>`_), y **optimiza** estos parámetros mediante el descenso de gradiente.  Para una mayor
 tutorial detallado de este proceso, mira este video sobre `backpropagation from 3Blue1Brown <https://www.youtube.com/watch?v=tIeHLnjs5U8>`__.__.

Código de requisito previo
 -----------------
Cargamos el código de las secciones anteriores en `Datasets & DataLoaders <data_tutorial.html>`_
y `Crear modelo <buildmodel_tutorial.html>`_

In [None]:
import torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor, Lambda

training_data = datasets.FashionMNIST(
    root="data",
    train=True,
    download=True,
    transform=ToTensor()
)

test_data = datasets.FashionMNIST(
    root="data",
    train=False,
    download=True,
    transform=ToTensor()
)

train_dataloader = DataLoader(training_data, batch_size=64)
test_dataloader = DataLoader(test_data, batch_size=64)

class NeuralNetwork(nn.Module):
    def __init__(self):
        super(NeuralNetwork, self).__init__()
        self.flatten = nn.Flatten()
        self.linear_relu_stack = nn.Sequential(
            nn.Linear(28*28, 512),
            nn.ReLU(),
            nn.Linear(512, 512),
            nn.ReLU(),
            nn.Linear(512, 10),
        )

    def forward(self, x):
        x = self.flatten(x)
        logits = self.linear_relu_stack(x)
        return logits

model = NeuralNetwork()

Hiperparámetros
-----------------

Los hiperparámetros son parámetros ajustables que le permiten controlar el proceso de optimización del modelo.
Diferentes valores de hiperparámetros pueden afectar el entrenamiento del modelo y las tasas de convergencia
(`lea más <https://pytorch.org/tutorials/beginner/hyperparameter_tuning_tutorial.html>`__ sobre el ajuste de hiperparámetros)

Definimos los siguientes hiperparámetros para el entrenamiento:
  - **Número de épocas**: el número de veces para iterar sobre el conjunto de datos
  - **Tamaño del lote**: la cantidad de muestras de datos propagadas a través de la red antes de que se actualicen los parámetros
  - **Tasa de aprendizaje**: cuánto actualizar los parámetros de los modelos en cada lote/época. Los valores más pequeños producen una velocidad de aprendizaje lenta, mientras que los valores grandes pueden provocar un comportamiento impredecible durante el entrenamiento.




In [None]:
learning_rate = 1e-3
batch_size = 64
epochs = 5

Optimization Loop
-----------------

Una vez que configuramos nuestros hiperparámetros, podemos entrenar y optimizar nuestro modelo con un ciclo de optimización.  Cada
 la iteración del bucle de optimización se denomina **época**.

 Cada época consta de dos partes principales:
  - **The Train Loop**: itere sobre el conjunto de datos de entrenamiento e intente converger a parámetros óptimos.
  - **El ciclo de validación/prueba**: repita el conjunto de datos de prueba para comprobar si el rendimiento del modelo está mejorando.

 Familiaricémonos brevemente con algunos de los conceptos utilizados en el ciclo de entrenamiento.  Saltar adelante a
 ver la etiqueta `full-impl` del ciclo de optimización.

Función de pérdida(loos)
~~~~~~~~~~~~~~~~~
Cuando se le presentan algunos datos de entrenamiento, es probable que nuestra red no entrenada no proporcione la información correcta.
responder. **Función de pérdida** mide el grado de disimilitud del resultado obtenido con el valor objetivo,
y es la función de pérdida la que queremos minimizar durante el entrenamiento. Para calcular la pérdida hacemos un
predicción utilizando las entradas de nuestra muestra de datos dada y compararla con el valor real de la etiqueta de datos.

Las funciones de pérdida comunes incluyen `nn.MSELoss <https://pytorch.org/docs/stable/generated/torch.nn.MSELoss.html#torch.nn.MSELoss>`_ (Error cuadrático medio) para tareas de regresión y
`nn.NLLLoss <https://pytorch.org/docs/stable/generated/torch.nn.NLLLoss.html#torch.nn.NLLLoss>`_ (Probabilidad de registro negativo) para la clasificación.
`nn.CrossEntropyLoss <https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html#torch.nn.CrossEntropyLoss>`_ combina ``nn.LogSoftmax`` y ``nn.NLLLoss` `.

Pasamos los logits de salida de nuestro modelo a ``nn.CrossEntropyLoss``, que normalizará los logits y calculará el error de predicción.


In [None]:
# Initialize the loss function
loss_fn = nn.CrossEntropyLoss()

Optimizador
~~~~~~~~~~~~~~~~~

La optimización es el proceso de ajustar los parámetros del modelo para reducir el error del modelo en cada paso de entrenamiento. **Algoritmos de optimización** definen cómo se lleva a cabo este proceso (en este ejemplo usamos Stochastic Gradient Descent).
Toda la lógica de optimización está encapsulada en el objeto ``optimizador``. Aquí, usamos el optimizador SGD; además, hay muchos `diferentes optimizadores <https://pytorch.org/docs/stable/optim.html>`_
disponible en PyTorch como ADAM y RMSProp, que funcionan mejor para diferentes tipos de modelos y datos.

Inicializamos el optimizador registrando los parámetros del modelo que necesitan ser entrenados y pasando el hiperparámetro de tasa de aprendizaje.



In [None]:
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

Dentro del ciclo de entrenamiento, la optimización ocurre en tres pasos:
  * Llame a ``optimizer.zero_grad()`` para restablecer los gradientes de los parámetros del modelo. Los degradados por defecto se suman; para evitar el doble conteo, los ponemos a cero explícitamente en cada iteración.
  * Retropropaga la pérdida de predicción con una llamada a ``loss.backward()``. PyTorch deposita los gradientes de pérdida w.r.t. cada parámetro.
  * Una vez que tenemos nuestros gradientes, llamamos a ``optimizer.step()`` para ajustar los parámetros por los gradientes recolectados en el paso hacia atrás(backward).

Plena aplicación
-----------------------
Definimos ``train_loop`` que recorre nuestro código de optimización, y ``test_loop`` que
evalúa el rendimiento del modelo contra nuestros datos de prueba.

In [None]:
def train_loop(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)
    for batch, (X, y) in enumerate(dataloader):
        # Compute prediction and loss
        pred = model(X)
        loss = loss_fn(pred, y)

        # Backpropagation
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        if batch % 100 == 0:
            loss, current = loss.item(), batch * len(X)
            print(f"loss: {loss:>7f}  [{current:>5d}/{size:>5d}]")


def test_loop(dataloader, model, loss_fn):
    size = len(dataloader.dataset)
    num_batches = len(dataloader)
    test_loss, correct = 0, 0

    with torch.no_grad():
        for X, y in dataloader:
            pred = model(X)
            test_loss += loss_fn(pred, y).item()
            correct += (pred.argmax(1) == y).type(torch.float).sum().item()

    test_loss /= num_batches
    correct /= size
    print(f"Test Error: \n Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")

Inicializamos la función de pérdida y el optimizador, y lo pasamos a ``train_loop`` y ``test_loop``.
Siéntase libre de aumentar el número de épocas para realizar un seguimiento de la mejora del rendimiento del modelo.

In [None]:
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

epochs = 10
for t in range(epochs):
    print(f"Epoch {t+1}\n-------------------------------")
    train_loop(train_dataloader, model, loss_fn, optimizer)
    test_loop(test_dataloader, model, loss_fn)
print("Done!")

Gracias A:
----------------
Documentacion oficial de pytorch: https://pytorch.org/tutorials/beginner/basics/optimization_tutorial.html

Traducido por: Mi :)