# Guardar y cargar el modelo - 05 Guardar zip

## Entrenamiento de la red

Vamos a hacer de manera rápida el entrenamiento de una red (creada desde cero) para el conjunto de datos `CIFAR-10`

### Dataset

Descargamos y creamos el dataset

In [1]:
from torchvision import datasets
from torchvision.transforms import ToTensor

# Descargamos y creamos el dataset
dataset_train = datasets.CIFAR10(
    root="data",
    train=True,
    download=True,
    transform=ToTensor()
)

dataset_test = datasets.CIFAR10(
    root="data",
    train=False,
    download=True,
    transform=ToTensor()
)

Files already downloaded and verified
Files already downloaded and verified


### Dataloader

Creamos un dataloader

In [2]:
from torch.utils.data import DataLoader

BATCH_SIZE = 64

train_dataloader = DataLoader(dataset_train, batch_size=BATCH_SIZE)
test_dataloader = DataLoader(dataset_test, batch_size=BATCH_SIZE)

### Red

Creamos la red neuronal

In [3]:
from torch import nn

# Creamos la red neuronal desde cero
class NeuralNetworkFromScratch(nn.Module):
    def __init__(self):
        super(NeuralNetworkFromScratch, self).__init__()   # Se inicializa el módulo nn.Module
        self.flatten = nn.Flatten()             # Se crea una primera capa que aplana la imagen de entrada
        self.linear_relu_stack = nn.Sequential( # Se crea una módulo de arquitectura secuencial:
            nn.Linear(3*32*32, 512),                # Se añade una primera capa lineal que está preparada 
                                                    # para que le entre un vector de 28*28 (784)
                                                    # y sacará un vector de 512
            nn.ReLU(),                              # Se añade una no linealidad
            nn.Linear(512, 512),                    # Se añade una segunda capa lineal que le entran 512 
                                                    # datos y saca 512 datos
            nn.ReLU(),                              # Se añade una no linealidad
            nn.Linear(512, 10)                      # Se añade una tercera capa lineal que le entran 512 
                                                    # datos y saca un array de tamaño 10 (el número
                                                    # de etiquetas)
        )
        #self.softmax = nn.Softmax(dim=1)

    def forward(self, x):
        x = self.flatten(x)                         # Se pasa la imagen por la capa de aplanado
        logits = self.linear_relu_stack(x)          # Se pasa el vector resultante por la red
        #probs = self.softmax(logits)
        return logits

model_scratch = NeuralNetworkFromScratch()

### Función de pérdida

In [4]:
loss_fn = nn.CrossEntropyLoss()

### Optimizador

In [5]:
import torch

LR = 1e-2

optimizer = torch.optim.SGD(model_scratch.parameters(), lr=LR)

### Ciclo de entrenamiento

In [6]:
def train_loop(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)
    for batch, (X, y) in enumerate(dataloader):
        # X and y to device
        X, y = X.to(device), y.to(device)

        # Compute prediction and loss
        pred = model(X)
        loss = loss_fn(pred, y)

        # Backpropagation
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        if batch % 100 == 0:
            loss, current = loss.item(), batch * len(X)
            print(f"loss: {loss:>7f}  [{current:>5d}/{size:>5d}]")


def test_loop(dataloader, model, loss_fn):
    size = len(dataloader.dataset)
    num_batches = len(dataloader)
    test_loss, correct = 0, 0

    with torch.no_grad():
        for X, y in dataloader:
            # X and y to device
            X, y = X.to(device), y.to(device)
            
            pred = model(X)
            test_loss += loss_fn(pred, y).item()
            correct += (pred.argmax(1) == y).type(torch.float).sum().item()

    test_loss /= num_batches
    correct /= size
    print(f"Test Error: \n Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")

In [7]:
# Get cpu or gpu device for training.
device = "cuda" if torch.cuda.is_available() else "cpu"
print("Using {} device".format(device))

model_scratch.to(device)

Using cuda device


NeuralNetworkFromScratch(
  (flatten): Flatten(start_dim=1, end_dim=-1)
  (linear_relu_stack): Sequential(
    (0): Linear(in_features=3072, out_features=512, bias=True)
    (1): ReLU()
    (2): Linear(in_features=512, out_features=512, bias=True)
    (3): ReLU()
    (4): Linear(in_features=512, out_features=10, bias=True)
  )
)

In [8]:
epochs = 10
for t in range(epochs):
    print(f"Epoch {t+1}\n-------------------------------")
    train_loop(train_dataloader, model_scratch, loss_fn, optimizer)
    test_loop(test_dataloader, model_scratch, loss_fn)
print("Done!")

Epoch 1
-------------------------------
loss: 2.298565  [    0/50000]
loss: 2.274048  [ 6400/50000]
loss: 2.176298  [12800/50000]
loss: 2.194612  [19200/50000]
loss: 2.067058  [25600/50000]
loss: 2.035416  [32000/50000]
loss: 2.146992  [38400/50000]
loss: 1.970106  [44800/50000]


KeyboardInterrupt: 

## Guardar el modelo

Al cargar pesos de modelo, necesitábamos crear una instancia de la clase de modelo primero, porque la clase define la estructura de una red. Es posible que deseemos guardar la estructura de esta clase junto con el modelo, en cuyo caso podemos pasar ``model`` (y no ''model.state_dict()'') a la función de guardar:

In [10]:
path = "data/modelo.zip"
torch.jit.save(torch.jit.script(model_scratch.cpu()), path)