# Introduccio a Pytorch

**Assignatura**: Models d'intel·ligència artificial

**Professor** : Ramon Mateo Navarro

En aquest notebook farem una introducció a Pytorch. Aprendrem les bases per crear la nostra primera xarxa neuronal fent servir el dataset MNIST però aquest cop amb Pytorch. Farem servir també comandes per fer ús de la GPU. 

## Instal·lació 

Primer de tot hem d'instal·lar els paquets necessaris. Començarem instal·lant Pytorch i Pytorch vision

In [1]:
%pip install torch torchvision





[notice] A new release of pip is available: 23.3.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


## Imports

Ara importarem les llibreries. Les essencials són:

* ``torch``: llibreria principal de PyTorch
* ``torchvision``: llibreria que conté utilitats per treballar amb imatges per visió per ordinador com conjunts de dades per entrenar, models preentrenats etc...
* ``torch.nn``: mòdul que conté classes per la construcció de xarxes neuronals
* ``torch.optim``: mòdul que conté algoritmes d'optimització com SGD o Adam

In [2]:
# Importem les biblioteques necessàries
import torch
import torchvision
import torch.nn as nn
import torch.optim as optim

## Tensor

Un tensor és un array multidimensional, similar a un array de NumPy. Podem crear tensors amb valors específics, amb tots els valors a zero, amb tots els valors a un, o amb valors aleatoris. Similar a NumPy

In [3]:
# Creem un tensor amb PyTorch
x = torch.tensor([1.0, 2.0, 3.0])
print(x)

# Creem una matriu de zeros amb PyTorch
zeros = torch.zeros(3, 3)
print(zeros)

# Creem una matriu d'uns amb PyTorch
ones = torch.ones(3, 3)
print(ones)

# Creem una matriu amb valors aleatoris
random_matrix = torch.rand(3, 3)
print(random_matrix)

tensor([1., 2., 3.])
tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])
tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])
tensor([[0.6306, 0.1587, 0.7163],
        [0.4760, 0.4986, 0.4446],
        [0.1375, 0.9243, 0.3288]])


## Primera xarxa neuronal

En PyTorch, les xarxes neuronals es defineixen com a classes que hereten de la classe base ``nn.Module``. Aquesta estructura de classe permet encapsular tots els components de la xarxa neuronal (com les capes i les funcions d'activació) en una sola entitat.

In [4]:
class SimpleNet(nn.Module):
    def __init__(self):
        super(SimpleNet, self).__init__()
        self.fc1 = nn.Linear(3, 3)
        
    def forward(self, x):
        x = self.fc1(x)
        return x

La classe SimpleNet és una xarxa neuronal que està definida com una classe que hereta de nn.Module, que és la classe base per a totes les xarxes neuronals en PyTorch.

Dins del mètode ``__init__``, primer cridem al constructor de la classe base amb ``super(SimpleNet, self).__init__()``. Això és necessari perquè PyTorch pugui fer un seguiment de totes les capes i paràmetres de la xarxa.

A continuació, definim una capa totalment connectada (o lineal) amb ``self.fc1 = nn.Linear(3, 3)``. ``nn.Linear`` és una classe que representa una capa totalment connectada. Els paràmetres de ``nn.Linear`` són el nombre d'entrades i el nombre de sortides. En aquest cas, tenim 3 entrades i 3 sortides.

El mètode forward defineix com es processa l'entrada a través de la xarxa. En aquest cas, simplement passem l'entrada a través de la capa fc1 amb ``x = self.fc1(x)``. La sortida d'aquesta capa es retorna com a sortida de la xarxa.

En resum, aquesta xarxa neuronal consisteix en una sola capa totalment connectada que accepta 3 entrades i retorna 3 sortides. L'entrada es processa passant-la a través de la capa totalment connectada.

In [5]:
# Creem una instància de la xarxa
net = SimpleNet()

# Creem un tensor d'entrada
input = torch.tensor([1.0, 2.0, 3.0])

# Passem el tensor a través de la xarxa
output = net(input)
print(output)

tensor([-0.4048, -2.2980,  0.6238], grad_fn=<AddBackward0>)


En aquest codi, primer creem una instància de la nostra xarxa neuronal SimpleNet. A continuació, creem un tensor d'entrada amb tres valors. Aquest tensor representa les dades d'entrada que volem passar a través de la xarxa.

Finalment, passem el tensor d'entrada a través de la xarxa utilitzant la crida net(input). Això crida el mètode forward de la xarxa, que processa l'entrada a través de la capa totalment connectada. La sortida de la xarxa es imprimeix a la consola.

Aquesta sortida és el resultat de passar l'entrada a través de la xarxa. En aquest cas, com que la xarxa és inicialment aleatòria (els pesos de la capa totalment connectada s'inicialitzen aleatòriament), la sortida també serà aleatòria. En un escenari real, entrenaríem la xarxa en un conjunt de dades per aprendre els pesos que minimitzen alguna funció de pèrdua.

### Definint OPT i Loss fn

Ara anirem un pas més enllà i farem servir optimitzador i funció de perdua. 

In [6]:
# Definim una funció de pèrdua
criterion = nn.MSELoss()

# Definim un optimitzador
optimizer = optim.SGD(net.parameters(), lr=0.01)

# Generem una sortida d'objectiu per a l'entrenament
target = torch.tensor([0.5, -0.5, 0.5])

# Realitzem un pas d'entrenament
optimizer.zero_grad()   # posa a zero els gradients
output = net(input)     # passa l'entrada a través de la xarxa
loss = criterion(output, target) # calcula la pèrdua
loss.backward()         # calcula els gradients
optimizer.step()        # actualitza els pesos de la xarxa

print(loss.item())      # imprimeix la pèrdua

1.3556326627731323


Aquest codi mostra com es pot entrenar la xarxa neuronal. Primer, definim una funció de pèrdua i un optimitzador. La funció de pèrdua és el criteri que utilitzem per mesurar com de bé està fent la xarxa, i l'optimitzador és l'algoritme que utilitzem per ajustar els pesos de la xarxa per minimitzar la funció de pèrdua.

A continuació, generem una sortida d'objectiu per a l'entrenament. Aquesta seria la sortida que voldríem que la xarxa produís quan li donem l'entrada.

Després realitzem un pas d'entrenament. Primer, posem a zero els gradients de l'optimitzador. Això és necessari perquè PyTorch acumula els gradients en cada crida a backward, de manera que necessitem posar-los a zero abans de calcular-los per al següent pas.

Després, passem l'entrada a través de la xarxa per obtenir la sortida, i calculem la pèrdua comparant aquesta sortida amb la sortida d'objectiu. Aquesta pèrdua és el valor que volem minimitzar.

A continuació, cridem ``loss.backward()`` per calcular els gradients de la pèrdua respecte als pesos de la xarxa. Aquests gradients són utilitzats per l'optimitzador per ajustar els pesos.

Finalment, cridem ``optimizer.step()`` per realitzar un pas d'optimització, que actualitza els pesos de la xarxa segons els gradients calculats.

Finalment, imprimim la pèrdua per veure com de bé està fent la xarxa. Aquest valor hauria de disminuir a mesura que entrenem la xarxa.

In [7]:
# Realitzem l'entrenament durant 100 iteracions
for i in range(100):
    optimizer.zero_grad()   # posa a zero els gradients
    output = net(input)     # passa l'entrada a través de la xarxa
    loss = criterion(output, target) # calcula la pèrdua
    loss.backward()         # calcula els gradients
    optimizer.step()        # actualitza els pesos de la xarxa
    if i % 10 == 0:
        print(f"Iteració {i}, pèrdua: {loss.item()}")  # imprimeix la pèrdua cada 10 iteracions

Iteració 0, pèrdua: 1.098062515258789
Iteració 10, pèrdua: 0.13349880278110504
Iteració 20, pèrdua: 0.01623033732175827
Iteració 30, pèrdua: 0.001973232952877879
Iteració 40, pèrdua: 0.00023989939654711634
Iteració 50, pèrdua: 2.9166056265239604e-05
Iteració 60, pèrdua: 3.545959771145135e-06
Iteració 70, pèrdua: 4.311179111482488e-07
Iteració 80, pèrdua: 5.2399542482817196e-08
Iteració 90, pèrdua: 6.374222039084998e-09


Aquest codi realitza el mateix procés d'entrenament que abans, però ara ho fa durant 100 iteracions. Això significa que passem l'entrada a través de la xarxa, calculem la pèrdua, calculem els gradients i actualitzem els pesos de la xarxa 100 vegades.

In [8]:
# Test de la xarxa
test_input = torch.tensor([0.5, -0.5, 0.5])
test_output = net(test_input)
print(test_output)

tensor([ 0.3613, -0.0025, -0.5441], grad_fn=<AddBackward0>)


## Guardant el model i carregant el model

El següent codi mostra com es pot guardar un model entrenat a disc i després carregar-lo de nou. Això és útil si vols entrenar un model, guardar-lo i després utilitzar-lo més tard o en un altre lloc.

In [10]:
# Guardem el model entrenat
torch.save(net.state_dict(), 'model.pth')

# Carreguem el model entrenat
loaded_net = SimpleNet()
loaded_net.load_state_dict(torch.load('model.pth'))

# Comprovem que el model carregat dona la mateixa sortida
loaded_output = loaded_net(test_input)
print(loaded_output)

tensor([ 0.3613, -0.0025, -0.5441], grad_fn=<AddBackward0>)


La funció torch.save guarda els paràmetres de la xarxa (els pesos i biaixos de les capes) a un fitxer. El mètode state_dict de la xarxa retorna un diccionari que conté aquests paràmetres.

Després, per carregar el model, primer creem una nova instància de la xarxa amb ``SimpleNet()``. Després utilitzem el mètode ``load_state_dict`` per carregar els paràmetres des del fitxer al model.

In [11]:
# Visualitzem els pesos de la xarxa
for name, param in net.named_parameters():
    print(name, param.data)

fc1.weight tensor([[-0.3750, -0.1186,  0.2491],
        [ 0.0498, -0.2053, -0.0036],
        [-0.5218,  0.0652,  0.4568]])
fc1.bias tensor([ 0.3649, -0.1283, -0.4790])


## Entrenant una xarxa amb MNIST

Tornarem a fer servir ara el dataset MNIST però aquest cop per entrenar la xarxa amb PyTorch.

Primer, necessitarem importar el conjunt de dades MNIST de PyTorch. També comprovarem si hi ha una GPU disponible i, si és així, prepararem el dispositiu per a la GPU.



In [12]:
import torch
from torchvision import datasets, transforms

# Definim la transformació per normalitzar les dades
transform = transforms.Compose([transforms.ToTensor(),
                                transforms.Normalize((0.5,), (0.5,))])

# Descarreguem i carreguem el conjunt de dades d'entrenament
trainset = datasets.MNIST('~/.pytorch/MNIST_data/', download=True, train=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True)

# Comprovem si hi ha una GPU disponible
if torch.cuda.is_available():
    device = torch.device('cuda')
else:
    device = torch.device('cpu')

print(f'Training on device {device}.')

Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
Failed to download (trying next):
HTTP Error 403: Forbidden

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-images-idx3-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-images-idx3-ubyte.gz to C:\Users\rmateo/.pytorch/MNIST_data/MNIST\raw\train-images-idx3-ubyte.gz


100%|██████████| 9912422/9912422 [00:02<00:00, 3484237.67it/s]


Extracting C:\Users\rmateo/.pytorch/MNIST_data/MNIST\raw\train-images-idx3-ubyte.gz to C:\Users\rmateo/.pytorch/MNIST_data/MNIST\raw

Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz
Failed to download (trying next):
HTTP Error 403: Forbidden

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-labels-idx1-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-labels-idx1-ubyte.gz to C:\Users\rmateo/.pytorch/MNIST_data/MNIST\raw\train-labels-idx1-ubyte.gz


100%|██████████| 28881/28881 [00:00<00:00, 256402.77it/s]


Extracting C:\Users\rmateo/.pytorch/MNIST_data/MNIST\raw\train-labels-idx1-ubyte.gz to C:\Users\rmateo/.pytorch/MNIST_data/MNIST\raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz
Failed to download (trying next):
HTTP Error 403: Forbidden

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-images-idx3-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-images-idx3-ubyte.gz to C:\Users\rmateo/.pytorch/MNIST_data/MNIST\raw\t10k-images-idx3-ubyte.gz


100%|██████████| 1648877/1648877 [00:00<00:00, 2435826.58it/s]


Extracting C:\Users\rmateo/.pytorch/MNIST_data/MNIST\raw\t10k-images-idx3-ubyte.gz to C:\Users\rmateo/.pytorch/MNIST_data/MNIST\raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz
Failed to download (trying next):
HTTP Error 403: Forbidden

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-labels-idx1-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-labels-idx1-ubyte.gz to C:\Users\rmateo/.pytorch/MNIST_data/MNIST\raw\t10k-labels-idx1-ubyte.gz


100%|██████████| 4542/4542 [00:00<?, ?it/s]

Extracting C:\Users\rmateo/.pytorch/MNIST_data/MNIST\raw\t10k-labels-idx1-ubyte.gz to C:\Users\rmateo/.pytorch/MNIST_data/MNIST\raw

Training on device cpu.





Aquest codi primer defineix una transformació que convertirà les imatges a tensors i les normalitzarà. Després descarrega i carrega el conjunt de dades MNIST, que consisteix en imatges de dígits escrits a mà, i defineix un carregador de dades que ens proporcionarà lots de 64 imatges a l'hora.

Després comprova si hi ha una GPU disponible utilitzant ``torch.cuda.is_available()``. Si hi ha una GPU disponible, definim el dispositiu com a 'cuda', que és el nom que PyTorch utilitza per a la GPU. Si no hi ha cap GPU disponible, definim el dispositiu com a 'cpu'. Finalment, imprimim el dispositiu en què s'entrenarà.

### Definint la xarxa per MNIST

En PyTorch, les capes i les funcions d'activació són tractades com a mòduls separats. Això vol dir que primer es defineix la capa lineal (o convolucional, etc.) i després es defineix la funció d'activació com un pas separat. Això permet una major flexibilitat, ja que pots encadenar qualsevol nombre de mòduls en qualsevol ordre.

In [15]:
from torch import nn, optim

# Definim la xarxa neuronal
net = nn.Sequential(nn.Linear(784, 128),
                    nn.ReLU(),
                    nn.Linear(128, 64),
                    nn.ReLU(),
                    nn.Linear(64, 10),
                    nn.LogSoftmax(dim=1))

# Movem la xarxa a la GPU si està disponible
net.to(device)

# Definim la funció de pèrdua i l'optimitzador
criterion = nn.NLLLoss()
optimizer = optim.SGD(net.parameters(), lr=0.003)

Aquesta xarxa té tres capes lineals intercalades amb funcions d'activació ReLU. La capa final és una funció softmax que donarà la probabilitat de cada classe.

Després, movem la xarxa al dispositiu que hem definit abans (la GPU si està disponible, sinó la CPU) amb ``net.to(device)``.

Finalment, definim la funció de pèrdua com la pèrdua de logaritme negatiu (una funció de pèrdua comuna per a problemes de classificació) i l'optimitzador com el descens del gradient estocàstic.

### Entrenant la xarxa

In [16]:
# Entrenem la xarxa durant 5 èpoques
for epoch in range(5):
    running_loss = 0
    for images, labels in trainloader:
        # Aplatem les imatges
        images = images.view(images.shape[0], -1)
    
        # Movem les imatges i les etiquetes a la GPU si està disponible
        images, labels = images.to(device), labels.to(device)
    
        # Zero the parameter gradients
        optimizer.zero_grad()
        
        # Forward pass, backward pass, and update weights
        output = net(images)
        loss = criterion(output, labels)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
    else:
        print(f"Training loss: {running_loss/len(trainloader)}")

Training loss: 1.897130252328763
Training loss: 0.8672184709038562
Training loss: 0.5320908153520972
Training loss: 0.43386330283971736
Training loss: 0.38834050985605223


Aquest codi entrena la xarxa durant 5 èpoques. En cada època, passa totes les imatges del conjunt de dades d'entrenament a través de la xarxa, calcula la pèrdua, fa la retropropagació per calcular els gradients, i actualitza els pesos amb l'optimitzador.

També aplatem les imatges abans de passar-les a través de la xarxa, ja que la xarxa espera vectors d'entrada en lloc d'imatges 2D. I movem les imatges i les etiquetes a la GPU si està disponible.

Finalment, imprimim la pèrdua d'entrenament mitjana per a cada època. Aquesta pèrdua hauria de disminuir amb el temps a mesura que la xarxa apren.


### Evaluant el model

Després d'entrenar la xarxa, voldrem avaluar el seu rendiment en un conjunt de dades de prova que no ha vist abans. Això ens donarà una bona idea de com es comportarà la xarxa en dades noves.



In [18]:
# Descarreguem i carreguem el conjunt de dades de prova
testset = datasets.MNIST('~/.pytorch/MNIST_data/', download=True, train=False, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=True)

# Inicialitzem el comptador de prediccions correctes
correct_count = 0
total_count = 0

# Passem cada imatge del conjunt de dades de prova a través de la xarxa
for images, labels in testloader:
    # Aplatem les imatges i les movem a la GPU si està disponible
    images = images.view(images.shape[0], -1)
    images, labels = images.to(device), labels.to(device)

    # Passem les imatges a través de la xarxa
    output = net(images)

    # Obtenim les prediccions de la xarxa
    _, predicted = torch.max(output.data, 1)

    # Actualitzem el comptador de prediccions correctes
    total_count += labels.size(0)
    correct_count += (predicted == labels).sum().item()

print(f'Accuracy: {correct_count / total_count}')

Accuracy: 0.8949


## Entrenant xarxes convolucionals amb Pytorch

Ja hem vist ara les neurones, passem a les convolucionals. Coneixem ja els pasos i la classe a definir. 

In [19]:
import torch
from torch import nn

class ConvNet(nn.Module):
    def __init__(self):
        super(ConvNet, self).__init__()
        self.layer1 = nn.Sequential(
            nn.Conv2d(1, 32, kernel_size=5, stride=1, padding=2),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2))
        self.layer2 = nn.Sequential(
            nn.Conv2d(32, 64, kernel_size=5, stride=1, padding=2),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2))
        self.drop_out = nn.Dropout()
        self.fc1 = nn.Linear(7 * 7 * 64, 1000)
        self.fc2 = nn.Linear(1000, 10)

    def forward(self, x):
        out = self.layer1(x)
        out = self.layer2(out)
        out = out.reshape(out.size(0), -1)
        out = self.drop_out(out)
        out = self.fc1(out)
        out = self.fc2(out)
        return out

Aquesta xarxa té dues capes convolucionals, seguides per una capa de max pooling, una capa de dropout per regularitzar la xarxa i evitar l'overfitting, i finalment dues capes totalment connectades (o lineals). La funció ``forward`` defineix com es processa l'entrada a través d'aquestes capes.

Ara que tenim la nostra arquitectura de xarxa definida, el següent pas seria entrenar la nostra xarxa. Aquí tens un exemple de com fer-ho:



In [27]:
from tqdm.notebook import tqdm

# Comprovem si hi ha una GPU disponible i, si és així, la utilitzem
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

# Creem una instància de la nostra xarxa i l'enviem a la GPU si està disponible
model = ConvNet().to(device)

# Definim la funció de pèrdua i l'optimitzador
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# Llistes per guardar les pèrdues i exactituds
train_losses = []
train_accs = []

# Entrenem la xarxa
num_epochs = 5
for epoch in range(num_epochs):
    train_loss = 0.0
    train_correct = 0
    total = 0
    # Afegim tqdm al bucle per mostrar una barra de progrés
    for i, (images, labels) in tqdm(enumerate(trainloader), total=len(trainloader)):
        # Enviem les imatges i les etiquetes a la GPU si està disponible
        images = images.to(device)
        labels = labels.to(device)
        
        outputs = model(images)
        loss = criterion(outputs, labels)
        
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        train_loss += loss.item()
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        train_correct += (predicted == labels).sum().item()
        
    train_loss /= len(trainloader)
    train_acc = 100 * train_correct / total
    train_losses.append(train_loss)
    train_accs.append(train_acc)
    print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {train_loss:.4f}, Accuracy: {train_acc:.2f}%')

  0%|          | 0/938 [00:00<?, ?it/s]

Epoch [1/5], Loss: 0.1638, Accuracy: 94.91%


  0%|          | 0/938 [00:00<?, ?it/s]

Epoch [2/5], Loss: 0.0775, Accuracy: 97.66%


  0%|          | 0/938 [00:00<?, ?it/s]

Epoch [3/5], Loss: 0.0606, Accuracy: 98.15%


  0%|          | 0/938 [00:00<?, ?it/s]

Epoch [4/5], Loss: 0.0523, Accuracy: 98.40%


  0%|          | 0/938 [00:00<?, ?it/s]

Epoch [5/5], Loss: 0.0481, Accuracy: 98.50%


### Validant el model

In [None]:
from torch.utils.data import DataLoader
from torchvision import datasets, transforms

# Definim les transformacions per les imatges
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

# Descarreguem i carreguem el conjunt de dades de validació
val_dataset = datasets.MNIST(root='./data', train=False, download=True, transform=transform)

# Definim el DataLoader de validació
val_loader = DataLoader(dataset=val_dataset, batch_size=100, shuffle=False)

# Creem llistes per guardar les pèrdues i exactituds de validació
val_losses = []
val_accs = []

# Passem el model a mode d'avaluació
model.eval()

# Desactivem el càlcul del gradient perquè no necessitem actualitzar els pesos en aquesta fase
with torch.no_grad():
    val_loss = 0.0
    val_correct = 0
    total = 0
    for images, labels in tqdm(val_loader, total=len(val_loader)):
        # Enviem les imatges i les etiquetes a la GPU si està disponible
        images = images.to(device)
        labels = labels.to(device)
        
        outputs = model(images)
        loss = criterion(outputs, labels)
        
        val_loss += loss.item()
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        val_correct += (predicted == labels).sum().item()
        
    val_loss /= len(val_loader)
    val_acc = 100 * val_correct / total
    val_losses.append(val_loss)
    val_accs.append(val_acc)
    print(f'Validation Loss: {val_loss:.4f}, Accuracy: {val_acc:.2f}%')