
**Install requirements**

In [32]:
!pip3 install torch torchvision torchaudio



In [33]:
!pip3 install 'tqdm'



**Import libraries**

In [34]:
import os
import logging

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Subset, DataLoader
from torch.backends import cudnn

import torchvision
from torchvision import transforms
from torchvision.models import alexnet

from PIL import Image
from tqdm import tqdm

from sklearn.model_selection import train_test_split

**Set Arguments**

In [35]:
DEVICE = 'cuda' # 'cuda' or 'cpu'

NUM_CLASSES = 102 # 101 + 1: There is am extra Background class that should be removed

BATCH_SIZE = 256     # Higher batch sizes allows for larger learning rates. An empirical heuristic suggests that, when changing
                     # the batch size, learning rate should change by the same factor to have comparable results

LR = 1e-3            # The initial Learning Rate
MOMENTUM = 0.9       # Hyperparameter for SGD, keep this at 0.9 when using SGD
WEIGHT_DECAY = 5e-5  # Regularization, you can keep this at the default

NUM_EPOCHS = 30      # Total number of training epochs (iterations over dataset)
STEP_SIZE = 20       # How many epochs before decreasing learning rate (if using a step-down policy)
GAMMA = 0.1          # Multiplicative factor for learning rate step-down

LOG_FREQUENCY = 10

**Define Data Preprocessing**

In [36]:
# Define transforms for training phase
train_transform = transforms.Compose([transforms.Resize(256),      # Resizes short size of the PIL image to 256
                                      transforms.CenterCrop(224),  # Crops a central square patch of the image
                                                                   # 224 because torchvision's AlexNet needs a 224x224 input!
                                                                   # Remember this when applying different transformations, otherwise you get an error
                                      transforms.ToTensor(), # Turn PIL Image to torch.Tensor
                                      transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # Normalizes tensor with mean and standard deviation
])
# Define transforms for the evaluation phase
eval_transform = transforms.Compose([transforms.Resize(256),
                                      transforms.CenterCrop(224),
                                      transforms.ToTensor(),
                                      transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])

**Prepare Dataset**

In [37]:
from torchvision.datasets import VisionDataset

from PIL import Image

import os
import os.path
import sys


def pil_loader(path):
    # open path as file to avoid ResourceWarning (https://github.com/python-pillow/Pillow/issues/835)
    with open(path, 'rb') as f:
        img = Image.open(f)
        return img.convert('RGB')


class Caltech(VisionDataset):
    def __init__(self, root, split='train', transform=None, target_transform=None):
        super(Caltech, self).__init__(root, transform=transform, target_transform=target_transform)
        self.split = split

        # Manteniamo traccia di ogni singola label e immagine che abbiamo visto nell'ordine
        # in cui l'abbiamo vista.
        # Questo ci serve perché quando ci arriva una richiesta di get_item ad un indice specifico
        # ci basterà accedere a queste due strutture dati all'indice indicato e prendere il
        # rispettivo elemento di immagine e di label.
        self.images = []
        self.labels = []
        # Memorizzaiamo un dizionario che ci serve per memorizzare la corretta associazione tra
        # la label categorica ("cane") e il numero che indica la classe, per esempio 2.

        self.dim=0
        self.dizionario = dict()

        #andiamo a togliere 101_ObjectCategories e andiamo alla cartella che la contiene
        #apriamo il file train o text e da li per ogni riga apro il path dato da
        #101_ObjectCategories riga
        #Per risalire alla cartella "parent" che contiene root, puoi utilizzare la funzione
        #os.path.dirname(root). Questa funzione restituisce il percorso della cartella padre
        #(superiore) di quella specificata in root.
        root = os.path.dirname(root)

        self.dizionario = dict()
        val_label=-1

        #apriamo il file train o text e da li per ongi riga apro il path dato da
        #101_ObjectCategories riga
        split_file = os.path.join(root, f"{split}.txt")
        with open(split_file, 'r') as f:
          for line in f:
              # Per concatenare a root una parte del percorso, puoi utilizzare os.path.join().
              # Questa funzione permette di aggiungere in modo sicuro parti di percorso a root,
              #tenendo conto dei separatori di cartella per ogni sistema operativo.
              label, path = line.strip().split("/")
              #devo filtrare background e scartarlo:
              if label!="BACKGROUND_Google":
                self.dim+=1
                #aggiungiamo l'immagine che abbiamo appena aperto.
                self.images.append(os.path.join(root, '101_ObjectCategories', label, path))

                #devo andare ad aggiungere ad ogni iterazione (index=2 deve corrispondere tra
                # images e labels) un elemento dentro labels. Questo elemento deve essere
                # il valore numeroco corrispondente alla label che abbiamo trovato per quell'im
                #magine.

                #problema: come faccio a sapere quale sia il corretto valore di label?
                #il fiel ci dice la classe "cane", vado dentro il dizionario e vedo se è già
                # presente tra le chiavi, se lo è considero il valore corrispondente a qella chiave
                # altrimenti aggiungo l'associazione e restituisco il valore nuovo di chiave:

                if label not in self.dizionario.keys():
                  val_label+=1
                  self.dizionario[label]=val_label
                #NB: adesso devo prendere la label a partire dal dizionario:
                self.labels.append(self.dizionario[label])
        '''
        - Labels should start from 0, so for Caltech you will have lables 0...100 (excluding the background class)
        '''

    def __getitem__(self, index):
        '''
        __getitem__ should access an element through its index
        Args:
            index (int): Index

        Returns:
            tuple: (sample, target) where target is class_index of the target class.
        '''

        image, label = self.images[index], self.labels[index]
        image = pil_loader(self.images[index])
        # Applies preprocessing when accessing the image
        if self.transform is not None:
            image = self.transform(image)

        return image, self.labels[index]

    def __len__(self):
        '''
        The __len__ method returns the length of the dataset
        It is mandatory, as this is used by several other components
        '''
        length = len(self.images) # Provide a way to get the length (number of elements) of the dataset
        return self.dim
        #posso anche restituire length e mi esce lo stesso risultato

# Divisione training e validation set

In questa seziona andiamo ad effettuare la divisione tra training e validation set. L'idea è che ovviamente vogliamo fare in modo che il validation set rispetti il più possibile le diverse etichette dei dati. Ovvero dobbiamo fare in modo che il 25% dei dati di ogni classe venga preso nel validation set.

MA QUESTA COSA NON LA DEVO FARE MANUALE: MA CON TRAIN_TEST_SPIT E PASSANDO LO STRATIFY COME PARAMETRO.
CHE FA IN MODO CHE PRENDE IL 25% DI OGNI CLASSE.

In [38]:
# Clone github repository with data
import pathlib
print(pathlib.Path().resolve())
if not os.path.isdir('./Caltech101'):
  !git clone https://github.com/MachineLearning2020/Homework2-Caltech101.git
  !mv 'Homework2-Caltech101' 'Caltech101'

DATA_DIR = 'Caltech101/101_ObjectCategories'

# Prepare Pytorch train/test Datasets
train_dataset = Caltech(DATA_DIR, split='train',  transform=train_transform)
test_dataset = Caltech(DATA_DIR, split='test', transform=eval_transform)

#Dobbiamo splittare il dataset, per esempio 75% e 25%:
train_indexes = [] # split the indices for your train split
val_indexes = []# split the indices for your val split

num_train = len(train_dataset)
indices = list(range(num_train))

train_indexes, val_indexes = train_test_split(indices, test_size=0.25, random_state=42)

val_dataset = Subset(train_dataset, val_indexes)
train_dataset = Subset(train_dataset, train_indexes)

# Check dataset sizes
print('Train Dataset: {}'.format(len(train_dataset)))
print('Valid Dataset: {}'.format(len(val_dataset)))
print('Test Dataset: {}'.format(len(test_dataset)))

/content
Train Dataset: 4338
Valid Dataset: 1446
Test Dataset: 2893


# Preparazione dei DataLoader

In [39]:
# Dataloaders iterate over pytorch datasets and transparently provide useful functions (e.g. parallelization and shuffling)
train_dataloader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True, num_workers=4, drop_last=True)
val_dataloader = DataLoader(val_dataset, batch_size=BATCH_SIZE, shuffle=False, num_workers=4)
test_dataloader = DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False, num_workers=4)

**Prepare Network**

Abbiamo già una funzione che crea una rete di tipo AlexNet. Tuttabia dobbiamo andare a modifcare il sesto livello di classificazione (fully connected) adattando il numero di neuroni risultato in base al numeor di classi che vogliamo classificare, in questo caso 101.

In [40]:
net = alexnet() # Loading AlexNet model

# AlexNet has 1000 output neurons, corresponding to the 1000 ImageNet's classes
# We need 101 outputs for Caltech-101
net.classifier[6] = nn.Linear(4096, NUM_CLASSES) # nn.Linear in pytorch is a fully connected layer
                                                 # The convolutional layer is nn.Conv2d

# We just changed the last layer of AlexNet with a new fully connected layer with 101 outputs
# It is strongly suggested to study torchvision.models.alexnet source code

**Prepare Training**

In [41]:
# Define loss function
criterion = nn.CrossEntropyLoss() # for classification, we use Cross Entropy

# Choose parameters to optimize
# To access a different set of parameters, you have to access submodules of AlexNet
# (nn.Module objects, like AlexNet, implement the Composite Pattern)
# e.g.: parameters of the fully connected layers: net.classifier.parameters()
# e.g.: parameters of the convolutional layers: look at alexnet's source code ;)
parameters_to_optimize = net.parameters() # In this case we optimize over all the parameters of AlexNet

# Define optimizer
# An optimizer updates the weights based on loss
# We use SGD with momentum
optimizer = optim.SGD(parameters_to_optimize, lr=LR, momentum=MOMENTUM, weight_decay=WEIGHT_DECAY)

# Define scheduler
# A scheduler dynamically changes learning rate
# The most common schedule is the step(-down), which multiplies learning rate by gamma every STEP_SIZE epochs
scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=STEP_SIZE, gamma=GAMMA)
print(len(train_dataloader))

16


**Train**

In [42]:
# By default, everything is loaded to cpu
net = net.to(DEVICE) # this will bring the network to GPU if DEVICE is cuda

cudnn.benchmark # Calling this optimizes runtime

current_step = 0

# Start iterating over the epochs
for epoch in range(NUM_EPOCHS):
  print('Starting epoch {}/{}, LR = {}'.format(epoch+1, NUM_EPOCHS, scheduler.get_lr()))

  # Iterate over the dataset
  for images, labels in train_dataloader:
    # Bring data over the device of choice
    images = images.to(DEVICE)
    labels = labels.to(DEVICE)

    net.train() # Sets module in training mode

    # PyTorch, by default, accumulates gradients after each backward pass
    # We need to manually set the gradients to zero before starting a new iteration
    optimizer.zero_grad() # Zero-ing the gradients

    # Forward pass to the network
    outputs = net(images)

    # Compute loss based on output and ground truth
    loss = criterion(outputs, labels)

    # Log loss
    if current_step % LOG_FREQUENCY == 0:
      print('Step {}, Loss {}'.format(current_step, loss.item()))

    # Compute gradients for each layer and update weights
    loss.backward()  # backward pass: computes gradients
    optimizer.step() # update weights based on accumulated gradients

    current_step += 1
    # Step the scheduler
    scheduler.step()



Starting epoch 1/30, LR = [0.001]


  _warn_get_lr_called_within_step(self)


Step 0, Loss 4.623673915863037
Step 10, Loss 4.623283386230469
Starting epoch 2/30, LR = [0.001]
Step 20, Loss 4.619436264038086
Step 30, Loss 4.620144844055176
Starting epoch 3/30, LR = [0.0001]
Step 40, Loss 4.620591163635254
Starting epoch 4/30, LR = [1e-05]
Step 50, Loss 4.617240905761719
Step 60, Loss 4.620657920837402
Starting epoch 5/30, LR = [1.0000000000000002e-06]
Step 70, Loss 4.620408535003662
Starting epoch 6/30, LR = [1.0000000000000004e-08]
Step 80, Loss 4.619134426116943
Step 90, Loss 4.6209893226623535
Starting epoch 7/30, LR = [1.0000000000000002e-07]
Step 100, Loss 4.619752883911133
Step 110, Loss 4.620937824249268
Starting epoch 8/30, LR = [1.0000000000000004e-08]
Step 120, Loss 4.617701053619385
Starting epoch 9/30, LR = [1.0000000000000005e-09]
Step 130, Loss 4.620140552520752
Step 140, Loss 4.619173526763916
Starting epoch 10/30, LR = [1.0000000000000006e-10]
Step 150, Loss 4.620157241821289
Starting epoch 11/30, LR = [1.0000000000000006e-12]
Step 160, Loss 4.620

# best parameters
Andiamo ad usare il validation set per trovare la migliore combinazione di parametri (non iperparametri) della rete.

Dopo ogni epoca andimo a vedere i risultti che otteniano per quella epoca, magari considerando l'accuracy e vedo come quella rete (con i parametri attuali) performano sui dati di validation.

Tramite il metodo net.state_dict() vado a prendere tutti i parametri della rete.

In [45]:
best_loss = float('inf')
best_net = None

net = net.to(DEVICE)
cudnn.benchmark
current_step = 0

for epoch in range(NUM_EPOCHS):
  print('Starting epoch {}/{}, LR = {}'.format(epoch+1, NUM_EPOCHS, scheduler.get_lr()))

  for images, labels in train_dataloader:
    images = images.to(DEVICE)
    labels = labels.to(DEVICE)
    net.train()
    optimizer.zero_grad()
    outputs = net(images)
    loss = criterion(outputs, labels)
    if current_step % LOG_FREQUENCY == 0:
      print('Step {}, Loss {}'.format(current_step, loss.item()))
    loss.backward()
    optimizer.step()
    current_step += 1
    scheduler.step()

  #verifico la rete sui dati di validazione:
  with torch.no_grad():
    for images, labels in val_dataloader:
          images = images.to(DEVICE)
          labels = labels.to(DEVICE)
          net.train()
          output=net(images)
          loss += criterion(output, labels)

  loss = loss/len(val_dataloader)
  if loss<best_loss:
      best_loss=loss
      best_net = net.state_dict()

#net.load_state_dict(best_net)

Starting epoch 1/30, LR = [1.0000000000000015e-27]
Step 0, Loss 4.6205220222473145
Step 10, Loss 4.621953010559082
Starting epoch 2/30, LR = [1.0000000000000015e-28]
Step 20, Loss 4.620845317840576
Step 30, Loss 4.62053108215332
Starting epoch 3/30, LR = [1.0000000000000016e-29]
Step 40, Loss 4.6183881759643555


KeyboardInterrupt: 

# Validation
Adesso andiamo ad effettuare il processo di validation, ovvero andiamo a scegliere opportuna i valori degli IPER PARAMETRI DELLA RETE.

Per la traccia, dobbiamo effettuare validation almeno per due iperparametri. Di seguito si mostra la validazione per gli iperparametri di lr e epoche.

Per effettuare la validazione possiamo considerare una lista di possibili valori per ognuno di questi due iperparametri e poi vedere i risultati per ongi combinazione di questi iperparametri.

In [None]:
from itertools import product

net = net.to(DEVICE) # this will bring the network to GPU if DEVICE is cuda
net.train(False) # Set Network to evaluation mode

#Costruisco la lista degli iper parametri che voglio testare:
lr = [0.1, 0.01, 0.001, 0.0001]
NUM_EPOCHS = [5, 10, 15, 30]
best_accuracy = 0
best_lr=None
best_epochs=None
combinations = list(product(lr, NUM_EPOCHS))

# Stampare le combinazioni per verificare
for lr_val, epoch_val in combinations:
  criterion = nn.CrossEntropyLoss()
  parameters_to_optimize = net.parameters() # In this case we optimize over all the parameters of AlexNet
  optimizer = optim.SGD(parameters_to_optimize, lr=LR, momentum=MOMENTUM, weight_decay=WEIGHT_DECAY)
  scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=STEP_SIZE, gamma=GAMMA)

  #adesso vediamo come si comporta la rete neurale con questi parametri:
  net = net.to(DEVICE) # this will bring the network to GPU if DEVICE is cuda

  cudnn.benchmark # Calling this optimizes runtime

  current_step = 0
  running_corrects = 0
    # NOTA CHE DOBBIAMO USARE IL DATASET DI VALIDATION
  for images, labels in val_dataloader:
      # Bring data over the device of choice
      images = images.to(DEVICE)
      labels = labels.to(DEVICE)
      # Forward Pass
      outputs = net(images)
      # Get predictions
      _, preds = torch.max(outputs.data, 1)
      # Update Corrects
      running_corrects += torch.sum(preds == labels.data).data.item()
    # Calculate Accuracy
  accuracy = running_corrects / float(len(val_dataset))
  if accuracy>best_accuracy:
    best_accuracy = accuracy
    best_lr = lr_val
    best_epochs = epoch_val


print("the best accuracy is: ", best_accuracy)
print("the best parameters of lr, num_epochs are: ", best_lr, ", ", best_epochs)

**Test**

In [44]:
net = net.to(DEVICE) # this will bring the network to GPU if DEVICE is cuda
net.train(False) # Set Network to evaluation mode

running_corrects = 0
for images, labels in tqdm(test_dataloader):
  images = images.to(DEVICE)
  labels = labels.to(DEVICE)

  # Forward Pass
  outputs = net(images)

  # Get predictions
  _, preds = torch.max(outputs.data, 1)

  # Update Corrects
  running_corrects += torch.sum(preds == labels.data).data.item()

# Calculate Accuracy
accuracy = running_corrects / float(len(test_dataset))

print('Test Accuracy: {}'.format(accuracy))

100%|██████████| 12/12 [00:13<00:00,  1.10s/it]

Test Accuracy: 0.10508123055651573



