# **Monitoring pasażerów za pomocą algorytmu SafeSO**

W niniejszym ćwiczeniu wykorzystamy podejście zaproponowane w ramach algorytmu SafeSO do monitorignu pasażerów na tylnym siedzeniu pojazdu. Zastosujemy przy tym sieć MobileNetV2 i porównamy jej wyniki na tle innych, przetestowanych przez autorów SafeSO.

# Przygotowanie bazy danych
W naszych badaniach użyjemy zbioru SVIRO. Zawiera on sztucznie wygenerowane obrazy tylnych siedzeń różnych pojazdów, które zostały zaklasyfikowane do 7 kategorii:
0. puste siedzenie,
1. niemowlę w foteliku,
2. dziecko w foteliku,
3. osoba dorosła,
4. rzecz codziennego użytku (np. poduszka, torba),
5. pusty fotelik niemowlęcy,
6. pusty fotelik dziecięcy.

W naszych badaniach, podobnie jak to było w przypadku oryginalnych prac nad algorytmem SafeSO, wykorzystamy kolorowe (RGB) obrazy wnętrzna samochodu BMW x5, z wyciętymi pojedynczymi siedzeniami.

Zbiór SVIRO jest ogólnie dostępny na dedykowanej mu [stronie internetowej](https://sviro.kl.dfki.de/). Jak już wspomniano, zawiera on ogólnie zdjęcia różnych pojazdów, dodatkowo w kilku wersjach (skala szarości, RGB, głębia). Interesujący nas wariant możemy pobrać i przygotować do wykorzystania za pomocą poniższych komend (proszę się upewnić, czy wszystkie z nich są zrozumiałe!).

**Uwaga.** W zależności od łącza internetowego, proces pobierania może potrwać nawet kilka minut.

In [1]:
!wget https://sviro.kl.dfki.de/download/bmw-x5-4/?wpdmdl=423
!unzip index.html?wpdmdl=423
!rm index.html?wpdmdl=423

[1;30;43mStrumieniowane dane wyjściowe obcięte do 5000 ostatnich wierszy.[0m
  inflating: x5/train/RGB/0/x5_train_imageID_548_seatPosition_1_GT_0.png  
  inflating: x5/train/RGB/0/x5_train_imageID_328_seatPosition_1_GT_0.png  
  inflating: x5/train/RGB/0/x5_train_imageID_41_seatPosition_1_GT_0.png  
  inflating: x5/train/RGB/0/x5_train_imageID_1192_seatPosition_1_GT_0.png  
  inflating: x5/train/RGB/0/x5_train_imageID_323_seatPosition_0_GT_0.png  
  inflating: x5/train/RGB/0/x5_train_imageID_719_seatPosition_1_GT_0.png  
  inflating: x5/train/RGB/0/x5_train_imageID_1979_seatPosition_2_GT_0.png  
  inflating: x5/train/RGB/0/x5_train_imageID_1891_seatPosition_1_GT_0.png  
  inflating: x5/train/RGB/0/x5_train_imageID_1350_seatPosition_1_GT_0.png  
  inflating: x5/train/RGB/0/x5_train_imageID_332_seatPosition_2_GT_0.png  
  inflating: x5/train/RGB/0/x5_train_imageID_703_seatPosition_2_GT_0.png  
  inflating: x5/train/RGB/0/x5_train_imageID_1689_seatPosition_2_GT_0.png  
  inflating: x5/t

Teraz przystępujemy do realizacji właściwego zadania - najpierw importujemy wszystkie potrzebne pakiety:

In [2]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data.sampler import SubsetRandomSampler
from torch.utils.data import DataLoader
import torchvision.models as models
from torchvision import datasets, transforms
import matplotlib.pyplot as plt
import time
import copy
import numpy as np
from sklearn import metrics

Ustawiamy ścieżki do odpowiednich zbiorów (uczącego i testowego):

In [3]:
SVIRO_train_path = './x5/train/RGB' # FIXME - np. ścieżka: './x5/train/RGB'
SVIRO_test_path = './x5/test_with_labels/RGB' # FIXME - np. ścieżka: './x5/test_with_labels/RGB'

Jak już wspomniano, w dalszej części ćwiczenia będziemy wykorzystywali sieć MobileNetV2. Na wejściu pierwszej warstwy wymaga ona tensorów w rozmiarze [3 x 224 x 224]. O ile pierwszy z wymienionych wymiarów jest zapewniony poprzez wykorzystanie obrazów RGB, o tyle pozostałe dwa musimy uzyskać za pomocą odpowiednich transformacji (oryginalne obrazy są bowiem prostokątami). Zastosujemy przy tym często spotykane podejście: najpierw przeskalujemy obraz w ten sposób, że krótszy bok będzie miał długość zbliżoną do docelowej (przyjmijmy 256), a następnie wytniemy z niego kwadrat o pożądanych rozmiarach.

**Zadanie.** Proszę uzupełnić zestaw przekształceń preprocessingu, wykorzystując moduł transforms z pakietu torchvision i metody: Resize, CenterCrop oraz ToTensor. Oczywiście kolejność przekształceń ma znaczenie. W razie wątpliwości można skorzystać z [dokumentacji modułu transforms](https://pytorch.org/vision/stable/transforms.html).

In [4]:
preprocessing = transforms.Compose([transforms.Resize(256), transforms.CenterCrop((224,224)), transforms.ToTensor()]) # TODO - uzupełnić tablicę []

Pakiet torchvision udostępnia wygodne API do pobierania wielu popularnych zbiorów danych. Niestety, do tego grona nie zalicza się SVIRO. Możemy jednak wykorzystać ogólną klasę ImageFolder do obsłużenia naszego zbioru.

**Zadanie.** Po zapoznaniu się z [dokumentacją ImageFolder](https://pytorch.org/vision/stable/datasets.html#torchvision.datasets.ImageFolder) proszę wykorzystać tę klasę do obsłużenia uczącego i testowego zbioru SVIRO. W obu przypadkach wystarczą dwa argumenty: ścieżka i zestaw transformacji (taki sam dla obu zbiorów).

In [5]:
SVIRO_train = datasets.ImageFolder(SVIRO_train_path, preprocessing)# TODO - zbiór uczący
SVIRO_test = datasets.ImageFolder(SVIRO_test_path, preprocessing)# TODO - zbiór testowy

Oprócz dwóch wspomnianych zbiorów, będziemy również potrzebowali zbioru walidacyjnego do kontrolowania procesu uczenia. Możemy go utworzyć poprzez losowy podział oryginalnego zbioru uczącego, np. 10% przeznaczyć na zbiór walidacyjny, a pozostałą część na właściwy zbiór uczący. Do tego celu służy metoda [SubsetRandomSampler](https://pytorch.org/docs/stable/data.html#torch.utils.data.SubsetRandomSampler), z której skorzystamy w naszym przypadku, a następnie wświetlimy finalną liczbę obrazów w każdym zbiorze:

In [6]:
val_split = 0.1
SVIRO_train_size = len(SVIRO_train)
split = int(np.floor(val_split * SVIRO_train_size))

indices = list(range(SVIRO_train_size))
np.random.seed(13)
np.random.shuffle(indices)
train_indices, val_indices = indices[split:], indices[:split]

train_sampler = SubsetRandomSampler(train_indices)
val_sampler = SubsetRandomSampler(val_indices)

dataset_sizes = {'train': len(train_indices), 'val': len(val_indices), 'test': SVIRO_test.__len__()}

for x in ['train', 'val', 'test']:
    print('[INFO] Number of ' + x + ' samples: ' + str(dataset_sizes[x]))

[INFO] Number of train samples: 5400
[INFO] Number of val samples: 600
[INFO] Number of test samples: 1500


Oprócz pobierania zawartości danego zbioru (czy to z internetu, czy z dysku lokalnego), PyTorch umożliwia również wygodne wczytywanie poszczególnych obrazów za pomocą klasy DataLoader.

**Zadanie.** Po zapoznaniu się z [dokumentacją DataLoader](https://pytorch.org/docs/stable/data.html#torch.utils.data.DataLoader) proszę przygotować loadery dla każdego z trzech zbiorów: uczącego, walidacyjnego i testowego. We wszystkich przypadkach będziemy potrzebowali trzech argumentów: źródła danych (*dataset*) - SVIRO_train lub SVIRO_test, rozmiaru batcha (*batch_size*) - wszędzie jednakowy oraz *pin_memory* z wartością True. Ostatni argument umożliwia przyspieszenie wczytywania danych do GPU z wykorzystaniem CUDA. W przypadku loaderów zbioru uczącego i walidacyjnego musimy również wykorzystać argument *sampler* z przygotowanymi wcześniej obiektami klasy SubsetRandomSampler.

In [8]:
batch_size = 64
train_loader = torch.utils.data.DataLoader(SVIRO_train, 64, False, train_sampler)# TODO - loader dla zbioru uczącego
val_loader = torch.utils.data.DataLoader(SVIRO_train, 64, False, val_sampler)# TODO - loader dla zbioru walidacyjnego
test_loader = torch.utils.data.DataLoader(SVIRO_test, 64)# TODO - loader dla zbioru testowego

dataloaders = {'train': train_loader, 'val': val_loader, 'test': test_loader}

Naszą docelową platformę wykonywania obliczeń stanowi GPU z CUDA (o ile tylko jest dostępne), co możemy wyrazić przez instrukcję warunkową przedstawioną poniżej.

**Uwaga.** Proszę dobrze zapamiętać poniższą instrukcję, gdyż będzie ona nam wielokrotnie potrzebna.

In [9]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)

cuda:0


# Funkcja ucząca i model

Będziemy przeprowadzać dwukrotne uczenie sieci neuronowej, stąd warto zdefiniować odrębną funkcję uczącą.

**Zadanie.** Zdefiniować funkcję uczącą na podstawie [poradnika o Transfer Learningu w Pytorchu](https://pytorch.org/tutorials/beginner/transfer_learning_tutorial.html#training-the-model).

In [None]:
import tempfile
import os

def train_model(model, criterion, optimizer, scheduler, num_epochs=25):
    with tempfile.TemporaryDirectory() as tempdir:
        best_model_params_path = os.path.join(tempdir, 'best_model_params.pt')

        torch.save(model.state_dict(), best_model_params_path)
        best_acc = 0.0

        for epoch in range(num_epochs):
            print(f'Epoch {epoch}/{num_epochs - 1}')
            print('-' * 10)

            # Each epoch has a training and validation phase
            for phase in ['train', 'val']:
                if phase == 'train':
                    model.train()  # Set model to training mode
                else:
                    model.eval()   # Set model to evaluate mode

                running_loss = 0.0
                running_corrects = 0

                # Iterate over data.
                for inputs, labels in dataloaders[phase]:
                    inputs = inputs.to(device)
                    labels = labels.to(device)

                    # zero the parameter gradients
                    optimizer.zero_grad()

                    # forward
                    # track history if only in train
                    with torch.set_grad_enabled(phase == 'train'):
                        outputs = model(inputs)
                        _, preds = torch.max(outputs, 1)
                        loss = criterion(outputs, labels)

                        # backward + optimize only if in training phase
                        if phase == 'train':
                            loss.backward()
                            optimizer.step()

                    # statistics
                    running_loss += loss.item() * inputs.size(0)
                    running_corrects += torch.sum(preds == labels.data)
                if phase == 'train':
                    scheduler.step()

                epoch_loss = running_loss / dataset_sizes[phase]
                epoch_acc = running_corrects.double() / dataset_sizes[phase]

                print(f'{phase} Loss: {epoch_loss:.4f} Acc: {epoch_acc:.4f}')

                # deep copy the model
                if phase == 'val' and epoch_acc > best_acc:
                    best_acc = epoch_acc
                    torch.save(model.state_dict(), best_model_params_path)

            print()

        time_elapsed = time.time() - since
        print(f'Training complete in {time_elapsed // 60:.0f}m {time_elapsed % 60:.0f}s')
        print(f'Best val Acc: {best_acc:4f}')

        # load best model weights
        model.load_state_dict(torch.load(best_model_params_path, weights_only=True))
    return model

Pakiet torchvision udostępnia szereg modeli sieci neuronowych wytrenowanych na zbiorze ImageNet. Wśród nich znajduje się również model sieci MobileNetV2, który wczytujemy:

In [None]:
model = models.mobilenet_v2(pretrained=True)

print(model)

# Transfer Learning

Wczytana przez nas sieć jest przystosowana do klasyfikacji obiektów (zwierząt) pochodzących z 1000 klas. Jak już wspomniano, w zbiorze SVIRO mamy jedynie 7 klas. Wobec tego musimy zmienić klasyfikator oraz przystosować całą sieć do nowego zbioru danych. Wzorując się na algorytmie SafeSO, dokonamy tego w dwóch etapach: najpierw nauczymy sam klasyfikator na podstawie cech wykrywanych przez oryginalną sieć, a następnie dokonany finetuningu całości. Przy wykonywaniu tych kroków można wzorować się na wspomnianym już [poradniku o Transfer Learningu w PyTorchu](https://pytorch.org/tutorials/beginner/transfer_learning_tutorial.html).

## Uczenie klasyfikatora

W pierwszym etapie musimy przede wszystkim zmienić klasyfikator sieci i przeprowadzić jego uczenie. Zgodnie z przyjętą metodologią, potrzebujemy równocześnie "zamrozić" parametry warstw odpowiedzialnych za ekstrakcję cech. Najprościej zrealizować to w następującej kolejności:
1. Zamrozić **wszystkie** parametry oryginalnej sieci (doprowadzi to również do zamrożenia parametrów oryginalnego klasyfikatora, ale zaraz go i tak wymienimy, więc nie ma to dla nas znaczenia).
2. Wymienić klasyfikator na właściwy dla naszego problemu.
3. Przeprowadzić uczenie tak przygotowanej sieci.

**Zadanie.** Proszę zamrozić parametry oryginalnej sieci za pomocą odpowiedniego ustawienia flagi *requires_grad*.

In [None]:
for param in model.parameters():
    # TODO

**Zadanie.** Proszę zdefiniować nowy klasyfikator dla naszej sieci. Ma on mieć taką samą strukturę i parametry, jak oryginalny klasyfikator (por. rezultat wywołania *print(model)* powyżej), tylko zamiast 1000 cech wyjściowych (*out_features*) powinien mieć ich 7 (tyle, ile klas w zbiorze danych). Należy skorzystać z warstw *nn.Dropout* oraz *nn.Linear*, a do ich połączenia można użyć kontenera *nn.Sequential*. Informacje o nich znajdują się w dokumentacji [torch.nn](https://pytorch.org/docs/stable/nn.html).

In [None]:
new_cls = # TODO
model.classifier = new_cls

print(model)

Gotowy model umieszczamy w pamięci urządzenia, na którym pracujemy (np. GPU z CUDA):

In [None]:
model.to(device)

Możemy teraz przystąpić do uczenia naszego modelu. W tym celu musimy najpierw zdefiniować funkcję błędu, optymalizator i scheduler. Co istotne, w pierwszym etapie chcemy uczyć jedynie parametry klasyfikatora naszego modelu (można je znaleźć poprzez wywołanie *model.classifier.parameters()*), więc to na nich powinien działać optymalizator.

**Zadanie.** Proszę zdefiniować *CrossEntropyLoss* jako funkcję błędu, optymalizator *Adam* (ze współczynnikiem uczenia *lr=1e-2*) oraz scheduler *StepLR* (współczynnik *gamma=0.1*, *step_size* można natomiast testować różny, a na początek przyjąć 3). Należy pamiętać o przekazaniu właściwych parametrów sieci do optymalizatora. W razie wątpliwości można wesprzeć się dokumentacją
modułów [torch.nn](https://pytorch.org/docs/stable/nn.html) i [torch.optim](https://pytorch.org/docs/stable/optim.html).

In [None]:
criterion = # TODO - funkcja błędu
optimizer_cls = # TODO - optymalizator
scheduler_cls = # TODO - scheduler

Przeprowadzamy uczenie naszego modelu, wykorzystując zdefiniowaną uprzednio funkcję *train_model*.

**Uwaga.** Może to potrwać kilka minut.

In [None]:
model = train_model(model=model, criterion=criterion, optimizer=optimizer_cls, scheduler=scheduler_cls, num_epochs=5)

Podobnie, jak uczenie, tak i ewaluację będziemy przeprowadzać dwukrotnie. W związku z tym warto przygotować sobie ogólną funkcję do tego celu.

**Zadanie.** Proszę zapoznać się z poniższą funkcją ewaluacyjną (np. czekając, aż sieć się nauczy). Szczególną uwagę należy zwrócić na instrukcje związane z obsługą gradientów oraz sposób konwersji wyników z PyTorcha do Numpy.

In [None]:
def test_model(model):
    predictions = np.array([])
    true_values = np.array([])

    model.eval()

    for inputs, labels in dataloaders['test']:
        inputs = inputs.to(device)

        with torch.no_grad():
            outputs = model(inputs)
        _, preds = torch.max(outputs, 1)

        predictions = np.append(predictions, preds.detach().cpu().numpy())
        true_values = np.append(true_values, labels.data.numpy())

    return true_values, predictions

Na koniec tego etapu przeprowadzamy ewaluację uzyskanych wyników. Posłużymy się przy tym macierzą błędów (ang. *confusion matrix*) oraz wynikającymi z niej parametrami, obliczonymi za pomocą modułu *metrics* z pakietu *scikit-learn*.


In [None]:
true_values, predictions = test_model(model)

print(metrics.classification_report(true_values, predictions, digits=3))

## Finetuning

Po wstępnym nauczeniu klasyfikatora, przechodzimy do drugiego etapu. Teraz traktujemy sieć jako całość zainicjalizowaną pretrenowanymi parametrami:
- warstwy odpowiedzialne za ekstrakcję cech mają wagi nauczone na zbiorze zwierząt,
- klasyfikator ma wagi wyuczone przed chwilą przez nas.

Tym razem sprawa jest prostsza: wystarczy odmrozić wszystkie wagi i można przystąpić do uczenia.

**Zadanie.** Proszę odmrozić uczenie wszystkich parametrów modelu poprzez odpowiednie ustawienie flagi *requires_grad*:

In [None]:
for param in model.parameters():
    # TODO

**Zadanie.** Proszę zdefiniować nowy optymalizator (ponownie *Adam*, tylko z dostępem do **wszystkich** parametrów modelu oraz ze współczynnikiem uczenia *lr=1e-4*) oraz nowy scheduler (taki, jak poprzednio).

In [None]:
optimizer_ft = # TODO - optymalizator
scheduler_ft = # TODO - scheduler

Uczymy sieć.

**Uwaga.** Chwila wytchnienia, chwilę to potrwa.

In [None]:
model = train_model(model=model, criterion=criterion, optimizer=optimizer_ft, scheduler=scheduler_ft, num_epochs=5)

Ponownie weryfikujemy rezultat uczenia na zbiorze testowym z wykorzystaniem tych samych metryk:

In [None]:
true_values, predictions = test_model(model)

print(metrics.classification_report(true_values, predictions, digits=3))

# Pytania kontrolne

W celu podsumowania wykonanych ćwiczeń proszę odpowiedź na poniższe pytania kontrolne:

1. Czy finetuning poprawił uzyskiwane rezultaty? Odpowiedź **uzasadnij**.

**Odpowiedź:**

2. Jak uzyskane wyniki plasują się na tle rezultatów uzyskanych przez autorów algorytmów SafeSO dla różnych testowanych przez nich sieci?
Przeanalizuj złożoność (liczba warst, liczba parametrów) sieci MobilNet oraz tej wykorzystanej w artykurze SafeSO i porównaj.
Weź pod uwagę liczbę parametrów oraz dokładność inferencji i rozważ przynajmniej dwie sytuacje, w których mniejsza sieć ma przewagę nad dużo większymi siecią.

**Odpowiedź:**