# Deep CNN for computer vision

In [1]:
import torch
import torch.nn as nn

import torchvision
import torchvision.transforms as transforms

from tqdm.notebook import tqdm

import matplotlib.pyplot as plt
from utils import show_images


# autoreload ALL modules in real time
%load_ext autoreload
%autoreload 2



ModuleNotFoundError: No module named '_lzma'

In [2]:
import lzma

ModuleNotFoundError: No module named '_lzma'

In [None]:
# Your imports

num_workers = 2     # maximum number of subprocces (check https://pytorch.org/docs/stable/data.html for more info)
batch_size = 16     # increase or decrease batch_size here


device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print('Using {} device'.format(device))

# Task #1: Basic Pipeline [3 points]

## Step 1: Data Preparation

### Load [CIFAR10](https://www.cs.toronto.edu/~kriz/cifar.html) from torchvision.datasets

In [None]:
transform = transforms.Compose([
    transforms.ToTensor()
])

# download data
train_data = torchvision.datasets.CIFAR10(
    root='./data', train=True, download=True, 
    transform=transform
)

test_data = torchvision.datasets.CIFAR10(
    root='./data', train=False, download=True, 
    transform=transform
)

### Create dataloaders and plot some examples

In [None]:
# create dataloaders for model
train_dataloader = torch.utils.data.DataLoader(
    train_data, shuffle=True, 
    batch_size=batch_size, num_workers=num_workers
)

test_dataloader = torch.utils.data.DataLoader(
    test_data, shuffle=True, 
    batch_size=batch_size, num_workers=num_workers
)

# show some images from CIFAR
labels_map = {
    0: "Airplane",
    1: "Automobile",
    2: "Bird",
    3: "Cat",
    4: "Deer",
    5: "Dog",
    6: "Frog",
    7: "Horse",
    8: "Ship",
    9: "Truck",
}

N_samples = 16
images, labels = next(iter(train_dataloader))
show_images(
    images[:N_samples], 
    [labels_map[i.item()] for i in labels[:N_samples]], 
    transform=transforms.ToPILImage()
)

**Hint!**

Use can use ```torchvision.utils.make_grid()``` for your own plots. Check [documentation](https://pytorch.org/vision/stable/utils.html) for examples.


## Step 2: Neural Network [1 point]


В этом задании вам предстоит заполнить пробелы в типичном pipeline для обучения нейросетей на pytorch. 

Для наглядности (и последующего сравнения с Deep CNN-сетями) будем использовать простейший перцептрон в качестве модели. 

**Hint!** Можно изменить размеры и число скрытых слоёв, передав в качестве аргумента ```blocks``` их список.

### NN Architecrute

In [None]:
from models import MLP

net = MLP(images[0].shape, n_classes=len(labels_map), blocks=[256, 512, 256, 128, 64]).to(device)

**Hint!** Можно обратиться к документации [pytorch](https://pytorch.org/tutorials/beginner/basics/optimization_tutorial.html) для примеров реализации функций ```train_loop()``` и ```test_loop()```.

### [1 point ] Train-test loops

In [None]:
import IPython
from math import ceil


def train_loop(model, dataloader, loss_fn, optimizer, step=0.05):
    out = display(IPython.display.Pretty('Learning...'), display_id=True)

    size = len(dataloader.dataset) 
    len_size = len(str(size))
    batches = ceil(size / dataloader.batch_size) - 1
    
    percentage = 0
    for batch, (X, y) in enumerate(tqdm(dataloader, leave=False, desc="Batch #")):
        X, y = X.to(device), y.to(device)

        # evaluate
        # <----- your code here ----->
        
        # backpropagation
        # <----- your code here ----->
        
        # print info
        if batch / batches > percentage or batch == batches: 
            out.update(f'[{int(percentage * size)}/{size}] Loss: {loss:>8f}')
            percentage += step
        
        
def test_loop(model, dataloader, loss_fn):

    size = len(dataloader.dataset)
    test_loss, correct = 0, 0
    batches = ceil(size / dataloader.batch_size)

    with torch.no_grad():
        # evalute and check predictions
        # <----- your code here ----->

    test_loss /= batches
    correct /= size
    
    print(f"Validation accuracy: {(100*correct):>0.1f}%, Validation loss: {test_loss:>8f} \n")

### [1 point] Learning curves

1. Модифицируйте функции ```train_loop()``` и ```test_loop()``` таким образом, чтобы они возвращали словарь ```history```, содержащий ключи ```val_acc```, ```val_loss```, ```train_acc``` и ```train_loss```. 

2. Постройте графики зависимости ```loss_fn``` и ```accuracy``` для обучающей и тестовой выборок от эпохи обучения.

**Hint!** Не стоит пропускать этот пункт: другие задания могут требовать наличия соответствующих графиков.

In [None]:
# <----- your code here ----->

## Step 3: Train Network

**Hint!** В качестве лосс-функции следует использовать ```CrossEntropy```, а в качестве оптимизитора - ```Adam```.

In [None]:
# loss_fn, optimizer and number of epochs are required
# <----- your code here ----->

for epoch in range(epochs):
    print(f"Epoch {epoch+1}\n-------------------------------")
    # <----- your code here ----->

# Task #2: ResNet [4 points]

### [3 points: 1 for each correct class]

В этом задании от вас потребуется заполнить пропуски в ```./models/ResNet.py``` таким образом, чтобы полученная архитектура соответствовала ```resnet18```. Мы будем использовать именно эту модификацию архитектуры из-за её небольшого размера и относительной простоты самостоятельной реализации.

**Hint 0!**
В качестве примера можно опираться на соответствующую реализацию ```resnet18``` из **pytorch**.

**Hint 1!**
Благодаря **autoreload** вы можете использовать свежие изменения в ResNet.py без перезагрузки модуля. 

**Hint 2!**
Первым делом попробуйте сопоставить описанные классы с описанием встроенной в pytorch модели. Не забывайте про последовательную отладку.

In [None]:
# torchvision.models.resnet18() # uncomment this to see a Hint 0!

In [None]:
from models import ResidualBlock, ResNetLayer, ResNet18

In [None]:
# test ResidualBlock shapes
assert ResidualBlock(64, 64)(torch.rand(1, 64, 32, 32)).shape == torch.Size([1, 64, 32, 32])
assert ResidualBlock(64, 128)(torch.rand(1, 64, 32, 32)).shape == torch.Size([1, 128, 16, 16])
assert ResidualBlock(128, 256)(torch.rand(100, 128, 16, 16)).shape == torch.Size([100, 256, 8, 8])

In [None]:
# test ResNetLayer shapes
assert ResNetLayer(64, 64)(torch.rand(1, 64, 32, 32)).shape == torch.Size([1, 64, 32, 32])
assert ResNetLayer(64, 128)(torch.rand(1, 64, 32, 32)).shape == torch.Size([1, 128, 16, 16])
assert ResNetLayer(128, 256)(torch.rand(100, 128, 16, 16)).shape == torch.Size([100, 256, 8, 8])

**Hint 3!**
Обратите внимание на структуру ```resnet18```. Первая часть (до появления ```ResNetLayer```) - это блок даунсэмплинга. Не забудьте модифицировать структуру сети так, чтобы она была применима к изображениям из **CIFAR10**. 

In [None]:
dummy = ResNet18()(images) # эта строчка не должна вызывать ошибку

Обучите свою модель в течении небольшого количества эпох (6-30). 

In [None]:
# loss_fn, optimizer and number of epochs are required
# <----- your code here ----->

for epoch in range(epochs):
    print(f"Epoch {epoch+1}\n-------------------------------")
    # <----- your code here ----->

### [1 point]

Сравните процесс обучения свёрточной сети и перцептрона, а также число параметров. Какие выводы можно сделать?

<----- your answer here ----->

# Task #3: EfficientNet [3 points]

Иногда нет необходимости обучать модели "с нуля". Попробуем использовать для этой задачи технику, называющуюся **transfer learning**. В отличие от **fine tuning**, мы не будем переобучать всю сеть целиком. Вместо этого мы будем использовать уже предобученную сеть в качестве **fixed feature extractor**. 

Активации последнего свёрточного слоя мы будем использовать как уже готовые признаки. И уже на этих признаках мы обучим собственный классификатор, подходящий к нашей задаче.

Будем использовать обученную на датасете **ImageNet** сеть ```EfficientNet```. 

Чтобы адаптировать её к нашему датасету, потребуется **"заморозить" веса** и заменить классификатор модели. 

**Hint!** Обратитесь к документации [pytorch](https://pytorch.org/tutorials/beginner/transfer_learning_tutorial.html#convnet-as-fixed-feature-extractor) за подробностями. Обратите внимание, что мы **не переобучаем всю сеть целиком**.

## [1 point]

In [None]:
from torchvision.models import efficientnet_b0


# load and freeze pretrained model
# <----- your code here ----->

# change classifier
# <----- your code here ----->

In [None]:
# loss_fn, optimizer and number of epochs are required
# <----- your code here ----->

for epoch in range(epochs):
    print(f"Epoch {epoch+1}\n-------------------------------")
    # <----- your code here ----->

## [2 points] Comparsion and tuning

Переобучите несколько (не меньше трёх различных) сетей из библиотеки ```torchvision.models```, используя **transfer learning**. Рекомендуется выбрать несколько вариаций одной и той же сети (например, ```resnet``` или ```efficientnet```). 

In [None]:
# <----- your code here ----->

### [1 point]
Нарисуйте графики зависимости ошибки и точности во время обучения от числа прошедших эпох для всех сетей. 

**Hint 1!** На одном графике должны быть представлены все сети (а также легенда), но только один из четырёх параметров.

**Hint 1.5!** Из предыдущего пункта следует, что графиков должно быть... четыре.

**Hint 2!** Воспользуйтесь возможностью создавать ```subplot``` в библиотеке ```matplotlib```. 

In [None]:
# <----- your code here ----->

 ### [1 point]
Сравните результаты. Как размер и глубина сети влияют на обучение?

<----- your answer here ----->

# Bonus Task #4: Deep Double Descent [5 points]

*Несмотря на то, что это задание является бонусным, крайне рекомендуется попробовать его осилить. Оно не настолько страшное, каким кажется со стороны, однако поможет закрепить полученные навыки.*

В этом задании вам предлагается познакомиться с эффектом, называемым [deep double descent](https://arxiv.org/abs/1912.02292). Ознакомительную краткую версию можно найти [тут](https://openai.com/blog/deep-double-descent/).


## 4.1 Network width impact [3 points]

Вы будете исследовать способность нейросети обобщать данные в зависимости от её архитектуры. Чтобы более ясно увидеть эту зависимость, потребуется добавить к обучающим данным некоторое количество шума. 

<img src="./resources/double_descent.png" width="700"/>

### 4.1.1 Adding noise

Необходимо подготовить три различных набора данных из уже доступного вам **CIFAR10**:

    1. В первом все метки классов правильные.
    2. Во втором 10% меток классов случайные.
    3. В третьем 20% меток классов случайные. 

### 4.1.2 Choose basic model

В качесте базовой модели будем использовать **ResNet18**. 

Вам потребуется изменять только количество каналов в каждом свёрточном слое (и, соответственно, размеры линейного слоя в классификаторе). На графике выше по оси абсцисс отмечена "ширина" сети, то есть число каналов входящих в сеть свёрток. Глубина сети, то есть число блоков или входных слоёв, должна остаться _неизменной_.

Начните с небольших свёрток по 4 нейрона на первом слое **ResNet18** и постепенно увеличивайте количество до 128-256 на первом слое. Число нейронов на последующих слоях должно меняться  пропорционально первому слою. Используйте разумный шаг при увеличении числа нейронов для построения графика.

Ваша задача - точно отследить, при каком количестве параметров сеть:

    a) Число параметров слишком мало, сеть не обладает обобщающей способностью.
    b) Число параметров оптимально или близко к оптимальному (первый локальный минимум на графике). 
    c) Число параметров больше, чем необходимо (с увеличением числа параметров значения loss-функции после обучения должны стремиться ко второму минимуму).

### 4.1.3 Compare models

Цель задания - самостоятельно получить такой же график, как и у авторов статьи. Однако в нашем случае мы хотим отрисовать три различных линии на графике: каждой линии должна соответстовать сеть, обученная на своей версии датасета из пункта **4.1.2**.

In [None]:
# <----- your code here ----->

## 4.2 Network samples impact [2 points]

Это задание похоже на предыдущее: однако, в этом случае вы будем исследовать зависимость эффекта не от ширины сети, а от размера обучающей выборки. 

<img src="./resources/sample_wise_double_descent.svg" width="700"/>

### 4.2.1 Truncate dataset

Необходимо подготовить два различных набора данных из уже доступного вам **CIFAR10**:

    1. Полный датасет без изменений.
    2. 40% от датасета. 
    
### 4.2.2 Compare models


Аналогично **4.1**, глубина и топология сети должны оставаться неизменными; от вас снова требуется изменять только число нейронов в свёртках. Шаг и сетку параметров можно использовать такую же, как и пункте **4.1**.

Для каждого значения "ширины" сети требуется отметить две точки: значение **loss**-функции при обучении на полном датасете и на частичном. 


Так же как и в прошлом задании, вы можете опираться на результат авторов статьи (пример расположен выше). 

In [None]:
# <----- your code here ----->