# Домашнее задание 2. Классификация изображений.

В этом задании потребуется обучить классификатор изображений. Будем работать с датасетом, название которого раскрывать не будем. Можете посмотреть самостоятельно на картинки, которые в есть датасете. В нём 200 классов и около 5 тысяч картинок на каждый класс. Классы пронумерованы, как нетрудно догадаться, от 0 до 199. Скачать датасет можно вот [тут](https://yadi.sk/d/BNR41Vu3y0c7qA).

Структура датасета простая -- есть директории train/ и val/, в которых лежат обучающие и валидационные данные. В train/ и val/ лежат директориии, соответствующие классам изображений, в которых лежат, собственно, сами изображения.
 
__Задание__. Необходимо выполнить любое из двух заданий

1) Добейтесь accuracy **на валидации не менее 0.44**. В этом задании **запрещено** пользоваться предобученными моделями и ресайзом картинок. 

2) Добейтесь accuracy **на валидации не менее 0.84**. В этом задании делать ресайз и использовать претрейн можно. 

Напишите краткий отчёт о проделанных экспериментах. Что сработало и что не сработало? Почему вы решили, сделать так, а не иначе? Обязательно указывайте ссылки на чужой код, если вы его используете. Обязательно ссылайтесь на статьи / блогпосты / вопросы на stackoverflow / видосы от ютуберов-машинлернеров / курсы / подсказки от Дяди Васи и прочие дополнительные материалы, если вы их используете. 

Ваш код обязательно должен проходить все `assert`'ы ниже.

Необходимо написать функции `train_one_epoch`, `train` и `predict` по шаблонам ниже (во многом повторяют примеры с семинаров).Обратите особое внимание на функцию `predict`: она должна возвращать список лоссов по всем объектам даталоадера, список предсказанных классов для каждого объекта из даталоалера и список настоящих классов для каждого объекта в даталоадере (и именно в таком порядке).

__Использовать внешние данные для обучения строго запрещено в обоих заданиях. Также запрещено обучаться на валидационной выборке__.


__Критерии оценки__: Оценка вычисляется по простой формуле: `min(10, 10 * Ваша accuracy / 0.44)` для первого задания и `min(10, 10 * (Ваша accuracy - 0.5) / 0.34)` для второго. Оценка округляется до десятых по арифметическим правилам. Если вы выполнили оба задания, то берется максимум из двух оценок.

__Бонус__. Вы получаете 5 бонусных баллов если справляетесь с обоими заданиями на 10 баллов (итого 15 баллов). В противном случае выставляется максимальная из двух оценок и ваш бонус равен нулю.

__Советы и указания__:
 - Наверняка вам потребуется много гуглить о классификации и о том, как заставить её работать. Это нормально, все гуглят. Но не забывайте, что нужно быть готовым за скатанный код отвечать :)
 - Используйте аугментации. Для этого пользуйтесь модулем `torchvision.transforms` или библиотекой [albumentations](https://github.com/albumentations-team/albumentations)
 - Можно обучать с нуля или файнтюнить (в зависимости от задания) модели из `torchvision`.
 - Рекомендуем написать вам сначала класс-датасет (или воспользоваться классом `ImageFolder`), который возвращает картинки и соответствующие им классы, а затем функции для трейна по шаблонам ниже. Однако делать это мы не заставляем. Если вам так неудобно, то можете писать код в удобном стиле. Однако учтите, что чрезмерное изменение нижеперечисленных шаблонов увеличит количество вопросов к вашему коду и повысит вероятность вызова на защиту :)
 - Валидируйте. Трекайте ошибки как можно раньше, чтобы не тратить время впустую.
 - Чтобы быстро отладить код, пробуйте обучаться на маленькой части датасета (скажем, 5-10 картинок просто чтобы убедиться что код запускается). Когда вы поняли, что смогли всё отдебажить, переходите обучению по всему датасету
 - На каждый запуск делайте ровно одно изменение в модели/аугментации/оптимайзере, чтобы понять, что и как влияет на результат.
 - Фиксируйте random seed.
 - Начинайте с простых моделей и постепенно переходите к сложным. Обучение лёгких моделей экономит много времени.
 - Ставьте расписание на learning rate. Уменьшайте его, когда лосс на валидации перестаёт убывать.
 - Советуем использовать GPU. Если у вас его нет, используйте google colab. Если вам неудобно его использовать на постоянной основе, напишите и отладьте весь код локально на CPU, а затем запустите уже написанный ноутбук в колабе. Авторское решение задания достигает требуемой точности в колабе за 15 минут обучения.
 
Good luck & have fun! :)

In [4]:
import numpy as np
import torch
import torchvision
import tqdm
from torch import nn
from torch.nn import functional as F
from sklearn.metrics import accuracy_score
import sys
import torch.optim as optim
from PIL import Image
from torch.utils.data import DataLoader
from torch.utils.data.dataset import Dataset
from tqdm.notebook import tqdm
from torchvision.transforms import Resize, Normalize, ToTensor, Compose
import random 

import warnings
warnings.filterwarnings("ignore")

In [5]:
def set_random_seed(seed):
    torch.backends.cudnn.deterministic = True
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    np.random.seed(seed)
    random.seed(seed)

set_random_seed(42)

In [6]:
!wget https://www.dropbox.com/s/33l8lp62rmvtx40/dataset.zip
!unzip -q dataset.zip

--2021-11-21 07:40:31--  https://www.dropbox.com/s/33l8lp62rmvtx40/dataset.zip
Resolving www.dropbox.com (www.dropbox.com)... 162.125.3.18, 2620:100:6018:18::a27d:312
Connecting to www.dropbox.com (www.dropbox.com)|162.125.3.18|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: /s/raw/33l8lp62rmvtx40/dataset.zip [following]
--2021-11-21 07:40:31--  https://www.dropbox.com/s/raw/33l8lp62rmvtx40/dataset.zip
Reusing existing connection to www.dropbox.com:443.
HTTP request sent, awaiting response... 302 Found
Location: https://uce389c06942c65949ac7a047816.dl.dropboxusercontent.com/cd/0/inline/BaZIjqKNJyjLSImF5jwpTH1FSfbr_6ZsdquCHS6ucA-0sLP45Ls03cbS2erWPGfUpwNzNLzBLQGnbAbQhktDTUG_iv7keDuDry6zlvi0RYZ8JedBUXr1eYWeMnsGYQbEwol1vJxQ5BS_UH7HzeEIwwKf/file# [following]
--2021-11-21 07:40:32--  https://uce389c06942c65949ac7a047816.dl.dropboxusercontent.com/cd/0/inline/BaZIjqKNJyjLSImF5jwpTH1FSfbr_6ZsdquCHS6ucA-0sLP45Ls03cbS2erWPGfUpwNzNLzBLQGnbAbQhktDTUG_iv7ke

### Подготовка данных

In [7]:
train_transform = Compose([
        ToTensor(),
        torchvision.transforms.RandomHorizontalFlip(), 
        torchvision.transforms.ColorJitter(),
    ])
val_transform = Compose([
        ToTensor()
    ])

train_dataset = torchvision.datasets.ImageFolder("./dataset/dataset/train", transform=train_transform)
val_dataset = torchvision.datasets.ImageFolder("./dataset/dataset/val", transform=val_transform)

In [35]:
train_dataloader = torch.utils.data.DataLoader(train_dataset, batch_size=64,
                                          shuffle=True, num_workers=8)
val_dataloader = torch.utils.data.DataLoader(val_dataset, batch_size=32,
                                          shuffle=False, num_workers=8)

In [None]:
# Just very simple sanity checks
assert isinstance(train_dataset[0], tuple)
assert len(train_dataset[0]) == 2
assert isinstance(train_dataset[1][1], int)
print("tests passed")

tests passed


### Вспомогательные функции, реализация модели

In [20]:
def train_epoch(model, data_loader, optimizer, criterion, scheduler, return_losses=False, device="cuda:0"):
    model = model.to(device).train()  # переводим модель на ГПУ + указываем, что сейчас обучение
    total_loss = 0  # лосс за эпоху
    num_batches = 0  # число батчей, по которым мы посчитали уже
    all_losses = []  # лоссы по батчам
    total_predictions = np.array([])  # наши ответы по батчам
    total_labels = np.array([])  # правильные ответы по батчам

    with tqdm(total=len(data_loader), file=sys.stdout) as prbar:
        for images, labels in data_loader:
            # переводим на ГПУ
            images = images.to(device)
            labels = labels.to(device)

            predicted = model(images)  # <-> model.forward(images), т.е. предсказания
            loss = criterion(predicted, labels)  # считаем лосс
            
            # обновляем веса
            loss.backward()
            optimizer.step()
            optimizer.zero_grad()

            # обновляем значения для прогресс-бара
            accuracy = (predicted.argmax(1) == labels).float().mean()
            prbar.set_description(
                f"Loss: {round(loss.item(), 4)} "
                f"Accuracy: {round(accuracy.item() * 100, 4)}"
            )
            prbar.update(1)

            # записываем результаты
            total_loss += loss.item()
            total_predictions = np.append(total_predictions, predicted.argmax(1).cpu().detach().numpy())
            total_labels = np.append(total_labels, labels.cpu().detach().numpy())
            num_batches += 1
            all_losses.append(loss.detach().item())

    # записывам метрики за эпоху
    metrics = {"loss": total_loss / num_batches}
    metrics.update({"accuracy": (total_predictions == total_labels).mean()})
    print("Accuracy:", (total_predictions == total_labels).mean())

    if return_losses:
        return metrics, all_losses
    else:
        return metrics
        

def predict(model, data_loader, criterion, device="cuda:0"):
    model = model.eval()  # указываем, что сейчас предсказания
    total_loss = 0
    num_batches = 0
    total_predictions = np.array([])
    total_labels = np.array([])

    with tqdm(total=len(data_loader), file=sys.stdout) as prbar:
        for images, labels in data_loader:
            images = images.to(device)
            labels = labels.to(device)

            predicted = model(images)
            loss = criterion(predicted, labels)
            accuracy = (predicted.argmax(1) == labels).float().mean()

            prbar.set_description(
                f"Loss: {round(loss.item(), 4)} "
                f"Accuracy: {round(accuracy.item() * 100, 4)}"
            )
            prbar.update(1)

            total_loss += loss.item()
            total_predictions = np.append(total_predictions, predicted.argmax(1).cpu().detach().numpy())
            total_labels = np.append(total_labels, labels.cpu().detach().numpy())
            num_batches += 1

    metrics = {"loss": total_loss / num_batches}
    metrics.update({"accuracy": (total_predictions == total_labels).mean()})
    print("Accuracy:", (total_predictions == total_labels).mean())
    return metrics, total_predictions, total_labels


def train(model, epochs, train_data_loader, validation_data_loader, optimizer, criterion, scheduler, device="cuda:0"):
    all_train_losses = []
    epoch_train_losses = []
    epoch_eval_losses = []
    for epoch in range(epochs):
        # обучаем
        print(f"Train Epoch: {epoch}")
        train_metrics, one_epoch_train_losses = train_epoch(
            model=model,
            data_loader=train_data_loader,
            optimizer=optimizer,
            return_losses=True,
            criterion=criterion,
            scheduler=scheduler,
            device=device
        )
        # сохраняем результаты
        all_train_losses.extend(one_epoch_train_losses)
        epoch_train_losses.append(train_metrics["loss"])
        # предсказываем
        print(f"Validation Epoch: {epoch}")
        with torch.no_grad():
            validation_metrics, total_predictions, total_labels = predict(
                model=model,
                data_loader=validation_data_loader,
                criterion=criterion
            )
        # сохраняем результаты
        epoch_eval_losses.append(validation_metrics["loss"])
        scheduler.step(validation_metrics['loss'])

### Обучение модели, запуски экспериментов

In [26]:
# 1 версия
model = torchvision.models.resnet18(pretrained=False)
model.fc = nn.Linear(512, 200)  # меняем линейный слой, нам надо 200 выходов
optimizer = torch.optim.Adam(model.parameters(), 1e-4)
device = "cuda:0" if torch.cuda.is_available() else "cpu"
criterion = nn.CrossEntropyLoss()  # т.к. не делали softmax
scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, 'min')  # выбрала первый попавшийся

In [None]:
# 2 версия
model = torchvision.models.resnet50(pretrained=False)
model.fc = nn.Linear(2048, 200)  # меняем линейный слой, нам надо 200 выходов
optimizer = torch.optim.Adam(model.parameters(), 1e-4)
device = "cuda:0" if torch.cuda.is_available() else "cpu"
criterion = nn.CrossEntropyLoss()  # т.к. не делали softmax
scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, 'min')  # выбрала первый попавшийся

In [29]:
# 3 версия
model = torchvision.models.resnet50(pretrained=False)
model.fc = nn.Linear(2048, 200)  # меняем линейный слой, нам надо 200 выходов
model.conv1 = nn.Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) # попробуем переделать первый слой
optimizer = torch.optim.Adam(model.parameters(), 1e-4)
device = "cuda:0" if torch.cuda.is_available() else "cpu"
criterion = nn.CrossEntropyLoss()  # т.к. не делали softmax
scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, 'min')  # выбрала первый попавшийся
#model.maxpool = nn.Identity()

In [31]:
# 4 версия
model = torchvision.models.resnet34(pretrained=False)
model.fc = nn.Linear(512, 200)  # меняем линейный слой, нам надо 200 выходов
optimizer = torch.optim.Adam(model.parameters(), 1e-4)
device = "cuda:0" if torch.cuda.is_available() else "cpu"
criterion = nn.CrossEntropyLoss()  # т.к. не делали softmax
scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, 'min')  # выбрала первый попавшийся

Простой тест на проверку правильности написанного кода

In [None]:
all_losses, predicted_labels, true_labels = predict(model, val_dataloader, criterion, device)
assert len(predicted_labels) == len(val_dataset)
accuracy = accuracy_score(predicted_labels, true_labels)
print("tests passed")

  0%|          | 0/313 [00:00<?, ?it/s]

tests passed


In [27]:
# 1 версия
train(model, 5, train_dataloader, val_dataloader, optimizer, criterion, scheduler, device=device)

Train Epoch: 0


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.09107
Validation Epoch: 0


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.1568
Train Epoch: 1


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.20129
Validation Epoch: 1


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.1838
Train Epoch: 2


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.26791
Validation Epoch: 2


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.2586
Train Epoch: 3


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.32218
Validation Epoch: 3


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.2794
Train Epoch: 4


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.3711
Validation Epoch: 4


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.3055


In [28]:
# 2 версия
train(model, 3, train_dataloader, val_dataloader, optimizer, criterion, scheduler, device=device)

Train Epoch: 0


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.41975
Validation Epoch: 0


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.3045
Train Epoch: 1


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.46723
Validation Epoch: 1


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.31
Train Epoch: 2


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.51788
Validation Epoch: 2


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.3133


In [30]:
# 4 версия
train(model, 5, train_dataloader, val_dataloader, optimizer, criterion, scheduler, device=device)

Train Epoch: 0


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.06058
Validation Epoch: 0


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.115
Train Epoch: 1


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.15839
Validation Epoch: 1


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.1938
Train Epoch: 2


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.23582
Validation Epoch: 2


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.2566
Train Epoch: 3


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.29536
Validation Epoch: 3


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.2937
Train Epoch: 4


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.35078
Validation Epoch: 4


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.3217


**ВТОРАЯ ЧАСТЬ**

In [34]:
from torchvision.transforms import Resize, Normalize, ToTensor, Compose

train_transform = Compose([ToTensor(),
                           Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225)),
                           Resize((224, 224)),
                           torchvision.transforms.RandomHorizontalFlip(), 
                           torchvision.transforms.ColorJitter(),
                           ])

val_transform = Compose([ToTensor(),
                        Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225)),
                        Resize((224, 224))])

In [59]:
model = torchvision.models.resnet50(pretrained=True)
#for param in model.parameters():
#  param.requires_grad = False
model.conv1 = nn.Conv2d(3, 64, kernel_size=(3, 3), padding=(1, 1))
model.fc = nn.Linear(2048, 200)  # меняем линейный слой, нам надо 200 выходов
optimizer = torch.optim.Adam(model.parameters(), 1e-4)
device = "cuda:0" if torch.cuda.is_available() else "cpu"
criterion = nn.CrossEntropyLoss()  # т.к. не делали softmax
scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, 'min')  # выбрала первый попавшийся

In [64]:
train(model, 8, train_dataloader, val_dataloader, optimizer, criterion, scheduler, device=device)

Train Epoch: 0


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.6875
Validation Epoch: 0


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.6261
Train Epoch: 1


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.7217
Validation Epoch: 1


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.6562
Train Epoch: 2


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.7629
Validation Epoch: 2


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.6875
Train Epoch: 3


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.8129
Validation Epoch: 3


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.7222
Train Epoch: 4


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.8411
Validation Epoch: 4


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.7551
Train Epoch: 5


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.8692
Validation Epoch: 5


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.7729
Train Epoch: 6


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.8825
Validation Epoch: 6


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.7915
Train Epoch: 7


  0%|          | 0/1563 [00:00<?, ?it/s]

Accuracy: 0.9143
Validation Epoch: 7


  0%|          | 0/313 [00:00<?, ?it/s]

Accuracy: 0.8125


### Проверка полученной accuracy

In [67]:
all_losses, predicted_labels, true_labels = predict(model, val_dataloader, criterion, device)
assert len(predicted_labels) == len(val_dataset)
accuracy = accuracy_score(true_labels, predicted_labels)
print(accuracy)
print("Оценка за это задание составит {} баллов".format(min(10, 10 * accuracy / 0.3)))

  0%|          | 0/313 [00:00<?, ?it/s]

0.8125
Оценка за это задание составит 10 баллов


### Отчёт об экспериментах 

Написала в другом ноутбуке + тут приложила некоторые эксперименты.