In [2]:
import pandas as pd
import torch
from torch.utils.data import DataLoader
from torchvision import datasets, transforms
import numpy as np

## 1. Классификация предметов одежды (датасет Fashion MNIST)



### 1.1 Решить задачу классификации, не используя сверточные слои. 
* Предложить архитектуру модели для решения задачи
* Посчитать количество параметров модели.
* Обучить модель
* Вывести график функции потерь по эпохам. 
* Используя тестовое множество

  * Продемонстрировать работу модели: вывести несколько изображений, указать над ними правильный класс и класс, предсказанный моделью. 

  * Вывести матрицу ошибок.

  * Вывести значение accuracy на тестовом множестве.
* Сохранить модель

In [3]:
mnist_train = datasets.FashionMNIST('./fashion_mnist/train', train=True,
                                    transform=transforms.Compose([transforms.ToTensor()]))
mnist_train

Dataset FashionMNIST
    Number of datapoints: 60000
    Root location: ./fashion_mnist/train
    Split: Train
    StandardTransform
Transform: Compose(
               ToTensor()
           )

In [4]:
mnist_test = datasets.FashionMNIST('./fashion_mnist/test', train=False,
                                   transform=transforms.Compose([transforms.ToTensor()]))
mnist_test

Dataset FashionMNIST
    Number of datapoints: 10000
    Root location: ./fashion_mnist/test
    Split: Test
    StandardTransform
Transform: Compose(
               ToTensor()
           )

In [5]:
device = 'cpu' #  'mps' if torch.has_mps else 'cpu'

In [6]:
model = torch.nn.Sequential(
    torch.nn.Flatten(),
    torch.nn.Linear(28 * 28, 2048),
    torch.nn.LeakyReLU(0.05),
    torch.nn.Linear(2048, 32),
    torch.nn.LeakyReLU(2),
    torch.nn.Dropout(0.5),
    torch.nn.Linear(32, len(mnist_train.classes))
).to(device)

In [7]:
def test_accuracy(_model, _test_loader, _loss_func) -> [float, float]:
    """ Возвращает два числа -- точность и лосс """
    acc = 0
    _loss = 0
    with torch.no_grad():
        for j, (x, y) in enumerate(_test_loader, 1):
            x = x.to(device)
            y = y.to(device)
            pred = model(x)
            acc += torch.sum(torch.eq(pred.argmax(dim=1).long().to('cpu'), y.to('cpu')))
            _loss += _loss_func(pred, y)

    return acc / _test_loader.dataset.data.shape[0], _loss / j

In [69]:
def train(_model, train_data, test_data, epochs: int = 30, batch_size: int = 20_000) -> [torch.nn.Module, pd.DataFrame]:
    optimizer = torch.optim.Adam(_model.parameters(), weight_decay=0.00001)
    loss = torch.nn.CrossEntropyLoss()

    loader = DataLoader(train_data, shuffle=True, batch_size=batch_size)
    test_loader = DataLoader(test_data, batch_size=batch_size)
    log = pd.DataFrame(columns=['epoch', 'train_loss', 'test_accuracy', 'test_loss'])

    for i in range(epochs):
        epoch_loss = 0
        model.train()
        for j, (x, y) in enumerate(loader, 1):
            x = x.data.to(device)
            y = y.data.to(device)
            y_pred = _model(x.data)
            running_loss = loss(y_pred, y)
            running_loss.backward()

            epoch_loss += running_loss.item()
            optimizer.step()
            optimizer.zero_grad()

        model.eval()
        test_acc, test_loss = test_accuracy(model, test_loader, loss)
        log.loc[i] = [i + 1, epoch_loss / j, test_acc.item(), test_loss.item()]

        print(f'EPOCH: {i + 1 :3d}  |  LOSS: {epoch_loss / j: .4f}', end='  |  ')
        print(f'TEST LOSS: {test_loss:0.4f}  |  TEST ACCURACY: {test_acc:0.4f}')

    return _model, log

In [68]:
model, log = train(model, mnist_train, mnist_test, 10)

KeyboardInterrupt: 

In [None]:
import plotly.express as px

px.line(log, x='epoch', y=['train_loss', 'test_loss'], title='<b>LOSS PLOT</b>').show(renderer='png')

In [None]:
px.line(log, x='epoch', y='test_accuracy', title='<b>TEST ACCURACY</b>').show(renderer='png')

In [None]:
from sklearn.metrics import confusion_matrix

model.to('cpu')
right_ans = torch.zeros(mnist_test.data.shape[0]).to('cpu')
with torch.no_grad():
    i = 0
    for x, _ in DataLoader(mnist_test, batch_size=2000):
        x = x.to('cpu')
        right_ans[i:i + x.shape[0]] += model(x).argmax(dim=1)
        i += x.shape[0]

cm = confusion_matrix(mnist_test.targets.numpy(), right_ans.long().numpy())
px.imshow(cm).show(renderer='png')

In [None]:
torch.save(model.state_dict(), 'models/mnist_linear')

In [None]:
np.random.seed(21)
for i in np.random.randint(0, mnist_test.targets.shape[0], 3):
    id_class = mnist_test.targets[i]
    class_name = mnist_test.classes[id_class]

    id_predicted = model(mnist_test.data[i:i + 1].float()).argmax(dim=1).item()
    class_name_predicted = mnist_test.classes[id_predicted]
    print(f'CLASS : {id_class} ({class_name})  |  '
          f'PREDICTED CLASS : {id_predicted} ({class_name_predicted})')
    px.imshow(mnist_test.data[i], color_continuous_scale='gray').show()

### 1.2 Решить задачу 1.1, используя сверточную нейронную сеть. 
* Добиться значения accuracy на тестовом множестве не менее 90%
* Визуализировать результаты работы первого сверточного слоя

In [70]:
mnist_train = datasets.FashionMNIST('./fashion_mnist/train', train=True,
                                    transform=transforms.Compose([transforms.ToTensor()]))
mnist_test = datasets.FashionMNIST('./fashion_mnist/test', train=False,
                                    transform=transforms.Compose([transforms.ToTensor()]))
mnist_train

Dataset FashionMNIST
    Number of datapoints: 60000
    Root location: ./fashion_mnist/train
    Split: Train
    StandardTransform
Transform: Compose(
               ToTensor()
           )

In [85]:
p = 0.2

model = torch.nn.Sequential(

    torch.nn.BatchNorm2d(1),

    torch.nn.Conv2d(1, 64, (3, 3), padding=1),
    torch.nn.BatchNorm2d(64),
    torch.nn.ReLU(),

    torch.nn.Conv2d(64, 64, (3, 3), padding=1),
    torch.nn.MaxPool2d((2, 2)),
    torch.nn.BatchNorm2d(64),
    torch.nn.ReLU(),

    # torch.nn.Dropout(p),
    #
    # torch.nn.Conv2d(32, 64, (3, 3), padding=1),
    # torch.nn.BatchNorm2d(64),
    # torch.nn.LeakyReLU(0.4),

    #
    # torch.nn.Conv2d(64, 64, (3, 3), padding=1),
    # torch.nn.MaxPool2d((2, 2)),
    # torch.nn.BatchNorm2d(64),
    # torch.nn.LeakyReLU(0.4),

    # torch.nn.Conv2d(32, 64, (3, 3), padding=1),
    # torch.nn.MaxPool2d((2, 2)),
    # torch.nn.LeakyReLU(0.4),

    torch.nn.Dropout(p),

    torch.nn.Flatten(),
    torch.nn.Linear(32 * 32, 2048),
    torch.nn.Sigmoid(),
    torch.nn.Linear(2048, 10)

).to(device)

In [86]:
number_params = 0
for param in model.parameters():
    number_params += torch.prod(torch.tensor(param.shape))

number_params  # Количество параметров в сети

tensor(2157516)

In [87]:
model, log = train(model, mnist_train, mnist_test, 10, 30_000)

KeyboardInterrupt: 

##  2. Классификация изображений (датасет CIFAR 10) 


### 2.1 Решить задачу классификации, не используя сверточные слои. 

* Нормализовать данные (если необходимо)
* Предложить архитектуру модели для решения задачи
* Посчитать количество параметров модели.
* Обучить модель
* Вывести график функции потерь по эпохам. 
* Используя тестовое множество

  * Продемонстрировать работу модели: вывести несколько изображений, указать над ними правильный класс и класс, предсказанный моделью. 

  * Вывести матрицу ошибок.

  * Вывести значение accuracy на тестовом множестве.
* Сохранить модель

### 2.2 Решить задачу 2.1, используя сверточную нейронную сеть. 
* Добиться значения accuracy на тестовом множестве не менее 70%.
* Визуализировать результаты работы первого сверточного слоя

## 3. Загрузка изображений из внешних источников

### 3.1 Решить задачу классификации обезьян (датасет [monkey.zip](https://disk.yandex.ru/d/OxYgY4S7aR6ulQ)).
* Загрузить архив с данными на диск
* Создать датасет на основе файлов при помощи `torchvision.datasets.ImageFolder`
* Преобразовать изображения к тензорами одного размера (например, 400х400). Потестировать другие преобразования из `torchvision.transforms`
* Предложить архитектуру модели для решения задачи. Обучить модель.
* Используя тестовое множество

  * Продемонстрировать работу модели: вывести несколько изображений, указать над ними правильный класс и класс, предсказанный моделью. 

  * Вывести матрицу ошибок.

  * Вывести значение accuracy на тестовом множестве.
  * Добиться значения accuracy на тестовом множестве не менее 60%

In [None]:
from google.colab import drive

drive.mount('/content/drive')

In [None]:
import zipfile
from tqdm import tqdm

zf = zipfile.ZipFile('drive/MyDrive/datasets/monkeys.zip')
for file in tqdm(zf.infolist()):
    zf.extract(file)

### 3.2 Решить задачу классификации собак и кошек (датасет [cats_dogs.zip](https://disk.yandex.ru/d/wQtt5O1JF9ctnA)).
* Загрузить архив с данными на диск
* Создать датасет на основе файлов при помощи `torchvision.datasets.ImageFolder`
* Преобразовать изображения к тензорами одного размера (например, 400х400). Потестировать другие преобразования из `torchvision.transforms`
* Предложить архитектуру модели для решения задачи. Обучить модель.
* Используя тестовое множество

  * Продемонстрировать работу модели: вывести несколько изображений, указать над ними правильный класс и класс, предсказанный моделью. 

  * Вывести матрицу ошибок.

  * Вывести значение accuracy на тестовом множестве.
  * Добиться значения accuracy на тестовом множестве не менее 80%

# 4. Transfer Learning

### 4.1 Решить задачу 3.1, воспользовавшись предобученной моделью VGG16
* Загрузить данные для обучения
* Преобразования: размер 224x224, нормализация с параметрами `mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225)`
* Заменить последний полносвязный слой модели в соответствии с задачей
* Дообучить модель (не замораживать веса). Вычислить значение accuracy на тестовом множестве
* Дообучить модель (заморозить все веса, кроме последнего блока слоев (`classifier`)). 
* Вычислить значение accuracy на тестовом множестве.


### 4.2 Решить задачу 3.2, воспользовавшись подходящей предобученной моделью
* Не использовать VGG16 (вместо нее можно взять resnet18 или другую)
* Загрузить данные для обучения
* Преобразования: размер 224x224, нормализация с параметрами `mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225)`
* Заменить последний полносвязный слой модели в соответствии с задачей
* Дообучить модель. 
* Вычислить значение accuracy на тестовом множестве (добиться значения не меньше 97-98%)