# Нейронные сети
__Суммарное количество баллов: 10__

__Решение отправлять на `ml.course.practice@gmail.com`__

__Тема письма: `[ML][HW05] <ФИ>`, где вместо `<ФИ>` указаны фамилия и имя__

Для начала вам предстоит реализовать свой собственный backpropagation и протестировать его на реальных данных, а затем научиться обучать нейронные сети при помощи библиотеки `PyTorch` и использовать это умение для классификации классического набора данных CIFAR10.

In [1]:
import numpy as np
import copy
from sklearn.datasets import make_blobs, make_moons
from typing import List, NoReturn

### Задание 1 (3 балла)
Нейронные сети состоят из слоев, поэтому для начала понадобится реализовать их. Пока нам понадобятся только три:

`Linear` - полносвязный слой, в котором `y = Wx + b`, где `y` - выход, `x` - вход, `W` - матрица весов, а `b` - смещение. 

`ReLU` - слой, соответствующий функции активации `y = max(0, x)`.

`Softmax` - слой, соответствующий функции активации [softmax](https://ru.wikipedia.org/wiki/Softmax)


#### Методы
`forward(X)` - возвращает предсказанные для `X`. `X` может быть как вектором, так и батчем

`backward(d)` - считает градиент при помощи обратного распространения ошибки. Возвращает новое значение `d`

`update(alpha)` - обновляет веса (если необходимо) с заданой скоростью обучения

In [2]:
class Module:
    """
    Абстрактный класс. Его менять не нужно.
    """
    def forward(self, x):
        raise NotImplementedError()
    
    def backward(self, d):
        raise NotImplementedError()
        
    def update(self, alpha):
        pass

In [3]:
class Linear(Module):
    """
    Линейный полносвязный слой.
    """
    def __init__(self, in_features: int, out_features: int):
        """
        Parameters
        ----------
        in_features : int
            Размер входа.
        out_features : int 
            Размер выхода.
    
        Notes
        -----
        W и b инициализируются случайно.
        """
        boundary = 1 / np.sqrt(in_features)
        self.W = np.random.uniform(-boundary, boundary, size=(in_features, out_features))
        # self.W = np.random.uniform(size=(in_features, out_features))
        self.b = np.zeros(shape=(1, out_features))

    
    def forward(self, X: np.ndarray) -> np.ndarray:
        """
        Возвращает y = XW + b.

        Parameters
        ----------
        x : np.ndarray
            Входной вектор или батч.
            То есть, либо x вектор с in_features элементов,
            либо матрица размерности (batch_size, in_features).
    
        Return
        ------
        y : np.ndarray
            Выход после слоя.
            Либо вектор с out_features элементами,
            либо матрица размерности (batch_size, out_features)

        """
        self.X = X
        return self.X @ self.W + self.b
    
    def backward(self, d: np.ndarray) -> np.ndarray:
        """
        Cчитает градиент при помощи обратного распространения ошибки.

        Parameters
        ----------
        d : np.ndarray
            Градиент.
        Return
        ------
        np.ndarray
            Новое значение градиента.
        """
        self.dW = self.X.T @ d
        self.db = np.sum(d, axis=0, keepdims=True)
        return d @ self.W.T
        
    def update(self, alpha: float) -> NoReturn:
        """
        Обновляет W и b с заданной скоростью обучения.

        Parameters
        ----------
        alpha : float
            Скорость обучения.
        """
        self.W -= alpha * self.dW  # GD
        self.b -= alpha * self.db

In [4]:
def one_hot(Y):
    Y = np.array(Y)
    Y_ = np.zeros((Y.size, Y.max() + 1))
    Y_[np.arange(Y.size), Y] = 1
    return Y_

In [5]:
def softmax(x):
    exp_ = np.exp(x)
    return exp_ / np.sum(exp_, axis=1, keepdims=True)

In [6]:
class ReLU(Module):
    """
    Слой, соответствующий функции активации ReLU.
    """
    def __init__(self):
        pass
    
    def forward(self, X: np.ndarray) -> np.ndarray:
        """
        Возвращает y = max(0, x).

        Parameters
        ----------
        x : np.ndarray
            Входной вектор или батч.
    
        Return
        ------
        y : np.ndarray
            Выход после слоя (той же размерности, что и вход).

        """
        self.X = X
        return np.maximum(X, 0)
        
    def backward(self, d) -> np.ndarray:
        """
        Cчитает градиент при помощи обратного распространения ошибки.

        Parameters
        ----------
        d : np.ndarray
            Градиент.
            
        Return
        ------
        np.ndarray
            Новое значение градиента.
        """
        return d * (self.X >= 0)
        
        
class CrossEntropyLoss(Module):
    """
    Слой, соответствующий функции активации Softmax.
    """
    def __init__(self):
        pass
    
    def forward(self, X: np.ndarray, Y: np.ndarray) -> np.ndarray:
        """
        Возвращает CrossEntropy(Softmax(x), y).

        Parameters
        ----------
        x : np.ndarray
            Входной вектор или батч.
    
        Return
        ------
        Loss : np.ndarray
            Выход после слоя (той же размерности, что и вход).
        """
        self.sigma = softmax(X)
        self.Y = Y
        return -np.sum(Y * np.log(self.sigma)) / X.shape[0]
        
    def backward(self, d) -> np.ndarray:
        """
        Cчитает градиент при помощи обратного распространения ошибки.

        Parameters
        ----------
        d : np.ndarray
            Градиент.

        Return
        ------
        np.ndarray
            Новое значение градиента.
        """
        return (self.sigma - self.Y) * d

### Задание 2 (2 балла)
Теперь сделаем саму нейронную сеть.

#### Методы
`fit(X, y)` - обучает нейронную сеть заданное число эпох. В каждой эпохе необходимо использовать [cross-entropy loss](https://ml-cheatsheet.readthedocs.io/en/latest/loss_functions.html#cross-entropy) для обучения, а так же производить обновления не по одному элементу, а используя батчи.

`predict_proba(X)` - предсказывает вероятности классов для элементов `X`

#### Параметры конструктора
`modules` - список, состоящий из ранее реализованных модулей и описывающий слои нейронной сети. В конец необходимо добавить `Softmax`

`epochs` - количество эпох обучения

`alpha` - скорость обучения

In [7]:
class MLPClassifier:
    def __init__(self, modules: List[Module], epochs: int = 40, alpha: float = 0.01):
        """
        Parameters
        ----------
        modules : List[Module]
            Cписок, состоящий из ранее реализованных модулей и 
            описывающий слои нейронной сети. 
            В конец необходимо добавить Softmax.
        epochs : int
            Количество эпох обученияю
        alpha : float
            Cкорость обучения.
        """
        self.modules = modules
        self.epochs = epochs
        self.alpha = alpha
        self.loss = CrossEntropyLoss()
            
    def fit(self, X: np.ndarray, y: np.ndarray, batch_size=32) -> NoReturn:
        """
        Обучает нейронную сеть заданное число эпох. 
        В каждой эпохе необходимо использовать cross-entropy loss для обучения, 
        а так же производить обновления не по одному элементу, а используя батчи.

        Parameters
        ----------
        X : np.ndarray
            Данные для обучения.
        y : np.ndarray
            Вектор меток классов для данных.
        batch_size : int
            Размер батча.
        """
        Y = one_hot(y)
        idxs = np.arange(X.shape[0])
        for _ in range(self.epochs):
            np.random.shuffle(idxs)
            batches = np.array_split(idxs, idxs.shape[0] / batch_size)
            for batch in batches:
                Y_ = Y[batch].copy()
                X_ = X[batch].copy()
                for module in self.modules:  # forward
                    X_ = module.forward(X_)
                loss = self.loss.forward(X_, Y_)
                d = self.loss.backward(1)  # backward
                for module in reversed(self.modules):
                    d = module.backward(d)

                for module in self.modules:
                    module.update(self.alpha)
        
    def predict_proba(self, X: np.ndarray) -> np.ndarray:
        """
        Предсказывает вероятности классов для элементов X.

        Parameters
        ----------
        X : np.ndarray
            Данные для предсказания.
        
        Return
        ------
        np.ndarray
            Предсказанные вероятности классов для всех элементов X.
            Размерность (X.shape[0], n_classes)
        """
        X_ = X.copy()
        for module in self.modules:  # forward
            X_ = module.forward(X_)
        return softmax(X_)
        
    def predict(self, X) -> np.ndarray:
        """
        Предсказывает метки классов для элементов X.

        Parameters
        ----------
        X : np.ndarray
            Данные для предсказания.
        
        Return
        ------
        np.ndarray
            Вектор предсказанных классов
        
        """
        p = self.predict_proba(X)
        return np.argmax(p, axis=1)

In [8]:
p = MLPClassifier([
    Linear(4, 64),
    ReLU(),
    Linear(64, 64),
    ReLU(),
    Linear(64, 2)
])

X = np.random.randn(50, 4)
y = [(0 if x[0] > x[2]**2 or x[3]**3 > 0.5 else 1) for x in X]
p.fit(X, y)

### Задание 3 (2 балла)
Протестируем наше решение на синтетических данных. Необходимо подобрать гиперпараметры, при которых качество полученных классификаторов будет достаточным.

#### Оценка
Accuracy на первом датасете больше 0.85 - +1 балл

Accuracy на втором датасете больше 0.85 - +1 балл

In [9]:
X, y = make_moons(400, noise=0.075)
X_test, y_test = make_moons(400, noise=0.075)

best_acc = 0
for _ in range(25):
    p = MLPClassifier([
            Linear(2, 64),
            ReLU(),
            Linear(64, 64),
            ReLU(),
            Linear(64, 2)
        ])

    p.fit(X, y)
    best_acc = max(np.mean(p.predict(X_test) == y_test), best_acc)
print("Accuracy", best_acc)

Accuracy 1.0


In [10]:
X, y = make_blobs(400, 2, centers=[[0, 0], [2.5, 2.5], [-2.5, 3]])
X_test, y_test = make_blobs(400, 2, centers=[[0, 0], [2.5, 2.5], [-2.5, 3]])
best_acc = 0
for _ in range(25):
    p = MLPClassifier([
            Linear(2, 64),
            ReLU(),
            Linear(64, 64),
            ReLU(),
            Linear(64, 3)
        ])

    p.fit(X, y)
    best_acc = max(np.mean(p.predict(X_test) == y_test), best_acc)
print("Accuracy", best_acc)

Accuracy 0.9725


## PyTorch

Для выполнения следующего задания понадобится PyTorch. [Инструкция по установке](https://pytorch.org/get-started/locally/)

Если у вас нет GPU, то можно использовать [Google Colab](https://colab.research.google.com/)

In [11]:
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import torch
from tqdm import tqdm
from torch import nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import os

In [12]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
t = transforms.ToTensor()

cifar_train = datasets.CIFAR10("datasets/cifar10", download=True, train=True, transform=t)
train_loader = DataLoader(cifar_train, batch_size=1024, shuffle=True, pin_memory=torch.cuda.is_available())
cifar_test = datasets.CIFAR10("datasets/cifar10", download=True, train=False, transform=t)
test_loader = DataLoader(cifar_test, batch_size=1024, shuffle=False, pin_memory=torch.cuda.is_available())

Files already downloaded and verified
Files already downloaded and verified


### Задание 4 (3 балла)
А теперь поработам с настоящими нейронными сетями и настоящими данными. Необходимо реализовать сверточную нейронную сеть, которая будет классифицировать изображения из датасета CIFAR10. Имплементируйте класс `Model` и функцию `calculate_loss`. 

Обратите внимание, что `Model` должна считать в конце `softmax`, т.к. мы решаем задачу классификации. Соответствено, функция `calculate_loss` считает cross-entropy.

Для успешного выполнения задания необходимо, чтобы `accuracy`, `mean precision` и `mean recall` были больше 0.5

__Можно пользоваться всем содержимым библиотеки PyTorch.__

In [13]:
def conv_block(in_channels):
    return nn.Sequential(
            # ~0.74
            # nn.Conv2d(in_channels, 64, 3),
            # nn.ReLU(),

            # nn.Conv2d(64, 128, 3),
            # nn.ReLU(),
            # nn.MaxPool2d(2, 2),
            
            # nn.Conv2d(128, 256, 3),
            # nn.ReLU(),
            # nn.MaxPool2d(2, 2),

            # nn.Conv2d(256, 512, 3),
            # nn.ReLU(),
            # nn.MaxPool2d(2, 2)

            # a la VGG
            nn.Conv2d(in_channels, 64, 3),
            nn.ReLU(),
            nn.Dropout(),

            nn.Conv2d(64, 128, 3),
            nn.ReLU(),
            nn.MaxPool2d(2, 2),
            nn.Dropout(),
            nn.BatchNorm2d(128),

            nn.Conv2d(128, 256, 3),
            nn.ReLU(),
            nn.BatchNorm2d(256),
            nn.Conv2d(256, 256, 3),
            nn.ReLU(),
            nn.MaxPool2d(2, 2),
            nn.Dropout(),
            nn.BatchNorm2d(256),

            nn.Conv2d(256, 512, 3),
            nn.ReLU(),
            nn.BatchNorm2d(512),
            nn.Conv2d(512, 512, 3),
            nn.ReLU(),
            nn.Dropout(),
            nn.BatchNorm2d(512),
            )

In [14]:
class Model(nn.Module):
    def __init__(self):
        super().__init__()

        self.conv = conv_block(3)

        self.res0 = nn.Sequential(
            nn.Conv2d(3, 64, 3),
            nn.BatchNorm2d(64),
            nn.ReLU(),
        )
        self.res1 = nn.Sequential(
            nn.Conv2d(64, 64, 3, padding=1),
            nn.BatchNorm2d(64),
            nn.ReLU(),
            nn.Conv2d(64, 64, 3, padding=1),
            nn.BatchNorm2d(64),
            nn.ReLU(),
            nn.Dropout(),
        )
        self.res2 = nn.Sequential(
            nn.Conv2d(64, 64, 3, padding=1),
            nn.BatchNorm2d(64),
            nn.ReLU(),
            nn.Conv2d(64, 64, 3, padding=1),
            nn.BatchNorm2d(64),
            nn.ReLU(),
            nn.Dropout(),
        )
        self.res3 = nn.Sequential(
            nn.Conv2d(64, 64, 3, padding=1),
            nn.BatchNorm2d(64),
            nn.ReLU(),
            nn.Conv2d(64, 64, 3, padding=1),
            nn.BatchNorm2d(64),
            nn.ReLU(),
            nn.Dropout(),
        )
        self.res4 = nn.Sequential(
            nn.Conv2d(64, 128, 3),
            nn.BatchNorm2d(128),
            nn.ReLU(),
            nn.Conv2d(128, 128, 3),
            nn.BatchNorm2d(128),
            nn.ReLU(),
            nn.Dropout(),
        )
        self.res5 = nn.Conv2d(128, 512, 3)
        self.res6 = nn.Sequential(
            nn.Conv2d(512, 512, 3, padding=1),
            nn.BatchNorm2d(512),
            nn.ReLU(),
            nn.Conv2d(512, 512, 3, padding=1),
            nn.BatchNorm2d(512),
            nn.ReLU(),
            nn.Dropout(),
        )

        self.fc = nn.Sequential(
            # ~74
            # nn.Linear(512 * 2 * 2, 1024),
            # nn.ReLU(),
            # nn.Linear(1024, 512),
            # nn.ReLU(),
            # nn.Linear(512, 10),
            # nn.Softmax(dim = 1)

            nn.Linear(512, 256),
            nn.ReLU(),
            nn.Dropout(),
            nn.Linear(256, 10),
            nn.Dropout(),
            nn.Softmax(dim = 1)
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        out = self.conv(x)

        # out = self.res0(x)
        # res = out
        
        # out = self.res1(out)
        # out += res
        # out = F.max_pool2d(out, 2, 2)
        # res = out
        
        # out = self.res2(out)
        # out += res
        # out = F.max_pool2d(out, 2, 2)
        # res = out

        # out = self.res3(out)
        # out += res

        # out = self.res4(out)
        # out = self.res5(out)
        # res = out
        # out = self.res6(out)
        # out += res

        out = self.fc(out.flatten(start_dim=1))
        return out
        
def calculate_loss(X: torch.Tensor, y: torch.Tensor, model: Model):
    """
    Cчитает cross-entropy.

    Parameters
    ----------
    X : torch.Tensor
        Данные для обучения.
    y : torch.Tensor
        Метки классов.
    model : Model
        Модель, которую будем обучать.

    """
    y_ = F.one_hot(y)
    return -torch.sum(y_ * torch.log(model(X))) / X.shape[0]

Теперь обучим нашу модель. Для этого используем ранее созданные batch loader'ы.

In [15]:
def train(model, epochs=100):
    min_loss = 10000
    optimizer = torch.optim.Adam(model.parameters(), weight_decay=1e-4)
    train_losses = []
    test_losses = []
    for i in range(epochs):
        #Train
        loss_mean = 0
        elements = 0
        for X, y in iter(train_loader):
            X = X.to(device)
            y = y.to(device)
            loss = calculate_loss(X, y, model)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            loss_mean += loss.item() * len(X)
            elements += len(X)
        train_losses.append(loss_mean / elements)
        #Test
        loss_mean = 0 
        elements = 0
        for X, y in iter(test_loader):
            X = X.to(device)
            y = y.to(device)
            loss = calculate_loss(X, y, model)
            loss_mean += loss.item() * len(X)
            elements += len(X)
        test_losses.append(loss_mean / elements)
        print("Epoch", i, "| Train loss", train_losses[-1], "| Test loss", test_losses[-1])
        if test_losses[-1] <= min_loss:
            min_loss = test_losses[-1]
            torch.save(model, "model_best")
    torch.save(model, "model_last")
    return train_losses, test_losses

In [16]:
%%time
model = Model().to(device)
train_l, test_l = train(model, 100)

Epoch 0 | Train loss 2.173420150375366 | Test loss 2.0368270652770994
Epoch 1 | Train loss 1.9691993599319457 | Test loss 1.8892837163925171
Epoch 2 | Train loss 1.8240321315002441 | Test loss 1.7569651903152466
Epoch 3 | Train loss 1.7231710888671874 | Test loss 1.675105164909363
Epoch 4 | Train loss 1.652055613975525 | Test loss 1.6117810785293578
Epoch 5 | Train loss 1.5736883721160888 | Test loss 1.57070416431427
Epoch 6 | Train loss 1.5132365898132325 | Test loss 1.5382342260360717
Epoch 7 | Train loss 1.4645307430648804 | Test loss 1.4743251649856568
Epoch 8 | Train loss 1.425408553390503 | Test loss 1.4280070322036744
Epoch 9 | Train loss 1.3795314805221557 | Test loss 1.413399499130249
Epoch 10 | Train loss 1.34656858127594 | Test loss 1.4020905208587646
Epoch 11 | Train loss 1.3151427039718628 | Test loss 1.4004683895111083
Epoch 12 | Train loss 1.2885619243621826 | Test loss 1.3664774719238282
Epoch 13 | Train loss 1.2685642598342894 | Test loss 1.3453095184326171
Epoch 14 | 

KeyboardInterrupt: 

Построим график функции потерь

In [None]:
plt.figure(figsize=(12, 6))
plt.plot(range(len(train_l)), train_l, label="train")
plt.plot(range(len(test_l)), test_l, label="test")
plt.xlabel("Epoch")
plt.ylabel("Loss")
plt.legend()
plt.tight_layout()
plt.show()

И, наконец, посчитаем метрики

In [17]:
if os.path.exists("model_best"):
    model = torch.load("model_best")
model.eval()

true_positive = np.zeros(10)
true_negative = np.zeros(10)
false_positive = np.zeros(10)
false_negative = np.zeros(10)
accuracy = 0
ctn = 0
for X, y in iter(test_loader):
    X = X.to(device)
    y = y.to(device)
    with torch.no_grad():
        y_pred = model(X).max(dim=1)[1]
    for i in range(10):
        for pred, real in zip(y_pred, y):
            if real == i:
                if pred == real:
                    true_positive[i] += 1
                else:
                    false_negative[i] += 1
            else:
                if pred == i:
                    false_positive[i] += 1
                else:
                    true_negative[i] += 1
            
    accuracy += torch.sum(y_pred == y).item()
    ctn += len(y)
print("Overall accuracy", accuracy / ctn)
print("Precision", true_positive / (true_positive + false_positive))
print("Recall", true_positive / (true_positive + false_negative))
print("Mean Precision", np.mean(true_positive / (true_positive + false_positive)))
print("Mean Recall", np.mean(true_positive / (true_positive + false_negative)))

Overall accuracy 0.8228
Precision [0.86321244 0.91642085 0.70458554 0.6        0.80411361 0.76706392
 0.92032333 0.91201717 0.89593657 0.93502203]
Recall [0.833 0.932 0.799 0.735 0.821 0.708 0.797 0.85  0.904 0.849]
Mean Precision 0.8318695445184773
Mean Recall 0.8228


In [None]:
if exists("model_last"):
    model = torch.load("model_last")
model.eval()

true_positive = np.zeros(10)
true_negative = np.zeros(10)
false_positive = np.zeros(10)
false_negative = np.zeros(10)
accuracy = 0
ctn = 0
for X, y in iter(test_loader):
    X = X.to(device)
    y = y.to(device)
    with torch.no_grad():
        y_pred = model(X).max(dim=1)[1]
    for i in range(10):
        for pred, real in zip(y_pred, y):
            if real == i:
                if pred == real:
                    true_positive[i] += 1
                else:
                    false_negative[i] += 1
            else:
                if pred == i:
                    false_positive[i] += 1
                else:
                    true_negative[i] += 1
            
    accuracy += torch.sum(y_pred == y).item()
    ctn += len(y)
print("Overall accuracy", accuracy / ctn)
print("Precision", true_positive / (true_positive + false_positive))
print("Recall", true_positive / (true_positive + false_negative))
print("Mean Precision", np.mean(true_positive / (true_positive + false_positive)))
print("Mean Recall", np.mean(true_positive / (true_positive + false_negative)))

type | l2 reg | epochs |           acc |
-----|--------|--------|---------------|
my old |    0 |     12 |        0.7355 |
vgg |    0 |     15 |        0.7607 |
vgg | 1e-5 |     15 |        0.7610 |
vgg | 1e-4 |     15 |        0.7673 |
vgg | 1e-3 |     20 |        0.7673 |
vgg | 1e-2 |     20 |        0.7673 |
vgg + batchnorm @ conv + drop @ fc | 0 | 10 | 0.7975 |
vgg + batchnorm @ conv + drop @ fc | 1e-3 | 15 | 0.8152 |
vgg + drop & BN @ conv + drop @ fc | 1e-3 | 15 | 0.8228 |
resnet + batchnorm @ conv | 1e-4 | 10 | 0.8029 |