In [1]:
import torch
from torch import nn
from torch.utils.data import DataLoader, Dataset
from torchvision import datasets
from torchvision.transforms import ToTensor
from matplotlib import pyplot as plt

import os
import pandas as pd
from torchvision.io import read_image


# Задание 2. Свертки и базовые слои 
Это задание будет являться духовным наследником первого. 
Вы уже научились делать шаги градиентного спуска и вспомнили, как устроен базовый линейный слой.
На этой неделе мы построим прототип базового фреймворка до конца (собственно, многое вы сможете скопировать, если захотите). 
Хоть вы уже и знаете о torch.nn, для выполнения задания его использовать нельзя. 
Однако все элементы, которые вы будете реализовывать, достаточно просты.

![image.png](attachment:image.png)

In [2]:
class Layer:
    ''' Базовый слой. От него будут наследоваться все проклятые Богом слои'''
    def __init__(self):
        self.param = None
    #def __repr__(self):
        # Функция, которая вызовется при print()
        
    def __call__(self, data):
        return data

## Задача 1. (2 балла)
Реализуйте слой BatchNorm (nn.BatchNorm). 
[Идея для вдохновления как всегода нашлась на хабре](https://habr.com/ru/articles/309302/)

![image.png](attachment:image.png)

In [3]:
class BatchNorm(Layer):
    def __init__(self, len):
        self.w = torch.rand(len)
        self.b = torch.rand(len)
        self.param = [self.w, self.b]
    
    def __call__(self, data):
        return data

## Задача 2. (2 балла)
Реализуйте слой Linear (nn.Linear). 


In [4]:
class Linear(Layer):
    def __init__(self, input_len, output_len):
        self.W = torch.rand(input_len+1, output_len, requires_grad=True)
        self.param = [self.W]
    
    def __call__(self, X):
        X_1 = torch.ones(X.size()[1]).unsqueeze(0)
        X_con = torch.cat((X_1, X), 0)
        
        return self.W.T @ X_con
        
class Model:
    def __init__(self):
        ''' Набиваем модель слоями. Исполнение идет с лева на право: X------> '''
        self.layers = [Layer(), Layer(), Layer(), Layer()]

    def __call__(self, data):
        return self.forward(data)

    def parameters(self):
        parameters_arr = []

        for i in range(len(self.layers)):
            parameters_arr.append(self.layers[i].param)
        
        return parameters_arr
    
    def forward(self, x):
        for i in range(len(self.layers)):
            x = self.layers[i](x)
        return x


В связи с тем, что передача в класс происходит по значению, а не по ссылки ``` optimizer = Optimizator(model.parameters(), lr=1e-3) ``` работало неверно, из-за чего пришлось захардкодить

In [5]:
'''
class Optimizator:
    def __init__(self, model_parameters, lr=0.001):
        self.model_parameters = model_parameters[::-1]
        self.lr = lr
    
    def zero_grad(self):
        # Тут мы сбрасывыем  градиенты в нуль 
        for i in range(len(self.model_parameters)):
            for j in range(len(self.model_parameters[i])):
                self.model_parameters[i][j].retain_grad()

    
    def step(self):
        # Тут мы коррентируем веса в соотвествии с SGD 
        for i in range(len(self.model_parameters)):
            for j in range(len(self.model_parameters[i])):
                print(self.model_parameters[i][j])
                self.model_parameters[i][j] = self.model_parameters[i][j] - self.lr * self.model_parameters[i][j].grad.data
'''

In [6]:
class MyModel(Model):
    def __init__(self):
        ''' Самая простая линейная модель '''
        self.layers = [Linear(1, 1)]

In [13]:
model = MyModel()
loss_fn = nn.MSELoss()

class Optimizator:
    def __init__(self, lr=0.001):
        #self.model_parameters = model_parameters[::-1]
        self.lr = lr
    
    def zero_grad(self):
        # Тут мы сбрасывыем  градиенты в нуль 
        for i in range(len(model.layers)):
            for j in range(len(model.layers[i].param)):
                print("zero_grad1:", model.layers[i].param[j].grad)
                model.layers[i].param[j].retain_grad()
                print("zero_grad2:", model.layers[i].param[j].grad)

    
    def step(self):
        # Тут мы коррентируем веса в соотвествии с SGD 
        for i in range(len(model.layers)):
            for j in range(len(model.layers[i].param)):
                print("step1:", model.layers[i].param[j])
                grad = model.layers[i].param[j].grad.data
                print(grad)
                model.layers[i].param[j] = model.layers[i].param[j] - self.lr * grad
                #model.layers[i].param[j] = model.layers[i].param[j].clone().detach().requires_grad_(True)
#                print("step2:", model.layers[i].param[j])



optimizer = Optimizator(lr=1e-3)

In [14]:
x1 = torch.arange(-15, 15, 0.1)
x2 = torch.arange(-15, 15, 0.1) / 5
x = torch.stack([x1, x2], dim=1)
y = x[:,0] * 2. + 0.2 * x[:, 1]**2 - 3 + torch.normal(0., 0.2, (1, 300))
#plt.scatter(x[:, 0], y)

На второй итерации почему-то возникают сложности с подсчетом градиента 

In [15]:
for i in range(10):
    preds = model(x[:, 0].unsqueeze(0))
    loss = loss_fn(preds, y)

    # Backpropagation
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

plt.scatter(x[:, 0], y)
plt.scatter(x[:, 0], preds.detach().numpy())

zero_grad1: None
zero_grad2: None
step1: tensor([[0.5799],
        [0.8578]], requires_grad=True)
tensor([[   6.0717],
        [-171.7295]])
step2: tensor([[0.5738],
        [1.0295]], grad_fn=<SubBackward0>)
zero_grad1: None
zero_grad2: None
step1: tensor([[0.5738],
        [1.0295]], grad_fn=<SubBackward0>)


  print("zero_grad1:", model.layers[i].param[j].grad)


AttributeError: 'NoneType' object has no attribute 'data'

In [None]:
asdasdadas

In [13]:
class Test:
    def __init__(self, text):
        self.text = text
        #text = "У попа была собака"

In [None]:
my_str = "ulala"

z = Test(my_str)

print(z.text is my_str)
#z.text = "asdad"
#my_str

In [9]:
train_data = datasets.FashionMNIST(
    root="../../datasets",
    train=True,
    download=True,
    transform=ToTensor(),
)

# Download test data from open datasets.
test_data = datasets.FashionMNIST(
    root="../../datasets",
    train=False,
    download=True,
    transform=ToTensor(),
)

In [10]:
train_dataloader = DataLoader(train_data, batch_size=64, shuffle=True)
test_dataloader = DataLoader(test_data, batch_size=64, shuffle=True)

In [None]:
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using {device} device")


In [None]:
class NeuralNetwork(nn.Module):
    def __init__(self):
        super().__init__()
        self.base = nn.Sequential(
            # your code
            nn.Conv2d(1, 32, 3, padding=1),
            nn.BatchNorm2d(32),
            nn.ReLU(),
            nn.Conv2d(32, 16, 3, padding=1),
            nn.BatchNorm2d(16),
            nn.ReLU()
        )
        self.head = nn.Linear(16*28*28, 10)

    def forward(self, x):
        x = self.base(x)
        # Необходимо превратить вход в вектор, чтобы можно было применить линейный слой

        x = x.view(x.size(0), -1)
        logits = self.head(x)
        return logits

model = NeuralNetwork().to(device)
print(model)

In [13]:
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)

In [15]:
def train(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)
    model.train()
    for batch_idx, (inputs, targets) in enumerate(dataloader):
        inputs, targets = inputs.to(device), targets.to(device)

        # Compute prediction error
        preds = model(inputs)
        loss = loss_fn(preds, targets)

        # Backpropagation
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        if batch_idx % 100 == 0:
            loss, current = loss.item(), (batch_idx + 1) * len(inputs)
            print(f"loss: {loss:>7f}  [{current:>5d}/{size:>5d}]")
            
        ''' Чтобы сделать задание со сравнением лоссов, не забудьте 
            реализовать трекинг минимального лосса  '''

In [16]:
def test(dataloader, model, loss_fn):
    size = len(dataloader.dataset)
    num_batches = len(dataloader)
    model.eval()
    test_loss, num_correct = 0, 0
    with torch.no_grad():
        for inputs, targets in dataloader:
            # your code
            preds = model(inputs)
            test_loss += loss_fn(preds, targets)
            preds_classes = torch.argmax(preds, dim=-1)
            
            num_correct += (preds_classes.squeeze() == targets.squeeze()).sum().item()
    
    test_loss /= num_batches
    num_correct /= size
    print(f"Test Error: \n Accuracy: {(100*num_correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")
    
    ''' Чтобы сделать задание со сравнением лоссов, не забудьте 
            реализовать трекинг минимального лосса  '''

In [None]:
epochs = 10
for t in range(epochs):
    print(f"Epoch {t+1}\n-------------------------------")
    train(train_dataloader, model, loss_fn, optimizer)
    test(train_dataloader, model, loss_fn)
    
    # вызовите функции обучения и валидации

## Задача 3. (2 балла)
Реализуйте слой Dropout(nn.Dropout)


## Задача 4. {*} (2 балла, 1 за каждый следующий за слой)
Реализуйте одно или более из:
  - слой ReLU(nn.ReLU)
  - слой Sigmoid(nn.Sigmoid)
  - слой Softmax(nn.Softmax)

## Задача 5. {*}. 
Вы получите по 1 дополнительному баллу за слой, 
если реализуете в рамках фреймворка из задания 3 прошлой работы


# Задание 2. {*} 3 балла
Реализуйте медианный фильтр. 
Для текущего пикселя, пиксели, которые «попадают» в матрицу, 
сортируются, и выбирается медианное значение из отсортированного массива. 
Это значение и является выходным для текущего пикселя.
Используйте только чистый torch. Покажите результат на примере для размера ядра 3, 5, 10


# Задание 3. 6 баллов
Реализуйте следующие классы (указана сигнатура __init__):
- BaseTransform(p: float) [*базовый класс для всех трансформаций*]
- RandomCrop(p: float, **kwargs)
- RandomRotate(p: float, **kwargs)
- RandomZoom(p: float, **kwargs) {*}
- ToTensor() 
- Compose(list[BaseTransform])

Последний класс должен принимать на вход список инстансов трех других.
При вызове метода __call__ он должен последовательно вызывать трансформации из списка.
При вызове каждого из них с вероятностью p должно 
применяться изменение изображения, с вероятностью 1-p должно возвращаться исходное 
изображение. Класс входного изображения у всех классов - PIL.Image, выходного тоже.
Класс ToTensor должен принимать на вход PIL.Image, возвращать - torch.Tensor.

**torch.nn использовать нельзя!**

{*} (1 балл) Протестируйте ваши классы на воспроизводимость, результат, граничные случаи.

# Задание 4. 3 балла
Примените трансформации из задания 3 в качестве трансформаций датасета из практики 2.2.
**В этом задании можно пользоваться torch.nn, за исключением трансформаций.**
Покажите, как меняются лосс и метрики на трейне и на тесте в зависимости от количества и вероятностей трансформаций.
Проведите обучение на большом количестве эпох. 
Опишите, что вы наблюдаете для каждого случая и какая есть разница,
если применить трансформации.
Предоставьте графики в matplotlib или tensorboard (+1 балл) в 
ноутбуке (в случае с tensorboard можно в отдельном окне) с наглядными примерами


# Задание 5. {*}  4 балла
Настройте проект в weights and biases, настройте логгинг туда из вашего цикла обучения (задание 4).
Выводите лосс и метрики на трейне и на тесте. Графики из задания 4 в таком случае можно выводить только туда.
Можете сохранять параметры обучения в качестве констант, и смотреть на сводную таблицу.
