# ДЗ №2.1 - автокодировщики для идентификации аномалий

В этом ДЗ вам предстоит применить модель сврточного автокодировщика для идентификации аномалий в данных.

Для этого вам потребуется создать сверточный автокодировщик, обучить его и применить к тестовым данным.

Основная идея фильтрации аномалий состоит в том, что экземпляры выборки, являющиеся аномалиями, сильно отличаются от всех остальных объектов. Кроме того, их мало по сранению с размером всей выборки.
Этот набор факторов приводит к тому, что автокодировщик, обученный на данных тренировочной выборки, будет довольно плохо восстанавливать примеры-аномалии. То есть, значения функции потерь на таких примерах ожидается нетипично высоким.

In [None]:
# Эту ячейку следует выоплнять в окружении, в котором еще не установлены необходимые библиотеки. В подготовленном окружении эту ячейку можно пропустить.
!pip3 install torch torchvision numpy matplotlib

In [6]:
import torch
import torchvision
import numpy as np
import matplotlib.pyplot as plt
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader
from tqdm import tqdm
from PIL import Image
import os, urllib

from typing import Tuple, List, Type, Dict, Any

In [2]:
import warnings
warnings.filterwarnings('ignore')

def md5(fname):
    import hashlib
    hash_md5 = hashlib.md5()
    with open(fname, "rb") as f:
        for chunk in iter(lambda: f.read(4096), b""):
            hash_md5.update(chunk)
    return hash_md5.hexdigest()

def show_progress(block_num, block_size, total_size):
    print(round(block_num * block_size / total_size *100,2), end="\r")

Следующие две ячейки предназначены для загрузки данных.

In [3]:
mnist_data_hash = '0a1db355c009f01ead98dcff6720fe3e'

In [7]:
if not os.path.exists('./mnist_corrupted.npz'):
    print('downloading MNIST data with outliers:')
    urllib.request.urlretrieve("https://ml4es.ru/links/mnistcorrupted", "mnist_corrupted.npz", show_progress)
downloaded_mnist_data_hash = md5('./mnist_corrupted.npz')
assert downloaded_mnist_data_hash == mnist_data_hash, 'Downloaded MNIST data is corrupt. Try downloading again.'
print('MNIST data is valid')

downloading MNIST data with outliers:
MNIST data is valid


In [8]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Свёрточный автокодировщик (convolutional autoencoder, CAE)

Данными в этой задаче будут все так же набор рукописных цифр MNIST. Однако некоторые экземпляры тестовой выборки оказываются испорченными. Ваша цель - найти эти экземпляры в предположении, что они представляют собой аномалии.

Данные MNIST с дефектами нужно скачать в виде файла по <a href="https://www.dropbox.com/s/r7mgjn83y9ygpzq/mnist_corrupted.npz">ссылке</a>

Прежде всего следует построить и обучить свёрточный автокодировщик.

>Кодирующая часть автокодировщика (encoder, кодировщик) может состоять из сверточных слоев (convolutional layers) и слоев субдискретизации (pooling layers), но может быть и сложнее. Здесь предлагается применить ваши знания относительно возможной структуры сверточных сетей. Кодировщик, будучи обученным, позволяет извлечь скрытое представление (hidden representation, embeddings) входных примеров, содержащее достаточно информации для восстановления этих примеров декодером.

> Декодер (decoder) может состоять из слоев типа **transpose convolution** и операций масштабирования (upsampling), но также, как и кодировщик, может быть сложнее. Декодер должен восстанавливать примеры, руководствуюясь их векторами скрытого представления.

<img src='imgs/autoencoder_1.png' />

### Скрытое представление (hidden representation, compressed representation)

Скрытое представление может содержать семантически насыщенную информацию о входных примерах. С использованием этих данных можно проводить фильтрацию шума в примерах, восстанавливать сами примеры, и иногда даже проводить некоторые операции в семантическом пространстве.

В предположении, что файл данных `mnist_corrupted.npz` загружен и находится в той же директории, что и этот нотбук, генераторы данных можно описать следующим образом:

In [5]:
class DS(Dataset):
    def __init__(self, data, transform=None):
        self.data = data
        self.transform = transform

    def __getitem__(self, index):
        x = self.data[index]

        if self.transform:
            x = Image.fromarray(x.astype(np.uint8))
            x = self.transform(x)

        return x

    def __len__(self):
        return len(self.data)

In [None]:
mnist = np.load('./mnist_corrupted.npz')
mnist_train_samples = mnist['x_train']
mnist_test_samples = mnist['x_test']
train_dataset = DS(mnist_train_samples, train_transforms)
val_dataset = DS(mnist_test_samples, val_transforms)

### Визуализация исходных данных

Как и в любой задаче, имеет смысл визуализировать исходные данные, чтобы понимать, с чем мы имеем дело

In [None]:
indices = np.random.randint(0, len(train_dataset), size=8)

fig, axes = plt.subplots(nrows=1, ncols=8, figsize=(8, 2), dpi=300)
for i, ax in enumerate(axes):
    sample_index = indices[i]
    sample = train_dataset[sample_index]
    ax.imshow(np.squeeze(sample.cpu().numpy()), cmap='gray')
    ax.set_xticks([])
    ax.set_yticks([])
plt.tight_layout()
fig.patch.set_facecolor('white')

---
## Свёрточный автокодировщик

#### Кодировщик (Encoder)
Кодировщик можно реализовать в подходе AlexNet или VGG: сверточные (convolutional) слои чередуются со слоями субдискретизации (pooling). Последние применяются для снижения пространственных размерностей промежуточных представлений входных примеров. Нередко после сверточной части добавляют дополнительные полносвязные слои, позволяющие еще сильнее снизить размерность скрытого представления, извлекаемого кодировщиком.

Предлагаемая структура кодировщика не единственно верная. Можно реализовывать и другие.

#### Декодер

Декодер должен преобразовать вектор скрытого представления (тензор ранга 1) в изображение, реконструкцию входного примера. Для этого следует вектор скрытого представления перевести в ранг 2 (например, операцией `.view()`). После этого следует последовательно применять операции Transpose Convolution (`torch.nn.ConvTranspose2d`) и масштабирования (upsampling, а именно `torch.nn.functional.interpolate`). В некоторых случаях применяют `torch.nn.ConvTranspose2d` с аргументом `stride=2` или больше. Однако такое использование может привести в т.н. ["эффекту шахматной доски"](https://distill.pub/2016/deconv-checkerboard/). Рекомендуемым вариантом сейчас считается применение масштабирования типа билинейного или бикубического. Во фреймворке Pytorch это преобразование реализовано в форме слоя [`nn.functional.interpolate`](https://pytorch.org/docs/stable/generated/torch.nn.functional.interpolate.html?highlight=interpolate#torch.nn.functional.interpolate), для которого можно задать коэффициент масштабирования (по пространственным переменным) и способ интерполяции (например, `'bicubic'`).

Результатом работы декодера должно получиться изображение, по размеру совпадающее с входным примером, то есть, 28x28.

Не следует забывать, что одной из целей применения автокодировщиков является снижение размерности примеров с сохранением ключевой информации. Экспериментируйте с количеством слоев и размерностью скрытого представления! Попробуйте снизить его до 2 или вообще до 1. Хорошо ли будут воспроизводиться примеры выборки?

В качестве рекомендации можно упомянуть приведение значений в пикселах примеров к диапазону `[0, 1]`. В таком подходе можно на выходе нейросети поставить сигмоидальную функцию активации, которая гладко и дифференцируемо ограничит область значений в этом же диапазоне `[0, 1]`. При этом также можно будет использовать в качестве функции потерь и средний квадрат отклонения [`nn.MSELoss`](https://pytorch.org/docs/stable/generated/torch.nn.MSELoss.html), и бинарную перекрестную энтропию [`nn.BCELoss`](https://pytorch.org/docs/stable/generated/torch.nn.BCELoss.html#torch.nn.BCELoss), и `FocalLoss` (см. реализацию ниже в описании задания).

### Задание 1:  Описать класс нейросети-автокодировщика, описываемой в этом задании.

#### Примечание: рекомендуемая архитектура нейросети

Для ускорения исследования может помочь собрать нейросеть следующей архитектуры:

```
Conv2d(1, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(16, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(16, 16, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1))
BatchNorm2d(16)
Conv2d(16, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(32, 32, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1))
BatchNorm2d(32)
Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
BatchNorm2d(64)
Linear(in_features=3136, out_features=1024, bias=True)
Linear(in_features=1024, out_features=256, bias=True)
BatchNorm1d(256)
Linear(in_features=256, out_features=1024, bias=True)
Linear(in_features=1024, out_features=3136, bias=True)
Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(64, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
BatchNorm2d(32)
Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(32, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
BatchNorm2d(16)
Conv2d(16, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(16, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
BatchNorm2d(16)
Conv2d(16, 1, kernel_size=(1, 1), stride=(1, 1))
```

In [None]:
# define the NN architecture
class ConvAutoencoder(nn.Module):
    def __init__(self):
        super(ConvAutoencoder, self).__init__()
        ## слои кодировщика ##
        # YOUR CODE HERE
        
        ## слои декодера ##
        # YOUR CODE HERE


    def forward(self, x):
        ## применить операции кодировщика ##
        
        ## применить операции декодера ##
        ## На всех скрытых слоях применяйте функцию активации ReLU
        ## В случае, если данные отнормированы к диапазону [0,1], активацией последнего слоя может быть sigmoid.
        ## Подумайте, какая может быть функция активации в других случаях. Реализуйте подходящий вариант
                        
        return x

In [None]:
model = ConvAutoencoder()
print(model)

In [None]:
model = model.to(device)

### Задание 2: Напишите пайплайн для предобработки и аугументации данных.

В `torchvision.transforms` есть готовые реализации большинства распространённых техник, если вы хотите добавить что-то своё, вы можете воспользоваться `torchvision.transforms.Lambda` или встроить аугментации на этапе подготовки данных в классе `DS`.

In [None]:
train_transforms = torchvision.transforms.Compose([
    #YOUR CODE HERE
    torchvision.transforms.ToTensor()])

val_transforms = torchvision.transforms.Compose([
    #YOUR CODE HERE
    torchvision.transforms.ToTensor()])

Всегда имеет смысл посмотреть, как происходит предобработка данных, и как происходит обработка данных нейросетью (если это возможно). В этом ДЗ предлагается визуализировать произвольные примеры из обучающей выборки, а также один из произвольных примеров, обработанных только что созданной (но не обученной) моделью.

### Задание 3: отобразите несколько произвольных примеров обучающей выборки.

In [6]:
## YOUR CODE HERE ##

### Задание 4: отобразите один произвольный пример обучающей выборки, результат вычисления нейросети на этом примере и распределение значений в пикселях реконструированного примера.

Распределение значений во всех пикселах реконструкции может помочь понять величину дисперсии ответа нейросети. Напомню, что дисперсия значений в пикселях не должна быть нулевой, то есть, распределение не должно быть похожим на $\delta$-функцию. Если это так, то следует модифицировать нейросеть.

In [None]:
example_index = int(np.random.randint(0, len(train_dataset), size=1))
example = train_dataset[example_index]

## compute model output for this example;
## Transfer the result to CPU and convrt it from tensor to numpy array
example_transformed = None
## YOUR CODE HERE

In [10]:
## Now plot the example and the transformed example
## YOUR CODE HERE

In [9]:
## Now plot the distribution of pixel values for the transformed example
## YOUR CODE HERE

### Обучение модели

Теперь, когда вы реализовали модель и подготовили данные, можно приступить к непосредственному обучению модели.

Костяк функции обучения написан ниже, далее вы должны будете реализовать ключевые части этого алгоритма

In [None]:
def train_model(model: torch.nn.Module, 
                train_dataset: torch.utils.data.Dataset,
                val_dataset: torch.utils.data.Dataset,
                loss_function: torch.nn.Module = torch.nn.CrossEntropyLoss(),
                optimizer_class: Type[torch.optim.Optimizer] = torch.optim.Adam,
                optimizer_params: Dict = {},
                lr_scheduler_class: Any = torch.optim.lr_scheduler.ExponentialLR,
                lr_scheduler_params: Dict = {},
                batch_size = 64,
                max_epochs = 100,
                early_stopping_patience = 10
):
    optimizer = optimizer_class(model.parameters(), **optimizer_params)
    lr_scheduler = lr_scheduler_class(optimizer, **lr_scheduler_params)
    
    train_loader = torch.utils.data.DataLoader(train_dataset, shuffle=True, batch_size=batch_size)
    val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=batch_size)

    best_val_loss = None
    best_epoch = None
    
    for epoch in range(max_epochs):
        print(f'Epoch {epoch+1} of {max_epochs}')
        train_single_epoch(model, optimizer, loss_function, train_loader)
        val_metrics = validate_single_epoch(model, loss_function, val_loader)
        print(f'Validation metrics: \n{val_metrics}')

        lr_scheduler.step(val_metrics['loss'])
        
        if best_val_loss is None or best_val_loss > val_metrics['loss']:
            print(f'Best model yet, saving')
            best_val_loss = val_metrics['loss']
            best_epoch = epoch
#             torch.save(model, './best_model.pth')
            
        if epoch - best_epoch > early_stopping_patience:
            print('Early stopping triggered')
            return

### Задание 5:  Реализуйте функцию, производящую обучение сети на протяжении одной эпохи ( полного прохода по всей обучающей выборке ). На вход будет приходить модель, оптимизатор, функция потерь и объект типа `DataLoader`.
> ВНИМАНИЕ!!! В задаче обучения автокодировщика нет меток-цифр. Есть только входные примеры. При итерировании по `data_loader` вы будете получать только сами примеры! Подумайте, что должно выступать в качестве целевой переменной, когда вы вычисляете функцию потерь.

### На выходе ожидается словарь с вида:
```
{
    'train_loss': <среднее значение функции потерь за эпоху>
}
```

In [None]:
def train_single_epoch(model: torch.nn.Module,
                       optimizer: torch.optim.Optimizer, 
                       loss_function: torch.nn.Module, 
                       data_loader: torch.utils.data.DataLoader):
    
    model.train()
    train_loss = 0.0
    ## YOUR CODE HERE
    
    return {'train_loss': test_loss / len(data_loader.dataset)}

### Задание 6:  Реализуйте функцию производящую расчёт функции потерь на тестовой выборке.  На вход будет приходить модель, функция потерь и DataLoader. На выходе ожидается словарь с вида:
```
{
    'val_loss': <среднее значение функции потерь>
}
```

In [None]:
def validate_single_epoch(model: torch.nn.Module,
                          loss_function: torch.nn.Module, 
                          data_loader: torch.utils.data.DataLoader):
    
    model.eval()
    test_loss = 0.0
    
    ## YOUR CODE HERE
    
    return {'val_loss': test_loss / len(data_loader.dataset)}

Если вы корректно реализовали все предыдущие шаги и ваша модель имеет достаточное количество обучаемых параметров, то в следующей ячейке должен пойти процесс обучения.

### Задание 7: придумайте функцию потерь.

Обратите внимание, что в предложенном скелетном коде в ячейке ниже функция потерь по умолчанию прописана неверно (поставлена в `None`). Вы, скорее всего, не сможете обучить автокодировщик с этой функцией потерь. Подумайте, какая должна быть функция потерь при условии, что она должна оценивать качество воспроизведения значений в каждом отдельном пикселе изображения. Впишите в ячейке ниже функцию потерь, которая сработает с условием того, как сформулирована нейросеть.

> В наборе данных MNIST чаще всего количество пикселей, в которых значения ненулевые, значительно ниже по сравнению с количеством пикселей со значениями `0`. Если бы стояла задача бинарной классификации пикселей, мы бы воспринимали эту задачу как существенно несбалансированную по классам. Поэтому в случае, если мы воспринимаем значения в пикселях как оценки вероятностей, можно было бы обсудить вопрос, стоит ли применять функцию потерь, характерную для таких задач (бинарную перекрестную энтропию). В качестве альтернативы можно рекомендовать попробовать использовать функцию потерь `FocalLoss`, предложенную в [статье 2017 г.](https://arxiv.org/abs/1708.02002). В ячейке ниже приведена реализация этой функции потерь, подходящая для использования в фреймворке Pytroch.

In [None]:
class FocalLoss(nn.Module):
    def __init__(self, gamma=0.25, alpha=2.0, p_th=0.0, size_average=True):
        super(FocalLoss, self).__init__()
        self.gamma = gamma
        self.alpha = alpha
        self.p_th = p_th
        self.size_average = size_average

    def forward(self, pred, target):
        tt = torch.cuda.FloatTensor if target.is_cuda else torch.FloatTensor
        target_device_bin = (target>self.p_th).type(tt)
        pt = pred*target_device_bin + (1-pred)*(1-target_device_bin)
        pt = pt+(1e-8)
        
        ptlog = torch.log(pt)
        loss = -self.alpha*ptlog*torch.pow((1-pt), self.gamma)
        
        if self.size_average:
            return loss.mean()
        else:
            return loss.sum()

In [None]:
train_model(model, 
            train_dataset=train_dataset, 
            val_dataset=val_dataset, 
            loss_function=None, 
            initial_lr=0.0001)

## Проверка результатов

Посмотрите, как ваш обученный автокодировщик преобразует входные примеры. В ячейке ниже приведен код для отображения произвольной пары пример-реконструкция.

In [None]:
index = int(np.random.randint(0, len(train_dataset), size=1))
sample = train_dataset[index][0]
sample_np = np.squeeze(sample.detach().cpu().numpy())
sample_ae = model(sample.view(1,1,28,28).to(device))
sample_ae_np = np.squeeze(sample_ae.detach().cpu().numpy())

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(4, 2), dpi=200)
for i, ax in enumerate(axes):
    img = sample_np if i==0 else sample_ae_np
    ax.imshow(img, cmap='gray')
    ax.set_xticks([])
    ax.set_yticks([])
plt.tight_layout()
fig.patch.set_facecolor('white')
plt.imshow(img, cmap='gray')

## Идентификация аномалий.

Идея идентификации аномалий состоит в том, чтобы разделить "обычные" экземпляры и "необычные" по значению функции потерь автокодировщика на этих примерах. Предполагается, что автокодировщик, обученный на обычных примерах не будет способен достаточно точно воспроизвести необычные примеры. То есть, значение функции потерь на необычных экземплярах будет большим. В этом ДЗ предлагается найти все экземпляры-выбросы, встречающиеся в тестовой выборке, руководствуюясь только значениями функции потерь автокодировщика. Для этого на всех объектах тестовой выборки следует вычислить функцию потерь обученного автокодировщика, и определить, какие экземпляры являются аномальными.

В качестве решения всего задания следует получить список значений 0 или 1, соответствующих объектам тестовой выборки. Признак `1` означает, что этот объект является аномалией, `0` - означает, что объект обычный.

Например, следующий список `[1,1,1,0,0,0,0,0,0,0,1,0]` означает, что в выборке из 12 объектов тестовой выборки аномалиями считаются первые три и предпоследний. Остальные считаются обычными.

> ВНИМАНИЕ! Сопоставление при проверке будет производиться только по номерам объектов в тестовой выборке. Поэтому выборку при вычислении функции потерь не следует перемешивать. То есть, при создании загрузчика данных `torch.utils.data.DataLoader` аргумент перемешивания должен быть выключен: `shuffle=False`

### Задание 8: примените обученную модель автокодировщика к данным тестовой выборки. Вычислите функцию потерь на каждом объекте тестовой выборки.

In [None]:
model.eval()
test_dataset = DS(mnist_test_samples, val_transforms)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=1, shuffle=False)
loss_function = None

losses = []

with torch.no_grad():
    with tqdm(total=len(test_loader)) as pbar:
        for data in test_loader:
            ## здесь следует вычислить значения функции потерь для всех элементов тестовой выборки.
            curr_loss = 0.0
            ## YOUR CODE HERE
            
            losses.append(curr_loss)
            pbar.update(1)

## Анализ значений функции потерь
Проанализируйте распределение значений функции потерь и найдите объекты, на которых она слишком большая.

### Задание 9:
- Отобразите гистограмму значений функции потерь. Сделайте выводы (напишите ТЕКСТ) относительно значений для обычных объектов и аномалий.
- Найдите объекты-аномалии, отобразите их.
- Вычислите на них обученный вами автокодировщик. Отобразите рядом объекты-аномалии и их реконструкцию, вычисленную вашим автокодировщиком.

In [None]:
## YOUR CODE HERE

### Задание 10: создайте файл маркировки аномалий

В этом задании требуется записать в файл признаки аномальности для всех объектов тестовой выборки в том порядке, в котором эти объекты идут в выборке. Это должен быть просто текстовый файл. В нем не должно быть никаких заголовков, никаких дополнительных символов. Только `0` или `1`

<br />
пример содержимого файла (для выборки длиной 244 объекта, из которых 6 оказались помечены как аномалии):

`0000000000000010000000000000000000000000000000000000000000000000000000100000000000000000000000000000000000000000100000000000000000000000000000000000000000000000000000000000000001000000000000000000000000000000000000000000000000000000001100000000`

<br /><br />
Финальным решением этого ДЗ является этот файл. Его нужно сдать вместе с ноутбуком с вашим кодом.

In [None]:
## YOUR CODE HERE