# Задание 8. Sparse Variational Dropout

В этом задании вам нужно реализовать двухслойную полносвязную байесовскую нейросеть для классификации MNIST. Будем использовать модель [Sparse variational dropout](https://arxiv.org/abs/1701.05369). Благодаря этому мы сможем разредить нейросеть. 

__Основное задание:__
Заполните недостающие фрагменты кода в слое LinearSVDO (байесовский полносвязный слой) и в функционале качества ELBO (evidence lower bound). Затем запустите ячейки со сборкой и обучением модели, проанализиуйте, насколько сжалась нейросеть и высокое ли у разреженной модели качество.

__Бонусные задания:__
* (4 балла) Обучите такую же не-байесовскую архитектуру (обыкновенная двухслойная полносвязная сеть того же размера с той же инициализацией) на тех же данных, сравните качество такой модели (на обучении и контроле) с качеством разреженной модели.
* (4 балла) Сравните качество и уровень разреживания моделей SparseVD и [ARD для NN](https://arxiv.org/pdf/1811.00596.pdf) (первая модель с лекции). Модель ARD отличается от SparseVD только видом регуляризатора, поэтому достаточно немного изменить интерфейсы, а именно добавить параметр method="SparseVD" / "ARD" в прототипы LinearSVDO и Net.

__Пожалуйста, оформляйте красиво решение бонусных заданий: __ делайте новые разделы для проведения соответствующих экспериментов, добавляйте комментарии в markdown и в код, делайте выводы на основе проведенного сравнения.

Краткое напоминание модели SparseVD:

![alt text](https://ars-ashuha.github.io/images/ss_vd1.png)
![alt text](https://ars-ashuha.github.io/images/ss_vd2.png)

# Install 

Download [logger.py](https://github.com/ftad/BM2018/blob/master/homeworks/logger.py)

In [None]:
# Logger
# if you have problems with this import
# check that you are working with python3
# and downloaded logger.py file to the folder with this notebook
from logger import Logger

# Implementation

In [None]:
import torch
import numpy as np

import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

from logger import Logger
from torch.nn import Parameter
from torchvision import datasets, transforms

In [None]:
# Load a dataset
def get_mnist(batch_size):
    trsnform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))])
    train_loader = torch.utils.data.DataLoader(
        datasets.MNIST('../data', train=True, download=True,
        transform=trsnform), batch_size=batch_size, shuffle=True)
    test_loader = torch.utils.data.DataLoader(
        datasets.MNIST('../data', train=False, download=True,
        transform=trsnform), batch_size=batch_size, shuffle=True)

    return train_loader, test_loader

In [None]:
class LinearSVDO(nn.Module):
    def __init__(self, in_features, out_features, threshold, bias=True):
        super(LinearSVDO, self).__init__()
        self.in_features = in_features
        self.out_features = out_features
        self.threshold = threshold

        self.W = Parameter(torch.Tensor(out_features, in_features))
        ###########################################################
        ########         You Code should be here         ##########
        # Create a Parameter to store log sigma
        self.log_sigma = ...
        ###########################################################
        self.bias = Parameter(torch.Tensor(1, out_features))
        
        self.reset_parameters()

    def reset_parameters(self):
        self.bias.data.zero_()
        self.W.data.normal_(0, 0.02)
        self.log_sigma.data.fill_(-5)        
        
    def forward(self, x): 
        ###########################################################
        ########         You Code should be here         ##########
        if self.training:
            lrt_mean = ... # Compute activation's mean e.g x.dot(W) + b
            lrt_std = ...  # Compute activation's var e.g sqrt((x*x).dot(sigma * sigma) + 1e-8)
            eps = ... # sample random noise
            return lrt_mean + lrt_std * eps
        
        ########         If not training        ##########
        self.log_alpha = ... # Evale log alpha as a function(log_sigma, W)
        self.log_alpha = # Clip log alpha to be in [-10, 10] for numerical stability 
        W = ... # Prune out redundant wights e.g. W * mask(log_alpha < 3) 
        return F.linear(x, W) + self.bias
        ###########################################################
        
    def kl_reg(self):
        ###########################################################
        ########         You Code should be here         ##########
        ########  Eval Approximation of KL Divergence    ##########
        # use torch.log1p for numerical stability
        log_alpha = # Evale log alpha as a function(log_sigma, W)
        log_alpha = # Clip log alpha to be in [-10, 10] for numerical suability 
        k1, k2, k3 = torch.Tensor([0.63576]), torch.Tensor([1.8732]), torch.Tensor([1.48695])
        KL = ...
        return KL 
        ########  Return a KL divergence, a Tensor 1x1   ##########
        ###########################################################    

In [None]:
# Define a simple 2 layer Network
class Net(nn.Module):
    def __init__(self, threshold):
        super(Net, self).__init__()
        self.fc1 = LinearSVDO(28*28, 300, threshold)
        self.fc2 = LinearSVDO(300,  10, threshold)
        self.threshold = threshold

    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = F.log_softmax(self.fc2(x), dim=1)
        return x

In [None]:
# Define a new Loss Function -- ELBO 
class ELBO(nn.Module):
    def __init__(self, net, train_size):
        super(ELBO, self).__init__()
        self.train_size = train_size
        self.net = net

    def forward(self, input, target, kl_weight=1.0):
        assert not target.requires_grad
        kl = torch.Tensor([0.0])
        for module in self.net.children():
            if hasattr(module, 'kl_reg'):
                kl = kl + module.kl_reg()
        ###########################################################
        ########         You Code should be here         ##########    
        # Compute Stochastic Gradient Variational Lower Bound
        # It is a sum of cross-entropy (Data term) and KL-divergence (Regularizer)
        # Do not forget to scale up Data term to N/M,
        # where N is a size of the dataset and M is a size of minibatch
        ELBO = ...
        return ELBO # a Tensor 1x1 
        ###########################################################

In [None]:
model = Net(threshold=3)
optimizer = optim.Adam(model.parameters(), lr=1e-3)
scheduler = torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones=[50,60,70,80], gamma=0.2)

fmt = {'tr_los': '3.1e', 'te_loss': '3.1e', 'sp_0': '.3f', 'sp_1': '.3f', 'lr': '3.1e', 'kl': '.2f'}
logger = Logger('sparse_vd', fmt=fmt)

train_loader, test_loader = get_mnist(batch_size=100)
elbo = ELBO(model, len(train_loader.dataset))

In [None]:
kl_weight = 0.02
epochs = 100

for epoch in range(1, epochs + 1):
    scheduler.step()
    model.train()
    train_loss, train_acc = 0, 0 
    kl_weight = min(kl_weight+0.02, 1)
    logger.add_scalar(epoch, 'kl', kl_weight)
    logger.add_scalar(epoch, 'lr', scheduler.get_lr()[0])
    for batch_idx, (data, target) in enumerate(train_loader):
        data = data.view(-1, 28*28)
        optimizer.zero_grad()
        
        output = model(data)
        pred = output.data.max(1)[1] 
        loss = elbo(output, target, kl_weight)
        loss.backward()
        optimizer.step()
        
        train_loss += loss 
        train_acc += np.sum(pred.numpy() == target.data.numpy())

    logger.add_scalar(epoch, 'tr_los', train_loss / len(train_loader.dataset))
    logger.add_scalar(epoch, 'tr_acc', train_acc / len(train_loader.dataset) * 100)
    
    
    model.eval()
    test_loss, test_acc = 0, 0
    for batch_idx, (data, target) in enumerate(test_loader):
        data = data.view(-1, 28*28)
        output = model(data)
        test_loss += float(elbo(output, target, kl_weight))
        pred = output.data.max(1)[1] 
        test_acc += np.sum(pred.numpy() == target.data.numpy())
        
    logger.add_scalar(epoch, 'te_loss', test_loss / len(test_loader.dataset))
    logger.add_scalar(epoch, 'te_acc', test_acc / len(test_loader.dataset) * 100)
    
    for i, c in enumerate(model.children()):
        if hasattr(c, 'kl_reg'):
            logger.add_scalar(epoch, 'sp_%s' % i, (c.log_alpha.data.numpy() > model.threshold).mean())
            
    logger.iter_info()

In [None]:
all_w, kep_w = 0, 0

for c in model.children():
    kep_w += (c.log_alpha.data.numpy() < model.threshold).sum()
    all_w += c.log_alpha.data.numpy().size

print('keept weight ratio =', all_w/kep_w)

    # Good result should be like 
    #   epoch    kl       lr    tr_los    tr_acc    te_loss    te_acc    sp_0    sp_1
    #  -------  ----  -------  --------  --------  ---------  --------  ------  ------
    #      100     1  1.6e-06  -1.4e+03      98.0   -1.4e+03      98.3   0.969   0.760
    # keept weight ratio = 30.109973454683352

# Visualization

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

from matplotlib import rcParams
rcParams['figure.figsize'] = 16, 3
rcParams['figure.dpi'] = 300


log_alpha = (model.fc1.log_alpha.detach().numpy() < 3).astype(np.float)
W = model.fc1.W.detach().numpy()

plt.imshow(log_alpha * W, cmap='hot', interpolation=None)
plt.colorbar()

In [None]:
s = 0
from matplotlib import rcParams
rcParams['figure.figsize'] = 8, 5

z = np.zeros((28*15, 28*15))

for i in range(15):
    for j in range(15):
        s += 1
        z[i*28:(i+1)*28, j*28:(j+1)*28] =  np.abs((log_alpha * W)[s].reshape(28, 28))
        
plt.imshow(z, cmap='hot_r')
plt.colorbar()
plt.axis('off')

# Compression with Sparse Matrixes

In [None]:
import scipy
import numpy as np
from scipy.sparse import csc_matrix, csc_matrix, coo_matrix, dok_matrix

row, col, data = [], [], []
M = list(model.children())[0].W.data.numpy()
LA = list(model.children())[0].log_alpha.data.numpy()

for i in range(300):
    for j in range(28*28):
        if LA[i, j] < 3:
            row += [i]
            col += [j]
            data += [M[i, j]]

Mcsr = csc_matrix((data, (row, col)), shape=(300, 28*28))
Mcsc = csc_matrix((data, (row, col)), shape=(300, 28*28))
Mcoo = coo_matrix((data, (row, col)), shape=(300, 28*28))

In [None]:
np.savez_compressed('M_w', M)
scipy.sparse.save_npz('Mcsr_w', Mcsr)
scipy.sparse.save_npz('Mcsc_w', Mcsc)
scipy.sparse.save_npz('Mcoo_w', Mcoo)

In [None]:
ls -lah | grep _w