<font size="6">Улучшение сходимости нейросетей и борьба с переобучением</font>

# Сигмоида затухает и теоретически и практически

Посмотрим на практике, загрузим данные, создадим сеть, обучим ее и посмотрим как проходит обучение. 

Загрузим датасет MNIST:

In [None]:
from torchvision.datasets import MNIST
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader
from IPython.display import clear_output

# transforms for data
transform = torchvision.transforms.Compose(
    [torchvision.transforms.ToTensor(),
     torchvision.transforms.Normalize((0.5), (0.5))])

train_set = MNIST(root='./MNIST', train=True, download=True, transform=transform)
test_set = MNIST(root='./MNIST', train=False, download=True, transform=transform)

batch_size = 32
train_loader = DataLoader(train_set, batch_size=batch_size, shuffle=True, num_workers=2)
test_loader = DataLoader(test_set, batch_size=batch_size, shuffle=False, num_workers=2)

clear_output()
print("Already downloaded!")

Создадим сеть:

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

class SimpleMNIST_NN(nn.Module):
    def __init__(self, n_layers, activation=nn.Sigmoid):
        super().__init__()
        self.n_layers = n_layers # Num of layers
        self.activation = activation()
        layers = [nn.Linear(28 * 28, 100), self.activation] # input layer
        for _ in range(n_layers - 1): # append num of layers
            layers.append(nn.Linear(100, 100))
            layers.append(self.activation)
        layers.append(nn.Linear(100, 10)) # 10 classes
        self.layers = nn.Sequential(*layers)

    def forward(self, x):
        x = x.view(-1, 28 * 28) # reshape to [-1, 784]
        x = self.layers(x)
        return x

Код для запуска Tensorboard:

In [None]:
import shutil
import os

# Log files are read from this directory
LOGS_DIR = "runs"

# launching Tensorboard in Colab
def reinit_tensorboard(clear_log=True):
    if clear_log:
        shutil.rmtree(LOGS_DIR, ignore_errors=True)
        os.makedirs(LOGS_DIR, exist_ok=True)
    # Colab magic
    %load_ext tensorboard
    %tensorboard --logdir {LOGS_DIR}

In [None]:
from torch.utils.tensorboard import SummaryWriter

class Steper():
    def __init__(self):
        self._global_step = 1

    @property
    def global_step(self):
        return self._global_step

    def step(self):
        self._global_step += 1

def get_summary_writer(name, runs_dir=LOGS_DIR):
    path = os.path.join(runs_dir, name)
    return SummaryWriter(path)

Функция для обучения сети на обучающей выборке:

In [None]:
import numpy as np

# compute on cpu or gpu
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

def train_epoch(model,
                optimizer,
                criterion,
                train_loader,
                model_name,
                steper,
                writer):
    for batch in train_loader: 
        optimizer.zero_grad()
        X_train, Y_train = batch # parse data
        X_train, Y_train = X_train.to(device), Y_train.to(device) # compute on gpu
        Y_pred = model(X_train) # get predictions
        loss = criterion(Y_pred, Y_train) # compute loss
        writer.add_scalar(f"{model_name}_train_loss", 
                          loss.cpu().detach().numpy(), # write loss to tensorboard 
                          global_step=steper.global_step)
        loss.backward()
        optimizer.step()
        steper.step()

Функция для валидации сети на валидационной выборке:

In [None]:
def validate(model,
             criterion,
             val_loader,
             model_name,
             steper,
             writer):
    cumloss = 0
    with torch.no_grad():
        for batch in val_loader:
            X_train, Y_train = batch # parse data
            X_train, Y_train = X_train.to(device), Y_train.to(device) # compute on gpu
            Y_pred = model(X_train) # get predictions
            loss = criterion(Y_pred, Y_train) # compute loss
            writer.add_scalar(f"{model_name}_test_loss",
                              loss.cpu().detach().numpy(), # write loss to tensorboard 
                              global_step=steper.global_step)
            steper.step()
            cumloss += loss
    return cumloss / len(val_loader) # mean loss

Функция для обучения модели:

In [None]:
from tqdm import tqdm

def train_model(model, writer, optimizer):
  
    criterion = nn.CrossEntropyLoss().to(device)

    train_steper = Steper()
    test_steper = Steper()

    for epoch in tqdm(range(5)):
        train_epoch(model,
                    optimizer,
                    criterion,
                    train_loader,
                    "cross_entropy",
                    train_steper,
                    writer)
        validate(model,
                 criterion,
                 test_loader,
                 "cross_entropy",
                 test_steper,
                 writer)

Создадим и запустим обучение модели с двумя слоями:

In [None]:
import torch.optim as optim

# launch tensorboard
reinit_tensorboard(clear_log=True)

model = SimpleMNIST_NN(n_layers=2).to(device) 
optimizer = optim.SGD(model.parameters(), lr=0.001)
writer = get_summary_writer("n_layers2_sigmoid")

train_model(model, writer, optimizer)

In [None]:
# reinit tensorboard if needed
#reinit_tensorboard(clear_log=False)

model = SimpleMNIST_NN(n_layers=3).to(device)
optimizer = optim.SGD(model.parameters(), lr=0.001)
writer = get_summary_writer("n_layers3_sigmoid")

train_model(model, writer, optimizer)

Нейросеть с тремя слоями вообще не учится. Почему? Можем попробовать разобраться.

Для этого напишем функции, которые будут следить за распределением градиентов и активаций на наших слоях.

И скажем при помощи метода register_backward_hook пайторчу исполнять эти функции при каждом пропускании градиента.

In [None]:
def get_forward_hook(writer, tag):
    ind = 0

    def forward_hook(self, input_, output):
        nonlocal ind
        ind += 1
        writer.add_scalar(tag, input_[0].abs().mean(), ind)
    return forward_hook


def get_backward_hook(writer, tag):
    ind = 0

    def backward_hook(grad):  # for tensors
        nonlocal ind
        ind += 1
        writer.add_scalar(tag, grad.abs().mean(), ind)
    return backward_hook

In [None]:
def register_model_hooks(model, writer, max_ind=4):
    cur_ind = 0
    for child in model.layers.children():
        if isinstance(child, nn.Linear):
            cur_ind += 1
            forward_hook = get_forward_hook(writer,
                                            f"activation_{cur_ind}")
            child.register_forward_hook(forward_hook)

            backward_hook = get_backward_hook(writer,
                                              f"gradient_{max_ind - cur_ind + 1}")
            child.weight.register_hook(backward_hook)

Запустим обучение модели с 3 слоями:

In [None]:
# reinit tensorboard if needed
#reinit_tensorboard(clear_log=False)

model = SimpleMNIST_NN(n_layers=3).to(device)
optimizer = optim.SGD(model.parameters(), lr=0.001)
writer = get_summary_writer("n_layers3_sigmoid2")

register_model_hooks(model, writer)

train_model(model, writer, optimizer)

Мы видим, что градиент нашей модели стремительно затухает. Первые слои (до которых градиент доходит последним), получают значения градиента, мало отличимые от нуля.

Причем, это будет верно с самых первых шагов обучения нашей модели



Это явление получило название **паралич сети**

# Затухание градиента

Откуда оно берется? 

Посмотрим на обычную сигмоиду

$$\sigma(z) = \dfrac 1 {1 + e^{-z}}$$

Ее производная, как вы уже выводили, равна

$$\dfrac {\delta \sigma(z)} {\delta z} = \sigma(z) (1 - \sigma(z))$$

Какое максимальное значение у такой функции?

Учтем, что сигмоида находится в пределах от 0 до 1

In [None]:
import matplotlib.pyplot as plt

plt.style.use('seaborn-whitegrid')

x = np.arange(0, 1.001, 0.001)
plt.plot(x, x - x**2)
plt.title('Derivative of the sigmoidal function', size = 15)
plt.show()

Получается, что максимальное значение производной по сигмоиде - 1/4

Теперь возьмем простую нейронную сеть 

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/simple_nn_with_sigmoid.png" width="750">

Посчитаем у нее градиент

$$\dfrac {\delta L} {\delta z_4} = \dfrac {\delta L} {\delta y} \dfrac {\delta y} {\delta z_4} = \dfrac {\delta L} {\delta y} \dfrac {\delta \sigma(w_5z)} {\delta z} w_5 \le \dfrac 1 4 \dfrac {\delta L} {\delta y}  w_5 $$

Аналогично можно посчитать градиент для $z_3$

$$\dfrac {\delta L} {\delta z_3} = \dfrac {\delta L} {\delta z_4} \dfrac {\delta z_4} {\delta z_3} \le \dfrac {\delta L} {\delta y} \dfrac {\delta \sigma(w_4z)} {\delta z} w_5 \le {\dfrac 1 4}^2 \dfrac {\delta L} {\delta y}  w_5 w_4$$

И так далее

$$\dfrac {\delta L} {\delta x}  \le {\dfrac 1 4}^5 \dfrac {\delta L} {\delta y}  w_5 w_4 w_3 w_2 w_1$$

Таким образом, градиент начинает экспоненциально затухать, если веса маленькие.

Если веса большие - то градиент наоборот начнет экспоненциально возрастать - все взорвется

Для некоторых функций активации картина будет не столь катастрофична, но тоже неприятна.

В семинарском задании вы посмотрите, например, как ведет себя функция ReLU в этом случае.

# Инициализация весов

Оказывается, иногда чтобы побороть такое поведение нейросети достаточно лишь правильно инициализировать веса 

Хотим задать изначальные веса в нейросети. 
Как это можно сделать? 

Делать инициализацию 0 - плохая идея. В этом случае получим, что градиент по всем таким весам будет одинаков - и их обновление, следовательно, тоже. Ничего не выучим. 

Можно инициализировать веса нормальным шумом с матожиданием 0 и маленькой дисперсией. Маленькая дисперсия нужна затем, чтобы не получить огромные градиенты за большие изначальные ошибки в предсказании. 

Но почему бы не взять другое распределение? Может, веса, инициализированные экспоненциальным распределениям, дают какие-нибудь классные гарантии? Или какой-нибудь другой, не приходящий сразу в голову способ инициализации. Давайте это обсудим. 


## Инициализация Ксавьера (Xavier, Glorot)

### Вывод Xavier




Рассмотрим в качестве активации нечетную функцию с единичной производной в нуле.

Например, нам подойдет гиперболический тангенс (tanh)

In [None]:
x = np.arange(-10, 10.1, 0.1)
plt.plot(x, np.tanh(x))
plt.show()

Мы хотим начать из линейного региона этой функции, чтобы избежать
затухающих градиентов

Как у нас зависят активации на текущем слое от активаций на предыдущем?

$$z^{i+1} = f(z^iW^i)$$

Тогда, так как мы вначале хотим находиться в районе линейности нашей функции, то

$$z^{i+1} \approx z^i W^i$$

Ответить на вопрос, а как будут связаны дисперсии этих активаций, сложнее 

Сначала распишем:
1. чему равна дисперсия суммы двух независимых величин

$$D(\eta + \gamma) = D\eta + D\gamma$$

2. чему равна дисперсия произведений двух независимых величин


$$D\eta\gamma = E(\eta\gamma)^2 - (E\eta\gamma)^2 = E\eta^2E\gamma^2 - (E\eta)^2(E\gamma)^2$$ 

Далее распишем для одного веса текущего слоя 

$$z^{i+1}_{k} = \sum_t z^i_t w_{kt}$$

$$D(z^{i+1}_{k}) = D(\sum_t z^i_t w_{kt}) = \sum_t D(z^i_t w_{kt})$$

Предполагая, что дисперсии весов и активаций одинаковые (а нам бы так хотелось)

$$D(z^{i+1}_{k}) = n D(z^i_0 w_{k0})$$

Далее применяем нашу формулу и получаем:

$$D(z^{i+1}_{k}) = n [E(z^i_0)^2E(w_{k0})^2 - (Ez^i_0)^2(Ew_{k0})^2]$$

Хотим, чтобы матожидание наших активаций оставалось равным нулю, и мы можем этого добиться, делая  матожидание весов равным 0. 

$$D(z^{i+1}_{k}) =   n E(z^i_0)^2E(w_{k0})^2 $$

Заметим, что, так как матожидание активаций и весов равны 0, то матожидания их квадратов равны дисперсии активаций и весов соответственно:

$$D(z^{i}_{0}) = E(z^{i}_{0})^2 - (Ez^{i}_{0})^2 = E(z^{i}_{0})^2$$
$$D(w_{k0}) = E(w_{k0})^2 - (Ew_{k0})^2 = E(w_{k0})^2$$

Подставив их в выражение для $D(z^{i+1}_{k})$ получим:

$$D(z^{i+1}_{k}) = n D(z^i_0)D(w_{k0})$$


Отсюда можно вывести формулу для зависимости активаций любого слоя от весов предыдущих слоев и дисперсии исходных данных

$$Dz^i = Dx \prod_{p=0}^{i-1}n_pDW^p $$

Где $n_p$ - размерность выхода слоя p-го слоя

Аналогично можно вывести формулу для градиентов по активациям


$$D(\dfrac {\delta L} {\delta z^i}) = D(\dfrac {\delta L} {\delta z^d} ) \prod_{p=i}^{d}n_{p+1}DW^p $$



Для хорошей инициализации нам бы хотелось, чтобы дисперсии активаций на всех слоях были одинаковые. 
А еще хотелось бы, чтобы дисперсии градиентов тоже были одинаковые. 

Тогда у нас не происходит резких скачков в распределении активаций, а градиент не затухает и не взрывается 


$$Dz^i = Dz^j$$
$$D\dfrac {\delta L} {\delta z^i} = D\dfrac {\delta L} {\delta z^j}$$


Учитывая предыдущее, это эквивалентно тому, что мы требуем

$$n_iDW^i = 1$$
$$n_{i+1}DW^i = 1$$

Одновременно так сделать не получится $$n_i \ne n_{i+1}$$

Потому делаем компромисс - среднее гармонческое решений первого и второго уравнения

$$DW^i = \dfrac 2 {n_i + n_{i+1}}$$

Надо выбрать распределение.

$$ EW^i = 0 $$

$$DW^i = \dfrac 2 {n_i + n_{i+1}}$$

Можно было бы взять нормальное распределение с такими параметрами.

$$W_i \sim N(0, sd=\sqrt{\dfrac 2 {n_i + n_{i+1}}}) $$

А можно равномерное:

$$D(U[a, b]) = \dfrac 1 {12} (b -a)^2$$

Итого получим:
$$W_i \sim U[-\dfrac {\sqrt{6}} {n_i + n_{i + 1}}, \dfrac {\sqrt{6}} {n_i + n_{i + 1}} ]$$


## He-инициализация (Kaiming)

Но многие люди используют ReLU. Она в 0 не имеет производной, потому применять инициализацию, указанную выше, проблематично. 

### Вывод Kaiming


Тогда получатся похожие условия 

$$Dz^i = Dx \prod_{p=0}^{i-1}\dfrac 1 2 n_pDW^p $$

$$D(\dfrac {\delta L} {\delta z^i}) = D(\dfrac {\delta L} {\delta z^d} ) \prod_{p=i}^{d}\dfrac 1 2 n_{p+1}DW^p $$


И для них решения будут тоже похожими:

$$\frac 2 {n_k}$$

и

$$\frac 2 {n_{k+1}}$$

Можно опять взять среднее гармоническое. Но на практике, особенно в случае сверточных нейронных сетей, просто берут либо $ \frac 2 {n_i}$ либо $\frac 2 {n_i + 1}$


Итого получим:

$$W^i \sim N(0, sd=\sqrt{\frac 2 n_i})$$

$$W^i \sim N(0, sd=\sqrt{\frac 2 {n_i + 1}})$$

Опять же, можно использовать и равномерное распределение

## Важность инициализации весов

1. Нейросеть может сойтись значительно быстрее


<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/weight_initialization_influence_convergence_neural_networks.png" width="550">

2. В зависимости от выбранной активации сеть вообще может сойтись или не сойтись

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/activation_function_influence_convergence_neural_networks.png" width="550">

## Обобщение инициализаций Ксавьера и He-инициализации

Вообще говоря, коэффициенты в инициализациях (числитель в формуле для дисперсии), зависят от конкретной выбранной функции активации.
[В pytorch есть функции для вычисления этих коэффициентов](https://pytorch.org/docs/stable/nn.init.html)


## Ортогональная инициализация

Также иногда используется так называемая ортогональная инициализация весов. 
Для каждого слоя мы убеждаемся, что изначальная матрица весов является ортогональной. 

Выберем ортогональную матрицу весов 
$$W: WW^T = 1$$

Тогда:
1.  норма активации сохраняется (опять же, активации между слоями остаются в одном масштабе)
$$||s_{i+1}|| = ||W_{i}s_i|| = ||s_i||$$

2.  все нейроны делают «разные» преобразования
$$ ⟨W_i, W_j⟩ = 0~i \ne j$$
$$ ⟨W_i, W_j⟩ = 1~i = j$$


Иногда такая инициализация обеспечивает значительно лучшую сходимость, [тут можно почитать об этом подробнее](https://datascience.stackexchange.com/questions/64899/why-is-orthogonal-weights-initialization-so-important-for-ppo) 

## Инициализация весов в Pytorch

Для инициализации весов Pytorch используется модуль torch.nn.init

В нем определены разные функции для инициализации весов.

Нюанс состоит в том, что обычно для слоев разного типа может требоваться разная регуляриация. Потому в функции, которая инициализирует слов вашей нейронное сети желательно прописывать разное поведение для разных слоев.

Попробуем, например, добавить в нашу нейросеть инициализацию. Нам нужна регуляризация Xavier, так как у нас Sigmoid

In [None]:
class SimpleMNIST_NN(nn.Module):
    def __init__(self,
                 n_layers,
                 activation=nn.Sigmoid,
                 init_form="normal"):
        super().__init__()
        self.n_layers = n_layers
        self.activation = activation()
        layers = [nn.Linear(28 * 28, 100), self.activation]
        for _ in range(0, n_layers - 1):
            layers.append(nn.Linear(100, 100))
            layers.append(self.activation)
        layers.append(nn.Linear(100, 10))
        self.layers = nn.Sequential(*layers)
        self.init_form = init_form
        if self.init_form is not None:
            self.init()

    def forward(self, x):
        x = x.view(-1, 28 * 28)
        x = self.layers(x)
        return x

    # xavier weight initialization
    def init(self):
        sigmoid_gain = torch.nn.init.calculate_gain("sigmoid")
        for child in self.layers.children():
            if isinstance(child, nn.Linear):
                if self.init_form == "normal":
                    torch.nn.init.xavier_normal_(child.weight,
                                                 gain=sigmoid_gain)
                    if child.bias is not None:
                        torch.nn.init.zeros_(child.bias)
                elif self.init_form == "uniform":
                    torch.nn.init.xavier_uniform_(child.weight,
                                                  gain=sigmoid_gain)
                    if child.bias is not None:
                        torch.nn.init.zeros_(child.bias)
                else:
                    raise NotImplementedError()

Запустим обучение модели с инициализацией весов Xavier:

In [None]:
# reinit tensorboard if needed
#reinit_tensorboard(clear_log=False)

model = SimpleMNIST_NN(n_layers=3).to(device)
optimizer = optim.SGD(model.parameters(), lr=0.001)
writer = get_summary_writer("n3_layers_sigmoid_havier")

# plotting weights values of first(input layer)
plt.figure(figsize=(15,5))
plt.hist(list(model.layers.children())[0].weight.cpu().detach().numpy().reshape(-1), bins = 100) 
plt.title('weights histogram')
plt.xlabel('values')
plt.ylabel('counts')
plt.show()

train_model(model, writer, optimizer)

Видим, что нейросеть стала хоть как-то учиться

# Регуляризация

Второй способ улучшения сходимости нейросетей и борьбы с переобучением - введение регуляризации. Ее можно вводить несколькими способами. 

## L1, L2 регуляризации

Самый простой способ мы уже разобрали - давайте просто добавим в лосс штраф к весам. На сходимость нейросети, это, правда, повлияет слабо

$$Loss\_reg = loss + \lambda \cdot reg$$

$$ reg_{L1} = \lambda \sum |w_i| $$

$$ reg_{L2} = \lambda \sum w_i^2 $$

<img src="https://edunet.kea.su/repo/EduNet-content/L07/img_license/l1_l2_regularization_to_weight.gif" alt="alttext" width="500px"/>

[Visualizing regularization and the L1 and L2 norms](https://towardsdatascience.com/visualizing-regularization-and-the-l1-and-l2-norms-d962aa769932)

Иногда уже его хватает, чтобы решить все проблемы. Напомним, что L2 лосс приводит к большому числу маленьких ненулевых весов в сети. А L1 лосс - к маленькому числу ненулевых весов (разреженной нейросети)

## Dropout

Одним из распространненных именно в нейросетях методом регуляризации является Dropout.

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/dropout.png" width="700">

Состоит этот метод в следующем:

1. Во время обучения мы с вероятностью *p* зануляем выход нейронов слоя (например, *p* = 0.5)
2. Зануленные нейроны не участвуют в данном forward, и градиент потому к ним при backward не идет. 

3. Сила регуляризации определяется вероятностью p, чем она больше - тем сильнее регуляризация. 


### Мотивация Dropout

### Борьба с коадаптацией 

Одной из  проблем при работе с глубокими сетями является совместная адаптация нейронов. В такой сети, если все весовые коэффициенты изучаются вместе, обычно некоторые соединения будут иметь больше возможностей прогнозирования, чем другие.

Часть нейронов делает основную работу - предсказывает, а остальные могут вообще не вносить никакого вклада в итоговое предсказание. Или же другая картина - один нейрон делает кривоватое предсказание, другие его правят и в итоге первый нейрон своей ошибки не исправляет. 

Это явление называется коадаптацией. Этого нельзя было предотвратить с помощью традиционной регуляризации, такой как L1 и L2. А вот Dropout с этим хорошо борется

Отмена способности некоторых нейронов учиться во время тренировки на самом деле, оказывается, направлена на то, чтобы получить более обученные нейроны и сократить переобучение. И гарантирует, что выучиваемые индивидуальными нейронами функции хорошо работают со случайно выбранными подмножествами функций, выученных другими нейронами. 
Таким образом, Dropout приводит к появлению более требовательных нейронов, которые пытаются обойти сложные, индивидуальные особенности, которые склонны плохо обобщать, и сохраняют больше полезной информации самостоятельно. 

На следующем рисунке (извлеченном из статьи Dropout: A Simple Way to Prevent Neural Networks from Overfitting) мы находим сравнение признаков, изученных в наборе данных MNIST с одним автоэнкодером скрытого слоя, имеющим 256 выпрямленных линейных единиц без dropout (слева), и признаков, изученных той же структурой с использованием dropout в ее скрытом слое с p=0,5 (справа).

В то время как первый показывает неструктурированные, беспорядочные паттерны, которые невозможно интерпретировать, второй явно демонстрирует целенаправленное распределение веса, которое обнаруживает штрихи, края и пятна самостоятельно, нарушая их взаимозависимость с другими нейронами для выполнения этой работы.

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/compare_weights_with_dropout_and_without_dropout.png" width="600">

[Dropout: A Simple Way to Prevent Neural Networks from
Overfitting](https://jmlr.org/papers/v15/srivastava14a.html)

### Dropout как регуляризация 

Фактически, Dropout штрафует слишком сложные, неустойчивые решения. Добавляя в нейросеть Dropout мы сообщаем ей о том, что решение, которое мы ожидаем, должно быть устойчиво к шуму

### Dropout как ансамбль 

Можно рассматривать Dropout как ансамбль нейросетей со схожими параметрами, которые мы учим одновременно, вместо того, чтобы учить каждую в отдельности, а затем результат их предсказания усредняем, [замораживая Dropout](http://mlg.eng.cam.ac.uk/yarin/blog_3d801aa532c1ce.html)

Фактически, возникает аналогия со случайным лесом - каждая из наших нейросетей легко выучивает выборку и переобучается - имеет низкий bias, но высокий variance. При этом за счет временного отключения активаций, каждая нейросеть видит не все объекты, а только часть. Усредняя все эти предсказания, мы уменьшаем variance. 



### Dropout помогает бороться с переобучением

Dropout, в силу указанного выше, может хорошо помогать бороться с переобучением

И в случае линейных слоев 

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/dropout_solve_overfitting_problem_in_mlp_networks.png" width="500">

[Tutorial: Dropout as Regularization and Bayesian Approximation](https://xuwd11.github.io/Dropout_Tutorial_in_PyTorch/)

И в случае конволюций 

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/dropout_solve_overfitting_problem_in_convolution_networks.png" width="500">

### Confidence interval от Dropout
Можно используя нейросеть с дропаутом, получить доверительный интервал для вашего предсказания. Просто не "замораживаем" dropout-слои во время предсказания, а делаем предсказания с активными dropout. 

И делаем forward через такую нейросеть для одного объекта 1000 раз. 
Сделав это 1000 раз, вы получаете распределение предсказаний, на основе которого можно делать confidence интервалы и как раз ловить те объекты, на которых нейросеть вообще не понимает, что ей делать и потому предсказывает метку или еще что-то с сильной дисперсией. 


<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/confidence_interval_dropout.png" width="600">

### Простая реализация Dropout

In [None]:
class BadDropout(nn.Module):
    def __init__(self, p: float = 0.5):
        super().__init__()
        if p < 0 or p > 1:
            raise ValueError(
                f"Dropout probability has to be between 0 and 1, but got {p}")
        self.p = p

    def forward(self, X):
        if self.training:
            keep = torch.rand(X.size()) > self.p
            if X.is_cuda:
                keep = keep.to(device)
            return X * keep
        # in test time, expectation is calculated
        return X * (1 - self.p)

Нежелательное свойство представленной выше схемы состоит в том, что мы должны масштабировать активации во время прогнозирования. Поскольку производительность тестирования критически важна, лучше всего использовать инвертированный dropout, который выполняет масштабирование во время обучения. Кроме того, если мы захотим убрать dropout из кода, функция прогнозирования останется без изменений.

In [None]:
class Dropout(nn.Module):
    def __init__(self, p: float = 0.5):
        super().__init__()
        if p < 0 or p > 1:
            raise ValueError(
                f"Dropout probability has to be between 0 and 1, but got {p}")
        self.p = p

    def forward(self, X):
        if self.training:
            keep = torch.rand(X.size()) > self.p
            if X.is_cuda:
                keep = keep.to(device)
            return X * keep / (1 - self.p)
        return X  # in test time, expectation is calculated intrinsically - we just not divide weights

Попробуем засунуть Dropout в нашу нейросеть

In [None]:
class SimpleMNIST_NN_Dropout(nn.Module):
    def __init__(self,
                 n_layers,
                 activation=nn.Sigmoid,
                 init_form="normal"):
        super().__init__()
        self.n_layers = n_layers
        self.activation = activation()
        layers = [nn.Linear(28 * 28, 100), self.activation]
        for _ in range(0, n_layers - 1):
            layers.append(nn.Linear(100, 100))
            layers.append(Dropout())           # add Dropout 
            layers.append(self.activation)
        layers.append(nn.Linear(100, 10))
        self.layers = nn.Sequential(*layers)
        self.init_form = init_form
        if self.init_form is not None:
            self.init()

    def forward(self, x):
        x = x.view(-1, 28 * 28)
        x = self.layers(x)
        return x

    def init(self):
        sigmoid_gain = torch.nn.init.calculate_gain("sigmoid")
        for child in self.layers.children():
            if isinstance(child, nn.Linear):
                if self.init_form == "normal":
                    torch.nn.init.xavier_normal_(child.weight,
                                                 gain=sigmoid_gain)
                    if child.bias is not None:
                        torch.nn.init.zeros_(child.bias)
                elif self.init_form == "uniform":
                    torch.nn.init.xavier_uniform_(child.weight,
                                                  gain=sigmoid_gain)
                    if child.bias is not None:
                        torch.nn.init.zeros_(child.bias)
                else:
                    raise NotImplementedError()

Так как наша модель из-за Dropout ведет себя по-разному во время обучения и во время тестирования, то мы должны прямо ей сообщать, обучается она сейчас или нет. Делается это при помощи функций model.train и model.eval

In [None]:
def train_model_sep(model, writer, optimizer):
    criterion = nn.CrossEntropyLoss().to(device)

    train_steper = Steper()
    test_steper = Steper()

    for epoch in tqdm(range(5)):
        model.train()
        train_epoch(model,
                    optimizer,
                    criterion,
                    train_loader,
                    "cross_entropy",
                    train_steper,
                    writer)
        model.eval()
        validate(model,
                 criterion,
                 test_loader,
                 "cross_entropy",
                 test_steper,
                 writer)

Обучим модель с Dropout:

In [None]:
# reinit tensorboard if needed
#reinit_tensorboard(clear_log=False)

model = SimpleMNIST_NN_Dropout(n_layers=3).to(device)
optimizer = optim.SGD(model.parameters(), lr=0.001)
writer = get_summary_writer("nn3_dropout")

train_model_sep(model, writer, optimizer)

В данном случае выигрыша мы не получили. Возможно, если учить нейросеть больше эпох, эффект бы заметили

### Пример борьбы с переобучением при помощи Dropout
 

Чтобы увидеть эффект, и при этом не учить нейросеть 100+ эпох, сделаем искусственный пример.

Просто добавим к линейной зависимости шум и попробуем выучить ее нейронной сетью.

[Dropout in Neural Networks with Pytorch](https://towardsdatascience.com/batch-normalization-and-dropout-in-neural-networks-explained-with-pytorch-47d7a8459bcd)

In [None]:
N = 50  # number of data points
noise = 0.3

# generate the train data
X_train = torch.unsqueeze(torch.linspace(-1, 1, N), 1)
Y_train = X_train + noise * torch.normal(torch.zeros(N, 1), torch.ones(N, 1))

# generate the test data
X_test = torch.unsqueeze(torch.linspace(-1, 1, N), 1)
Y_test = X_test + noise * torch.normal(torch.zeros(N, 1), torch.ones(N, 1))

print(f'X_train shape: {X_train.shape}\nX_test shape: {X_test.shape}')

In [None]:
plt.scatter(X_train.data.numpy(), Y_train.data.numpy(),
            c='purple', alpha=0.5, label='train')
plt.scatter(X_test.data.numpy(), Y_test.data.numpy(),
            c='yellow', alpha=0.5, label='test')

X_real = np.arange(-1, 1, 0.01)
Y_real = X_real
plt.plot(X_real, Y_real, c="green", label='true')
plt.legend()
plt.show()

Модель без дропаут

In [None]:
N_h = 100 # num of neurons
model = torch.nn.Sequential(
    torch.nn.Linear(1, N_h),
    torch.nn.ReLU(),
    torch.nn.Linear(N_h, N_h),
    torch.nn.ReLU(),
    torch.nn.Linear(N_h, 1),
)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)

Модель с дропаут

In [None]:
N_h = 100 # num of neurons

model_dropout = nn.Sequential(
    nn.Linear(1, N_h),
    nn.Dropout(0.5),  # 50 % probability
    nn.ReLU(),
    torch.nn.Linear(N_h, N_h),
    nn.Dropout(0.2),  # 20% probability
    nn.ReLU(),
    torch.nn.Linear(N_h, 1),
)
optimizer_dropout = torch.optim.Adam(model_dropout.parameters(), lr=0.01)

In [None]:
num_epochs = 1500
criterion = torch.nn.MSELoss()

for epoch in range(num_epochs):

    # train without dropout
    Y_pred = model(X_train)  # look at the entire data in a single shot
    loss = criterion(Y_pred, Y_train)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    # train with dropout
    Y_pred_dropout = model_dropout(X_train)
    loss_dropout = criterion(Y_pred_dropout, Y_train)
    optimizer_dropout.zero_grad()
    loss_dropout.backward()
    optimizer_dropout.step()

    if epoch % 100 == 0:

        model.eval() # not train mode
        model_dropout.eval() #  not train mode

        # get predictions
        Y_test_pred = model(X_test)
        test_loss = criterion(Y_test_pred, Y_test)

        Y_test_pred_dropout = model_dropout(X_test)
        test_loss_dropout = criterion(Y_test_pred_dropout, Y_test)
        # plotting data and predictions
        plt.scatter(X_train.data.numpy(), Y_train.data.numpy(),
                    c='purple', alpha=0.5, label='train')
        plt.scatter(X_test.data.numpy(), Y_test.data.numpy(),
                    c='yellow', alpha=0.5, label='test')
        plt.plot(X_test.data.numpy(), Y_test_pred.data.numpy(),
                 'r-', lw=3, label='normal')
        plt.plot(X_test.data.numpy(), Y_test_pred_dropout.data.numpy(),
                 'b--', lw=3,  label='dropout')

        plt.title('Epoch %d, Loss = %0.4f, Loss with dropout = %0.4f' %
                  (epoch, test_loss, test_loss_dropout))

        plt.legend()

        model.train() # train mode
        model_dropout.train() # train mode
 
        plt.pause(0.05)

Видим, что нейросеть без dropout сильно переобучилась.

## Dropconnect

Будем занулять не нейроны, а веса. Фактически - для каждого батча обрубаем часть связей между нейронами.

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/dropconnect.png" width="650">

Drop Connect случайным образом отбрасывая веса, а не активации с вероятностью *p*.

DropConnect похож на Dropout, поскольку он вводит динамическую разреженность в модель, но отличается тем, что разреженность зависит от весов *W*, а не от выходных векторов слоя. Другими словами, полностью связанный слой с DropConnect становится разреженно связанным слоем, в котором соединения выбираются случайным образом на этапе обучения. 

В принципе, вариантов зануления чего-то в нейросетке можно предложить великое множество, в разных ситуациях будут работать разные ([в этом списке](https://paperswithcode.com/methods/category/regularization)  много Drop...)

## DropBlock

Например, можно убирать для каждого батча из нейросети случайные блоки из слоев. И это будет работать!

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/dropblock.png" width="700">

[Why Self-training with Noisy Students beats SOTA Image classification while using fewer resources](https://medium.datadriveninvestor.com/the-next-big-thing-in-image-classification-self-training-with-noisy-student-for-improving-22d52dc74dda)

# Нормализация

## Нормализация входных данных

Представим себе, что данные, которые мы подаем в нейросеть, распределены следующим образом

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/data_before_normalization.png" width="400">

Фактически нейросети работают со скалярными произведениями. В этом плане две вектора, изображенных на рисунке, не сильно отличаются. Так же и точки нашего датасета слабо разделимы. Чтобы с этим работать, нейросеть сначала должна подобрать удобное преобразование, а затем только сравнивать наши объекты. Понятно, что это усложняют задачу. 

Для того, чтобы облегчить нейросети задачу, входные признаки часто нормируют:

$$x1' = \dfrac {x1 - \mu_{x1}} {\sigma_{x1}}$$
$$x2' = \dfrac {x2 - \mu_{x2}} {\sigma_{x2}}$$

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/data_after_normalization.png" width="450">


 Такое преобразование действительно помогает нейросети 

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/normalization_helps_find_minimum_of_function.png" width="700">


[deeplearning.ai](https://www.deeplearning.ai)

## Covariate shift(Ковариантный сдвиг)

Covariate shift - явление, когда признаки тренировочной выборки и тестовой по-разному распределены.

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/covariate_shift.png" width="300">

В такой ситуации модель не в состоянии делать адекватные предсказания на тесте, так как не видела области пространства, в которой расположены тестовые объекты

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/covariate_shift_problem.png" width="300">

## Internal covariate shift

Похожее явление может иметь место уже внутри нейросети

Пусть у нас $i$-й слой переводит выдачу $i$-1 в новое пространство. 

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/internal_covariate_shift_example_1_step.png" width="500">

В конце нейросеть делает предсказание, считается лосс, делается обратное распространение ошибки и обновляются веса. 

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/internal_covariate_shift_example_2_step.png" width="500">

После этого возникает нехорошая ситуация - распределение выходов $i$-1 слоя поменялось, а $i$-й слой изменял веса, думая, что распределение выходов не изменилось

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/internal_covariate_shift_example_3_step.png" width="500">

### Плохой вариант борьбы с этим

Давайте на каждом слое просто нормировать каждый признак, используя среднее и дисперсию по батчу

$$ \hat{x}_{i} = \frac{x_{i} - \mu_{B}}{\sigma_{B} + \epsilon}$$




Проблема в том, что таким образом мы можем попасть в область линейной составляющей нашей функции. Например, в случае сигмоиды 

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/domain_of_linear_of_sigmoid_function.png" width="500">

Получаем набор линейных слоев фактически без функций активации -> все вырождается в однослойную сеть. Не то, что нам надо

## BatchNormalization

Нам надо дать нейронной сети возможность перемещать распределение выходов слоя из области 0 и самой подбирать дисперсию. Для этой цели используется __батч-нормировка__ (_batch normalization_), которая вводит в нейронную сеть дополнительную операцию между соседними скрытыми слоями. Она состоит из нормализации входящих (в слой батч-нормировки) значений, полученных от одного скрытого слоя, масштабирования и сдвига с применением двух новых параметров и передачи полученных значений на вход следующему скрытому слою.

<img src ="http://edunet.kea.su/repo/src/L07_Batch_normalization/img_license/nn_example.png" width="800">

Параметры, используемые в батч-нормировке $\gamma$ &mdash; отвечающий за сжатие и $\beta$ &mdash; отвечающий за сдвиг являются обучаемыми параметрами (наподобие весов и смещений скрытых слоев). 

Помимо обучаемых параметров $\gamma$ и $\beta$ в слое батч-нормировки существуют также необучаемые параметры: __скользящее среднее__ средних (_Mean Moving Average_) и скользящее среднее дисперсий (_Variance Moving Average_), служащие для сохранения состояния слоя батч-нормровки. 

<img src ="https://miro.medium.com/max/804/0*OyVlWTVJufivCfjT.png" width="600">

Параметры $\gamma$, $\beta$, а также оба скользящих средних вычисляются для каждого слоя батч-нормировки отдельно и являются векторами с длиной, равной количеству входящих признаков.

В процессе обучения, мы подаем в нейронную сеть по одному мини-батчу за раз. Процедуру обработки значений $x$ из одного мини-батча $ B = \{x_{1},\ldots, x_{m}\} $ можно представить следующим образом:

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/batch_normalization_compute_moving_average.png" width="1000">

Шаг масштабирования и сдвига является главным новшеством батч-нормировки, поскольку в отличие от предыдущего рассмотренного примера, нормированные значения больше не обязаны иметь среднее равное 0 и единичную дисперсию. Батч-нормировка позволяет сдвигать среднее нормированных значений и масштабировать дисперсию. Фактически, теперь нейросеть даже может отменить нормализацию, если считает ее ненужной.

Для наглядности проиллюстрируем размерности промежуточных переменных на следующем изображении:

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/batch_normalization_compute_moving_average_scheme.png" width="1000">

После прямого прохода, параметры $\gamma$ и $\beta$ обновляются через обратное распространение ошибки также как и веса скрытых слоев.

### Скользящее среднее

Выше мы обсуждали то, что в процессе обучения слой  Батч-нормировки расчитывает значение среднего и дисперсии каждого признака в соответствующем мини-батче. Однако во время предсказания, батч у нас уже отсутствует &mdash; откуда брать среднее и дисперсию? 

Во время предсказания используется скользящее среднее, которое было расчитано и сохранено в процессе обучения. 

$$ \mu_{mov_{B}} = (1-\alpha)\mu_{mov_{B-1}}+\alpha\mu_{B} $$

$$ \sigma_{mov_{B}} = (1-\alpha)\sigma_{mov_{B-1}}+\alpha\sigma_{B} $$

Обычно используется параметр $\alpha = 0.1$

Почему используется именно скользящее среднее, а не, например, статистика всей обучающей выборки? Дело в том, что при таком подходе нам бы пришлось хранить средние всех признаков для всех батчей, пропущенных через нейросеть в ходе обучения. Это ужасно невыгодно по памяти. Вместо этого скользящее среднее выступает в качестве приближенной оценки среднего и дисперсии обучающего набора, в этом случае эффективность использования ресурсов увеличивается, поскольку вычисления производятся постепенно &mdash; нам нужно хранить в памяти только одно число &mdash; значение скользящего среднего, полученное на последнем шаге.

Проиллюстрировать преимущество использования скользящего среднего можно на следующем примере:

Предположим, что у нас есть некоторая генеральная совкупность объектов, обладающих некоторым признаком $x$, (соответствующая абстрактной обучающей выборке) и некоторый черный ящик, извлекающий по $k$ объектов из этой генеральной совокупности (соответствующий абстрактному даталоадеру). Наша задача &mdash; дать оценку ожидаемому среднему этих $k$ объектов. При этом ожидаемое среднее для $k$ объектов может отличаться от среднего генеральной совокупности, поскольку могут накладываться дополнительные условия на извлекаемую выборку. В данном примере для простоты будем извлекать $k$ объектов из некого распределения случайным образом:

In [None]:
import sys
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

k = 500 # sample size
n = 2
p = 0.5

sample = np.random.negative_binomial(n, p, k)
sns.histplot(data=sample, discrete=True)
plt.show()

Оценить ожидаемое среднее теоретически, не зная как распределен признак $x$ наших объектов, трудно. Мы можем собрать большое количество средних и произвести оценку с их помощью, но для этого нам потребуется хранить в памяти все эти значения, что опять-таки приведет к неэффективному расходу ресурсов. Более эффективным решением будет воспользоваться скользящим средним. Давайте сравним эти два метода:

In [None]:
ema = 0
alpha = 0.01
means = np.array([])

for i in range(10000):
    sample = np.random.negative_binomial(n, p, 50)
    ema = (1 - alpha) * ema + alpha * sample.mean()
    means = np.append(means, sample.mean())

Посчитаем количество памяти, затрачиваемое на хранение списка средних значений признака $x$ по выборкам из $k$ объектов, и количество памяти, затрачиваемое на хранение скользящего среднего:

In [None]:
print(f'Количество памяти для хранения скользящего среднего:\t{sys.getsizeof(ema)} байт')
print(f'Количество памяти для хранения списка средних:\t{sys.getsizeof(means)} байт')

Видно, что на хранение массива средних значений расходуется на порядки больше памяти, чем на хранение одного скользящего среднего. Теперь давайте воспользуемся тем, что мы сэмплировали случайные выборки из известного распределения, и можем теоретически расчитать их среднее. В нашем примере мы извлекали выборки из негативного биномиального распределения с параметрами $n=2$ и $p=0.5$, для которого среднее рассчитывается по формуле $mean=\frac{np}{1-p}=2$. Мы знаем, что при достаточно большом количестве сэмплированных выборок, среднее распределения выборочных средних будет стремиться к среднему генеральной совокупности. Сравним результаты, полученные с использованием сохраненных выборочных средних и скользящего среднего с теоретическим расчетом:

In [None]:
print(f'Среднее признака x по k объектам, оцененное с помощью скользящего среднего:\t{ema:.8f}')
print(f'Среднее признака x по k объектам, оцененное по всем сэмплированным выборкам:\t{means.mean():.8f}')

Видно, что мы получили довольно точную оценку, использовав скользящее среднее.

### Защита от нулей в знаменателе

Чтобы у нас не мог возникнуть 0 в знаменателе, добавляем маленькое число - $\epsilon$. Например, равное 1e-5


$$ \hat{x}_{i} = \frac{x_{i} - \mu_{B}}{\sigma_{B} + \epsilon}$$

$$ BN_{\gamma, \beta}(x_{i}) = \gamma \hat{x}_{i} + \beta $$

### Линейный слои и конволюции

Слой конволюции можно свести к линейному слою с очень жесткими ограничениями на веса. Поэтому неудивительно, что BatchNorm можно применять и для линейных слоев и для конволюций. 

С конволюциями есть единственный нюанс - у нас "одним признаком" считается вся получаемая **feature map**. 

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/feature_map.png" width="500">

И нормализация идет по всей такой feature map (по всему каналу) для всех объектов. 

### Пример работы

Этот метод действительно работает. 
Видим, что нейросети с батчнормализацией:

1. Сходятся быстрее, чем нейросети без 
2. Могут работать с более высоким начальным learning rate, причем это позволяет достигать лучших результатов
3. BatchNorm позволяет глубокой нейросетке работать даже с функцией активации в виде сигмоиды. Без батчнорма такая сеть не обучилась бы вовсе. 

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/batchnorm_efficiency.png" width="550">


### Градиент

Вычисление градиента batchnorm - интересное упражнение на понимание того, как работает backpropagation. В лекции мы это опускаем, можете ознакомиться самостоятельно

[Deriving the Gradient for the Backward Pass of Batch Normalization](https://kevinzakka.github.io/2016/09/14/batch_normalization/)



<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/batchnorm_gradient.png" width="700">

### Batchnorm как регуляризация

Почему для нейросети с батчнормализацией можно использовать более высокие learning rate? 

 

Оказывается, батчнормализация делает неявную регуляризацию на веса.

Допустим, мы решили увеличить веса в $a$ раз

Так как мы шкалируем, то домножение весов $W$ на константу выходных значений слоя не меняет

$$BN((aW)u) = BN(Wu)$$

Градиент слоя по входу не меняется

$$\dfrac {\delta BN((aW)u)} {\delta u} = \dfrac {\delta BN(Wu)} {\delta u}$$

А градиент по весам уменьшается в $a$ раз

$$\dfrac {\delta BN((aW)u)} {\delta aW} = \dfrac 1 a \dfrac {\delta BN(Wu)} {\delta W} $$

Таким образом, нейросеть автоматически не дает большим весам расти

### Internal covariate shift?

Согласно некоторым исследованиям ([например](https://arxiv.org/abs/1805.11604)), успех BatchNormalization не заключается в исправлении covariate shift. 

BatchNormalization работает как-то иначе, улучшая гладкость пространства решений и облегчает поиск в нем минимума.

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/batchnorm_helps_find_minimum_of_function.png" width="700">

### Советы по использованию BatchNormalization

Стоит помнить, что с батч-нормализацией:

* **Крайне важно** перемешивать объекты (составлять новые батчи) между эпохами. Единицей обучения параметров $\beta$ и $\gamma$ являются батчи. Если их не перемешивать, то из 6400 объектов в тренировочном датасете получим лишь 100 объектов (при условии, что в батче 64 объекта) для обучения $\beta$ и $\gamma$

* В слое, после которого поставили BatchNormalization, надо убрать смещения (параметр $\beta$ в BatchNormalization берет эту роль сам по себе)


* Другое расписание learning rate: бОльшее значение в начале обучения и быстрое уменьшение в процессе обучения

* Если используем BatchNormalization, то надо уменьшить силу Dropout и L2-регуляризации

* Чем меньше размер батча в обучении, тем хуже будет работать BatchNormalization

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/batchnorm_batch_size.png" width="550">



### Используем BatchNormalization в Pytorch

In [None]:
class SimpleMNIST_NN_Init_Batchnorm(nn.Module):
    def __init__(self, n_layers):
        super().__init__()
        self.n_layers = n_layers
        layers = [nn.Linear(28 * 28, 100, bias=False),
                  nn.BatchNorm1d(100),
                  nn.Sigmoid()]
        for _ in range(0, n_layers - 1):
            layers.append(nn.Linear(100, 100, bias=False))
            layers.append(nn.BatchNorm1d(100))
            layers.append(nn.Sigmoid())
        layers.append(nn.Linear(100, 10))
        self.layers = nn.Sequential(*layers)
        self.init()

    def forward(self, x):
        x = x.view(-1, 28 * 28)
        x = self.layers(x)
        return x

    def init(self):
        sigmoid_gain = torch.nn.init.calculate_gain("sigmoid")
        for child in self.layers.children():
            if isinstance(child, nn.Linear):
                torch.nn.init.xavier_normal_(child.weight,
                                             gain=sigmoid_gain)
                if child.bias is not None:
                    torch.nn.init.zeros_(child.bias)

In [None]:
model = SimpleMNIST_NN_Init_Batchnorm(n_layers=3).to(device)
optimizer = optim.SGD(model.parameters(), lr=1e-4)
writer = get_summary_writer("batchnorm2")
register_model_hooks(model, writer)
train_model_sep(model, writer, optimizer)

И попробуем, согласно советам, увеличить learning rate

In [None]:
model = SimpleMNIST_NN_Init_Batchnorm(n_layers=3).to(device)
optimizer = optim.SGD(model.parameters(), lr=1e-2)
writer = get_summary_writer("batchnorm_increased_lr")
register_model_hooks(model, writer)
train_model_sep(model, writer, optimizer)

### Ставить BatchNormalization до или после активации?



#### До


<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/batchnormalization_before_activation.png" width="400">

* Рекомендуется авторами статьи, где предложили Batch Normalization
* Для сигмоиды, BN, поставленная после активации, не решает проблем сигмоиды

#### После

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/batchnormalization_after_activation.png" width="400">

* Аргументация авторов статьи не до конца обоснована
* Обычно, сигмоиду не используют в современных нейронных сетях
* Для популярной ReLU, BN, поставленная до активации может приводить к “умирающей ReLU”, когда большая часть ее входов меньше 0 и потому для них градиент не проходит
* На многих задачах BN после функции активации работает лучше или не хуже поставленной до

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/batchnormalization_before_or_after_relu.png" width="500">

[BN experiments](https://github.com/ducha-aiki/caffenet-benchmark/blob/master/batchnorm.md)

### Ставить BatchNormalization до или после Dropout?



#### До

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/batchnormalization_before_dropout.png" width="600">

* Меньше влияние (covariate shift) Dropout на Batchnorm

#### После

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/batchnormalization_after_dropout.png" width="600">

* Информация о зануленных активациях не просачивается через среднее и дисперсию батча

### Ставить только что-то одно 

* Dropout может отрицательно влиять на качество нейросети с BatchNorm за счет разного поведения на train и test




### Строго говоря

* Оптимальный порядок следования слоев зависит от задачи и архитектуры сети
* Возможно, стоит применять модифицированные версии BatchNorm

## Другие Normalization

Существует большое количество иных нормализаций, их неполный список можно найти [здесь](https://paperswithcode.com/methods/category/normalization). В данной секции мы рассмотрим самые популярные виды нормализации помимо BatchNorm.

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/normalization_methods.png" width="900">

Чаще всего нормализации тестируют на изображениях, в том числе или только на изображениях. Потому их графически объясняют при помощи следующей схемы:

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/dimensions_channels_batch_samples.png" width="450">

*По оси абсцисс* расположены объекты из батча,  
*по оси ординат* - feature map, преобразованный в вектор,  
*по оси аппликат* - каналы (feature maps).

В этом представлении BatchNorm выглядит следующим образом:

<img src ="http://edunet.kea.su/repo/src/L07_Batch_normalization/img_license/batch_norm_3d.png" width="450">

[Batch Normalization](https://paperswithcode.com/method/batch-normalization)

### Layer Norm

Помимо свёрточных нейронных сетей, существует специальный тип нейронных сетей, используемых для обработки последовательностей. Называется он "рекуррентные нейронные сети", ему же будет посвящена наша следующая лекция. 

Когда оказалось, что BatchNorm положительно сказывается на обучении нейронных сетей, его попытались применить для различных архитектур. BatchNorm нельзя было использовать "из коробки" для рекуррентных нейронных сетей (работающих с последовательными данными), пришлось придумывать различные адаптации, среди которых наиболее удачной оказалась **Layer Normalization**.  
По сути, теперь нормализация происходит внутри одного объекта из батча, а не поканально в рамках батча. С математической точки зрения, данная "адаптация" отличается от BatchNorm, однако экспериментально она превзошла своих конкурентов в задаче нормализации при обработке последовательных данных.

Впоследствии, данный метод нормализации хорошо проявил себя в трансформерах - наследниках рекуррентных нейронных сетей в вопросах обработки последовательных данных (об этом типе нейросетей мы также поговорим на следующей лекции). После успешного применения трансформеров в задачах компьютерного зрения, LayerNorm стал использоваться и в компьютерном зрении (хотя и уступал BatchNorm при использовании в свёрточных нейронных сетях).

<img src ="http://edunet.kea.su/repo/src/L07_Batch_normalization/img_license/layer_norm_3d.png" width="450">

[Layer Normalization](https://paperswithcode.com/method/layer-normalization)


### Instance Norm

Следующий вид нормализации был предложен отечественными исследователями (из СколТеха), занимавшимся разработкой быстрого и эффективного способа переноса стиля с одного изображения на другое. 

При использовании BatchNorm терялась информация о контрастах на конкретном изображении, поскольку нормализация производится по нескольким объектам. Для сохранения *контрастов* в экземпляре (*instance*) изображения была предложена специальная нормализация, рассматривающая конкретный канал одного конкретного объекта. Было предложено два названия нормализации: связанное с мотивацией (contrast normalization) и связанное с принципом работы (**instance normalization**). 

<img src ="http://edunet.kea.su/repo/src/L07_Batch_normalization/img_license/instance_norm_3d.png" width="450">

[Instance Normalization](https://paperswithcode.com/method/instance-normalization)

### Group Norm

В течение долгого времени, BatchNorm оставался однозначным фаворитом для использования в задачах компьютерного зрения, однако:
1. В связи с необходимостью точно считать статистики внутри batch, при обучении приходилось использовать большой batch size.  

2. Ограниченность размера видеопамяти вынуждает разработчиков идти на компромисс между сложностью модели и batch size.

Итого, использование BatchNorm приводило к невозможности использовать сложные модели**\***, поскольку им просто не хватало места на видеокарте. 

Необходимость использовать большой batch size могут решать различные нормализации, не использующие batch-размерность. К примеру, уже известные нам **Layer Norm** и **Instance Norm**. Эмпирически оказалось, что данные нормализации уступают BatchNorm по качеству работы: в то время как LayerNorm предполагает одинаковую важность и суть различных каналов (*рассматривая данные излишне глобально*), InstNorm упускает межканальные взаимодействия (*рассматривая данные слишком локально*). 

Успешным обобщением данных методов является **Group Normalization**: данный метод разбивает каналы на $G \in [1; C]$ групп, присваивая каждой из них (примерно) равное количество каналов. Отметим, что при $G = 1$, GroupNorm идентичен LayerNorm, а при $G = C$, GroupNorm идентичен InstNorm. 

Эмпирически оказалось, что при замене BatchNorm на GroupNorm качество модели падает в разы менее значительно, чем при использовании LayerNorm либо GroupNorm. Более того, при изменении batch size качество работы LayerNorm не изменялось, что открыло перспективы для создания более сложных моделей компьютерного зрения. 


**\*** - подразумевается, что уменьшение batch size позволило бы создать более сложные модели.

<img src ="http://edunet.kea.su/repo/src/L07_Batch_normalization/img_license/group_normalization_3d.png" width="450">

[Group Normalization](https://paperswithcode.com/method/group-normalization)

### Weight Normalization

Существует семейство методов, принципиально отличающихся от рассмотренных ранее нормализаций: в отличие от BatchNorm, LayerNorm и прочих известных вам нормализаций, ориентированных на **изменение представлений данных** внутри нейронной сети (и по сути представляемых как обычные слои), некоторые методы повышения качества обучения нейронных сетей ориентированы на **изменение параметров** самой нейронной сети.

[Weight Normalization](https://paperswithcode.com/method/weight-normalization) - один из таких методов, во многом вдохновлённый BatchNorm. В отличие от ранее упомянутых нормализаций, он появился в результате анализа влияния BatchNorm на обучение с сугубо математической точки зрения (было рассмотрено влияние BatchNorm на [информационную матрицу Фишера](https://en.wikipedia.org/wiki/Fisher_information)).  



В данном методе производится репараметризация слоя нейронной сети следующим образом:

$$\mathbb{w} = \frac{g}{\left\Vert \mathbb{v}\right\Vert}\mathbb{v},$$

где $\mathbb{w}$ - вектор весов слоя, $g$ и $\mathbb{v}$ - обучаемые параметры. Важный момент, который стоит сразу отметить: данный вид параметризации не зависит от данных, потому одинаково хорошо будет работать при любом batch size. 

**Weight normalization** в некоторых случаях позволяет с лёгкостью выполнять ранее обсуждавшуюся "умную инициализацию" параметров нейронной сети. Выполняется она следующим образом: некоторым образом инициализируем $\mathbb{v}$; выполним запуск сети на случайном batch, пусть на вход слою приходит $\mathbb{x}$. Выполним следующую операцию:

$$t = \frac{\mathbb{v}\cdot\mathbb{x}}{\left\Vert\mathbb{x}\right\Vert}, \qquad y = \phi\left(\frac{t - \mu[t]}{\sigma[t]}\right)$$

Чтобы перед активацией получить значения с нулевым средним и единичным стандартным отклонением, стоит установить параметрам $g$ и $b$ следующие значения:

$$g \leftarrow \frac{1}{\sigma[t]}, \qquad b \leftarrow \frac{-\mu[t]}{\sigma[t]}.$$

Другой важной особенностью **weight normalization** является *разделение* вектора весов на "направление вектора" и "норму вектора". По сути, отделение нормы векторов весов позволяет реализовывать гибкую настройку скорости обучения - различные параметры начинают обновляться с различной скоростью ($\sim\lambda \cdot g_i$), что позволяет модели более гибко обучаться. 

Weight normalization - далеко не единственный метод, позволяющий улучшать обучение модели, влияя на обновление её параметров: существует целое семейство "оптимизаторов" - методов, отвечающих за изменение параметров обучаемой модели.

# Оптимизация весов нейросетей

Методов тоже много, расскажем о популярных ([неполный список](https://paperswithcode.com/methods/category/stochastic-optimization))

Эти методы реализованы в модуле torch.optim
При этом, что важно, подсчет градиентов лосс функции по весам никак не зависит от оптимизаторов из пакета. На прошлых занятиях мы с вами видели, что pytorch вычисляет градиенты автоматически, на основе оптимизаций.


## Обзор популярных оптимизаторов

### SGD
Обычный стохастичный градиентный спуск. Вы его уже реализовывали. 
Просто обновляем веса в соответствии с текущем градиентом по ним, домножая градиент на постоянный коэффициент $\eta$

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/stochastic_gradient_descent.gif" width="500">

До сих пор является достаточно популярным методом обучения нейросетей, ибо простой, не требует дополнительных параметров кроме $\eta$, и сам по себе обычно дает не плохие результаты. 

Если же важна каждая сотая в качестве, то нужно либо использовать его вкупе с другими технологиями (о них - ниже), либо использовать другие способы. 

In [None]:
parameters = torch.randn(10, requires_grad=True)
optimizer = optim.SGD([parameters], lr=0.001)

Минусы SGD:

 1. Если функция ошибки быстро меняется в одном направлении и медленно - в другом, то это приводит к резким изменениям направления  градиентов и замедляет процесс обучения


<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/stohastic_gradient_descent_no_momentum.gif" width="500">


[Machine Learning Optimization Methods “Mechanics, Pros and Cons”](https://salmenzouari.medium.com/machine-learning-optimization-methods-mechanics-pros-and-cons-81b720194292)

 2. Может застревать в локальных минимумах или седловых точках (точках, где все производные равны 0, но не являющихся минимума/ максимумами). В них градиент равен 0, веса не обновляются - конец оптимизации. 

Пример таких точек:


Точка 0 у функции $x^3$, не имеющей минимума или максимума вовсе

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/getting_stuck_in_local_minimum_example.png" width="400">


Или точка 0, 0 у функции z = $x^2 - y^2$


<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/saddle_point_example.png" width="400">


[Седловая точка
](https://ru.wikipedia.org/wiki/%D0%A1%D0%B5%D0%B4%D0%BB%D0%BE%D0%B2%D0%B0%D1%8F_%D1%82%D0%BE%D1%87%D0%BA%D0%B0)

 3. Так как мы оцениваем градиенты по малой части выборки, они могут плохо отображать градиент по всей выборке и являться шумными. В результате часть шагов градиентного спуска делаются впустую или во вред. 
 
 4. Мы применяем один и тот же learning rate ко всем параметрам, что не всегда разумно. Параметр, отвечающий редкому классу, будет обучаться медленнее остальных. 
 
 5. Просто медленнее сходится

### Momentum

Чтобы избежать проблем 1-3, можно использовать momentum - фактически, мы добавляем нашему движению инерции. Если представить наши текущие веса как координаты шарика, и мы этот шарик пытаемся загнать в наиболее глубокую дырку, то у шарика теперь появился вес.

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/stochastic_gradient_descent_with_momentum.gif" width="600">

[Градиентный спуск, как учатся нейронные сети(Видео)](https://youtu.be/IHZwWFHWa-w)

Сначала пытаемся поменять направление движения шарика с прежнего направления с учетом текущего градиента
$$v_{t+1} = \rho v_t + \nabla_wL(x, y, W)$$

Вычисляем, куда он покатится
$$w_{t+1} = w_t - \eta v_{t+1}$$

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/advantages_wtih_momentum.png" width="480">

In [None]:
parameters = torch.randn(10, requires_grad=True)
optimizer = optim.SGD([parameters], momentum=0.9, lr=0.001)

Теперь мы быстрее достигаем локального минимума и можем выкатываться из совсем неглубоких. Градиентн стал менее подвержен шуму, меньше асциллирует

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/stohastic_gradient_descent_no_momentum.gif" width="400">

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/stohastic_gradient_descent_with_momentum.gif" width="400">

У этого подхода есть одна опасность - мы можем выкатиться за пределы минимума, к которому стремимся, а потом какое-то время к нему возвращаться. 

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/problem_of_big_momentum_value.gif" width="700">

[optimizer-visualization](https://github.com/Jaewan-Yun/optimizer-visualization)

Чтобы с этим бороться, предложен другой способ подсчета момента инерции

### NAG (Nesterov momentum)

Будем сначала смещаться в сторону, куда привел бы нас наш накопленный градиент, там считать новый градиент и смещаться по нему. 
В результате перескоки через минимум будут менее значительными и мы будем быстрее сходиться

$$v_{t+1} = \rho v_t +  \nabla_w L(w + \rho v_t )$$

$$w_{t} = w_{t-1} - \eta v_{t} $$


<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/nesterov_momentum.png" width="800">

На практике эту формулу все равно можно записать так, чтобы задача вычисления градиента ложилась не на сам оптимизатор.
(к примеру, [реализация в PyTorch](https://github.com/pytorch/pytorch/blob/master/torch/optim/_functional.py))

In [None]:
parameters = torch.randn(10, requires_grad=True)
optimizer = optim.SGD([parameters], momentum=0.9, nesterov=True, lr=0.001)

### Adaptive Learning Rate

Оба озвученных улучшения никак не борются с тем, что некоторые параметры нашей нейросети могут получать информацию для обновления реже, чем остальные. Например, фильтр, отличающий сиамских кошек от остальных, будет работать только тогда, когда в выборке попадутся конкретно сиамские кошки. А их может быть и не очень много, по батчам мы их не размажем (либо батчей получится очень много, если нарочно балансировать)

Другая ситуация - учим нейросеть на словах из русского языка. Есть веса, отвечающие за редкие слова, например "молвить". Вы часто в языке встречаете слово молвить? Молвят устами, а они тоже встречаются не часто. В результате, если learning rate постоянен, то мы выучим параметры для слова молвить плохо. 

Единственный путь - завести для каждого параметра индивидуальный learning rate.

### Adagrad

Будем хранить для каждого параметра сумму квадратов его градиентов. 

И будем добавлять наш градиент с коэффициентом, обратно пропорциональным корню из этой суммы (фактически - некая аппроксимация средней амплитуды градиента нашего параметра). 

$$ w = w - \eta \frac{l}{\sqrt{G} + e} \odot (\nabla_w L(x,y,W)) $$

$$ G = \sum_{t=1}^T \nabla_w L(x,y,w_t)^2 $$

В результате, если градиент у нашего веса часто большой - коэффициент будет уменьшаться. 

Единственная проблема - при такой формуле наш learning rate неминуемо в конце концов затухает (так как сумма квадратов не убывает)


In [None]:
parameters = torch.randn(10, requires_grad=True)
optimizer = optim.Adagrad([parameters])

### RMSprop

Давайте устроим "забывание" предыдущих квадратов градиентов. Просто будем домножать их на некий коэффициент меньше 1


$$v_t = \alpha v_{t-1} + (1-\alpha) (\nabla_w L(x,y,w_t))^2$$

$$w = w - \frac{\eta}{\sqrt{v_t }+ e} \odot \nabla_w L(x,y,W)$$

In [None]:
parameters = torch.randn(10, requires_grad=True)
optimizer = optim.RMSprop([parameters], alpha=0.99)

### Adam

Одним из самых популярных адаптивных оптимизаторов является Adam. 
Получается он за счет объединения идеи с инерцией и идеи с суммой квадратов. 

$$ m_t = \beta_1 m_{t-1} + (1-\beta_1) (\nabla_w L(x,y,w_t)) $$
$$ v_t = \beta_2 v_{t-1} + (1-\beta_2) (\nabla_w L(x,y,w_t)^2) $$
$$ w = w - \eta \cdot \frac{m_t}{\sqrt{v_t} + e} $$

Чтобы в начале у нас получались очень большие шаги, будем дополнительно модицифировать инерцию и сумму квадратов

$$ m_t = \frac{m_t}{1-\beta_1^t} $$

$$ v_t = \frac{v_t}{1-\beta_2^t} $$

In [None]:
parameters = torch.randn(10, requires_grad=True)
optimizer = optim.Adam([parameters], betas=(0.9, 0.999))

In [None]:
def train_adam():
    model = SimpleMNIST_NN_Init_Batchnorm(n_layers=3).to(device)
    optimizer = optim.Adam(model.parameters(), lr=1e-2)
    writer = get_summary_writer("adam")
    register_model_hooks(model, writer)
    train_model_sep(model, writer, optimizer)

In [None]:
train_adam()

#### L2-loss

Все оптимизаторы так же поддерживают возможность добавления к ним напрямую L2-loss, коэффициент перед этим лоссом -  $\textrm{weight_decay}$

In [None]:
parameters = torch.randn(10, requires_grad=True)
optimizer = optim.RMSprop([parameters], alpha=0.99, weight_decay=0.001)

Нюанс в том, что в Adam L2-loss учитывается не совсем верно. Потому есть поправленная версия Adam - AdamW. Но не факт, что она всегда лучше работает

## Сравнение оптимизаторов 

У каждого из предложенных оптимизаторов есть минусы и плюсы 



### Методы с инерцией сходятся к решению более плавно, но могут "перелетать"

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/convergence_optimizers.gif" width="250">


### Методы с адаптивным learning rate быстрее сходятся, более стабильны и меньше случайно блуждают

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/methods_with_adaptive_learning_rate.gif" width="250">


###  Алгоритмы без адаптивного learning rate сложнее выбираются из локальных минимумом

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/methods_without_adaptive_learning_rate.gif" width="450">

### Алгоритмы с инерцией осцилируют в седловых точках прежде чем найти верный путь

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/methods_with_momentum_in_saddle_point.gif" width="450">

# Режимы обучения

Нам не обязательно поддерживать один и тот же learning rate в течение всего обучения. Более того, для того же SGD есть гарантии, что если правильно подобрать схему уменьшения learning rate, он сойдется к глобальному оптимуму.


Мы можем менять learning rate по некоторым правилам.  



# Новый раздел

# Новый раздел

## Ранняя остановка

Можем использовать критерий ранней остановки - когда лосс на валидационной выборке не улучшается какое то количество эпох(patience), умножаем learning rate на некое значение(factor)

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/early_stopping.png" width="500">

In [None]:
optimizer = optim.SGD(model.parameters(), lr=0.1)
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer,
                                                 'min',
                                                 factor=0.1,
                                                 patience=5)

Применим к нашей модели

(выполнение занимает ~ 5 минут)

In [None]:
model = SimpleMNIST_NN_Init_Batchnorm(n_layers=3).to(device)
optimizer = optim.Adam(model.parameters(), lr=1e-2)
criterion = nn.CrossEntropyLoss().to(device)
writer = get_summary_writer("reduce_lr_on_plateu")
train_steper = Steper()
test_steper = Steper()
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer,
                                                 'min',
                                                 factor=0.1,
                                                 patience=1)
for epoch in tqdm(range(15)):
    model.train()
    train_epoch(model,
                optimizer,
                criterion,
                train_loader,
                "cross_entropy",
                train_steper,
                writer)
    model.eval()
    val_loss = validate(model,
                        criterion,
                        test_loader,
                        "cross_entropy",
                        test_steper,
                        writer)
    scheduler.step(val_loss)

## Понижение шага обучения на каждой эпохе 

Домножать learning rate на gamma каждую эпоху

In [None]:
scheduler = torch.optim.lr_scheduler.StepLR(optimizer,
                                            step_size=2,
                                            gamma=0.1)

## Cyclical learning schedule


Мы можем не все время понижать learning rate, а делать это циклически - то понижать, то повышать. Делать это можно по-разному:


1. Постоянно оставлять одни и те же границы

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/cyclical_learning_schedule_permanent_confines.png" width="600">


2. Уменьшать верхнюю границу во сколько-то раз

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/cyclical_learning_schedule_reduce_confines.png" width="600">

<img src ="https://edunet.kea.su/repo/EduNet-content/L07/img_license/cyclical_learning_schedule_reduce_confines_smooth.png" width="600">

Нюанс - здесь мы ОБЯЗАТЕЛЬНО должны хранить модель с лучшим качеством. Такая оптимизация не гарантирует, что в конце модель будет лучше, чем на каком-то промежуточном шаге

### Подбираем границы learning rate



1. просто берем и либо делаем для каждого learning rate минимизацию одну эпоху (чтобы всю выборку увидеть), нейросетку для каждого значения learning rate инициализируем заново

Это долго

Потому  делаем "магию":

2. На каждое значение learning rate у нас будет лишь один батч, нейросетку для каждого learning rate не меняем. И это часто работает, так как нам нужна просто грубая прикидка

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/optimal_learning_rate_range.png" width="650">

[Transfer Learning In NLP](https://medium.com/modern-nlp/transfer-learning-in-nlp-f5035cc3f62f)

Полученные значения (оптимальные границы)  используем в качестве высокого и низкого порога на learning rate.

In [None]:
start_lr = 1e-8
end_lr = 10
lr_find_epochs = 2
steps = lr_find_epochs * len(train_loader)
smoothing = 0.05

In [None]:
model = SimpleMNIST_NN_Init_Batchnorm(n_layers=3).to(device)
criterion = nn.CrossEntropyLoss().to(device)
train_steper = Steper()
test_steper = Steper()

In [None]:
import math 

lrs = []
losses = []
optimizer = optim.SGD(model.parameters(), lr=1e-8)
lr_lambda = lambda x: math.exp(x * math.log(end_lr / start_lr) / (steps))

scheduler = torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda)

for epoch in tqdm(range(lr_find_epochs)):
    for batch in train_loader:
        optimizer.zero_grad()
        X_train, Y_train = batch
        X_train, Y_train = X_train.to(device), Y_train.to(device)
        Y_pred = model(X_train)
        loss = criterion(Y_pred, Y_train)

        loss.backward()
        optimizer.step()
        scheduler.step()

        loss = loss.detach().cpu().numpy()
        if len(losses) > 1:
            loss = smoothing * loss + (1 - smoothing) * losses[-1]
        losses.append(loss)
        lr_step = optimizer.state_dict()["param_groups"][0]["lr"]
        lrs.append(lr_step)

In [None]:
plt.figure(figsize=(20, 10))
plt.title("LR range selection", size=15)
plt.plot(np.log10(lrs), losses)
plt.xlabel("Learning rate (log10)",size=15)
plt.ylabel("Loss")
plt.show()

На этом графике нам нужен минимум. Это в районе 1e-1. Делим это число на 10. 
Нижняя граница, стало быть - 1e-2.

Снижение лосса начинается с learning rate в районе 1e-4. Его делим на 6

In [None]:
min_lr = 1e-4 / 6
max_lr = 1e-2

Этот scheduler надо применять после каждого батча. Потому перепишем train_epoch_sh

In [None]:
def train_epoch_sh(model,
                   optimizer,
                   scheduler,
                   criterion,
                   train_loader,
                   model_name,
                   steper,
                   writer):
    for batch in train_loader:
        optimizer.zero_grad()
        X_train, Y_train = batch
        X_train, Y_train = X_train.to(device), Y_train.to(device)
        Y_pred = model(X_train)
        loss = criterion(Y_pred, Y_train)
        writer.add_scalar(f"{model_name}_train_loss",
                          loss.cpu().detach().numpy(),
                          global_step=steper.global_step)
        loss.backward()
        optimizer.step()
        steper.step()
        scheduler.step()

### Запускаем

In [None]:
model = SimpleMNIST_NN_Init_Batchnorm(n_layers=3).to(device)
criterion = nn.CrossEntropyLoss().to(device)
train_steper = Steper()
test_steper = Steper()
writer = get_summary_writer("sgd_cycle_lr")
optimizer = optim.SGD(model.parameters(),
                      lr=min_lr)

scheduler = optim.lr_scheduler.CyclicLR(optimizer,
                                        base_lr=min_lr,
                                        max_lr=max_lr,
                                        mode="triangular")  # first case

По-хорошему, в коде ниже мы на каждой эпохе сохраняем лучшую модель. 

In [None]:
for epoch in tqdm(range(15)):
    model.train()
    train_epoch_sh(model,
                   optimizer,
                   scheduler,
                   criterion,
                   train_loader,
                   "cross_entropy",
                   train_steper,
                   writer)
    model.eval()
    val_loss = validate(model,
                        criterion,
                        test_loader,
                        "cross_entropy",
                        test_steper,
                        writer)

## Neural Network WarmUp

Также, для достаточно больших нейронных сетей практикуют следующую схему (**gradual warmup**, [изначальная статья](https://arxiv.org/pdf/1706.02677.pdf)):

Поставить изначальный learning rate значительно ниже того, с которого мы обычно начинаем обучение. За несколько эпох, например, 5, довести learning rate от этого значения до требуемого. За счет этого нейросеть лучше "адаптируется" к нашим данным. 

Также такой learning schedule позволяет адаптивным оптимизаторам лучше оценить значения learning rate для разных параметров

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L07/neural_network_warmup.png" width="1000">


kn на картинке - это размер одного батча

### Взаимодействие learning schedule и адаптивного изменения learning rate

И то, и другое меняет learning rate: learning scheduler - глобально, а адаптивные оптимизаторы - для каждого веса отдельно 

Часто их применяют вместе, особенно в случае критерия ранней остановки и WarmUp

Однако в случае циклического режима обучения так делают не всегда. Дело в том, что одна из его задач - как раз избежать использования адаптивных оптимизаторов, требующих бОльше памяти и дополнительных вычислений. 

Однако никаких препятствий к использованию того же Adam в компании вместе с циклическим режимом обучения нет. В [исходной статье](https://arxiv.org/pdf/2004.02401.pdf) так делают. 

<font size = "6"/> Ссылки:</font>

[A journey into Optimization algorithms for Deep Neural Networks](https://theaisummer.com/optimization/)

[Optimizers Explained - Adam, Momentum and Stochastic Gradient Descent](https://mlfromscratch.com/optimizers-explained/#adam)

[Батч-нормализация. In-layer normalization techniques for training very deep neural networks](https://theaisummer.com/normalization/)

[Циклический learning rate](https://towardsdatascience.com/adaptive-and-cyclical-learning-rates-using-pytorch-2bf904d18dee)

[Разные функции активации, затухающие и взрывающщиеся градиенты и т.д](https://mlfromscratch.com/activation-functions-explained/#/)

[Визуализация разных оптимизаторов в ipynb, но на tensorflow](https://nbviewer.jupyter.org/github/ilguyi/optimizers.numpy/blob/master/optimizer.tf.all.opt.plot.ipynb)