### Understanding the difficulty of training deep feedforward neural networks (Glorot, X.,  Bengio, Y., 2010)
[Paper](http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf)

До исследования Йошуа Бенджи и Глоро Ксавьера инициализация весов нейронной сети осуществлялась с помощью равномерного распределения при следующих параметрах:
$$w_i \sim U[-\frac{1}{ \sqrt{n_{out}}}, \frac{1}{ \sqrt{n_{out}}} ] (*) $$ 

Рассмотрим рассуждение авторов:

1. Пусть:
    * Значение активации одного нейрона: $ y = w^Tx + b$;
    
    * $n_{out}$ - количество нейронов на последнем слое;
    
    
2. Тогда $Var(y)$ зависит только от $$Var(y) = Var(w^Tx + b) = w^Tx$$


3. Предположим, 

    1) Сл. вел. $w$ и $x$ - i.i.d и взаимно независимы;
    
    2) Используем __`симметричную функцию активации`__ и инициализируем веса модели со средним значением 0;


Раскроем $Var(y)$ как дисперсию произведения двух независимых случайных величин $w_ix_i$:

$$Var(y) = Var(w_ix_i) = E({{w_i}^2 {x_i}^2})- E(w_i x_i)^2 = E(X_i)^2Var(w_i) + E(w_i)^2Var(X_i) + Var(w_i)Var(x_i) $$ 

Что из 2) ведет к:

$$Var(y) = Var(w_ix_i) = Var(w_i)Var(x_i)$$

В этом случае, если  $x_i$ и $w_i$ инициализируются независимо друг от друга ( 1) ), то:

$$Var(y) = Var(\sum_{i}^{n_{out}}{y_i}) = Var(\sum_{i}^{n_{out}}{w_ix_i}) = n_{out}Var(w_i)Var(x_i),$$



Т.е. получается, дисперсия выхода пропорциональна дисперсии входа с коэффициентом $n_{out}Var(w_i)$


Тогда, дисперсия весов, сгенерированных непрерывным равномерным распределением (*):

[1]: https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)

$$Var(w_i) =  \frac{1}{12}(\frac{1}{ \sqrt{n_{out}}} + \frac{1}{ \sqrt{n_{out}}})^2 = \frac{1}{3n_{out}}. $$

Следовательно:

$$n_{out}Var(w_i) = \frac{1}{3}$$

Т.е. дисперсия результата каждого слоя уменьшается в 3 раза. __Что это означает? Vanishing signal!__

В общем случае:
$$
\begin{equation}
  n_{out}Var(w_i)
    \begin{cases}
      < 1 & \text{, vanishing signal,}\\
      = 1 & \text{, equal variance from one layer to another,}\\
      > 1 & \text{, exploiding signal;}
    \end{cases}       
\end{equation}
$$



Для беспрепятственного распространения значений активационной функции и градиента по всей сети необходимо удовлетворять двум условиям:

1. Дисперсия текущего слоя = дисперсии предыдущего слоя.
2. М.о.текущего слоя = м.о. предыдущего слоя.

Для этого предложено инициализировать веса очередного слоя симметричным распределением с дисперсией:

$$Var(w_i) = \frac{2}{n_{in} + n_{out}}$$

Для равномерной инициализации весов это приводит к распределению вида:

$$w_i \sim U[-\frac{\sqrt{6}}{ \sqrt{n_{in}+n_{out}}}, \frac{\sqrt{6}}{ \sqrt{n_{in}+n_{out}}} ]$$ 

Что и является Xavier-инициализацией весов на случай $U[a, b]-$распределения.

Ограничением Xavier является то, что он основывается на функции активации `tanh, симметричной относительно 0`. Вопрос, как лучше инициализировать веса в других случаях с несимметричными относительно 0 функциями, например, с `ReLU`, оставался открытым до выхода работы __(He, Kaiming, et al., 2015)__.

Поэтому, если приходится обучать модели "from scratch", можно следовать правилу:

1. Для симметричных функция активации - __Glorot Xavier-инициализация__.
2. Для несимметричных функций активации - __Kaiming He-инициализация__.

#### References:

* [Understanding the difficulty of training deep feedforward neural networks](http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf)
* [Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification](https://arxiv.org/pdf/1502.01852v1.pdf)
* https://www.deeplearning.ai/ai-notes/initialization/

#### Fashion MNIST example