# Weights Initialization

## 1. Zeros Initialization 

Given a 2-layer neural network:

* Input layer (layer 1): 2 nodes + 1 bias
* Hidden layer (layer 2): 3 nodes + 1 bias
* Output layer (layer 3): 2 output nodes

![](fig/nn_5.svg)

Tổng quát, ta có:

* $w_{ij}^{(1)} = m = const, \enspace \forall i,j \enspace(*)$
* $w_{ij}^{(2)} = n = const \enspace \forall i,j \enspace(*)$
* Consider a training example: $\{x_{0}, x_{1}, x_{2}\}$ has $x_{0}$ is bias $(x_{0}=1)$
* Cost function (Quadratic cost - MSE): $J = \frac{1}{2p}\sum_{j=1}^{j=p}\sum_{i=1}^{i=s}\big(y_{i}^{(j)} - a_{i}^{(j)}\big)^{2}$
* Activation function: $g\big(z\big) = \frac{1}{1 + e^{-z}}$
* $g'\big(z\big) = g\big(z\big)\big(1 - g\big(z\big)\big)$

### Forward pass

#### Layer 1

$
\begin{cases}
z_{1}^{(2)} = w_{10}^{(1)}x_{0} + w_{11}^{(1)}x_{1} + w_{12}^{(1)}x_{2} \\
z_{2}^{(2)} = w_{20}^{(1)}x_{0} + w_{21}^{(1)}x_{1} + w_{22}^{(1)}x_{2} \\
z_{3}^{(2)} = w_{30}^{(1)}x_{0} + w_{31}^{(1)}x_{1} + w_{32}^{(1)}x_{2}
\end{cases} \\
$

$
\iff (1)
\begin{cases}
z_{1}^{(2)} = w_{10}^{(1)}a_{0}^{(1)} + w_{11}^{(1)}a_{1}^{(1)} + w_{12}^{(1)}a_{2}^{(2)} \\
z_{2}^{(2)} = w_{20}^{(1)}a_{0}^{(1)} + w_{21}^{(1)}a_{1}^{(1)} + w_{22}^{(1)}a_{2}^{(2)} \\
z_{3}^{(2)} = w_{30}^{(1)}a_{0}^{(1)} + w_{31}^{(1)}a_{1}^{(1)} + w_{32}^{(1)}a_{2}^{(2)}
\end{cases}
$

$(*) \enspace and \enspace (1) \Rightarrow
\begin{cases}
z_{1}^{(2)} = m(x_{0} + x_{1} + x_{2}) \\
z_{2}^{(2)} = m(x_{0} + x_{1} + x_{2}) \\
z_{3}^{(2)} = m(x_{0} + x_{1} + x_{2}) 
\end{cases} \\
\Rightarrow z_{1}^{(2)} = z_{2}^{(2)} = z_{3}^{(3)} = m\big(\sum x_{i}\big) \\
\Rightarrow a_{1}^{(2)} = a_{2}^{(2)} = a_{3}^{(2)} = g\big(m\big(\sum x_{i} \big)\big) = k = const
$

#### Layer 2

$
\begin{cases}
z_{1}^{(3)} = w_{10}^{(2)}a_{0}^{(2)} + w_{11}^{(2)}a_{1}^{(2)} + w_{12}^{(2)}a_{2}^{(2)} + w_{13}^{(2)}a_{3}^{(2)} \\
z_{2}^{(3)} = w_{20}^{(2)}a_{0}^{(2)} + w_{21}^{(2)}a_{1}^{(2)} + w_{22}^{(2)}a_{2}^{(2)} +  w_{22}^{(2)}a_{3}^{(2)}
\end{cases} \\
\iff
\begin{cases}
z_{1}^{(3)} = n + nk + nk + nk \\
z_{2}^{(3)} = n + nk + nk + nk
\end{cases} \\
\iff
\begin{cases}
z_{1}^{(3)} = n(1+3k) \\
z_{2}^{(3)} = n(1+3k)
\end{cases} \\
\Rightarrow z_{1}^{(3)} = z_{2}^{(3)} = n(1+3k) \\
\Rightarrow a_{1}^{(3)} = a_{2}^{(3)} = g\big(n(1+3k)\big) = q = const
$

### Backward pass

**Derivation of cost function with respect to all weights at layer 2**

#### Layer 2

* 
$
\frac{\partial J}{\partial w_{ij}^{(2)}} = \delta_{i}^{(3)}a_{j}^{(2)} = 
\big[\big(a_{i}^{(3)} - y_{i}\big)g'\big(z_{i}^{(3)}\big)\big]k = 
\big[\big(q-y_{i}\big)q\big(1-q\big)\big]k
$


$
\Rightarrow \frac{\partial J}{\partial w_{ij^{(2)}}} = 
kq\big(1-q\big)\big(q-y_{i}\big)
$

Từ đây ta có thể suy ra được là các node ẩn *(hidden layer)* có cùng kết nối với node output *(output layer)* **i** thì trọng số sẽ được cập nhật như nhau.

Điều này có thể được hiểu như là đối với một node nào đó trong ouput layer sẽ "nhìn" các nodes ở lớp liền trước đó như nhau. Và nó đánh mất đi khả năng **representation** của NN.

#### Layer 1

* 
$
\frac{\partial J}{\partial w_{ij}^{(1)}} =
\delta_{i}^{(2)}a_{j}^{(1)} = \delta_{i}^{(2)}x_{j}^{(1)} = 
\sum_{j}\delta_{j}^{(3)}w_{ji}^{(2)} = 
\sum_{j}\Big\{\big[\big(a_{j}^{(3)} - y_{j}\big)g'\big(z_{j}^{(3)}\big)\big]n\Big\} = 
n\sum_{j}q\big(1-q\big)\big(q-y_{j}\big) = 
nq\big(1-q\big)\sum_{j}\big(q-y_{j}\big) \enspace (2)
$

Bởi vì n = 0 (zeros initialization) nên từ biểu thức (2) suy ra:

$$
\frac{\partial J}{\partial w_{ij}^{(1)}} = 0
$$

___

Suy ra các params ở lớp đầu tiên không cập nhật sau mỗi training example.

Và điều này cũng tương tự cho $p-1$ examples còn lại (**p: number of training examples**)

**Ở trên ta chỉ xét cho NN 2-layer nhưng cũng có thể tổng quát cho NN $k$-layer**

*Vậy, khi khởi tạo các parameters cùng bằng nhau mà cụ thể trong trường hợp này là `zero` thì các trọng số ở layer 1 sẽ không "learning" và nó sẽ ảnh hưởng đến các layer sau. Điều này dẫn đến NN sẽ đánh mất đi khả năng vốn có của nó là **representation** mà các linear classifier khác không có.*

*References:*

* https://machinelearningmastery.com/why-initialize-a-neural-network-with-random-weights/
* https://www.jeremyjordan.me/neural-networks-training/
* https://en.wikipedia.org/wiki/Backpropagation
* http://www.deeplearningbook.org/

(còn nữa)