# Neural Network

![img](imgs/c212-neural-network.jpg)

### Single Layer to Multi-Layer

單一層可以做到 OR / AND 的運算判別，但無法進行 XOR 的運算。

使用雙層就可以做到 XOR。

### tansformation function

<img src="imgs/c212-tanh.png" style="float:right" />

透過每一個 tanh 函數 (也可能是別的) 做階梯狀的切割

$$
\tanh(s) = \frac{exp(s) - exp(-s)}{exp(s) + exp(-s)} = 2 \theta \big( 2 s \big) - 1
$$

### notations

試想有 L 層的 NNet: 

$ d^{(0)} $ 是第零層的節點數  
輸入的原資料: $ x_0=1, x_1, x_2, \cdots, x_d $

$
d^{(0)} \to d^{(1)} \to d^{(2)} \to \cdots \to d^{(L)}
$

進入下一層的加權 w

$$
w_{ij}^{(\mathscr{l})} : 
\begin{cases}
1 \le \mathscr{l} \le L & : layers \\
0 \le i \le d^{(\mathscr{l}-1)} & : inputs \\
1 \le j \le d^{(\mathscr{l})} & : outputs
\end{cases}
$$

每層的分數計算 score: (進入轉換前)

$$
s_j^{(\mathscr{l})} = \sum_{i=0}^{d^{(\mathscr{l}-1)}}  w_{ij}^{(\mathscr{l})} x_i^{(\mathscr{l}-1)}
$$

每層的 $ x_i^{(\mathscr{l})} $ : (轉換後得到的下一輪 x)

$$ 
x_i^{(\mathscr{l})} = 
\begin{cases}
tanh(s_j^{(\mathscr{l})}) : & if \ \mathscr{l} \lt L \\
s_j^{(\mathscr{l})} : & if \ \mathscr{l} = L
\end{cases}
$$

### NNet Example

NNet 3 layers : 3 - 2 - 3

產生第一層的輸出 $ x^{(1)}_0=+1,\ \  x^{(1)}_1, \ \  x^{(1)}_2 $

$$
\begin{bmatrix}
x_0 & x_1 & x_2 & x_3
\end{bmatrix} \ \ 
\begin{bmatrix}
w^{(1)}_{01} & w^{(1)}_{02} \\
w^{(1)}_{11} & w^{(1)}_{12} \\
w^{(1)}_{21} & w^{(1)}_{22} \\
w^{(1)}_{31} & w^{(1)}_{32} \\
\end{bmatrix} =
\begin{bmatrix}
s^{(1)}_1 & s^{(1)}_2
\end{bmatrix}
\\
\\
\begin{bmatrix}
+1 & tanh(s^{(1)}_1) & tanh(s^{(1)}_2)
\end{bmatrix} = 
\begin{bmatrix}
+1 & x^{(1)}_1 & x^{(1)}_2
\end{bmatrix}
$$

產生第二層的輸出 $ +1, x^{(2)}_1, x^{(2)}_2, x^{(2)}_3 $

$$
\begin{bmatrix}
x^{(1)}_0 & x^{(1)}_1 & x^{(1)}_2
\end{bmatrix} \ \ 
\begin{bmatrix}
w^{(2)}_{01} & w^{(2)}_{02} & w^{(1)}_{03} \\
w^{(2)}_{11} & w^{(2)}_{12} & w^{(1)}_{13} \\
w^{(2)}_{21} & w^{(2)}_{22} & w^{(1)}_{23} \\
\end{bmatrix} =
\begin{bmatrix}
s^{(2)}_1 & s^{(2)}_2 & s^{(2)}_3
\end{bmatrix}
\\
\\
\begin{bmatrix}
+1 & tanh(s^{(2)}_1) & tanh(s^{(2)}_2) & tanh(s^{(2)}_3)
\end{bmatrix} = 
\begin{bmatrix}
+1 & x^{(2)}_1 & x^{(2)}_2 & x^{(2)}_3
\end{bmatrix}
$$

當兩個向量越相似(平行)，內積越大; $ \vec{x} \cdot \vec{w} $ 越相似，得出的 s 大，tanh(s) 才作用輸出下一層的 x

可以看作符合某種模式。

GOAL: learn all $ \big\{ w_{ij}^{(\mathscr{l})} \big\} $ to **minimize** $ E_{in} \Big( \big\{ w_{ij}^{(\mathscr{l})} \big\} \Big) $

如果是只有一層的 hidden layer, 就是 aggregation of perceptrons 可以用 gradient boosting.  
到了多層時，不是那麼容易；可以令結果是 $ NNet(x_n) $, 目標是:

最小化 $ e_n = \big( y_n - NNet(x_n) \big)^2 $ 

如果可以知道 $ w_{ij} $ 的變化對 $ e_n $ 的影響, 也就是 : 

$$
\frac{\partial \ e_n}{\partial \  w_{ij}^{(\mathscr{l})} } 
$$

就可以用 (Stochastic) Gradient Descent

### 先看最後一層 L

先看最後一層的 $ \frac{\partial \ e_n}{\partial \  w_{i1}^{(L)} } $ 是什麼。  
$ j = 1 $, 因為是最後一層。  
NNet(x) 的輸出其實就是最後一層唯一一個神經元的分數 s,  
這個分數使用前一層的 w, x 來 $ \sum $ 算出的

$$
\begin{align}
e_n = & \big( y_n - & NNet(x_n) \big)^2 \\
    = & \big( y_n - & s_1^{(L)} \big)^2 \\
    = & \Big( y_n - & \sum_{i=0}^{d^{(L-1)}} w_{i1}^{(L)} x_i^{(L-1)} \Big)^2 \\    
\end{align}
$$

據此來求得 e 對 w 的偏微分，可以先利用連鎖律 chain rule, 然後分別求 e對s, s對w 的偏微分結果，如下:

$$ 
\frac{\partial \ e_n}{\partial \  w_{i1}^{(L)} } \\
= \frac{\partial \ e_n}{\partial \  s_1^{(L)}} \times \frac{\partial \ s_1^{(L)}}{\partial \  w_{i1}^{(L)}} \\
= -2 \big( y_n - s_1^{(L)} \big) \cdot \big( x_i^{(L-1)} \big)
$$



### 延伸到每一層

延伸到每一層  
$ 1 \le \mathscr{l} \lt L$  
$ 0 \le i \le d^{(\mathscr{l}-1)} $  
$ 1 \le j \le d^{(\mathscr{l}-1)} $


$$ 
\frac{\partial \ e_n}{\partial \  w_{ij}^{(\mathscr{l})} } \\
= \frac{\partial \ e_n}{\partial \  s_j^{(\mathscr{l})}} \times \frac{\partial \ s_j^{(\mathscr{l})}}{\partial \  w_{ij}^{(\mathscr{l})}} \\
= \delta_j^{(\mathscr{l})} \cdot \big( x_i^{(\mathscr{l}-1)} \big)
$$

令 $ \delta_j^{(\mathscr{l})} = \frac{\partial \ e_n}{\partial \  s_j^{(\mathscr{l})}} $ : 錯誤 e 對於第 $ \mathscr{l} $ 層分數 s 的變化量，最後一層 L 的例子上:

$$
\delta_1^{(L)} = -2 \big( y_n - s_1^{(L)} \big)
$$

### Backpropagation

![img](imgs/c212-backprop.png)

## Backpropagation (Backprop) Algorithm

Backprop on NNet

initial all weights $ w_{ij}^{(\mathscr{l})} $,  
for t = 0, 1, ..., T

STEP 1 : Stochastic: randomly pick $ n \in \{ 1, 2, \cdots, N \} $

STEP 2 : Forward: compute all $ x_i^{(\mathscr{l})} $ with $ x^{(0)} = x_n $

STEP 3 : Backward: compute all $ \delta_j^{(\mathscr{l})} subject \ \ to \ \ x^{(0)} = x_n $

STEP 4 : Gradient Descent: $ w_{ij}^{(\mathscr{l})} \leftarrow w_{ij}^{(\mathscr{l})} - \eta \ x_i^{(\mathscr{l} - 1)} \ \delta_j^{(\mathscr{l})} $

return 

$$
g_{NNET} \big(x\big) = 
\Big(
\cdots \ \ 
tanh \big(
\sum_j w_{jk}^{(2)} \cdot tanh ( \sum_i w_{ij}^{(1)} x_i )
\big)
\Big)
$$

### Mini-Batch

Step 1 ~ 3 is done parallelly many times and averate $ \big( x_i^{(\mathscr{l} - 1)} \ \delta_j^{(\mathscr{l})} \big) $ taken for update in Step 4, called mini-batch.

Stochastic : 可以每次取多個，做平均梯度下降。