Coursera의 ['Deep Learning Specialization'](https://www.coursera.org/specializations/deep-learning#about) 중 Neural Networks and Deep Learning - Deep Neural Network를 요약한 것

# Deep Neural Network Notation

![Deep Neural Network](https://www.dropbox.com/s/ief695j340k96xn/deepnn.jpg?raw=1)

위의 Network는 Hidden Layer 3개(노드 갯수가 각각 5, 5, 3)와 1개의 Output Layer로 구성된 4-layer Neural Network이다. 이 Network의 Notation은 다음과 같다.
* L = 4, Network의 Layer 수
* $n^{[l]}$, Layer $l$의 노드 수
    * $n^{[1]}$ = 5
    * $n^{[2]}$ = 5
    * $n^{[3]}$ = 3
    * $n^{[L]}$ = 1
    * $n^{[0]}$ = $n_x$ = 3, Input Layer의 노드 수
* $a^{[l]}$ = $g^{[l]}(z^{[l]})$, Layer $l$의 activation
    * $a^{[0]}$ = x(= input features)
    * $a^{[L]}$ = $\hat{y}$
* $w^{[l]}$ & $b^{[l]}$, $z^{[l]}$의 weight

# Forward Propagation in a Deep Network

### 1개의 Training Sample x의 경우

* 1번째 Layer  
$$z^{[1]} = W^{[1]}x + b^{[1]} = W^{[1]}a^{[0]} + b^{[1]}$$
$$a^{[1]} = g^{[1]}(z^{[1]})$$
* 2번째 Layer
$$z^{[2]} = W^{[2]}a^{[1]} + b^{[2]}$$
$$a^{[2]} = g^{[2]}(z^{[2]})$$
$\vdots$
* 4번째 Layer
$$z^{[4]} = W^{[4]}a^{[3]} + b^{[4]}$$
$$a^{[4]} = g^{[4]}(z^{[4]}) = \hat{y}$$
  
$$\downarrow$$
  
$$z^{[l]} = W^{[l]}a^{[l-1]} + b^{[l]}$$
$$a^{[l]} = g^{[l]}(z^{[l]})$$

### 전체 Training Set의 경우

* 1번째 Layer
$$Z^{[1]} = W^{[1]}X + b^{[1]} = W^{[1]}A^{[0]} + b^{[1]} $$
$$A^{[1]} = g^{[1]}(Z^{[1]})$$
* 2번째 Layer
$$Z^{[2]} = W^{[2]}A^{[1]} + b^{[2]} $$
$$A^{[2]} = g^{[2]}(Z^{[2]})$$
$\vdots$
* 4번째 Layer
$$Z^{[4]} = W^{[4]}A^{[3]} + b^{[4]} $$
$$A^{[4]} = g^{[4]}(Z^{[4]}) = \hat{y}$$
  
$$\downarrow$$
  
$$Z^{[l]} = W^{[l]}A^{[l-1]} + b^{[l]} $$
$$A^{[l]} = g^{[l]}(Z^{[l]})$$

$$Z^{[l]} = \begin{bmatrix} | & | & \cdots & | \\ z^{[1](1)} & z^{[1](2)} & \cdots & z^{[1](m)} \\ | & | & \cdots & | \end{bmatrix}$$
$$A^{[l]} = \begin{bmatrix} | & | & \cdots & | \\ a^{[1](1)} & a^{[1](2)} & \cdots & a^{[1](m)} \\ | & | & \cdots & | \end{bmatrix}$$

# Getting Your Matrix Dimensions Right

![Deep Neural Network2](https://www.dropbox.com/s/5hvar2g2gkozbdd/Deepnn2.jpg?raw=1)

위의 Network의 Forward Propagation을 도입해보자.(bias 무시) 우선 Network의 Layer 수와 노드 수는 다음과 같다.  
* L = 5  
* $n^{[1]}$ = 3
* $n^{[2]}$ = 5
* $n^{[3]}$ = 4
* $n^{[4]}$ = 2
* $n^{[5]}$ = 1
* $n^{[0]}$ = $n_x$ = 2  

### Parameters $W^{[l]}$ and $b^{[l]}$

$z^{[1]}$과 x의 dimension을 살펴보면 다음과 같다.
* Dimension$(z^{[1]})$ = (3, 1) = ($n^{[1]}$, 1)
* Dimension$(x)$ = (2, 1) = ($n^{[0]}$, 1)

따라서 $W^{[1]}$의 dimension은 다음과 같다.
* Dimension$(w^{[1]})$ = (3, 2) = ($n^{[1]}$, $n^{[0]}$)

위와 같이 $W^{[2]}, \cdots, W^{[5]}$의 dimension은 다음과 같다.
* Dimension$(w^{[2]})$ = (5, 3) = ($n^{[2]}$, $n^{[1]}$)
* $\vdots$
* Dimension$(w^{[5]})$ = (1, 2) = ($n^{[5]}$, $n^{[4]}$)

이 것을 일반화 하면  
$$\text{Dimension}(W^{[l]}) = (n^{[l]}, n^{[l-1]})$$이 된다.

마찬가지로 $b^{[l]}$의 dimension을 살펴보면
* $b^{[1]}$ = (3, 1) = ($n^{[1]}, 1$)
* $b^{[2]}$ = (5, 1) = ($n^{[2]}, 1$)
* $\vdots$
* $b^{[5]}$ = (1, 1) = ($n^{[5]}, 1$)

이 것을 일반화 하면  
$$\text{Dimension}(b^{[l]}) = (n^{[l]}, 1)$$이 되고, dW는 W, db는 b와 같은 dimension을 갖는다.

### Vectorized Implementation

$$z^{[1]}_{(n^{[1]}, 1)} = W^{[1]}_{(n^{[1]}, n^{[0]})}x_{(n^{[0]}, 1)} + b^{[1]}_{(n^{[1]}, 1)}$$
$$\downarrow$$
$$Z^{[1]}_{(n^{[1]}, m)} = W^{[1]}_{(n^{[1]}, n^{[0]})}X_{(n^{[0]}, m)} + b^{[1]}_{(n^{[1]}, 1)}$$
Python의 broadcasting에 의해 $b^{[1]}_{(n^{[1]}, 1)}$은 $b^{[1]}_{(n^{[1]}, m)}$으로 됨

$$z^{[l]}, a^{[l]} : (n^{[l]}, 1)$$
  
$$Z^{[l]}, A^{[l]} : (n^{[l]}, m)$$
$$A^{[0]} = X = (n^{[0]}, m)$$
  
$$dZ^{[l]}, dA^{[l]} : (n^{[l]}, m)$$

# Forward and Backward Propagation

### Forward Propagation for layer $l$

* Input : $a^{[l-1]}$
* Output : $a^{[l]}, cache (z^{[l]})$
$$z^{[l]} = W^{[l]}a^{[l-1]} + b^{[l]}$$
  
$$a^{l} = g^{[l]}(z^{[l]})$$
  
$$\downarrow$$
  
$$Z^{[l]} = W^{[l]}A^{[l-1]} + b^{[l]}$$
  
$$A^{[l]} = g^{[l]}(Z^{[l]})$$

### Backward Progagation for layer $l$

* Input : $da^{[l]}$
* Output : $da^{[l-1]}, dW^{[l]}, db^{[l]}$
$$dz^{[l]} = da^{[l]} * g^{[l]\prime}(z^{[l]})$$
  
$$dW^{[l]} = dz^{[l]}a^{[l-1]}$$
  
$$db^{[l]} = dz^{[l]}$$
  
$$da^{[l-1]} = W^{[l]T}dz^{[l]}$$

$$\downarrow$$

$$dZ^{[l]} = dA^{[l]} * g^{[l]\prime}(Z^{[l]})$$

$$dW^{[l]} = \frac{1}{m}dZ^{[l]}A^{[l-1]T}$$

$$db^{[l]} = \frac{1}{m}np.sum(dZ^{[l]}, axis = 1, keepdims = True)$$

$$dA^{[l-1]} = W^{[l]T}dZ^{[l]}$$

# Parameters vs Hyperparameters

Hyperparameter들이 Parameter들을 컨트롤한다.
* Parameters : $W^{[1]}, b^{[1]}, W^{[2]}, b^{[2]}, W^{[3]}, b^{[3]}, \cdots$
* Hyperparameters : 
    * Learning rate $\alpha$
    * Iteration
    * Hidden Layer L
    * Hidden Units, $n^{[1]}, n^{[2]}, \cdots$
    * Activation function
    * Momentum
    * Minibatch size
    * regularization term
    * $\vdots$