# 신경망(Neural Networks) : 학습(Learning)
## 비용함수(Cost function)

#### Neural Network (Classification)

<img src="./images/4-layers.png" width="300" align="left">

<br>
$$ \{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)}),
\} $$

$L = $ 네트워크 내의 전체 레이어 수

$s_l = $ 레이어 $l$ 내의 (바이어스 유닛을 제외) 유닛의 수 

<br>
<br>

**이진(Binary) 분류 (2 클래스)**:  $y = 0 $ or $1$

* 출력층 유닛 : 1개


**다중(Multi-class) 분류 (K 클래스)**

$y \in \mathbb{R}^K \quad $ e.g. $ \quad \begin{bmatrix} 1\\0\\0\\0 \end{bmatrix},\quad  \begin{bmatrix} 0\\1\\0\\0 \end{bmatrix},\quad \begin{bmatrix} 0\\0\\1\\0 \end{bmatrix},\quad \begin{bmatrix} 0\\0\\0\\1 \end{bmatrix}$

* 출력층 유닛 : K개

#### 비용함수(Cost function)

로지스틱 회귀:

$$J(\theta) = -{1 \over m} \left[  \sum_{i=1}^m y^{(i)} \log h_\theta(x^{(i)}) + (1- y^{(i)}) \log(1-h_\theta(x^{(i)}) ) \right] + {\lambda \over 2m} \sum_{j=1}^n \theta_j^2$$

<br>

신경망(뉴럴 네트워크):
$$h_\theta(x) \in \mathbb{R}^K \quad (h_\theta(x))_i = i^{th} \text{output}$$

$$J(\theta) = -{1 \over m} \left[  \sum_{i=1}^m \sum_{k=1}^K y_k^{(i)} \log (h_\theta(x^{(i)}))_k + (1- y_k^{(i)}) \log(1-(h_\theta(x^{(i)})_k) ) \right] \\
 + {\lambda \over 2m} \sum_{l=1}^{L-1}\sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} (\Theta_{ji}^{(l)})^2$$

## 역전파(Backpropagation) algorithm

#### Gradient computation

$$J(\theta) = -{1 \over m} \left[  \sum_{i=1}^m \sum_{k=1}^K y_k^{(i)} \log (h_\theta(x^{(i)}))_k + (1- y_k^{(i)}) \log(1-(h_\theta(x^{(i)})_k) ) \right] \\+ {\lambda \over 2m} \sum_{l=1}^{L-1}\sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} (\Theta_{ji}^{(l)})^2$$

$$\min_{\theta} J(\theta)$$

다음을 계산할 코드가 필요:
$$ J(\theta)$$

$${\partial \over \partial \Theta_{ij}^{(l)}} J(\theta) \quad \text{where } \Theta_{ij}^{(l)} \in \mathbb{R}$$

#### Gradient computation
주어진 하나의 훈련자료 $(x,y)$에 대하여:

전방 전파(Forward propagation):
<img src="./images/4-layers.png" width="300" align="right">

$a^{(1)} = x \quad ( \text{ add }a_0^{(1)} )$ 

$z^{(2)} = \Theta^{(1)} a^{(1)}$

$a^{(2)} = g(z^{(2)}) \quad ( \text{ add }a_0^{(2)} )$

$z^{(3)} = \Theta^{(2)} a^{(2)}$

$a^{(3)} = g(z^{(3)}) \quad (  \text{ add }a_0^{(3)}) $

$z^{(4)} = \Theta^{(3)} a^{(3)}$

$a^{(4)} = h_\theta(x) = g(z^{(4)}) $

<br>

<br>


#### 그라디언트 계산 : 역전파(Backpropagation):

직관: $\delta_j^{(l)} = $ 레이어 $l$ 내의 노드 $j$ 의 "에러".

<img src="./images/4-layers.png" width="300" align="right">

레이어 $L=4$ 의 출력층의 각 유닛에 대하여:

$\delta_j^{(4)} = a_j^{(4)} - y_j$
<br>
<br>

$\delta^{(3)} = (\Theta^{(3)})^T \delta^{(4)} .* g'(z^{(3)})$ 

where $ g'(z^{(3)}) = a^{(3)}.*(1-a^{(3)})$ 

$\delta^{(2)} = (\Theta^{(2)})^T \delta^{(3)} .* g'(z^{(2)}) $

NO $\delta^{(1)}$

<br>
$$ {\partial \over \partial \Theta_{ij}^{(l)}} J(\theta) = a_j^{(l)} \delta_i^{(l+1)} $$


#### 역전파 알고리즘

훈련자료 $ \{ (x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)}),  \} $

Set $\Delta_{ij}^{(l)} = 0 \quad (\text{ for all }l, i, j)$ 

For $i = 1 \text{ to } m$

$\quad \text{Set } a^{(1)} = x^{(i)} $

$\quad a^{(l)} \text{ 계산을 위해서 순방향 전파 시행 } (\text{ for } l=2,3,\cdots, L)$

$\quad y^{(i)} \text{ 를 사용하여 } \delta^{(L)} = a^{(L)} -y^{(i) }\text{ 계산 }$

$\quad \delta^{(L-1)}, \delta^{(L-2)}, \cdots, \delta^{(2)} \text{ 계산 }$

$\quad \Delta_{ij}^{(l)} := \Delta_{ij}^{(l)} + a_j^{(l)} \delta_i^{(l+1)} $

$ D_{ij}^{(l)} := {1 \over m} \Delta_{ij}^{(l)} +\lambda \Theta_{ij}^{(l)} \text{ if } j \ne 0 $ 

$ D_{ij}^{(l)} := {1 \over m} \Delta_{ij}^{(l)} \text{ if } j = 0 $ 

$${\partial \over \partial \Theta_{ij}^{(l)}} J(\theta) = D_{ij}^{(l)} $$

## 역전파 직관

<img src="./images/forward-prop.png" width="400">

<br>
<br>

#### 전방향 전파 (Forward Propagation)

<img src="./images/forward-prop2.png" width="600" height="400">

<br>
Given $(x^{(i)},y^{(i)}) \quad z_1^{(3)} = \Theta_{10}^{(2)} * 1 + \Theta_{11}^{(2)}  * a_1^{(2)} +\Theta_{12}^{(2)} * a_2^{(2)} $

<br>
<br>


**What is backpropagation doing?**

$$J(\theta) = -{1 \over m} \left[  \sum_{i=1}^m  y^{(i)} \log (h_\theta(x^{(i)})) + (1- y^{(i)}) \log(1-(h_\theta(x^{(i)})) ) \right] \\ + {\lambda \over 2m} \sum_{l=1}^{L-1}\sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} (\Theta_{ji}^{(l)})^2$$

<br>

출력유닛이 1인 한 예, $x^{(i)}, y^{(i)}$ 에 집중하고, 정규화를 무시하자 ($\lambda=0$),

$$ cost(i) =  -y^{(i)} \log h_\theta(x^{(i)}) - (1- y^{(i)}) \log (1-h_\theta(x^{(i)})) $$

<br>

(단순한 개념 이해를 위해서 $ cost(i) \approx ( h_\theta(x^{(i)}) - y^{(i)} )^2 $ 라고 생각하는 것도 바람직하다. )     
I.e. 네트워크가 예제 i에 대해서 얼마나 잘 수행하고 있습니까?

<br>

#### 역전파 (BackPropagation)


<img src="./images/forward-prop3.png" width="600">

$\delta_j^{(l)} = $ "error" of cost for $a_j^{(l)}$ ( unit $j$ in layer $l$   ). 

Formally, $\delta_j^{(l)} = {\partial \over \partial z_j^{(l)}} \text{cost}(i)$  (for $j \ge 0$), where 

$ \text{cost}(i) =  y^{(i)} \log h_\theta(x^{(i)}) + (1- y^{(i)}) \log h_\theta(x^{(i)}) $

## Gradient checking

<img src="./images/gradient_checking.PNG" width="500">

구현:
```
gradApprox = (J(theta+EPSILON) - J(theta-EPSILON)) / (2 * EPSILON)
```

#### 매개변수 벡터: $\theta$

$ \theta \in \mathscr{R}^n$  (E.g. $\theta$ is the elements of $\Theta^{(1)}, \Theta^{(2)},\Theta^{(3)}$,)

$\theta = \theta_1,  \theta_3, \theta_3,\cdots, \theta_n$

$$ { \partial \over \partial \theta_1 } J(\theta) \approx {j(\theta_1 + \epsilon, \theta_2, \theta_3, \cdots, \theta_n) - j(\theta_1 - \epsilon, \theta_2, \theta_3, \cdots, \theta_n) \over 2 \epsilon }$$

$$ { \partial \over \partial \theta_2 } J(\theta) \approx {j(\theta_1, \theta_2 + \epsilon, \theta_3, \cdots, \theta_n) - j(\theta_1, \theta_2 - \epsilon, \theta_3, \cdots, \theta_n) \over 2 \epsilon }$$

$\vdots$

$$ { \partial \over \partial \theta_n } J(\theta) \approx {j(\theta_1, \theta_2, \theta_3, \cdots, \theta_n + \epsilon) - j(\theta_1, \theta_2, \theta_3, \cdots,  \theta_n - \epsilon) \over 2 \epsilon }$$


```
for i = 1:n,
    thetaPlus = theta;
    thetaPlus(i) = thetsPlus(i) + EPSILON;
    thetaMinus = theta;
    thetaMinus(i) = thetsMinus(i) - EPSILON;
    gradApprox(i) = ( J(thetaPlus) - J(thetaMinus) ) / ( 2 * EPSILON);
end;
```
$\text{gradApprox} \approx DVec $ 를 확인한다.

#### 구현 노트 
- DVec을 계산하기 위해 역전파를 구현합니다.
- gradApprox를 계산하기 위해 수치 그라디언트 검사를 구현하십시오.
- 그것들이 비슷한 값을 제공하는지 확인하십시오.
- 그래디언트 검사를 끕니다. 학습에 역전파 코드 사용

**주의**
- 분류자를 훈련시키기 전에 그라디언트 검사 코드를 비활성화하십시오. 그래디언트 디센트의 모든 반복에서 (또는 costFunction (…)의 내부 루프에서) 수치 그래디언트 계산을 실행하면 코드가 매우 느려집니다.


## 무작위 초기화(Random initialization)

### $\theta$ 의 초기값

경사 하강 및 고급 최적화 방법의 경우 $\theta$의 초기 값이 필요합니다.

#### 0으로 초기화

<img src="./images/network-2.PNG" width="300" align="left" >

$\quad \Theta_{ij}^{(l)} = 0 \text{ for all } i,j,l $

$\quad a_1^{(2)} = a_2^{(2)}  $

$\quad \delta_1^{(2)} = \delta_2^{(2)}  $

<br>

<br>
$ {\partial \over \partial \Theta_{01}^{(1)} } J (\theta) ={\partial \over \partial \Theta_{02}^{(1)} } J (\theta) $

<br>
$  \Theta_{01}^{(1)} = \Theta_{02}^{(1)}  $

<br>


각 업데이트 후,두 개의 은닉층 단위 각각에 들어가는 입력에 해당하는 매개 변수는 동일합니다.


#### 무작위 초기화 : 대칭 파괴(Symmetry breaking)

각 $\Theta_{ji}^{(l)}$ 를 $[-\epsilon, \epsilon]$ 에 해당하는 무작위 값으로 초기화 합니다.
(i.e. $ -\epsilon \le \Theta_{ji}^{(l)} \le \epsilon$ )

E.g.
```
Theta1 = np.random.rand(10,11)* 2 * INIT_EPSILON - INIT_EPSILON;
Theta2 = np.random.rand(1,11)* 2 * INIT_EPSILON - INIT_EPSILON;
```

In [6]:
import numpy as np

INIT_EPSILON = 0.2

Theta1 = np.random.rand(10,11)* 2 * INIT_EPSILON - INIT_EPSILON;
Theta2 = np.random.rand(1,11)* 2 * INIT_EPSILON - INIT_EPSILON;

print(Theta1[0,:])
print(Theta2)

[-0.13486594 -0.0853921   0.19258017 -0.02586717  0.17687425  0.14745247
  0.10020735  0.15560329  0.06497756 -0.07675774  0.03892366]
[[-0.10257374  0.19076465  0.01394836 -0.04379767 -0.15168472  0.0225423
   0.01026747 -0.01896232 -0.09872743 -0.13060336 -0.10980879]]


### 모두 함께 모으기

#### 신경망 훈련하기

네트워크 아키텍처(뉴런 간의 연결 패턴) 선택 

<img src="./images/NN_architectures.PNG" width="600" >

- 입력 노드 수 : 특징 $x^{()}$ 의 개수
- 출력 노드 수 : 클래스 수
- 합리적인 기본값 :  1 개 또는 > 1 인 은닉층으로, 모든 증의 은닉 노드는 같은 수 (일반적으로 더 많으면 더 나음)



#### 신경망 훈련하기

1. 가중치를 무작위로 초기화
2. 임의의 $x^{(i)}$ 에 대한 $h_\theta(x^{(i)})$ 를 얻기 위한 전방향 전파를 구현
3. 비용 함수 $J(\theta)$ 를 계산하기위한 코드 구현
4. 편미분 함수 $ { \partial \over \partial \theta_{jk}^{(l)} }J(\theta)$  를 계산하기 위해 역전파 구현
```
for i=1:m {
    $(x^{(i)},y^{(i)})$를 사용한 전방향 전파와 역전파 수행
    $l = 1, \cdots, L$에 해당하는 활성값 $a^{(l)}$과 오차 $\delta^{(l)}$를 계산.
}
그라디언트 계산
```

5. 그라디언트 검사를 사용하여 역 전파를 사용하여 계산 한 $ { \partial \over \partial \theta_{jk}^{(l)} }J(\theta)$ 과 그라디언트의 수치 추정을 사용하여 비교합니다. 그런 다음 그라디언트 검사 코드를 비활성화하십시오.
6. 역전파를 사용한 경사하강 또는 고급 최적화 방법을 사용하여 매개 변수$\theta$ 의 함수 $J(\theta)$ 를 최소화 합니다.


<img src="./images/global_min.PNG" width="600" >


### 역전파 예 : 자동 주행
<img src="./images/auto_driving.png" width="600" >

[Link to Video]()