## 역전파
### 1. 인공 신경망의 이해
- 사용할 인공 신경망은 입력층, 은닉층, 출력층 3개의 층을 가짐
- 모든 뉴련은 활성화 함수로 시그모이드 함수를 사용

![](https://wikidocs.net/images/page/37406/nn1_final.PNG)

- 은닉층과 출력층의 변수 $z$는 이전층의 모든 입력 * 가중치의 값의 합 - 시그모이드 함수 거치기 전의 상태
- | 너머의 변수 $h$ 또는 $o$는 $z$가 시그모이드 함수를 지난 후의 값 - 각 뉴런의 출력값
- 모든 가중치 W에 대해서 역전파를 통해 업데이트가 목표

### 2. 순전파

![](https://wikidocs.net/images/page/37406/nn2_final_final.PNG)

- 파란색 숫자는 입력값, 빨간색 숫자는 가중치의 값
- 각 입력은 입력층에서 은닉층 방향으로 향하면서 각 입력에 해당하는 가중치와 곱해지고 가중합으로 계산되어 은닉층 뉴런의 시그모이드 입력값이 됨

$$z_1 = W_1x_1 + W_2x_2 = 0.3 \times 0.1 + 0.25 \times 0.2 = 0.08$$
$$z_2 = W_3x_1 + W_4x_2 = 0.4 \times 0.1 + 0.35 \times 0.2 = 0.11$$

- $z_1$과 $x_2$는 각각의 은닉층 결과에서 시그모이드 함수를 거침 - 리턴하는 결과값은 은닉층 뉴런의 최종 출력값 $h_1$, $h_2$

$$h_1 = sigmoid(z_1) = 0.51998934$$
$$h_2 = sigmoid(z_2) = 0.52747230$$

- $h_1$과 $h_2$는 출력층의 뉴런으로 향함, 다시 가중합으로 되어 출력층 뉴런의 시그모이드 함수의 입력값이 됨

$$z_3 = W_5h_1 + W_6h_2 = 0.45 \times h_1 + 0.4 \times h_2 = 0.44498412$$
$$z_4 = W_7h_1 + W_8h_2 = 0.7 \times h_1 + 0.6 \times h_2 = 0.68047591$$

- 손실 함수 선택 - 평균 제곱 오차 MSE

$$E_{o1} = \frac{1}{2}(target_{o1} - output_{o1})^2 = 0.02193381$$
$$E_{o2} = \frac{1}{2}(target_{o2} - output_{o2})^2 = 0.00203809$$
$$E_{total} = E_{o1} + E_{o2} = 0.02397190$$

### 3. 역전파 1단계
- 역전파는 출력층에서 입력층 방향으로 계산하면서 업데이트

![](https://wikidocs.net/images/page/37406/nn3_final.PNG)

- 역전파 1단계에서 업데이트 할 가중치는 $W_5$, $W_6$, $W_7$, $W_8$
- $W_{5}$를 업데이트 하기 위해 $\frac{∂E_{total}}{∂W_{5}}$ 계산
- $\frac{∂E_{total}}{∂W_{5}}$ 계산하기 위해 ***미분의 연쇄 법칙***에 따라 풀어씀

$$\frac{∂E_{total}}{∂W_{5}} = \frac{∂E_{total}}{∂o_{1}} \times \frac{∂o_{1}}{∂z_{3}} \times \frac{∂z_{3}}{∂W_{5}}$$

- 첫번째 항 계산
- $E_{total}$은 순전파를 진행하고 계산했던 전체 오차
$$E_{total}=\frac{1}{2}(target_{o1}-output_{o1})^{2} + \frac{1}{2}(target_{o2}-output_{o2})^{2}$$

$$\frac{∂E_{total}}{∂o_{1}}=2 \times \frac{1}{2}(target_{o1}-output_{o1})^{2-1} \times (-1) + 0$$

$$\frac{∂E_{total}}{∂o_{1}}=-(target_{o1}-output_{o1})=-(0.4-0.60944600)=0.20944600$$

- 두번째 항 계산
- 시그모이드 함수의 미분은 $f(x) \times (1-f(x))$

$$\frac{∂o_{1}}{∂z_{3}}=o_{1}\times(1-o_{1})=0.60944600(1-0.60944600)=0.23802157$$

- 세번째 항 계산
$$\frac{∂z_{3}}{∂W_{5}}=h_{1}=0.51998934$$

- 우변의 모든 항 계산 후 값을 곱해주기
$$\frac{∂E_{total}}{∂W_{5}} = 0.20944600 \times 0.23802157 \times 0.51998934 = 0.02592286$$

- 경사 하강법을 통해 가중치 업데이트
- 학습률이 0.5라고 가정하면
$$W_{5}^{+}=W_{5}-α\frac{∂E_{total}}{∂W_{5}}=0.45- 0.5 \times 0.02592286=0.43703857$$

- 같은 원리로 계산하면
$$\frac{∂E_{total}}{∂W_{6}} = \frac{∂E_{total}}{∂o_{1}} \times \frac{∂o_{1}}{∂z_{3}} \times \frac{∂z_{3}}{∂W_{6}} → W_{6}^{+}=0.38685205$$
$$\frac{∂E_{total}}{∂W_{7}} = \frac{∂E_{total}}{∂o_{2}} \times \frac{∂o_{2}}{∂z_{4}} \times \frac{∂z_{4}}{∂W_{7}} → W_{7}^{+}=0.69629578$$
$$\frac{∂E_{total}}{∂W_{8}} = \frac{∂E_{total}}{∂o_{2}} \times \frac{∂o_{2}}{∂z_{4}} \times \frac{∂z_{4}}{∂W_{8}} → W_{8}^{+}=0.59624247$$

### 4. 역전파 2단계
![](https://wikidocs.net/images/page/37406/nn4.PNG)
- 다시 입력층 방향으로 이동하여 계산
- 원리는 1단계와 동일
$$W_{1}^{+}=W_{1}-α\frac{∂E_{total}}{∂W_{1}}=0.1- 0.5 \text{×} 0.00080888=0.29959556$$

$$\frac{∂E_{total}}{∂W_{2}} = \frac{∂E_{total}}{∂h_{1}} \text{×} \frac{∂h_{1}}{∂z_{1}} \text{×} \frac{∂z_{1}}{∂W_{2}}  → W_{2}^{+}=0.24919112$$

$$\frac{∂E_{total}}{∂W_{3}} = \frac{∂E_{total}}{∂h_{2}} \text{×} \frac{∂h_{2}}{∂z_{2}} \text{×} \frac{∂z_{2}}{∂W_{3}}  → W_{3}^{+}=0.39964496$$

$$\frac{∂E_{total}}{∂W_{4}} = \frac{∂E_{total}}{∂h_{2}} \text{×} \frac{∂h_{2}}{∂z_{2}} \text{×} \frac{∂z_{2}}{∂W_{4}} → W_{4}^{+}=0.34928991$$

### 5. 결과 확인
![](https://wikidocs.net/images/page/37406/nn1_final.PNG)
- 순전파 진행
$$z_{1}=W_{1}x_{1} + W_{2}x_{2}=0.29959556 \text{×} 0.1 + 0.24919112 \text{×} 0.2= 0.07979778$$
$$z_{2}=W_{3}x_{1} + W_{4}x_{2}=0.39964496 \text{×} 0.1 + 0.34928991 \text{×} 0.2= 0.10982248$$
$$h_{1}=sigmoid(z_{1}) = 0.51993887$$
$$h_{2}=sigmoid(z_{2}) = 0.52742806$$
$$z_{3}=W_{5}h_{1}+W_{6}h_{2} = 0.43703857 \text{×} h_{1} + 0.38685205 \text{×} h_{2} = 0.43126996$$
$$z_{4}=W_{7}h_{1}+W_{8}h_{2} = 0.69629578 \text{×} h_{1} + 0.59624247 \text{×} h_{2} = 0.67650625$$
$$o_{1}=sigmoid(z_{3})=0.60617688$$
$$o_{2}=sigmoid(z_{4})=0.66295848$$
$$E_{o1}=\frac{1}{2}(target_{o1}-output_{o1})^{2}=0.02125445$$
$$E_{o2}=\frac{1}{2}(target_{o2}-output_{o2})^{2}=0.00198189$$
$$E_{total}=E_{o1}+E_{o2}=0.02323634$$

- 기존의 전체 오차 $E_{total}$에 비해 오차 감소 확인