**_심층신경망(DNN) 기본기_**


# 6. 인공신경망의 역전파

### _Objective_

1. 각 가중치의 그래디언트 계산을 위한 순전파, 역전파의 알고리즘을 전개해봅니다.

2. 텐서플로우로 역전파 알고리즘를 직접 구현하여 인공신경망의 학습 과정을 이해합니다.

3. 케라스로 구현한 모델의 역전파를 진행하여 그 결과를 확인합니다.

#### 필요한 패키지 호출

In [None]:
import numpy as np
import tensorflow as tf


## [1. 역전파 알고리즘 전개하기 ]

---

pass

### 역전파(Backpropagation)

---

`역전파(Backpropagation)`는 
1. 인공신경망의 학습을 위해 각 층의 가중치들의 그래디언트를 구하는 방법이다.
2. 출력층에서 입력층으로 신호(Error Signal)을 전달하며 진행된다.
3. 순전파에서 미리 계산해 둔 각 연산의 기울기를 이용한다.

![](./img/neuron_imgs_4.gif)


#### 순전파와 역전파 진행 순서

![6_2](./img/6_2.png)

### 순전파를 통한 각 층의 기울기 계산

---

각 측에서의  $\frac{\partial Z}{\partial W}$, $\frac{\partial Z}{\partial b}$, $\frac{\partial Z}{\partial X}$<br>
각 층에서의  $\frac{\partial a}{\partial Z}$<br>
손실에 대한  $\frac{\partial L}{\partial Y_{pred}}$

![6_slide2](./img/6_slide/6_2.png)

![6_slide](./img/6_slide/6_3.png)

![6_slide2](./img/6_slide/6_4.png)

![6_slide2](./img/6_slide/6_5.png)

![6_slide2](./img/6_slide/6_6.png)

![6_slide2](./img/6_slide/6_7.png)

![6_slide2](./img/6_slide/6_8.png)

![6_slide2](./img/6_slide/6_9.png)

![6_slide2](./img/6_slide/6_10.png)

![6_slide2](./img/6_slide/6_11.png)

![6_slide2](./img/6_slide/6_12.png)

![6_slide2](./img/6_slide/6_13.png)

![6_slide2](./img/6_slide/6_14.png)

![6_slide2](./img/6_slide/6_15.png)

![6_slide2](./img/6_slide/6_16.png)

### 학습에 필요한 그래디언트(Gradient)

---

각 층에서의 $\frac{\partial Loss}{\partial W}$, $\frac{\partial Loss}{\partial b}$

![6_slide2](./img/6_slide/6_17.png)

### 역전파를 통한 그래디언트 계산

---

+ 마지막 층에서부터 계산된 손실에 대한  $\frac{\partial L}{\partial \hat{Y}}$ 부터 시작
+ 한 층씩 전방으로 전파하여 미리 계산된 값과 함께 우리가 찾고자 하는 값을 계산<br>
"각 층에서의 $\frac{\partial Loss}{\partial W}$, $\frac{\partial Loss}{\partial b}$"

![6_slide2](./img/6_slide/6_19.png)

![6_slide2](./img/6_slide/6_21.png)

![6_slide2](./img/6_slide/6_22.png)

![6_slide2](./img/6_slide/6_23.png)

![6_slide2](./img/6_slide/6_24.png)

![6_slide2](./img/6_slide/6_25.png)

![6_slide2](./img/6_slide/6_26.png)

![6_slide2](./img/6_slide/6_27.png)

![6_slide2](./img/6_slide/6_28.png)

![6_slide2](./img/6_slide/6_29.png)

![6_slide2](./img/6_slide/6_30.png)

![6_slide2](./img/6_slide/6_31.png)

![6_slide2](./img/6_slide/6_32.png)

![6_slide2](./img/6_slide/6_33.png)

![6_slide2](./img/6_slide/6_34.png)

![6_slide2](./img/6_slide/6_35.png)

### 역전파 알고리즘 개괄

---



#### 역전파를 통해 알아야 하는 점 (1) 학습 순서

![6_slide2](./img/6_slide/6_37.png)

![6_slide2](./img/6_slide/6_38.png)

![6_slide2](./img/6_slide/6_39.png)

![6_slide2](./img/6_slide/6_41.png)

#### 역전파를 통해 알아야 하는 점 (2) 메모리

![6_slide2](./img/6_slide/6_43.png)

## [2. 텐서플로우를 활용한 역전파 구현하기]

---

pass

###  인공신경망 모델 구축하기
![6_1](./img/6_1.png)

+ 입력값 피쳐 수 2개 $x_1, x_2$
+ 출력값 라벨 수 1개 $Y_{pred}$
+ 은닉층 2개 $a^{[1]}, a^{[2]}$
+ 은닉층의 유닛 수 3개
+ 은닉층의 활성화 함수 : relu
+ 출력층은 활성화 함수를 적용하지 않음

#### 샘플 데이터 구성하기

In [None]:
X = tf.constant([[1.,2.]])
Y_true = tf.constant([[0.1]])

#### 임의의 가중치 세팅하기

In [None]:
# 첫번째 은닉층 : 세개의 유닛
W1 = tf.Variable([
    [0.5, 0.3, -0.4],
    [0.3, -0.5, 0.3]]) ## (2, 3) 모양
b1 = tf.Variable(
    [0.3, -0.3, 0.2])

In [None]:
# 두번째 은닉층 : 세 개의 유닛
W2 = tf.Variable([
    [0.1, -0.2, 0.5],
    [-0.2, 0.4, -0.3],
    [0.5, 0.3, 0.4]]) ## (3, 3) 모양
b2 = tf.Variable(
    [0.1, -0.6, 0.5])

In [None]:
# 출력층 : 한 개의 유닛
W3 = tf.Variable([
    [0.1], [0.5], [-0.3]]) ## (3, 1) 모양
b3 = tf.Variable([0.5])

### 첫번째 층에서의 순전파 진행

---

순전파 진행과 역전파를 위한 미분값 저장

#### 첫번째 층의 순전파

$Z^{[1]} = X*W^{[1]} + b^{[1]}$, $a^{[1]} = \max{(Z^{[1]},0)}$

In [None]:
with tf.GradientTape(persistent=True) as tape:
    tape.watch(X)
    
    Z1 = X @ W1 + b1
    a1 = tf.maximum(Z1, 0.)

print("Z1 :\n {}".format(Z1))
print("a1 :\n {}".format(a1))


#### 첫번째 층에서의 미분값 계산
$\frac{\partial Z^{[1]}}{\partial W^{[1]}}$, $\frac{\partial Z^{[1]}}{\partial b^{[1]}}$, $\frac{\partial Z^{[1]}}{\partial X}$와
$\frac{\partial a^{[1]}}{\partial Z^{[1]}}$

In [None]:
grad_Z1_W1 = tape.gradient(Z1,W1)

print(f"dZ1/dW1 : \n{grad_Z1_W1}")


In [None]:
grad_Z1_b1 = tape.gradient(Z1,b1)

print(f"dZ1/db1 : {grad_Z1_b1}")


In [None]:
grad_Z1_X = tape.gradient(Z1,X)

print(f"dZ1/dX : {grad_Z1_X}")


In [None]:
grad_a1_Z1 = tape.gradient(a1, Z1)

print(f"da1/dZ1 : {grad_a1_Z1}")


### 두번째 층에서의 순전파 진행

---

순전파 진행과 역전파를 위한 미분값 저장

#### 두번째 층의 순전파

$Z^{[2]} = a^{[1]}*W^{[2]} + b^{[2]}$, $a^{[2]} = \max{(Z^{[2]},0)}$

In [None]:
with tf.GradientTape(persistent=True) as tape:
    tape.watch(a1)
    
    Z2 = a1 @ W2 + b2
    a2 = tf.maximum(Z2, 0.)
    
print("Z2 :\n {}".format(Z2))
print("a2 :\n {}".format(a2))


#### 두번째 층에서의 미분값 계산
$\frac{\partial Z^{[2]}}{\partial W^{[2]}}$, $\frac{\partial Z^{[2]}}{\partial b^{[2]}}$, $\frac{\partial Z^{[2]}}{\partial a^{[1]}}$와
$\frac{\partial a^{[2]}}{\partial Z^{[2]}}$

In [None]:
grad_Z2_W2 = tape.gradient(Z2, W2)

print("dZ2/dW2 : {}".format(grad_Z2_W2))


In [None]:
grad_Z2_b2 = tape.gradient(Z2, b2)

print("dZ2/db2 : {}".format(grad_Z2_b2))


In [None]:
grad_Z2_a1 = tape.gradient(Z2,a1)

print("dZ2/da1 : {}".format(grad_Z2_a1))


In [None]:
grad_a2_Z2 = tape.gradient(a2, Z2)

print("da2/dZ2 : {}".format(grad_a2_Z2))


### 출력층에서의 순전파 진행

---

순전파 진행과 역전파를 위한 미분값 저장

#### 출력층의 순전파

$Z^{[3]} = a^{[2]}*W^{[3]} + b^{[3]}$

In [None]:
with tf.GradientTape(persistent=True) as tape:
    tape.watch(a2)
    
    Y_pred = a2 @ W3 + b3    
    
print("Y_pred :\n {}".format(Y_pred))


#### 출력층에서의 미분값 계산
$\frac{\partial y_{pred}}{\partial W^{[3]}}$, $\frac{\partial y_{pred}}{\partial b^{[3]}}$, $\frac{\partial y_{pred}}{\partial a^{[2]}}$

In [None]:
grad_Ypred_W3 = tape.gradient(Y_pred, W3)

print("dY_pred/dW3 : {}".format(grad_Ypred_W3))


In [None]:
grad_Ypred_b3 = tape.gradient(Y_pred, b3)

print("dY_pred/db3 : {}".format(grad_Ypred_b3))


In [None]:
grad_Ypred_a2 = tape.gradient(Y_pred, a2)

print("dY_pred/da2 : {}".format(grad_Ypred_a2))


### 손실함수 계산

---

손실함수 계산과 미분값 저장

#### 손실함수 계산 과정

$Loss = \frac{1}{n}\sum_{i=1}^{n}( y_{pred} - y_{true})^2$

In [None]:
with tf.GradientTape(persistent=True) as tape:
    tape.watch(Y_pred)
    Loss = tf.math.reduce_mean((Y_pred - Y_true)**2)
    
print("Loss :\n {}".format(Loss))


#### 손실함수 미분값 계산

$\frac{\partial {Loss}}{\partial {y_{pred}}}$

In [None]:
grad_Loss_Ypred = tape.gradient(Loss, Y_pred)

print("dLoss/dY_pred : {}".format(grad_Loss_Ypred))


### 역전파 진행

---

역전파를 진행하기 위해 전체 순전파 과정을 `tf.GradientTape`에 기록

In [None]:
with tf.GradientTape(persistent=True) as tape:
    tape.watch(X)
    
    Z1 = X @ W1 + b1
    a1 = tf.maximum(Z1, 0.)

    Z2 = a1 @ W2 + b2
    a2 = tf.maximum(Z2, 0.)
    
    Y_pred = a2 @ W3 + b3        
    Loss = (Y_pred - Y_true)**2

In [None]:
lr = 0.001

### 출력층에서의 역전파

---

순전파 과정에서 저장된 출력층에서의 기울기 계산

#### 출력층에서의 그래디언트 계산

$\frac{\partial Loss}{\partial W^{[3]}}$, $\frac{\partial Loss}{\partial b^{[3]}}$

In [None]:
grad_Loss_W3 = tape.gradient(Loss, W3)
grad_Loss_W3

In [None]:
grad_value = grad_Loss_Ypred * grad_Ypred_W3

tf.debugging.assert_equal(grad_Loss_W3, grad_value)


```python
" tape.gradient에서는 실제로 위와 같이 합성함수 미분법칙에 따라 계산합니다. "
```

In [None]:
grad_Loss_b3 = tape.gradient(Loss, b3)
grad_Loss_b3

In [None]:
grad_Loss_a2 = tape.gradient(Loss, a2)
grad_Loss_a2

#### 출력층에서의 가중치 갱신

$W^{[3]} := W^{[3]} - \lambda \frac{\partial Loss}{\partial W^{[3]}}$, 
$b^{[3]} := b^{[3]} - \lambda \frac{\partial Loss}{\partial b^{[3]}}$

In [None]:
W3.assign_sub(lr * grad_Loss_W3)
W3

In [None]:
b3.assign_sub(lr * grad_Loss_b3)
b3

### 두번째 층에서의 역전파

---

순전파 과정에서 저장된 두번째 층에서의 기울기 계산

#### 두번째 층에서의 그래디언트 계산

$\frac{\partial Loss}{\partial W^{[2]}}$, $\frac{\partial Loss}{\partial b^{[2]}}$

In [None]:
grad_Loss_Z2 = tape.gradient(Loss, Z2)
grad_Loss_Z2

In [None]:
grad_value = grad_Loss_a2 * grad_a2_Z2

tf.debugging.assert_equal(grad_Loss_Z2, grad_value)


```python
" tape.gradient에서는 실제로 위와 같이 합성함수 미분법칙에 따라 계산합니다. "
```

In [None]:
grad_Loss_W2 = tape.gradient(Loss, W2)
grad_Loss_b2 = tape.gradient(Loss, b2)
grad_Loss_a1 = tape.gradient(Loss, a1)

#### 두번째 층에서의 가중치 갱신

$W^{[2]} := W^{[2]} - \lambda \frac{\partial Loss}{\partial b^{[2]}}$, $b^{[2]} := b^{[2]} - \lambda \frac{\partial Loss}{\partial b^{[2]}}$

In [None]:
W2.assign_sub(lr * grad_Loss_W2)
W2

In [None]:
b2.assign_sub(lr * grad_Loss_b2)
b2

### 첫번째 층에서의 역전파

---

순전파 과정에서 저장된 첫번째 층에서의 기울기 계산

#### 첫번째 층에서의 그래디언트 계산

$\frac{\partial Loss}{\partial W^{[1]}}$, $\frac{\partial Loss}{\partial b^{[1]}}$

In [None]:
grad_Loss_Z1 = tape.gradient(Loss, Z1)
grad_Loss_Z1

In [None]:
grad_value = grad_Loss_a1 * grad_a1_Z1

tf.debugging.assert_equal(grad_Loss_Z1, grad_value)


```python
" tape.gradient에서는 실제로 위와 같이 합성함수 미분법칙에 따라 계산합니다. "
```

In [None]:
grad_Loss_W1 = tape.gradient(Loss, W1)
grad_Loss_b1 = tape.gradient(Loss, b1)
grad_Loss_X = tape.gradient(Loss, X)

#### 첫번째 층에서의 가중치 갱신


$W^{[1]} := W^{[1]} - \lambda \frac{\partial Loss}{\partial b^{[1]}}$, $b^{[1]} := b^{[1]} - \lambda \frac{\partial Loss}{\partial b^{[1]}}$

In [None]:
W1.assign_sub(lr * grad_Loss_W1)
W1

In [None]:
b1.assign_sub(lr * grad_Loss_b1)
b1

## [3. 케라스를 활용한 역전파 진행하기]

---

pass

###  인공신경망 모델 구축하기
![6_1](./img/6_1.png)

+ 입력값 피쳐 수 2개 $x_1, x_2$
+ 출력값 라벨 수 1개 $Y_{pred}$
+ 은닉층 2개 $a^{[1]}, a^{[2]}$
+ 은닉층의 유닛 수 3개
+ 은닉층의 활성화 함수 : relu
+ 출력층은 활성화 함수를 적용하지 않음

In [None]:
from tensorflow.keras.layers import Input
from tensorflow.keras.layers import Dense
from tensorflow.keras.models import Model


In [None]:
inputs = Input(2)
dense_1 = Dense(3,"relu")(inputs)
dense_2 = Dense(3, "relu")(dense_1)
outputs = Dense(1)(dense_2)

model = Model(inputs, outputs)


#### 학습이 진행될 모델의 가중치
![6_3](./img/6_3.png)

In [None]:
W1 = np.array([[0.5, 0.3, -0.4], [0.3, -0.5, 0.3]])
b1 = np.array([0.3, -0.3, 0.2])

W2 = np.array([[0.1, -0.2, 0.5],
               [-0.2, 0.4, -0.3],
               [0.5, 0.3, 0.4]])
b2 = np.array([0.1, -0.6, 0.5])

W3 = np.array([[0.1], [0.5],[-0.3]])
b3 = np.array([0.5])

model.set_weights([W1, b1, W2, b2, W3, b3])


### 모델로 역전파 진행하기

#### 모델의 순전파와 손실값 계산

In [None]:
with tf.GradientTape() as tape:
    Y_pred = model(X)
    Loss = tf.reduce_mean((Y_pred - Y_true)**2)
    

#### 각 층에서의 그래디언트 계산

In [None]:
model.trainable_weights

In [None]:
gradients = tape.gradient(Loss, model.trainable_weights)
gradients

#### 그래디언트에 의한 가중치 갱신

In [None]:
model.weights

In [None]:
for weights, grad in zip(model.trainable_weights, gradients):
    weights.assign_sub(lr * grad)

In [None]:
model.weights

---

## `6. 인공신경망의 역전파(Backpropagation)` 마무리


---

![](../../src/logo.png)