# Backpropagation

오차역전파 알고리즘으로 해석되는 Backpropagation 알고리즘은 인공 신경망 모델을 학습시키는 알고리즘이다. Gradient Descent Method와 Chain rule에 의해 과정을 설명할 수 있다. 아주 간단한 예시를 통해 과정을 이해해보자.

#### Single Neuron Training

![img1](./img/img1.png)
- 위와 같이 뉴런 하나짜리 모델을 학습시키는 과정을 보자.
- 먼저 뉴런에 input $x$가 들어가면 출력값은 output $y$이다. 그렇다면 어떤 과정을 거쳐서 $x$가 $y$값으로 출력되는 것일까?
    - 기본적으로 $x$에 weight와 bias가 붙어서 $\sigma$ 값이 된다.$$\sigma(x)=W\cdot{x}+b$$
    - $\sigma$는 미리 정의한 activation fuction $f$의 입력값으로 들어가고 그 결과 $y$가 출력값으로 나온다.$$f(\sigma)=y$$
- 이처럼 $x$가 뉴런에 들어가서 $y$로 되는 과정을 Feedforward 방식이라고 한다. 말 그대로 결과값을 계속 다음 함수의 입력값으로 사용하면서 나아가는 방식이다.

위 모델에서 $W=2$, $b=1$로 놓고 activation function을 identity function($y=x$)으로 가정하고 계산을 해보자.
- ![img2](./img/img2.png)
- $x$가 위와 같이 주어졌을때 $y$가 계산되어서 나온다.

그러면 이제 우리는 저 뉴런이 고정된 입력 $x$가 들어갔을때 우리가 원하는 $y$값을 가지도록 하고 싶다. 예를 들어 $x=1$일때 $y=4$를 가지게 하고 싶다면 $W=2, b=2$ 또는 $W=4, b=0$ 이렇게 weight와 bias를 조정해주면 된다. 하지만, 뉴런의 개수가 많아지고 숫자가 저렇게 단순하지 않게 되면 일일이 weight와 bias를 바꿔가면서 $y$가 나오는지 확인하는 것은 무리가 있다. Backpropagation은 저 weight와 bias를 "이런 방식으로 바꾸겠다" 라고 하는 것이다. 그렇다면 '이런 방식'은 무엇일까??

뉴런을 통해 출력된 값 $y$와 우리가 원하는 값 $y_{target}$의 차이를 나타내는 $E$를 도입해보자.$$E = \frac{1}{2}(y_{target}-y)^{2}$$

$E$가 0이 되면 우리가 원하는 $y_{target}$값이 출력되는 것이므로 $E$를 최소화 시키는 $W,b$를 찾으면 된다. 위 식을 그래프로 그려보면 
- ![img3](./img/img3.png)

여기서 Gradient Descent 개념이 나온다. 위 그래프에서 $E$가 최소인 지점으로 가기 위해서는 기울기가 작아지는 쪽으로 $W$를 갱신시켜야 한다. 이 때 learning rate $\alpha$를 도입해서 다음과 같은 식을 세운다. $$W_{updated}=W-\alpha\cdot{\frac{\partial{E}}{\partial{W}}}$$

$\alpha$는 한번 update시킬때 얼마만큼 움직일지를 결정하는 것으로 항상 양수로 정하고 가는 수다. 그렇다면 이제 Gradient값(${\frac{\partial{E}}{\partial{W}}}$)만 알면 W를 갱신할 수 있다. 

FeedFoward 과정을 보면 계산 결과값이 다음 계산의 입력값으로 사용되고 그 결과로 $y$가 나오는 것을 볼 수 있다. 즉, 각 계산의 변화율을 통해서 우리가 알고자 하는 값인 ${\frac{\partial{E}}{\partial{W}}}$를 알 수 있다는 것이다. 

![img4](./img/img4.png)
- 즉, ${\frac{\partial{E}}{\partial{W}}}$ 를 알아내기 위한 식을 써보면 $${\frac{\partial{E}}{\partial{W}}}={\frac{\partial{E}}{\partial{y}}}\cdot{\frac{\partial{y}}{\partial{f}}}\cdot{\frac{\partial{f}}{\partial{\sigma}}}\cdot{\frac{\partial{\sigma}}{\partial{W}}}$$

위 식에서 각각의 값을 모두 구해서 곱해주면 Gradient값을 알 수 있다. 순서대로 해보면 
- $E$를 $y$에 대해 미분하면  $E = \frac{1}{2}(y_{target}-y)^{2}$ 이므로 $y-y_{target}$
- $y$를 $f$에 대해 미분하면 $f$가 결국 $y$이므로 $f=y$, 따라서 1
- $f$를 $\sigma$에 대해 미분하면(우리는 f를 $y=x$로 가정했으므로) 1
- $\sigma$를 $W$에 대해 미분하면 $\sigma(x)=W\cdot{x}+b$ 이므로 $x$


결국 Gradient 값은 $${\frac{\partial{E}}{\partial{W}}}=(y-y_{target})\cdot{1}\cdot{1}\cdot{x}$$

$x=1$일때 출력값 $y=3$이고 우리가 원하는 $y_{target}=4$이므로 각각 대입해서 계산하면 Gradient값은 $-1$이 나온다. 그러면 이 값을 위에 $W$갱신식에 넣고 계산하면($\alpha=0.1$로 가정) $$W_{updated}=2-0.1\cdot{(-1)}=2.1$$

즉, $W=2.1$이 되면 $E$가 전보다 줄어든다는 것이다. 이런 방식으로 갱신을 여러번 시키다가 $E$가 최소가 되는 점에 이르면 우리가 원하는 $y_{target}$값을 가지게 하는 $W,b$를 찾은 것이다.

이 과정을 코드로 구현해보자.

In [1]:
import tensorflow as tf

In [2]:
class Neuron(object):
  def __init__(self, w_,b_):
    self.w_ = tf.Variable(w_, name='weight')
    self.b_ = tf.Variable(b_, name='bias')
    self.output_ = tf.constant(0.0)
    
    self.input_ = tf.placeholder(tf.float32, shape=[1], name='input_')
    self.target_ = tf.placeholder(tf.float32, shape=[1], name='output_')
 
  def getActivation(self, x): # y=x
    return x
  
  def getActivationGradient(self, sigma): # Activation function 미분값
    return 1.0
  
  def propBackWard(self): # learning rate = 0.1
    lr = 0.1
    
    grad = (self.output_ - self.target_) * self.getActivationGradient(self.output_)
    self.w_ = self.w_ - (lr * grad * self.input_)
    self.b_ = self.b_ - (lr * grad * 1.0)
    
    return self.feedforward()
  
  def feedforward(self):
    sigma = self.w_ * self.input_ + self.b_
    self.output_ = self.getActivation(sigma)
    return self.output_

In [3]:
my_neuron = Neuron(2.0, 1.0) # 초기 W=2,b=1

x = [1.0]
y = [4.0]

In [4]:
# 모델 학습
with tf.Session() as sess:
  sess.run(tf.global_variables_initializer())
  print(sess.run(my_neuron.feedforward(), feed_dict={my_neuron.input_: x, my_neuron.target_: y}))
  
  for i in range(100):
    print(i)
    print(sess.run(my_neuron.propBackWard(), feed_dict={my_neuron.input_: x, my_neuron.target_: y}))
    print(sess.run([my_neuron.w_, my_neuron.b_], feed_dict={my_neuron.input_: x, my_neuron.target_: y}))

[ 3.]
0
[ 3.19999981]
[array([ 2.0999999], dtype=float32), array([ 1.10000002], dtype=float32)]
1
[ 3.3599999]
[array([ 2.17999983], dtype=float32), array([ 1.18000007], dtype=float32)]
2
[ 3.48799992]
[array([ 2.24399996], dtype=float32), array([ 1.24400008], dtype=float32)]
3
[ 3.59039998]
[array([ 2.29519987], dtype=float32), array([ 1.29520011], dtype=float32)]
4
[ 3.67231989]
[array([ 2.33615994], dtype=float32), array([ 1.33616006], dtype=float32)]
5
[ 3.73785591]
[array([ 2.36892796], dtype=float32), array([ 1.36892807], dtype=float32)]
6
[ 3.79028463]
[array([ 2.39514232], dtype=float32), array([ 1.39514244], dtype=float32)]
7
[ 3.83222771]
[array([ 2.41611385], dtype=float32), array([ 1.41611397], dtype=float32)]
8
[ 3.86578226]
[array([ 2.43289113], dtype=float32), array([ 1.43289125], dtype=float32)]
9
[ 3.89262581]
[array([ 2.4463129], dtype=float32), array([ 1.44631302], dtype=float32)]
10
[ 3.91410065]
[array([ 2.45705032], dtype=float32), array([ 1.45705044], dtype=float

학습 결과를 보면 64번째부터 $W,b$값이 바뀌지 않음을 보이고 있다. 저 시점에 $E$가 최소가 되는 점에 도달했음을 의미한다.

### References

- lecture : https://www.youtube.com/watch?v=ZMgax46Rd3g - 뉴런 하나를 학습시키기