In [22]:
import numpy as np

## 1 Back Propagation

Loss_function을 최소화하는 weight를 찾기 위해서는 gradient를 계산해야한다.

Gradient를 계산하는 방법에는 Numerical gradient(아주 작은 차분으로 미분)와 Analytic gradient(수식을 전개하여 미분)가 있다. 

오차역전파법을 이용하면 매개변수가 많아도 효율적으로 계산할 수 있어서 앞으로는 Analytic grdient를 사용할 것. 

그렇다고 수치미분이 필요없는 것이 아니라 오차 역전파법을 정확히 구현했는지 확인하기 위해 필요

![](https://user-images.githubusercontent.com/36406676/52531322-a2022e00-2d56-11e9-87ce-2f32240e97cd.PNG)

In [5]:
# TwoLyaernet은 numpy로 구현된 2layer network. 수치미분과 백프로파 비교.

import sys, os
sys.path.append(os.pardir)
import numpy as np
from dataset.mnist import load_mnist
from two_layer_net import TwoLayerNet

# 데이터 읽기 
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label = True)

network = TwoLayerNet(input_size = 784, hidden_size = 50, output_size = 10)

x_batch = x_train[:3]
t_batch = t_train[:3]

grad_numerical = network.numerical_gradient(x_batch, t_batch)
grad_backprop = network.gradient(x_batch, t_batch)

# 각 가중치의 차이의 절댓값을 구한 후, 그 절대값들의 평균을 낸다
for key in grad_numerical.keys():
    diff = np.average(np.abs(grad_backprop[key] - grad_numerical[key]))
    print(key +':' + str(diff)) # 수치미분과 Anlaytic gradient가 별 차이 없다. 오차역전파법이 실수없이 구현된것

W1:2.446415946928808e-13
b1:1.0908033005498086e-12
W2:8.834956069281351e-13
b2:1.201261340399995e-10


![](https://user-images.githubusercontent.com/36406676/52547028-8b67df80-2e07-11e9-90c9-205cbf31ef15.PNG)

&nbsp;

간단한 예제를 통해 Chain Rule이 어떻게 작용되는지 알아보자.

우리가 알고 싶은 것은 $\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}, \frac{\partial f}{\partial z}$  

즉 x, y, z값이 마지막 output값에 끼치는 영향을 알고 싶다.
&nbsp;
&nbsp;


![](https://user-images.githubusercontent.com/36406676/52547036-9753a180-2e07-11e9-8670-a4571e64d255.PNG)

&nbsp;

먼저 output 쪽의 gradient는 $ \frac{\partial f}{\partial f}$로 1이다.

&nbsp;

![](https://user-images.githubusercontent.com/36406676/52547436-0c74a600-2e0b-11e9-9dbd-52d68d38afb3.PNG)

&nbsp;

q * z = f 이기 때문에  $\frac{\partial f}{\partial z}$ = q 즉 3 이다. 반대로 $\frac{\partial f}{\partial q}$ = z 즉 -4가 된다.

 또한 q = x+y 라서 $\frac{\partial q}{\partial x} = 1, \frac{\partial f}{\partial y} = 1$ 이다.

여기까지는 Chain Rule이 적용되지 않았다.

&nbsp;


![](https://user-images.githubusercontent.com/36406676/52547489-7a20d200-2e0b-11e9-98d0-315e2fc49441.PNG)

&nbsp;

f를 x로 미분한 값은 Chain_Rule을 통해 f의 q에 대한 미분과 q의 x에대한 미분을 곱한 값이다($\frac{\partial f}{\partial y} = \frac{\partial f}{\partial q} \frac{\partial q}{\partial y}$) 

따라서 아까 구해놨던 $\frac{\partial f}{\partial q} = -4, \frac{\partial q}{\partial y} = 1$ 를 대입하면 

## $\frac{\partial f}{\partial y} = -4$이다.(마찬가지로 $\frac{\partial f}{\partial x} = -4$이다)

&nbsp;

![](https://user-images.githubusercontent.com/36406676/52039631-67d7a600-2578-11e9-80bc-a5d8952b5551.PNG)

&nbsp;

class를 만들어서 전체 과정을 구현해보았다. 곱셈 Layer과 덧셈 Layer을 만들었다. (input이 벡터가 아니라 스칼라)

&nbsp;

In [14]:
# 곱셈계층
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None
        
    def forward(self, x, y):
        self.x = x
        self.y = y
        out = x*y
        
        return out
    
    def backward(self,dout):
        dx = dout * self.y
        dy = dout * self.x 
        
        return dx, dy
    
# 덧셈계층
class AddLayer:
    def __init__(self):
        pass
    
    def forward(self, x, y):
        out = x + y
        return out
    
    def backward(self, dout): 
        dx = dout*1
        dy = dout*1
        return dx, dy

In [15]:
x = -2
y = 5
z = -4

add_layer = AddLayer()
mul_layer = MulLayer()

# 순전파
q = add_layer.forward(x,y)
f = mul_layer.forward(q,z)
print("f: " ,f)

#역전파
df = 1
dq, dz = mul_layer.backward(1)
print("dq:", dq)
print("dz:", dz)

dx, dy = add_layer.backward(dq)
print("dx:", dx)
print("dy:", dy) # dx, dy는 -4 나온것 확인

f:  -12
dq: -4
dz: 3
dx: -4
dy: -4


![](https://user-images.githubusercontent.com/36406676/52548184-8149df00-2e0f-11e9-9bf4-23efe21500cf.PNG)

&nbsp;

전체 과정을 도식화한 내용입니다. 

gradient가 전달되면(Upstran gradient) 연결된 바로 직전의 node에 gradient를 전달(Local gradient)하게 됩니다. 

더 복잡한 예제도 결국 Chain Rule을 통해서 구할 수 있습니다.다른 예제도 풀어보자!

&nbsp;

![](https://user-images.githubusercontent.com/36406676/52042800-62cb2480-2581-11e9-93e5-0cf6d5a5adc3.jpg)

In [16]:
## 추가 계층 생성

## 역수계층
class  InverseLayer:
    def __init__(self):
        pass
    
    def forward(self, x):
        self.x = x
        out = 1/x
        return out
    
    def backward(self, dout, x):
        self.x = x
        dx = dout * -1 / (self.x) ** 2
        return dx
        
        
# 지수계층
class ExpLayer:
    def __init__(self):
        pass
    
    def forward(self, x):
        self.x = x
        out = np.exp(x)
        return out
    
    def backward(self, dout, x):
        dx = np.exp(x) * dout
        return dx

In [17]:
w0 = 2
x0 = -1
w1 = -3
x1 = -2
w2 = -3

add_layer1 = AddLayer()
add_layer2 = AddLayer()
add_layer3 = AddLayer()
mul_layer1 = MulLayer()
mul_layer2 = MulLayer()
mul_layer3 = MulLayer()
inv_layer = InverseLayer()
exp_layer = ExpLayer()

# 순전파
p = mul_layer1.forward(w0,x0)
q = mul_layer2.forward(w1,x1)
r = add_layer1.forward(p,q)
s = add_layer2.forward(r,w2)
t = mul_layer3.forward(s,-1)
u = exp_layer.forward(t)
v = add_layer3.forward(u,1)
L = inv_layer.forward(v)

print("p:", p)
print("q:", q)
print("r:", r)
print("s:", s)
print("t:", t)
print("u:", u)
print("v:", v)
print("L:", L)

p: -2
q: 6
r: 4
s: 1
t: -1
u: 0.36787944117144233
v: 1.3678794411714423
L: 0.7310585786300049


In [23]:
#역전파
dz = 1
dv = inv_layer.backward(dz,v)
du, _ = add_layer3.backward(dv) # 1에대한 미분값은 필요없으므로
dt  = exp_layer.backward(du,t)
ds,_ = mul_layer3.backward(dt) # 1에 대한 미분값은 필요없으므로
dr, dw2 = add_layer2.backward(ds)
dp, dq = add_layer1.backward(dr)
dw0, dx0 = mul_layer2.backward(dp)
dw1, dx1 = mul_layer1.backward(dq)


print('dz:',dz)
print('dv:',dv)
print('du:',du)
print('dt:',dt)
print('ds:',ds)
print('dr:',dr)
print('dp:',dp)
print('dq:',dq)
print('dw0:',dw0)
print('dx0:',dx0)
print('dw1:',dw1)
print('dx1:',dx1)
print('dw2:',dw2)

dz: 1
dv: -0.534446645388523
du: -0.534446645388523
dt: -0.19661193324148188
ds: 0.19661193324148188
dr: 0.19661193324148188
dp: 0.19661193324148188
dq: 0.19661193324148188
dw0: -0.39322386648296376
dx0: -0.5898357997244457
dw1: -0.19661193324148188
dx1: 0.39322386648296376
dw2: 0.19661193324148188


![](https://user-images.githubusercontent.com/36406676/52551453-ef969d80-2e1f-11e9-8977-657f14dbdf35.PNG)

&nbsp;

값들이 일치하는 것을 확인할 수 있다. 초록색이 순전파값, 빨간색이 역전파값

gradient의 장점은 어떠한 복잡한 node도 group화 시켜서 bignode로 바꿀 수 있다는 점입니다.

예를 들어 sigmod function의 경우 위처럼 전 과정을 할 수 도 있지만 sigmoid gate를 묶어서도 가능

&nbsp;

![](https://user-images.githubusercontent.com/36406676/52548814-1bf7ed00-2e13-11e9-9cbb-d28c3e3bad11.PNG)

In [39]:
# 지수계층
class Sigmoid_Gate_Layer:
    def __init__(self):
        pass
    
    def forward(self, x):
        self.x = x
        out = 1/(1+np.exp(-1*x))
        return out
    
    def backward(self, dout, x):
        out = 1/(1+np.exp(-1*x))
        dx = out * (1-out) * dout
        return dx

In [40]:
sigmoid_layer = Sigmoid_Gate_Layer()
dz = 1
ds2 = sigmoid_layer.backward(dz,s) # s가 input
print(ds - ds2) # 차이가 0에 가깝다. 같은값 도출된것 확인

2.7755575615628914e-17


![](https://user-images.githubusercontent.com/36406676/52549539-05ec2b80-2e17-11e9-955a-02cb406044b7.PNG)

&nbsp;

add gate의 경우 현재의 gradient를 각각의 노드에 분배. 

mul gate는 현재의 gradient를 각각 숫자에 곱해서 바꿔치기한다. 

max gate는 더 큰쪽에만 gradient를 그대로 꽂아주고 반대쪽은 0을 준다.

&nbsp;

![](https://user-images.githubusercontent.com/36406676/52551658-caeef580-2e20-11e9-8921-52bb867d5470.PNG)

&nbsp;

- 벡터로 확장

벡터로 확장하면 Jacobian matrix가 필요.  $\frac{\partial z}{\partial x}$ 는 Jacobian matrix이다. 

참고자료 :[동훈님의 공돌이의 수학정리노트](https://wikidocs.net/4053), [다크프로그래머님의 블로그](https://darkpgmr.tistory.com/132?category=460967)

&nbsp;

![](https://camo.githubusercontent.com/05e6f6d900ffe45c1eca200bf45fa6724dac81a2/68747470733a2f2f692e696d6775722e636f6d2f4f6d35745a4e6d2e6a7067)

![](https://camo.githubusercontent.com/b77567058f65de23ed59bd0072a22efaf67ca74a/68747470733a2f2f692e696d6775722e636f6d2f75754f656f6e622e6a7067)

![](https://user-images.githubusercontent.com/36406676/52556694-a6027e80-2e30-11e9-92bb-bb9352c21cd3.PNG)

&nbsp;

Q1:  위 그림에서 자코비안 매트릭스의 사이즈와 형태는?

A1: 4096 X 4096이다. Diagonal.

![](https://user-images.githubusercontent.com/36406676/52556706-adc22300-2e30-11e9-8500-8a97044fb209.PNG) 그림을 보면 이해 가능

&nbsp;


![](https://user-images.githubusercontent.com/36406676/52558435-b36e3780-2e35-11e9-9479-e636a0663977.PNG)

![](https://user-images.githubusercontent.com/36406676/52558445-bb2ddc00-2e35-11e9-8e22-01844e810201.PNG)

In [None]:
## 이해가 안되는구만..