# BackPropagation

## 오차역전파 알고리즘
* 학습 데이터로 정방향(forward)연산을 통해 손실함수 (loss)를 구함
* 각 layer별로 역전파학습을 위해 중간값을 저장
* 손실함수를 학습 파라미터(가중치, 편향)로 미분하여 마지막 layer로부터 앞으로 하나씩 연쇄법칙을 이용하여 미분 각 layer를 통과할때마다 저장된 값을 이용
* 오류(error)를 전달하면서 학습 파라미터를 조금씩 갱신

## 오차역전파 학습의 특징
* 손실함수를 통한 펴아를 한번만하고 연쇄법칙을 이용한 미분을 활용하기 때문에 학습 소요시간이 매우 압축!
* 미분을 위한 중간값을 모두 저장하기 때문에 메모리를 많이 사용

## 신경망 학습에 있어서 미분가능의 중요성
* 경사하강법 (Gradient Descent)에서 손실함수 (cost function)의 최소값, 즉, 최적값을 찾기 위한 방법으로 미분을 활용
* 미분을 통해 손실함수의 학습매개변수를 갱신하여 모델의 가중치의 최적값을 찾는 과정
* ![image.png](attachment:0e9a8cd4-4749-4457-b87d-44ae86f7c0e0.png)

## 합성함수의 미분(연쇄법칙, Chain Rule)
* ![image.png](attachment:2952cae3-32cd-4a5a-bc36-f8d2a2a0b860.png)
    * 여러개 연속으로 사용가능
    * ![image.png](attachment:92d6dbb3-f012-4cb5-b695-a2f7a7384235.png)
    * 각각에 대해 편미분 적용가능
* ![image.png](attachment:7375d6f5-83e4-4114-93fc-b56a60666a19.png)
    * 오차역전파의 직관적 이해
        * 학습을 진행하면서, 즉 손실함수의 최소값을 찾아가는 과정에서 가중치 또는 편향의 변화에 따라 얼마나 영향을 받는지 알 수 있음

## 합성함수 미분(chain rule)예제
* ![image.png](attachment:c4a54453-f5b6-4477-b04c-f970f40ffa91.png)
    * ![image.png](attachment:d11b848f-d1db-4975-b75f-a2b5654c7921.png)
    * ![image.png](attachment:085a5170-9eb4-47a8-b509-72876009ac0e.png)
    * ![image.png](attachment:1e7caae1-e078-448f-9e65-53a8963dac61.png)

## 덧셈, 곱셈 계층의 역전파
* 위 예제를 통해 아래 사항을 알 수 있음
    * ![image.png](attachment:0ff8bc8e-3a32-4e65-9d63-982b2711f2df.png)

In [1]:
class Mul():
    def __init__(self):
        self.x = None
        self.y = None
        
    def forward(self,x,y):
        self.x = x
        self.y = y
        result = x*y
        return result
    
    def backward(self,dresult):
        dx = dresult * self.y
        dy = dresult * self.x
        return dx,dy
    

    

In [2]:
class add():
    def __init__(self):
        self.x = None
        self.y = None
        
    def forward(self,x,y):
        self.x = x
        self.y = y
        return x+y
    
    def backward(self,dresult):
        dx = dresult * 1
        dy = dresult * 1
        return dx,dy
        

In [3]:
a,b,c = -1,3,4
x = add()
y = add()

f = Mul()


In [5]:
x_result = x.forward(a,b) #2
y_result = y.forward(b,c) #7

print(x_result)
print(y_result)
print(f.forward(x_result,y_result)) #14

2
7
14


In [9]:
dresult = 1
dx_mul,dy_mul = f.backward(dresult)

da_add,db_add_1 = x.backward(dx_mul)

db_add_2,dc_add = y.backward(dy_mul)

print(dx_mul,dy_mul)
print(da_add)
print(db_add_1 + db_add_2)
print(dc_add)

7 2
7
9
2


##
* ![image.png](attachment:51ae6dde-b851-4bfe-9bb9-85b0a668230f.png)

## 활성화함수 (activation)에서의 역전파
* 시그모이드 (sigmoid)함수
    * ![image.png](attachment:e8af3114-fd77-4a0d-a45c-5462e2874c87.png)

In [11]:
class sigmoid():
    
    def __init__(self):
        self.out = None
        
    def forward(self,x):
        out = 1/(1+np.exp(-x))
        return out
    
    def backward(self,dout):
        dx = dout * (1.0 - self.out) * self.out
        return dx

## ReLU 함수
* ![image.png](attachment:496f6acb-8730-41b2-bceb-e67d22d45424.png)

In [12]:
class ReLU():
    def __init__(self):
        self.out = None
        
    def forward(self,x):
        self.mask = (x<0)
        out = x.copy()
        out[x<0] = 0
        return out
    
    def backward(self,dout):
        dout[self.mask] = 0
        dx = dout
        return dx

## 행렬연산에 대한 역전파
* ![image.png](attachment:8ed360ea-7e02-4326-84cf-c67a5e8f19d4.png)

## 순전파(forward)
* 형상(shape)을 맞춰줘야함
* 앞서 봤던 곱셈, 덧셈 계층을 합친 형태

In [13]:
import numpy as np

X = np.random.rand(3)
w = np.random.rand(3,2)
B = np.random.rand(2)

print(X.shape)
print(w.shape)
print(B.shape)

(3,)
(3, 2)
(2,)


In [14]:
Y = np.dot(X,w) + B
print(Y.shape)

(2,)


In [15]:
X = np.random.rand(3)
w = np.random.rand(2,2)
B = np.random.rand(2)

print(X.shape)
print(w.shape)
print(B.shape)

(3,)
(2, 2)
(2,)


In [16]:
Y = np.dot(X,w) + B
print(Y.shape)

ValueError: shapes (3,) and (2,2) not aligned: 3 (dim 0) != 2 (dim 0)

## 역전파
* ![image.png](attachment:5c5476c9-239a-4b8d-abad-aa9744261262.png)

In [23]:
# forward

X = np.random.randn(2)
W = np.random.randn(2,3)
Y = np.dot(X,W)

print('X\n {}'.format(X))
print('W\n {}'.format(W))
print('Y\n {}'.format(Y))


X
 [0.27977638 1.61102574]
W
 [[ 1.09208226 -1.3372571   1.13982384]
 [-1.90081354 -1.16265616  2.02615044]]
Y
 [-2.75672071 -2.24720195  3.5830763 ]


In [25]:
# backward

dL_dY = np.random.randn(3)
dL_dX = np.dot(dL_dY,W.T)
dL_dW = np.dot(X.reshape(-1,1),dL_dY.reshape(1,-1))

print('dL_dY\n {}'.format(dL_dY))
print('dL_dX\n {}'.format(dL_dX))
print('dL_dW\n {}'.format(dL_dW))

dL_dY
 [-0.44216992 -0.67817482  1.82914388]
dL_dX
 [2.50890997 5.33508738]
dL_dW
 [[-0.1237087  -0.1897373   0.51175126]
 [-0.71234712 -1.0925571   2.94679787]]


## 역전파
* ![image.png](attachment:879f2cd7-b2bb-4f26-ac3c-8c91c9a9b0ac.png)

In [26]:
X = np.random.randn(2)
W = np.random.randn(2,3)
B = np.random.randn(3)
Y = np.dot(X,W) + B
print(Y)

[-0.16320263 -2.86878904  0.92442596]


In [28]:
dL_dY = np.random.randn(3)
dL_dX = np.dot(dL_dY,W.T)
dL_dW = np.dot(X.reshape(-1,1),dL_dY.reshape(1,-1))
dL_dB = dL_dY

print('dL_dY\n {}'.format(dL_dY))
print('dL_dX\n {}'.format(dL_dX))
print('dL_dW\n {}'.format(dL_dW))
print('dL_dB\n {}'.format(dL_dB))

dL_dY
 [ 0.59283938 -1.76835476  0.59770063]
dL_dX
 [-3.49102707 -0.99111342]
dL_dW
 [[-0.31221784  0.93130098 -0.314778  ]
 [ 0.24677453 -0.73609298  0.24879806]]
dL_dB
 [ 0.59283938 -1.76835476  0.59770063]


## 배치용 행렬 내적 계층
* ![image.png](attachment:c83e7ae7-0056-4ff9-ac52-8a165c105402.png)

In [29]:
X = np.random.rand(4,3)
W = np.random.rand(3,2)
B = np.random.rand(2)

print(X.shape)
print(W.shape)
print(B.shape)

(4, 3)
(3, 2)
(2,)


In [30]:
print('X\n {}'.format(X))
print('W\n {}'.format(W))
print('B\n {}'.format(B))

X
 [[0.26877171 0.34696543 0.84911105]
 [0.86923848 0.52302588 0.53419286]
 [0.67420128 0.63462655 0.6038486 ]
 [0.13116593 0.40575777 0.33533035]]
W
 [[3.24324221e-04 4.67950029e-01]
 [7.64160481e-01 7.77447313e-01]
 [1.71351769e-01 3.11651195e-01]]
B
 [0.55134066 0.92784062]


In [31]:
Y = np.dot(X,W) + B
print('Y\n {}'.format(Y))

print(Y.shape)

Y
 [[0.96206178 1.58798616]
 [1.04283318 1.90770771]
 [1.13998638 1.92491198]
 [0.9189067  1.40918111]]
(4, 2)


In [35]:
dL_dY = np.random.randn(4,2)
dL_dX = np.dot(dL_dY,W.T)
dL_dW = np.dot(X.T,dL_dY)
dL_dB = np.sum(dL_dY,axis=0)

print('dL_dY\n {}'.format(dL_dY))
print('dL_dX\n {}'.format(dL_dX))
print('dL_dW\n {}'.format(dL_dW))
print('dL_dB\n {}'.format(dL_dB))

dL_dY
 [[-0.38632298 -1.10648809]
 [-0.52807165  0.17485018]
 [ 0.29027425 -0.74404767]
 [ 0.82181443 -0.76729508]]
dL_dX
 [[-0.51790643 -1.15544894 -0.41103546]
 [ 0.08164988 -0.26759469 -0.03599375]
 [-0.34808299 -0.35664176 -0.18214434]
 [-0.35878922  0.03146661 -0.09830907]]
dL_dW
 [[-0.25935557 -0.74768707]
 [ 0.10743747 -1.07599029]
 [-0.15926219 -1.55271702]]
dL_dB
 [ 0.19769405 -2.44298067]
