■ 5장. 오차 역전파를 이용한 3층 신경망 학습시키는 방법

※ 역전파란?

    신경망 학습 처리에서 최소화되는 함수의 경사를 효율적으로 계산하기위한 방법
    
    - 함수의 경사(기울기)를 계산하는 방법?
    
    1. 수치 미분 -> 매우 느림
    2. 오류 역전파
    
    - 순전파: 입력층 --> 은닉층 --> 출력층
    - 역전파: 입력층 <-- 은닉층 <-- 출력층
    
    여기서 역전파를 시키는 것이 바로 오차이다.
    
    출력층부터 차례대로 역방향으로 따라 올라가 각 층에 있는 노드의 오차를 계산할 수 있다.
    
    각 노드의 오차를 계산하면 그 오차를 사용해서 함수의 경사(기울기)를 계산할 수 있다.
    
    " 즉, 전파된 오차를 이용하여 가중치를 조정한다. ": 오차 역전파
    
![fig%205-12.png](attachment:fig%205-12.png)

■ 계산그래프
    
    "순전파와 역전파에 계산 과정을 그래프로 나타내는 방법 "
    
    계산 그래프의 장점이 무엇인가?
    
    국소적 계산을 할 수 있다.
    국소적 계산이란 전체에 어떤일이 벌어지든 상관없이
    자신과 관계된 정보만으로 결과를 출력할 수 있다.
    
![image.png](attachment:image.png)

※ 예:

    4000원이라는 숫자가 어떻게 계산되었느냐와는 상관없이 사과가 어떻게 200원이 되었는가만 신경쓰면 된다는 것이 국소적 계산이다.

■ 왜 계산 그래프로 문제를 해결하는가?

    전체가 아무리 복잡해도 각 노드에서 단순한 계산에 집중하여 문제를 단순화 할 수 있다.
    
    ※ 실제로 계산 그래프를 사용하는 가장 큰 이유는?
    
        역전파를 통해서 미분을 효율적으로 계산할 수 있다는 점에 있다.
        
                            ↓
       
        사과값이 '아주 조금' 올랐을 때 '지불금액'이 얼마나 증가하는지 알고 싶다
        
        
        ∂ 지불금액
        ------------         : 지불금액을 사과값으로 편미분하면 알 수 있다.
         ∂ 사과값
                
                            ↓  : 계산 그래프 역전파를 이용하면 되는데
       
       사과값이 1원이 오르면 최종 금액은 2.2원이 오른다.
       
![image.png](attachment:image.png)

■ 합성함수 미분

![image.png](attachment:image.png)

■ 연쇄법칙
![image.png](attachment:image.png)

In [1]:
# 곱셈 역전파
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None
        
    def forward(self, x, y):
        self.x = x
        self.y = y
        out = x * y
        
        return out
    
    def backward(self, dout):
        dx = dout * self.y # x 와 y 바꾸기 -> 곱셈 미분의 원리
        dy = dout * self.x
        
        return dx, dy

![image.png](attachment:image.png)

In [4]:
# 위에서 만든 곱셈 클래스를 객체화 시켜서 사과 가격의 총 가격을 구하시오(forward)

apple = 100
apple_num = 2
tax = 1.1

price = MulLayer()

print(price)

print(price.forward(price.forward(apple, apple_num),tax))

#계층들
mul_apple_layer = MulLayer()
mul_tax_layer = MulLayer()

#순전파 
apple_price = mul_apple_layer.forward(apple,apple_num)
price = mul_tax_layer.forward(apple_price, tax)

print(price)

<__main__.MulLayer object at 0x00000253E471AD68>
220.00000000000003
220.00000000000003


In [6]:
# 각 변수에 대한 미분 구하기 (backward)

dprice = 1
dapple_price, dtax = mul_tax_layer.backward(dprice)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)

print(dapple, dapple_num, dtax)

2.2 110.00000000000001 200


In [8]:
# 덧셈 역전파
class AddLayer:
    def __init__(self):
        pass
        
    def forward(self, x, y):
        out = x + y
        
        return out
    
    def backward(self, dout):
        dx = dout * 1 # -> 덧셈 미분의 원리
        dy = dout * 1
        
        return dx, dy

![image.png](attachment:image.png)

In [15]:
# 위의 그래프를 구현하시오
apple = 100
apple_num = 2
orange = 150
orange_num = 3
tax = 1.1

# 계층들
mul_apple_layer = MulLayer()
mul_orange_layer = MulLayer()
add_price_layer = AddLayer()
mul_tax_layer = MulLayer()

# forward
apple_price = mul_apple_layer.forward(apple,apple_num)
orange_price = mul_orange_layer.forward(orange,orange_num)
price = add_price_layer.forward(apple_price,orange_price)
after_tax = mul_tax_layer.forward(price, tax)

print(after_tax)

# backward
d_price = 1
dprice, dtax = mul_tax_layer.backward(d_price)
dapple_price, dorange_price = add_price_layer.backward(dprice)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)
dorange, dorange_num = mul_orange_layer.backward(dorange_price)

print(dapple_num, dapple, dorange, dorange_num, dtax)


715.0000000000001
110.00000000000001 2.2 3.3000000000000003 165.0 650


In [12]:
mul_tax_layer.backward(1)

(1.1, 650)

■ 활성화 함수 계층 구현하기

1. ReLu 계층 : " 0보다 큰 값이 입력되면 그 값을 그대로 출력하고, 0 이거나 0보다 작은 값이 입력되면 0을 출력하는 함수 "

    - 순전파 함수: ![e%205.7.png](attachment:e%205.7.png)
    
    - 역전파 함수: ![e%205.8.png](attachment:e%205.8.png)

![fig%205-18.png](attachment:fig%205-18.png)
    
2. Sigmoid 계층

![fig%205-20.png](attachment:fig%205-20.png)
![e%205.12.png](attachment:e%205.12.png)
![fig%205-22.png](attachment:fig%205-22.png)

In [16]:
# relu함수 만들기
class Relu:
    def __init__(self):
        self.mask = None
        
    def forward(self, x):   # x 는 행렬
        self.mask = (x<=0)  # x<=0 일때 True or False
        out = x.copy()
        out[self.mask] = 0  # x <= 0 일때, 0을 출력, 아닐 때 그대로 출력
        
        return out
        
    def backward(self, dout):
        dout[self.mask] = 0  # x <= 0 일때, 0을 출력, 아닐 때 그대로 출력
        dx = dout            #
        
        return dx

In [20]:
import numpy as np

x = np.array([[1.0,-0.5],[-2.0,3.0]])
print(x)
print(x <= 0)
x[x<=0] = 0
print(x)

[[ 1.  -0.5]
 [-2.   3. ]]
[[False  True]
 [ True False]]
[[ 1.  0.]
 [ 0.  3.]]


In [24]:
# relu forward
x = np.array([[1.0,-0.5],[-2.0,3.0]])

relu = Relu()

print(relu.forward(x))

y=relu.forward(x)

# relu backward
print(relu.backward(y))


[[ 1.  0.]
 [ 0.  3.]]
[[ 1.  0.]
 [ 0.  3.]]
[[ 1.  0.]
 [ 0.  3.]]


In [25]:
class Sigmoid:
    def __init__(self):
        self.out = None
        
    def forward(self, x):
        out = 1 / (1 + np.exp(-x))
        self.out = out
        
        return out
    
    def backward(self, dout):
        dx = dout * (1.0 - self.out) * self.out
        
        return dx