## Chapter 5. 오차역전파법(back propagation)
* 수치미분 : 단순하고 구현하기 쉽지만 계산이 오래 걸림 $\to$ 오차역전파법 : 효율적으로 계산 
    * "CS231n" 수업을 참고
* 오차역전파법(역전파) : backward propagation of errors (back propagation)

#### 5.1 계산 그래프
* 계산 그래프(computational graph) : 계산과정을 그래프로 나타낸 것
    * 노드(node)
    * 에지(edge) : 노드 사이의 직선 

* 계산 그래프를 이용한 문제풀이 흐름
    1. 계산 그래프를 구성
    2. 그래프에서 계산을 왼쪽에서 오른쪽으로 진행 (순전파)
        * 역전파는 이후에 미분을 계산할 때 중요한 역할을 함
    
* 계산 그래프의 특징 - 국소적 계산 : 자신과 직접 관계된 작은 범위를 계산
    * 전체에서 어떤 일이 벌어지든 상관없이 자신과 관계된 정도만으로 결과를 출력할 수 있음
    * 노드에서 국소적 계산을 한후 다음 노드로 전달 

* 왜 계산 그래프로 푸는가?
    * 계산 그래프의 이점
        1. 전체가 아무리 복잡해도 각 노드에서는 단순한 계산에 집중하여 문제를 단순화 할 수 있음 
        2. 중간 계산 결과를 모두 보관할 수 있음
        3. **역전파를 통해 미분을 효율적으로 계산할 수 있다**
            
#### 5.2 연쇄 법칙
* 계산 그래프의 역전파
    * 순전파 : 계산 결과를 왼쪽에서 오른쪽으로 전달
    * 역전파 : '국소적인 미분'을 순방향과는 반대인 오른쪽에서 왼쪽으로 전달
        * '국소적인 미분'의 전달원리 : 연쇄법칙(chain rule)
            * 반대방향으로 '국소적 미분'을 곱한다
    
* 연쇄법칙(chain rule)이란?
    * 합성 함수 : 여러 함수로 구성된 함수
        * ex. $z = (x+y)^2 \to z=t^2, t=x+y$
        * $\frac{\partial z}{\partial t} = 2t ,\frac{\partial t}{\partial x} = 1$
        * $\frac{\partial z}{\partial x} = \frac{\partial z}{\partial t}\frac{\partial t}{\partial x} = 2t \centerdot 1 = 2(x+y)$
        * **합성 함수의 미분은 합성 함수를 구이 성하는 각 함수의 미분의 곱으로 구할 수 있음** 

* 계산그래프의 역전파 : 오른쪽에서 왼쪽으로 국소적 미분(편미분)을 곱한후 다음 노드로 전달 

#### 5.3 역전파
* 덧셈 노드의 역전파 : $z=x+y$
    * $\frac{\partial z}{\partial x} = \frac{\partial z}{\partial t}\frac{\partial t}{\partial x} = 1 \centerdot 1 = 1 $
    * 역방향 신호 그대로 1을 곱해서 다음 노드로 보냄
        * 순방향 입력신호가 불필요
* 곱셈 노드의 역전파 : $z=xy$
    * $\frac{\partial z}{\partial x} = y, \frac{\partial z}{\partial y} = x $
    * 상류의 값에 순전파 입력 신호들을 '서로 바꾼 값'을 곱해서 하류로 보냄
        ex. x 입력값 10, y입력값이 5이고, 역전파 상류에서 1.3의 값이 흘러나온다면 x방향으로 1.3 x 5, y방향으로 1.3 x 10의 값을 흘려보냄
        * 덧셈 노드와 달리 순방향 입력신호 값이 필요
        
* 사과 쇼핑의 예 : 변수 : 사과의 가격, 사과의 개수, 소비세
    * 사과 가격에 대한 지불 금액의 미분, 사과 개수에 대한 지불 금액의 미분, 소비세에 대한 지불금액의 미분을 구해야 함
    * 빈칸에 값 채우기 풀어보기 

#### 5.4 단순한 계층 구현하기
* 신경망을 구성하는 계층 각각을 클래스로 구현
    * 계층 : 신경망의 기능 단위 
* 곱셈 계층
* 덧셈 계층 

#### 5.5 활성화 함수 계층 구현하기
* ReLU 계층
* Sigmoid 계층

#### 5.6 Affine/Softmax 계층 구현하기
* Affine 계층
* 배치용 Affine 계층
* Softmax-with-Loss 계층

#### 5.7 오차역전파법 구현하기
* 신경망 학습의 전체 그림
* 오차역전파법을 적용한 신경망 구현
* 오차역전파법으로 구한 기울기 검증
* 오차역전파법을 사용한 학습 구현 

#### 5.8 정리
* 계산 그래프를 이용하면 계산 과정을 시각적으로 파악할 수 있음
* 계산 그래프의 노드는 국소적 계산으로 구성. 국소적 계산을 조합해 전체 계산을 구성
* 계산 그래프의 순전파는 통상의 계산을 수행. 계산 그래프의 역전파로는 각 노드의 미분을 구함
* 신경망의 구성 요소를 계층으로 구현하여 기울기를 효율적으로 계산할 수 있음(오차역전파법)
* 수치 미분과 오차역전파법의 결과를 비교하면 오차역전파법의 구현에 잘못이 없는지 확인가능(기울기 확인)

## code

In [1]:
# 곱셈 계층 : x,y 바꿔서 구하기
class MulLayer :
    def __init__(self) :
        self.x = None
        self.y = None
    
    def forward(self, x, y) :
        self.x = x
        self.y = y
        out = x*y
        
        return out
    
    def backward(self, dout) : # dout: 상류에서 넘어온 미분
        dx = dout * self.y # x와 y를 바꿔서 곱해줌
        dy = dout * self.x
        
        return dx, dy

In [2]:
# 사과 예시
apple = 100
apple_num = 2
tax = 1.1

# 계층들 
mul_apple_layer = MulLayer()
mul_tax_layer = MulLayer()

# 순전파
apple_price = mul_apple_layer.forward(apple, apple_num)
price = mul_tax_layer.forward(apple_price, tax)

print(price)

220.00000000000003


In [3]:
# 각 변수에 대한 미분
dprice = 1
dapple_price, dtax = mul_tax_layer.backward(dprice)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)

print(dapple, dapple_num, dtax)

2.2 110.00000000000001 200


In [None]:
ll/