# 오차역전파법

* 신경망의 가중치 매개변수에 대한 손실함수의 기울기는 수치 미분을 사용해서 구한다.
  * 수치 미분은 단순하고 구현하기도 쉽지만 계산 시간이 오래 걸린다.
  * 오차역전파법(backpropagation)을 이용해서 가중치 매개변수의 기울기를 효율적으로 계산할 수 있다.
  
* 오차역전파법을 이해하는 방법
  * 계산 그래프를 통한 이해
  * 수식을 통한 이해
    * 수많은 문헌에서 수식으로 설명
    
## 계산 그래프
* 계산 그래프는 계산과정을 그래프로 나타낸 것이다.
  * 복수의 Node, Edge로 표현되는 일반적인 그래프 자료구조

### 계산그래프를 이용한 풀이
* 노드는 원으로 표기.
  * 원 안에는 연산의 내용(함수)을 적는다
* 계산 결과를 화살표 위에 적어 각 노드의 계산 결과가 왼쪽에서 오른쪽으로 전해짐
  * 피연산자를 입력으로 취급할 수 있다.
  * 계산을 왼쪽에서 오른쪽으로 진행하는 단계를 순전파(forward propagation)라고 한다.
    * 계산 그래프의 출발점부터 종착점으로의 전파
  * 오른쪽에서 왼쪽으로 진행하는 전파를 역전파라고 한다.
  
### 국소적 계산
* 계산그래프의 특징은 국소적 계산을 전파함으로써 최종 결과를 얻는다는 점에 있다.
  * 국소적이란 '자신과 직접 관계된 작은 범위'라는 뜻이다.
  * 국소적 계산은 전체에서 어떤 일이 벌어지든 상관없이 자신과 관계된 정보만으로 다음 결과를 출력할 수 있다.
    * 입력이 주어지면, 그 입력에 대응하는 결과를 내면 된다.
    * 여러개의 함수를 Compositional하게 조합하여 주어진 복수의 입력에 대해 알맞는 결과를 내는 것

### 계산 그래프를 이용하는 이유
* 국소적 계산 : 전체가 아무리 복잡하더라도, 각 노드에서 단순한 계산에 집중하여 문제를 단순화
* 계산 그래프는 중간 계산 결과를 모두 보관할 수 있다.
  * 역추적이 가능하다.
  * 역전파를 통해 '미분'을 효율적으로 계산할 수 있다.
  * 중간까지 구한 미분 결과를 공유할 수 있어서 다수의 미분을 효율적으로 계산할 수도 있다.
  
## 연쇄법칙(chain rule)
* 역전파는 '국소적인 미분'을 순방향과는 반대인 오른쪽에서 왼쪽으로 전달한다.
  * '국소적 미분'을 전달하는 원리는 연쇄법칙에 따른것이다.

### 연쇄법칙이란?
* 연쇄법칙을 이해하기 위해서 합성함수부터 짚고 넘어가야함
  * 함성 함수는 여러 함수로 구성된 함수
* 연쇄법칙은 합성 함수의 미분에 대한 성질이며 다음과 같이 정의된다.


    합성 함수의 미분은 합성 함수를 구성하는 각 함수의 미분의 곱으로 나타낼 수 있다.


## 역전파

### 덧셈 노드의 역전파
* 그냥 1 곱해서 넘기면 됨

### 곱셈 노드의 역전파
* 순방향 입력 신호의 값을 저장해서 역전파 때 곱해서 넘긴다.
  * 순전파 시 두 개의 입력 신호를 받았을 경우, 역전파로 넘길때는 교차해서 넘긴다. 
* 따라서 곱셈 노드를 구현할 때는 순전파의 입력 신호를 유지하여야 한다.


## 단순한 계층 구현하기

* 신경망을 구성하는 '계층' 각각을 하나의 클래스로 구현한다.
  * 여기서 계층은 신경망의 기능 단위라고 보면 된다.
  * ex) 시그모이드 함수를 위한 Sigmoid, 행렬 내적을 위한 Affine, 곱셈 노드를 위한 MulLayer, 덧셈 노드를 위한 AddLayer

### 곱셈 계층

모든 계층은 forward()와 backward() 라는 공통의 메서드(인터페이스)를 갖도록 구현할 것이다.



In [1]:
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None
        
    def forward(self, x, y):
        self.x = x
        self.y = y
        out = x * y
        
        return out
    
    def backward(self, dout):
        dx = dout * self.y # x와 y를 바꾼다
        dy = dout * self.x
        
        return dx, dy