# 오차역전파법

* 전 단원 요약
    * 가중치 매개변수에 대한 손실 함수의 기울기 -> 수치 미분을 사용
        * 수치 미분의 장점: 단순하고 구현하기도 쉽다.
        * 수치 미분의 단점: 계산 시간이 오래 걸린다.
 
* 오차역전파법
    * 수식을 통한 이해
    * 계산 그래프를 통한 이해

---
## 계산 그래프

### 계산 그래프란?
* 계산 그래프는 노드와 엣지로 표현한다.
* 계산 그래프를 통한 문제풀이 흐름
    1. 계산 그래프 구성
    2. 그래프에서의 계산은 왼쪽에서 오른쪽으로 진행(순전파)

### 국소적 계산
* 계산 그래프는 **국소적 계산**을 전파함으로서 **최종 결과**를 얻는다.
    * 국소적 계산이란 결국 각 노드의 연산을 뜻하는 것 같다.
> 풀어서 해석하자면 각 노드 별 연산은 따로 수행하되, 그 처리 결과를 모아 최종 결과를 만든다?

### 왜 계산 그래프로 푸는가?
* 계산 그래프의 이점
    1. 전체가 아무리 복잡해도 각 노드에서의 단순한 연산에 집중하여 문제를 단순화 시킬 수 있다.
    2. 각 노드에서 수행된 중간 연산 결과를 저장할 수 있다.
    3. 역전파를 통해 '미분'을 효율적으로 계산할 수 있다.
* 사과 가격이 오르면 최종 금액에 어떤 영향을 끼치는가? $\to$ 사과 가격에 대한 지불금액의 미분
    * 사과 가격을 $\partial$, 지불 금액을 $L$이라고 했을 때 $\partial L \over \partial x$를 구하는 것이다.

---
## 연쇄법칙

### 역전파란?
* 국소적인 미분을 순방향과는 반대인 오른쪽에서 왼쪽으로 전달한다.
* 이렇게 국소적인 미분을 전달하는 원리는 **연쇄법칙**에 따른 것이다.

### 계산 그래프의 역전파
* 신호 $E$에 국소적 미분인 $\partial y \over \partial x$를 곱한 후, 다음 노드로 전달한다.
* 목표로 하는 미분 값을 효율적으로 구할 수 있다는 것이 이 전파의 핵심이다.

### 연쇄법칙이란?

* 합성함수: 두 개 이상의 함수로 구성된 함수
    * e.g. $z = {(x+y)}^2$이라는 식은 $\begin{cases} z = t^2\\ t = x+y \end{cases}$로 구성된 함수이다.
* 연쇄법칙: 이러한 합성 함수의 미분에 대한 성질
    * _합성 함수의 미분은 합성 함수를 구성하는 각 함수의 미분의 곱으로 나타낼 수 있다._
$${\partial z \over \partial x} = {{\partial z \over \partial t}{\partial t \over \partial x}} = 2t*1 = 2(x+y)$$
<br>

$${(x+y)}^2 = {x \to x+y \to {(x+y)}^2}$$
$${\partial z \over \partial x} = {\partial {(x+y)}^2 \over \partial x} = {\partial {(x+y)}^2 \over \partial (x+y)}{\partial (x+y)\over \partial x}$$

위와 같은 구조를 가진 연쇄법칙에 의해 역전파의 미분을 구할 수 있다.

---
## 역전파
* 덧셈 노드의 역전파: 연쇄법칙에 의해 입력 신호들의 미분값인 1이 곱해져 상류의 값이 그대로 전달된다.
$${z = x + y} \begin{cases} {\partial z \over \partial x}=1\\ {\partial z \over \partial y}=1 \end{cases}$$
* 곱셈 노드의 역전파: 연쇄법칙에 의해 입력 신호들의 미분값인 서로 다른 노드의 값이 상류의 값에 곱해져서 전달된다.
$${z = xy} \begin{cases} {\partial z \over \partial x}=y\\ {\partial z \over \partial y}=x \end{cases}$$

이렇듯 역전파를 이용하면 각 노드가 최종결과에 어느 정도의 영향을 미치는지 알 수 있다.
> 단, 정확한 판단을 위해서는 각 노드가 같은 단위를 사용해야 한다.

---
## 단순한 계층 구현하기

In [1]:
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None

    def forward(self, x, y):
        self.x = x
        self.y = y                
        out = x * y

        return out

    def backward(self, dout):
        dx = dout * self.y  # x와 y를 바꾼다.
        dy = dout * self.x

        return dx, dy


class AddLayer:
    def __init__(self):
        pass

    def forward(self, x, y):
        out = x + y

        return out

    def backward(self, dout):
        dx = dout * 1
        dy = dout * 1

        return dx, dy


In [3]:
apple = 100
apple_num = 2
tax = 1.1

mul_apple_layer = MulLayer()
mul_tax_layer = MulLayer()

# forward
apple_price = mul_apple_layer.forward(apple, apple_num)
price = mul_tax_layer.forward(apple_price, tax)

# backward
dprice = 1 # 왜 1...?
dapple_price, dtax = mul_tax_layer.backward(dprice)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)

print("price:", int(price))
print("dApple:", dapple)
print("dApple_num:", int(dapple_num))
print("dTax:", dtax)


price: 220
dApple: 2.2
dApple_num: 110
dTax: 200


In [4]:
apple = 100
apple_num = 2
orange = 150
orange_num = 3
tax = 1.1

# layer
mul_apple_layer = MulLayer()
mul_orange_layer = MulLayer()
add_apple_orange_layer = AddLayer()
mul_tax_layer = MulLayer()

# forward
apple_price = mul_apple_layer.forward(apple, apple_num)  # 사과 가격
orange_price = mul_orange_layer.forward(orange, orange_num)  # 오렌지 가격
all_price = add_apple_orange_layer.forward(apple_price, orange_price)  # 모든 과일의 가격
price = mul_tax_layer.forward(all_price, tax)  # 세 후, 가격

# backward
dprice = 1
dall_price, dtax = mul_tax_layer.backward(dprice)  
dapple_price, dorange_price = add_apple_orange_layer.backward(dall_price)  
dorange, dorange_num = mul_orange_layer.backward(dorange_price)  
dapple, dapple_num = mul_apple_layer.backward(dapple_price)  

print("price:", int(price))
print("dApple:", dapple)
print("dApple_num:", int(dapple_num))
print("dOrange:", dorange)
print("dOrange_num:", int(dorange_num))
print("dTax:", dtax)


price: 715
dApple: 2.2
dApple_num: 110
dOrange: 3.3000000000000003
dOrange_num: 165
dTax: 650


---
## 활성화 함수 계층 구현하기

### ReLU 계층
* ReLU 함수 수식
$$y=\begin{cases} x (x \gt 0)\\ 0 (x \leq 0) \end{cases}$$
* ReLU 함수 미분 수식
$${\partial y \over \partial x}=\begin{cases} 1 (x \gt 0)\\ 0 (x \leq 0) \end{cases}$$

In [5]:
class Relu:
    def __init__(self):
        self.mask = None

    def forward(self, x):
        self.mask = (x <= 0)
        out = x.copy()
        out[self.mask] = 0

        return out

    def backward(self, dout):
        dout[self.mask] = 0
        dx = dout

        return dx

In [6]:
import numpy as np

x = np.array([[1.0, -0.5],[-2.0, 3.0]])
print(x)
mask = (x <= 0)
print(mask)


[[ 1.  -0.5]
 [-2.   3. ]]
[[False  True]
 [ True False]]


### Sigmoid 계층
* Sigmoid 함수 수식
$$y={1 \over 1+exp(-x)}$$
* Sigmoid 함수 미분 수식
    1. /노드는 $y = 1 \over x$ 연산 수행
$${\partial y \over \partial x} = -{1 \over x^2} = -y^2$$
    2. $+$ 연산은 상류 값 그대로 전달
    3. exp노드는 $y = exp(x)$연산 수행
$${\partial y \over \partial x} = exp(x)$$
    4. X 노드는 순전파 때의 값을 서로 바꿔 연산 수행

* 전체 Flow
$${\partial L \over \partial y} \to -{\partial L \over \partial y}y^2 \to -{\partial L \over \partial y}y^2 \to -{\partial L \over \partial y}y^2exp(-x) \to {\partial L \over \partial y}y^2exp(-x)$$
    * 시그모이드 함수는 입력값 x와 출력값 y만으로 순전파와 역전파의 값을 모두 구할 수 있다.
    * 노드를 그룹화하여 Sigmoid 계층의 세세한 내용을 노출하지 않고 입력과 출력에만 집중할 수 있다.
$$exp(-x) = {1\over y -1}$$
$${{\partial L \over \partial y}y^2exp(-x)} = {{\partial L \over \partial y}y^2{({1 \over y}-1)}} = {{\partial L \over \partial y}{y - y^2}} = {{\partial L \over \partial y}y(1-y)}$$
    * Sigmoid 계층의 역전파는 순전파의 출력만으로 계산할 수 있다.

In [7]:
class Sigmoid:
    def __init__(self):
        self.out = None

    def forward(self, x):
        out = sigmoid(x)
        self.out = out
        return out

    def backward(self, dout):
        dx = dout * (1.0 - self.out) * self.out

        return dx

---
## Affine/Softmax 계층 구현하기
* Affine 변환: 신경망의 순전파 때 수행하는 행렬의 곱
* 행렬곱에 대한 역전파 수식
$$\begin{cases} {\partial L \over \partial X} = {\partial L \over \partial Y}W^T\\ {\partial L \over \partial W} = {X^T}{\partial L \over \partial Y} \end{cases}$$
* $W^T$의 $T$는 전치행렬의 뜻하며, 전치행렬이란 $W$의 $(i, j)$위치의 원소를 $(j,i)$위치로 바꾼 것을 말한다.
* Affine 계층에서는 각 변수의 형상에 주의를 해야한다.
    * $X$와 $\partial L \over \partial X$는 같은 형상이고, $W$와 $\partial L \over \partial W$는 같은 형상이다.
    * e.g. $\begin{cases} X = (x_0, x_1, \cdots, x_n)\\ {\partial L \over \partial X}={(\partial L \over \partial X_0, \partial L \over \partial X_1, \cdots , \partial L \over \partial X_n) \end{cases}}$
 
### 배치용 Affine계층
* 기존의 Affine 계층과 다른 부분은 $X$의 형상이 $(N, 2)$가 된 것 뿐이다.
* N개의 데이터에 대한 편향 값을 주의해야 한다.

In [8]:
X_dot_W = np.array([[0,0,0],[10,10,10]])
B = np.array([1,2,3])

print(X_dot_W)
print(X_dot_W + B)

[[ 0  0  0]
 [10 10 10]]
[[ 1  2  3]
 [11 12 13]]


In [9]:
dY = np.array([[1,2,3],[4,5,6]])
print(dY)

dB = np.sum(dY, axis=0)
print(dB)

[[1 2 3]
 [4 5 6]]
[5 7 9]


In [10]:
class Affine:
    def __init__(self, W, b):
        self.W = W
        self.b = b
        
        self.x = None
        self.original_x_shape = None
        # 가중치와 편향 매개변수의 미분
        self.dW = None
        self.db = None

    def forward(self, x):
        # 텐서 대응
        self.original_x_shape = x.shape
        x = x.reshape(x.shape[0], -1)
        self.x = x

        out = np.dot(self.x, self.W) + self.b

        return out

    def backward(self, dout):
        dx = np.dot(dout, self.W.T)
        self.dW = np.dot(self.x.T, dout)
        self.db = np.sum(dout, axis=0)
        
        dx = dx.reshape(*self.original_x_shape)  # 입력 데이터 모양 변경(텐서 대응)
        return dx

### Softmax_with_Loss 계층
* 소프트맥스 계층은 손실 함수인 교차 엔트로피 오차도 포함하여 Softmax_with_Loss 계층이라는 이름으로 구현한다.
* Softmax 계층
    * 입력: $(a_1, a_2, a_3)$
    * 출력: $(y_1, y_2, y_3)$
* Cross_Entropy_Error 계층
    * 입력: $(y_1, y_2, y_3), (t_1, t_2, t_3)$ 여기서 t는 정답 레이블이다.
    * 출력: $L$
* Softmax_with_Loss 계층 역전파
    * 입력: 1
    * 출력: $(y_1-t_1, y_2-t_2, y_3-t_3)$
Softmax_with_Loss의 역전파의 출력은 $(y_1-t_1, y_2-t_2, y_3-t_3)$라는 깔끔한 출력을 보여주는데, 이는 신경망의 현재 출력과 정답 레이블의 오차를 그대로 보여주는 것이다.
> e.g. 정답 레이블이 (0,1,0)일 때의 Softmax 계층이 (0.3, 0.2, 0.5)를 출력했다고 가정해보자. 정답 레이블을 보면 정답의 인덱스는 1인 반면에 출력에서는 이 때의 확률이 겨우 0.2밖에 안된다. 이 경우 Softmax 계층의 역전파는 (0.3, -0.8, 0.5)라는 커다란 오차를 전파하게된다. 

In [11]:
class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None # 손실함수
        self.y = None    # softmax의 출력
        self.t = None    # 정답 레이블(원-핫 인코딩 형태)
        
    def forward(self, x, t):
        self.t = t
        self.y = softmax(x)
        self.loss = cross_entropy_error(self.y, self.t)
        
        return self.loss

    def backward(self, dout=1):
        batch_size = self.t.shape[0]
        if self.t.size == self.y.size: # 정답 레이블이 원-핫 인코딩 형태일 때
            dx = (self.y - self.t) / batch_size
        else:
            dx = self.y.copy()
            dx[np.arange(batch_size), self.t] -= 1
            dx = dx / batch_size
        
        return dx