# 밑바닥부터 시작하는 딥러닝

# Deep Learning from Scratch


# 5 오차역전파법

오차역전파법(backpropagation): 가중치 매개변수의 기울기를 효율적으로 계산

오차를 역(반대 방향)으로 전파하는 방법(backward propagation of errors)

가중치 매개변수의 기울기를 효과적으로 계산하는 방법
1. 결과값을 손실함수로 변환한다.
2. 손실함수의 기울기를 수치미분 한다
3. 기울기가 0이 되는 지점까지 weight를 변화한다.

수치 미분을 통하여 기울기를 구하는데 이는 단순하고 쉽지만 계산이 오래 걸리는 단점이 있다.
따라서 가중치 매개변수의 기울기를 가장 효과적으로 구할 수 있는 오차역전파법을 사용한다.

순전파 :  왼쪽에서 오른쪽
역전파 :  오른쪽에서 왼쪽

## 5.1 계산 그래프

계산 그래프(computational graph): 계산 과정을 그래프로 나타낸 것

복수의 노드(node)와 에지(edge)로 표현됨.

에지: 노드 사이의 직선

### 5.1.1 계산 그래프로 풀다

계산 그래프를 이용한 문제풀이는 다음 흐름으로 진행

* 계산 그래프를 구성한다.
* 그래프에서 계산을 왼쪽에서 오른쪽으로 진행한다.

순전파: 계산을 왼쪽에서 오른쪽으로 진행. 계산 그래프의 출발점부터 종착점으로의 전파.

### 5.1.2 국소적 계산

국소적: 자신과 직접 관련된 작은 범위

국소적 계산: 자신과 관계된 정보만으로 다음 결과를 출력할 수 있음

각 노드는 자신과 관련된 계산 외에는 아무 것도 신경 쓸게 없음

복잡한 계산을 '단순하고 국소적 계산'으로 분할하고 계산 결과를 다음 노드로 전달

복잡한 계산도 분해하면 단순한 계산으로 구성됨

### 5.1.3 왜 계산 그래프로 푸는가?

계산 그래프의 이점 : 국소적 계산으로 문제를 단순화할 수 있음. 중간 계산 결과를 모두 보관 가능

계산 그래프를 쓰는 가장 큰 이유는 역전파를 통해 '미분'을 효율적으로 계산할 수 있음

중간까지 구한 미분 결과를 공유할 수 있어 다수의 미분을 효율적으로 계산할 수 있음

![](./img/01.png)

역전파는 오른쪽에서 왼쪽으로 미분값을 전달. 사과가 1원 오르면 최종금액은 2.2원 오른다.

## 5.2 연쇄법칙

'국소적 미분'을 전달하는 원리는 연쇄 법칙(chain rule)에 따른 것

### 5.2.1 계산 그래프의 역전파

계산 그래프의 역전파: 순방향과는 반대 방향으로 국소적 미분을 곱한다.

역전파의 계산 절차는 신호 E에 노드의 국소적 미분을 곱한 후 다음 노드로 전달

역전파의 계산 순에 따르면 목표로 하는 미분 값을 효율적으로 구할 수 있음

![](./img/02.png)

여기서 말하는 국소적 미분은 순전파때의 y=f(x) 계산의 미분을 말하며 이는 x에 대한 y의 미분을 구한다는 뜻.

y=x**2 의 미분은 dy/dx = 2x 이다. 이 국소적 미분을 상류에서 전달된 값(여기서는 E)에 곱하여 하류로 전달한다.

### 5.2.2 연쇄법칙이란?

합성 함수: 여러 함수로 구성된 함수

예를 들어 z= (x+y)**2 은 z = t**2, t = x+y 의 합성 함수이다.

#### 식 5.1

\begin{equation*}
z = t^{2}
\end{equation*}

\begin{equation*}
t = x + y
\end{equation*}

연쇄법칙은 함성 함수의 미분에 대한 성질

합성 함수의 미분은 합성 함수를 구성하는 각 함수의 미분의 곱으로 나타낼 수 있다.

#### 식 5.2

\begin{equation*}
\frac{\partial z}{\partial x} = \frac{\partial z}{\partial t} \frac{\partial t}{\partial x}
\end{equation*}

x에 대한 z의 미분은 t에 대한 z의 미분과 x에 대한 t의 미분의 곱으로 나타낼 수 있음

∂t를 서로 지울 수 있음.

\begin{equation*}
\frac{\partial z}{\partial x} = \frac{\partial z}{} \frac{}{\partial x}
\end{equation*}

#### 식 5.3

식 5.1에 대한 국소적 미분(편미분)을 구함

\begin{equation*}
\frac{\partial z}{\partial t} = 2t
\end{equation*}

\begin{equation*}
\frac{\partial t}{\partial x} = 1
\end{equation*}

최종적으로 구하고 싶은 x에 대한 z의 미분은 다음 두 미분을 곱해 계산

#### 식 5.4

\begin{equation*}
\frac{\partial z}{\partial x} = \frac{\partial z}{\partial t} \frac{\partial t}{\partial x} = 2t · 1 = 2(x+y)
\end{equation*}

### 5.2.3 연쇄법칙과 계산 그래프

![](./img/03.png)
순전파와는 반대방향으로 국소적 미분을 곱하여 전달한다.

계산 그래프의 역전파는 오른쪽에서 왼쪽으로 신호를 전파

노드로 들어온 입력신호에 그 노드의 국소적 미분(편미분)을 곱한 후 다음 노드로 전달

역전파가 하는 일은 연쇄 법칙의 원리와 같음.

dz/dx = 2(x+y) 는 dz/dt = 2t, dt/dx = 1 의 곱으로 나타낼 수 있음

![](./img/04.png)

## 5.3 역전파

### 5.3.1 덧셈 노드의 역전파

z = x + y 의 미분. 다음은 해석적으로 계산

#### 식 5.5

\begin{equation*}
\frac{\partial z}{\partial x} = 1
\end{equation*}

\begin{equation*}
\frac{\partial z}{\partial y} = 1
\end{equation*}

![](./img/05.png)

역전파때는 상류에서 전해진 미분(dL/dz)에 1을 곱하여 하류로 흘림. 덧셈 노드의 역전파는 1을 곱하기만 할 뿐 입력된 값을 그대로 다음 노드로 보내게 됨.

![](./img/06.png)

덧셈 노드의 역전파는 상류의 값을 흘려보내기만 할 뿐이므로 순전파 때의 입력 신호가 필요하지 않음

예를 들어 10+5=15라는 계산이 있고 이때 역전파로 1.3이라는 값이 흘러왔다면 순전파 때의 입력 신호가 10이었든 5였든 상관없이 1.3을 곱해서 다음 노드로 보내기만 하면 됨.

![](./img/07.png)

### 5.3.2 곱셈 노드의 역전파

z = xy 의 미분

#### 식 5.6

\begin{equation*}
\frac{\partial z}{\partial x} = y
\end{equation*}

\begin{equation*}
\frac{\partial z}{\partial y} = x
\end{equation*}

![](./img/08.png)

곱셈 노드의 역전파는 상류의 값에 순전파 때의 입력 신호들을 '서로 바꾼 값'을 곱해서 하류로 보냄

순전파 때 x 였다면 역전파에서는 y. 순전파 때 y 였다면 역전파에서는 x로 바꿈

![](./img/09.png)

덧셈의 역전파에서는 상류값을 그대로 흘려보내서 순방향 입력신호의 값은 필요하지 않지만 곱셈의 역전파는 순방향 입력 신호의 값이 필요함. 그래서 곱셈 노드를 구현할 때는 순전파의 입력 신호르르 변수에 저장함

### 5.3.3 사과 쇼핑의 예

사과의 개수, 소비세라는 세 변수 각각이 최종금액에 어떻게 영향을 주느냐를 풀고자 함

![](./img/10.png)

이는 사과가격에 대한 지불 금액의 미분, 사과 개수에 대한 지불금액의 미분, 소비세에 대한 지불금액의 미분을 구하는 것과 같음

곱셈 노드의 역전파에서는 입력신호를 서로 바꾸어 하류로 흘림. 위 그림에서 사과 가격의 미분은 2.2, 사과 개수의 미분은 110 소비세의 미분은 200.

소비세와 사과 가격이 같은 양만큼 오르면 최종 금액에는 소비세가 200의 크기로, 사과 가격의 2.2 크기로 영향을 준다고 해석할 수 있음.

<퀴즈>

![](./img/11.png)


## 5.4 단순한 계층 구현하기

계산 그래프의 곱셈 노드를 'MultiLayer', 덧셈 노드를 'AddLayer'로 구현

### 5.4.1 곱셈 계층

모든 계층은 forward() 순전파, backward() 역전파 라는 공통의 메서드(인터페이스)를 갖도록 수현

곱셈 계층을 MultiLayer 클래스로 다음처럼 구현

In [7]:
class MulLayer:
    def __init__(self): # 인스턴스 변수인 x,y 초기화. 순전파 시의 입력값 유지 목적
        self.x = None
        self.y = None

    def forward(self, x, y): # 순전파
        self.x = x
        self.y = y
        out = x * y #x와 y를 인수로 받고 두 값을 곱해서 반환

        return out

    def backward(self, dout): # 역전파, 상류에서 넘어온 미분 dout
        dx = dout * self.y # x와 y를 바꾼다.
        dy = dout * self.x

        return dx, dy

해당 함수는 두 개의 입력 x와 y에 대한 곱셈 함수의 역전파(backward propagation)를 구현한 것입니다. 여기서 dout은 이 함수의 출력값에 대한 미분값이며, 즉 이 함수의 출력값(즉, self.x * self.y)이 다른 함수의 입력값으로 사용될 때 이 함수의 미분값(gradient)이 이 함수의 출력값에 대한 미분값으로 곱해져서 전달됩니다. 따라서, backward 함수의 인자로 전달된 dout값은 이전 층으로부터 전달된 gradient 값입니다.

![](./img/12.png)

In [5]:
#  MulLayer 클래스를 사용하여 다음과 같이 순전파 구현
apple = 100
apple_num = 2
tax = 1.1

# 계층들
mul_apple_layer = MulLayer() # 사과 가격 * 사과 개수
mul_tax_layer = MulLayer() # 사과 가격 * 사과 개수 * 소비세

# 순전파
apple_price = mul_apple_layer.forward(apple, apple_num) # 사과 가격 * 사과 개수
price = mul_tax_layer.forward(apple_price, tax) # 사과 가격 * 사과 개수 * 소비세

print(price) # 220

220.00000000000003


In [6]:
# 각 변수에 대한 미분은 backward() 메서드를 호출하여 구함

# 역전파
dprice = 1
dapple_price, dtax = mul_tax_layer.backward(dprice) # 사과 가격 * 사과 개수 * 소비세
dapple, dapple_num = mul_apple_layer.backward(dapple_price) # 사과 가격 * 사과 개수

print(dapple, dapple_num, dtax) # 2.2 110 200

2.2 110.00000000000001 200


backword() 호출 순서는 foward()때와 반대임. backward()가 받는 인수는 '순전파의 출력에 대한 미분'

### 5.4.2 덧셈 계층

모든 계층은 forward() 순전파, backward() 역전파 라는 공통의 메서드(인터페이스)를 갖도록 수현

덧셈 계층을 MultiLayer 클래스로 다음처럼 구현

In [8]:
class AddLayer:
    def __init__(self):
        pass

    def forward(self, x, y):
        out = x + y
        return out

    def backward(self, dout): # 역전파, 상류에서 넘어온 미분 dout
        dx = dout * 1
        dy = dout * 1
        return dx, dy

\__init\__() : pass를 통해 아무 일도 하지 않음

forward() : x와 y를 인수로 받고 두 값을 더해 반환

backward() : 상류에서 넘어온 미분(dout)을 그대로 하류로 흘림

![](./img/13.png)

그림 5-17의 계산 그래프 파이썬 구현

In [10]:
apple = 100
apple_num = 2
orange = 150
orange_num = 3
tax = 1.1

# 계층들
mul_apple_layer = MulLayer() # 사과 가격 * 사과 개수
mul_orange_layer = MulLayer() # 오렌지 가격 * 오렌지 개수
add_apple_orange_layer = AddLayer() # 사과 가격 * 사과 개수 + 오렌지 가격 * 오렌지 개수
mul_tax_layer = MulLayer() # (사과 가격 * 사과 개수 + 오렌지 가격 * 오렌지 개수) * 소비세

# 순전파
apple_price = mul_apple_layer.forward(apple, apple_num) # 사과 가격 * 사과 개수
orange_price = mul_orange_layer.forward(orange, orange_num) # 오렌지 가격 * 오렌지 개수
all_price = add_apple_orange_layer.forward(apple_price, orange_price) # 사과 가격 * 사과 개수 + 오렌지 가격 * 오렌지 개수
price = mul_tax_layer.forward(all_price, tax) # (사과 가격 * 사과 개수 + 오렌지 가격 * 오렌지 개수) * 소비세

# 역전파
dprice = 1
dall_price, dtax = mul_tax_layer.backward(dprice) # (사과 가격 * 사과 개수 + 오렌지 가격 * 오렌지 개수) * 소비세
dapple_price, dorange_price = add_apple_orange_layer.backward(dall_price) # 사과 가격 * 사과 개수 + 오렌지 가격 * 오렌지 개수
dorange, dorange_num = mul_orange_layer.backward(dorange_price) # 오렌지 가격 * 오렌지 개수
dapple, dapple_num = mul_apple_layer.backward(dapple_price) # 사과 가격 * 사과 개수

print("price:", int(price)) # 715
print("dApple:", dapple) # 2.2
print("dApple_num:", int(dapple_num)) # 110
print("dOrange:", dorange) # 3.3
print("dOrange_num:", int(dorange_num)) # 165
print("dTax:", dtax) # 650

price: 715
dApple: 2.2
dApple_num: 110
dOrange: 3.3000000000000003
dOrange_num: 165
dTax: 650


## 5.5 활성화 함수 계층 구현하기

활성화 함수인 ReLU와 Sigmoid 계층을 구현

### 5.5.1 ReLU 계층

#### 식 5.7 ReLU 식

\begin{equation*}
y = x ( x > 0 )
\end{equation*}

\begin{equation*}
y = 0 ( x <= 0 )
\end{equation*}

#### 식 5.8 ReLU x에 대한 y 미분 식

\begin{equation*}
\frac{\partial y}{\partial x} = 1 ( x > 0 )
\end{equation*}

\begin{equation*}
\frac{\partial y}{\partial x} = 0 ( x <= 0 )
\end{equation*}

순전파 때 입력인 x가 0보다 크면 역전파는 상류의 값을 그대로 하류로 흘림

순전파 때 x가 0 이하면 역전파 때는 하류로 신호를 보내지 않음

![](./img/14.png)

ReLU 계층을 구현한 코드

In [11]:
class Relu:
    def __init__(self):
        self.mask = None # mask는 True/False로 구성된 넘파이 배열

    def forward(self, x):
        self.mask = (x <= 0) # x가 0 이하면 True, 0보다 크면 False
        out = x.copy()
        out[self.mask] = 0 # x가 0 이하면 0으로
        return out

    def backward(self, dout):
        dout[self.mask] = 0 # x가 0 이하면 0으로
        dx = dout
        return dx

Relu 클래스는 mask 인스턴스 변수를 가짐

mask는 순전파의 입력인 x의 원소 값이 0 이하인 인덱스는 True, 그 외(0보다 큰 원소)는 False로 유지

In [12]:
import numpy as np
x = np.array( [[1.0, -0.5], [-2.0, 3.0]] )
print(x)

[[ 1.  -0.5]
 [-2.   3. ]]


In [13]:
mask = (x <= 0)
print(mask)

[[False  True]
 [ True False]]


In [14]:
out= x.copy()
out[mask] = 0
print(out)

[[1. 0.]
 [0. 3.]]


순전파 때 입력값이 0이면 역전파 때 값은 0이 되어야 함. 그래서 역전파때는 순전파때 만들어둔 mask를 써서 mask 원소가 True인 곳에서 전파된 dout을 0으로 설정

ReLU 계층은 전기 회로의 '스위치'에 비유

순전파 때 전류가 흐르고 있으면 스위치를 ON, 흐르지 않으면 OFF

역전파 때 스위치가 ON이라면 전류가 그대로 흐르고, OFF면 더 이상 흐르지 않음

### 5.5.2 Sigmoid 계층

#### 식 5.9 시그모이드 함수

\begin{equation*}
y = \frac{1}{1 + exp(-x)}
\end{equation*}

![](./img/15.png)

**1단계** '/' 노드, y = 1 / x를 미분하면 다음식이 됨

#### 식 5.10

\begin{equation*}
\frac{\partial y}{\partial x} = \frac{1}{x^{2}}
\end{equation*}

\begin{equation*}
= - y^{2}
\end{equation*}

역전파 때는 상류의 예측값에 -y\**2 을 곱해서 하류로 전달

**2단계** 상류의 값을 여과 없이 하류로 보냄

**3단계** y = exp(x) 연산을 수행

#### 식 5.11

\begin{equation*}
\frac{\partial y}{\partial x} = exp(x)
\end{equation*}

계산 그래프에서는 상류의 순전파 때의 출력(exp(-x))을 곱해 하류로 전파

**4단계** y = exp(x) 연산을 수행

'X' 노드, 순전파 때의 값을 서로 바꿔 곱함. 이 예에서는 -1을 곱함

시그모이드 간소화버전

노드를 그룹화하여 Sigmoid 계층의 세세한 내용을 노출하지 않고 입력과 출력에만 집중

\begin{equation*}
\frac{\partial L}{\partial y} y^{2} exp(-x) = \frac{\partial L}{\partial y} \frac{1} { (1+exp(-x))^{2}} exp(-x)
\end{equation*}

\begin{equation*}
= \frac{\partial L}{\partial y} \frac{1} { 1+exp(-x)} \frac{exp(-x)} {1+exp(-x)}
\end{equation*}

\begin{equation*}
= \frac{\partial L}{\partial y} y (1-y)
\end{equation*}

Sigmoid 계층의 계산 그래프: 순전파의 출력 y만으로 역전파를 계산

Sigmoid 계층을 파이썬으로 구현