# Chapter5. 오차역전파법

(현상황 정리)
* 수치 미분의 단점 : 계산 시간이 오래 걸린다

## 5.1 계산 그래프

* 계산 그래프 : 계산 과정을 그래프로 나타낸 것
    * 복수의 노드(node)와 에지(edge : 노드 사이의 직선)로 표현

### 5.1.1 계산 그래프로 풀다

#### (문제1) 슈퍼에서 1개에 100원인 사과를 2개 샀을 때 소비세를 10% 낸다면 지불금액은?

<img src="./images/5-1.png" width="400" height="400"/>
[5-1]

<img src="./images/5-2.png" width="425" height="425"/>
[5-2]

#### (문제2) 슈퍼에서 1개에 100원인 사과를 2개, 150원인 귤을 3개 샀을 때 소비세를 10% 낸다면 지불금액은?

<img src="./images/5-3.png" width="500" height="500"/>
[5-3]

* 순전판 : 계산을 왼쪽에서 오른쪽으로 진행하는 단계
* 역전파 : 순전파의 반대 방향으로의 전파

### 5.1.2 국소적 계산

* 전체 계산이 복잡해도 각 단계에서 하는 일은 해당 노드의 국소적 계산뿐이다

### 5.1.3 왜 계산 그래프로 푸는가?

#### (장점)
* 국소적 계산
* 중간 계산 결과를 모두 보관 가능
* 역전파를 통해 미분을 효율적으로 계산 가능

#### (문제1번 복기하기) 1번 상황에서 사과 가격이 오르면 최종 금액에 끼치는 영향은?

<img src="./images/5-5.png" width="400" height="400"/>
[5-5]

#### (오른쪽 부터 해석)
* 1원 오를 때 소비세 1.1 때문에 1.1원이 오름
* 2개의 사과를 구매할 때 이므로 사과의 개수를 곱해서 2.2원이 오름
* 1원(=굉장히 미세하다=미분) 오를 때 가격의 변화는 사과 가격에 대한 지불 금액의 미분을 의미함
* 역전파의 해석 방법임


## 5.2 연쇄법칙

### 5.2.1 계산 그래프의 역전파

<img src="./images/5-6.png" width="200" height="200"/>
[5-6]

### 5.2.2 연쇄법칙이란?

#### (예시) &nbsp; $z = (x+y)^2$ 은 다음 두 개의 식으로 구성<br><br>$$z = t^2$$ $$ t= x+y$$

* 연쇄법칙 : 합성 함수의 미분은 합성 함수를 구성하는 각 함수의 미분의 곱으로 나타낼 수 있다

<img src="./images/5.2.png" width="100" height="100"/>
(5.2)

<img src="./images/5.3.png" width="65" height="65"/>
(5.3)

<img src="./images/5.4.png" width="250" height="250"/>
(5.4)

### 5.2.3 연쇄법칙과 계산 그래프

<img src="./images/5-7.png" width="350" height="350"/>
[5-7]

<img src="./images/5-8.png" width="350" height="350"/>
[5-8]

## 5.3 역전파

### 5.3.1 덧셈 노드의 역전파

#### &nbsp; (예시) $z = x + y$

<img src="./images/5.5.png" width="50" height="50"/>
(5.5)

<img src="./images/5-9.png" width="350" height="350"/>
[5-9]

왼쪽 위의 1은 z를 x로 미분한 값이다<br>
왼쪽 아래의 1은 z를 y로 미분한 값이다 (5.5참조)


<img src="./images/5-10.png" width="350" height="350"/>
[5-10]

<img src="./images/5-11.png" width="350" height="350"/>
[5-11]

### 5.3.2 곱셈 노드의 역전파

#### &nbsp; (예시) $z = xy$

<img src="./images/5.6.png" width="50" height="50"/>
(5.6)

<img src="./images/5-12.png" width="350" height="350"/>
[5-12]

<img src="./images/5-13.png" width="350" height="350"/>
[5-13]

### 5.3.3 사과 쇼핑의 예

<img src="./images/5-14.png" width="450" height="450"/>
[5-14]

* 이 문제는 사과의 가격, 사과의 개수, 소비세라는 세 변수가 존재
* 각 변수가 최종 금액에 어떤 영향을 주는가의 문제
    1. 사과 가격에 대한 지불 금액의 미분
    2. 사과 개수에 대한 지불 금액의 미분
    3. 소비세에 대한 지불 금액의 미분

(풀이) 곱셈의 역전파를 생각한다.
* 입력신호를 서로 바꿔서 하류로 전달
* 오른쪽부터 첫번째 노드에서
    1. 소비세에 대한 미분 : 200 * 1 = 200 // 2. 위쪽 노드 방향 : 1.1 * 1 = 1.1
* 오른쪽부터 두번째 노드에서
    1. 사과의 개수에 대한 미분 : 1.1 *100 = 110 // 2. 사과 가격에 대한 미분(위쪽 노드 방향) : 1.1 * 2= 2.2

#### (빈칸채우기)

<img src="./images/5-15.png" width="500" height="500"/>
[5-15]

## 5.4 단순한 계층 구현하기

### 5.4.1 곱셈 계층

In [1]:
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None
        
    def forward(self, x, y):
        self.x = x
        self.y = y
        out = x * y
        
        return out
    
    def backward(self, dout): ## dout 미분
        dx = dout * self.y
        dy = dout * self.x
        
        return dx, dy

#### (사과 2개 구입 문제 구현)

<img src="./images/5-16.png" width="450" height="450"/>
[5-16]

In [2]:
apple = 100
apple_num = 2
tax = 1.1

In [3]:
# 계층
mul_apple_layer = MulLayer()
mul_tax_layer = MulLayer()

In [4]:
# 순전파
apple_price = mul_apple_layer.forward(apple, apple_num)
price = mul_tax_layer.forward(apple_price, tax)

In [5]:
print(price)

220.00000000000003


In [6]:
# 역전파
dprice = 1
dapple_price, dtax = mul_tax_layer.backward(dprice)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)

In [7]:
print(dapple, dapple_num, dtax)

2.2 110.00000000000001 200


### 5.4.2 덧셈 계층

In [8]:
class AddLayer:
    def __init__(self):
        pass

    def forward(self, x, y):
        out = x + y
        return out
    
    def backward(self, dout):
        dx = dout * 1
        dy = dout * 1
        return dx, dy

#### (사과 2개 귤 3개 구입 구현)

<img src="./images/5-17.png" width="450" height="450"/>
[5-17]

In [9]:
apple = 100
apple_num = 2
orange = 150
orange_num = 3
tax = 1.1


In [10]:
# 계층들
mul_apple_layer = MulLayer()
mul_orange_layer = MulLayer()
add_apple_orange_layer = AddLayer()
mul_tax_layer = MulLayer()

In [11]:
# 순전파
apple_price = mul_apple_layer.forward(apple, apple_num)
orange_price = mul_orange_layer.forward(orange, orange_num)
all_price = add_apple_orange_layer.forward(apple_price, orange_price)
price = mul_tax_layer.forward(all_price, tax)

In [12]:
# 역전파
dprice = 1
dall_price , dtax = mul_tax_layer.backward(dprice)
dapple_price, dorange_price = add_apple_orange_layer.backward(dall_price)
dorange, dorange_num = mul_orange_layer.backward(dorange_price)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)

In [13]:
print(price)
print(dapple_num, dapple, dorange, dorange_num, dtax)

715.0000000000001
110.00000000000001 2.2 3.3000000000000003 165.0 650


## 5.5 활성화 함수 계층 구현하기

### 5.5.1 ReLU 계층

<img src="./images/5.7.png" width="150" height="150"/>
[5.7]

<img src="./images/5.8.png" width="175" height="175"/>
[5.8]

<img src="./images/5-18.png" width="450" height="450"/>
[5-18]

In [14]:
import numpy as np

In [15]:
class Relu:
    def __init__(self):
        self.mask = None
    
    def forward(self, x):
        self.mask = ( x <= 0)
        out = x.copy()
        out[self.mask] = 0
        
        return out
    
    def backward(self, dout):
        dout[self.mask] = 0
        dx = dout
        
        return dx

In [16]:
x = np.array([[1.0, -0.5], [-2.0, 3.0]])

In [17]:
x

array([[ 1. , -0.5],
       [-2. ,  3. ]])

In [18]:
mask = (x <= 0)

In [19]:
mask

array([[False,  True],
       [ True, False]])

### 5.5.2 Sigmoid 계층

<img src="./images/5-19.png" width="450" height="450"/>
[5-19]

#### (1단계) $ y=1/x $ 미분

<img src="./images/5.10.png" width="100" height="100"/>
[5.10]

#### (2단계) +노드 상류 값 여과 없이 하류 내보내기

#### (3단계) $y =exp(x)$ 미분

<img src="./images/5.11.png" width="100" height="100"/>
[5.11]

#### (4단계) x노드 순전파 때 값 서로 바꿔 곱

#### (최종)

<img src="./images/5-20.png" width="450" height="450"/>
[5-20]

#### (정리) 간소화

<img src="./images/5-21.png" width="250" height="250"/>
[5-21]

#### (식) $\frac{\partial L}{\partial y} y^{2} exp(-x)$ 정리 : y의 출력만으로 계산 가능

<img src="./images/5.12.png" width="350" height="350"/>
[5.12]

<img src="./images/5-22.png" width="250" height="250"/>
[5-22]

In [20]:
# 구현

In [21]:
class Sigmoid:
    def __init__(self):
        self.out = None
        
    def forward(self, x):
        out = 1 / (1 +np.exp(-x))
        self.out = out
    
    def backward(self, dout):
        dx = dout * (1.0 - self.out) *self.out
        
        return dx

## 5.6 Affice/Softmax 계층 구현하기

### 5.6.1 Affine 계층

In [22]:
# 순전파 계산 예시

In [23]:
X = np.random.rand(2)
W = np.random.rand(2,3)
B = np.random.rand(3)

In [24]:
print(X.shape)
print(W.shape)
print(B.shape)

(2,)
(2, 3)
(3,)


In [25]:
Y = np.dot(X, W)

In [26]:
Y

array([0.23604917, 0.64024596, 0.84252544])

<img src="./images/5-23.png" width="150" height="150"/>
[5-23]

<img src="./images/5-24.png" width="300" height="300"/>
[5-24]

#### [5-24]의 역전파 생각하기

<img src="./images/5.13.png" width="125" height="125"/>
[5.13]

<img src="./images/5.14.png" width="150" height="150"/>
[5.14]

#### 해당 수식에 대한 찝찝함이 남아 [여기1](https://velog.io/@kylebae1017/Backpropagation-in-Affine-Layer)와 [여기2](https://compmath.korea.ac.kr/deeplearning/BackPropagation.html#id19)를 참고했다.

(책의 아쉬운 설명을 그냥 넘어가지 못한게 나뿐만이 아니구나..)

내가 이해한대로 작성한거라 증명과정에서 틀린 논리와 내용이 있을 수 있다.

### (연쇄법칙)

<img src="./images/ref_1.png" width="550" height="550"/>
[Chain Rule]

$$\frac{\partial u}{\partial t_j} =  \sum_{i=1}^{n}\frac{\partial u}{\partial x_i} \frac{\partial x_i}{\partial t_j}$$

## (증명 목표)

<img src="./images/5-25.png" width="450" height="450"/>
[5.25]

#### (가정)

$ Y = XW + B $ <br>$L = f(Y) $ <br>$(단, L : 스칼라) $

$X = \begin{pmatrix}
x_{11} & x_{12} \\
\end{pmatrix}$<br><br>
$W=\begin{pmatrix}
w_{11} & w_{12} & w_{13} \\
w_{21} & w_{22} & w_{23} \\
\end{pmatrix}$ (참고 : 교재랑 기호 순서가 다르다... 뒤늦게 발견)<br><br> 
$B = \begin{pmatrix}
b_{11} & b_{12} & b_{13} \\
\end{pmatrix}$
일 때 

$Y = \begin{pmatrix}
x_{11}w_{11} + x_{12}w_{21} + b_{11} & x_{11}w_{12} + x_{12}w_{22} + b_{12}& x_{11}w_{13} + x_{12}w_{23} + b_{13}\\
\end{pmatrix}$

### (1)$\frac{\partial L}{\partial X} = \frac{\partial L}{\partial Y}\cdot  W^T$ 증명하기

$\frac{\partial L}{\partial X} = \begin{pmatrix}
\frac{\partial L}{\partial x_{11}} &  \frac{\partial L}{\partial x{12}}\\
\end{pmatrix}$ 이고 <br><br> 연쇄법칙에 의해 <br><br>
$\frac{\partial L}{\partial x_{11}} = \frac{\partial L}{\partial y_{11}}\cdot \frac{\partial y_{11}}{\partial x_{11}} +
\frac{\partial L}{\partial y_{12}}\cdot \frac{\partial y_{12}}{\partial x_{11}} +
\frac{\partial L}{\partial y_{13}}\cdot \frac{\partial y_{13}}{\partial x_{11}} $

$\frac{\partial L}{\partial x_{12}} = \frac{\partial L}{\partial y_{11}}\cdot \frac{\partial y_{11}}{\partial x_{12}} +
\frac{\partial L}{\partial y_{12}}\cdot \frac{\partial y_{12}}{\partial x_{12}} +
\frac{\partial L}{\partial y_{13}}\cdot \frac{\partial y_{13}}{\partial x_{12}} $
<br><br>
한편, 
$Y = \begin{pmatrix}
y_{11} &y_{12}& y_{13} \\
\end{pmatrix}
=
\begin{pmatrix}
x_{11}w_{11} + x_{12}w_{21} + b_{11} & x_{11}w_{12} + x_{12}w_{22} + b_{12}& x_{11}w_{13} + x_{12}w_{23} + b_{13}\\
\end{pmatrix}$ 이므로 <br><br>
$$\frac{\partial y_{1n}}{\partial x_{1m}} =w_{mn} \quad (단, m= 1,2 \quad n=1,2,3) $$  이다

즉, <br>
$\frac{\partial L}{\partial x_{11}} = \frac{\partial L}{\partial y_{11}}\cdot \frac{\partial y_{11}}{\partial x_{11}} +
\frac{\partial L}{\partial y_{12}}\cdot \frac{\partial y_{12}}{\partial x_{11}} +
\frac{\partial L}{\partial y_{13}}\cdot \frac{\partial y_{13}}{\partial x_{11}} $<br><br>
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;
$=\frac{\partial L}{\partial y_{11}}\cdot w_{11} +
\frac{\partial L}{\partial y_{12}}\cdot w_{12} +
\frac{\partial L}{\partial y_{13}}\cdot w_{13} $

$\frac{\partial L}{\partial x_{12}} = \frac{\partial L}{\partial y_{11}}\cdot \frac{\partial y_{11}}{\partial x_{12}} +
\frac{\partial L}{\partial y_{12}}\cdot \frac{\partial y_{12}}{\partial x_{12}} +
\frac{\partial L}{\partial y_{13}}\cdot \frac{\partial y_{13}}{\partial x_{12}}$<br><br>
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;
$=\frac{\partial L}{\partial y_{11}}\cdot w_{21} +
\frac{\partial L}{\partial y_{12}}\cdot w_{22} +
\frac{\partial L}{\partial y_{13}}\cdot w_{23} $ 이므로 <br><br>
#### 정리하면

$\frac{\partial L}{\partial X} = \begin{pmatrix}
\frac{\partial L}{\partial x_{11}} &  \frac{\partial L}{\partial x{12}}\\
\end{pmatrix} = 
\begin{pmatrix}
\frac{\partial L}{\partial y_{11}}\cdot w_{11} +
\frac{\partial L}{\partial y_{12}}\cdot w_{12} +
\frac{\partial L}{\partial y_{13}}\cdot w_{13} &  \frac{\partial L}{\partial y_{11}}\cdot w_{21} +
\frac{\partial L}{\partial y_{12}}\cdot w_{22} +
\frac{\partial L}{\partial y_{13}}\cdot w_{23} 
\end{pmatrix}
$ <br><br>
&nbsp; &nbsp; &nbsp; &nbsp;
$ = \begin{pmatrix}
\frac{\partial L}{\partial y_{11}} &\frac{\partial L}{\partial y_{12}}  &\frac{\partial L}{\partial y_{13}}  \\
\end{pmatrix}
\begin{pmatrix}
w_{11} & w_{21} \\
w_{12} & w_{22} \\
w_{13} & w_{23} \\
\end{pmatrix}$
<br>
&nbsp; &nbsp; &nbsp; &nbsp;
$ = \frac{\partial L}{\partial Y}\bullet  W^T$

### (2)$\frac{\partial L}{\partial W} =   X^T \cdot \frac{\partial L}{\partial Y}$ 증명하기

In [33]:
# LaTeX 수식쓰는 것이 쉽지 않다. 차후 업데이트 해야겠다. 방법은 위와 같다

다시 책으로 돌아온다

### 5.6.2 배치용 Affine 계층

<img src="./images/5-27.png" width="450" height="450"/>
[5-27]

In [None]:
# 편향 더할때 주의

In [27]:
X_dot_W = np.array([[0,0,0],[10,10,10]])

In [28]:
B = np.array([1,2,3])

In [29]:
X_dot_W

array([[ 0,  0,  0],
       [10, 10, 10]])

In [30]:
X_dot_W + B

array([[ 1,  2,  3],
       [11, 12, 13]])

In [31]:
# 역적판 편향

In [32]:
dY = np.array([[1,2,3],[4,5,6]])

In [37]:
dY

array([[1, 2, 3],
       [4, 5, 6]])

In [34]:
dB = np.sum(dY, axis=0) # aixs = 0 은 데이터를 단위로 한 축에 대한 합(열 합)

In [35]:
dB

array([5, 7, 9])

In [38]:
class Affine:
    def __init__(self, w, b):
        self.W = W
        self.b = b
        self.x = None
        self.dW = None
        self.db = None
        
    def forward(self, x):
        self.x = x
        out = np.dot(x, self.W) + self.b
        
        return out
    
    def backward(self, dout):
        dx = np.dot(dout, self.W.T) # t는 transpose
        self.dW = np.dot(self.x.T, dout)
        self.db = np.sum(dout, axis=0)
        
        return dx

### 5.6.3 Softmax-with-Loss 계층

<img src="./images/5-28.png" width="450" height="450"/>
[5-28]

* 추론할 때는 일반적으로 Softmax 계층을 사용하지 않는다
* Softmax 앞의 Affine 계층의 출력을 점수(score)라고 한다
* 신경망을 학습할 때는 Softmax 계층이 필요하다

<img src="./images/5-29.png" width="550" height="550"/>
[5-29]

# Appendix.A

## Softmax-with-Loss 계층의 계산 그래프

<img src="./images/5-30.png" width="400" height="400"/>
[5-30][A-1](간소화버전) 

### (가정) 
* 3클래스를 분류하는 신경망 가정한 그림
* 이전 계층으로 부터 입력 $(a_1, a_2, a_3)$ &nbsp; softmax 계층은 $(y_1, y_2, y_3)$를 출력
* 정답 레이블 $(t_1, t_2, t_3)$ ---원핫인코더
* Cross Entropy Error 계층은 손실 L 출력

#### (역전파의 결과)

$(y_1 - t_1, y_2 - t_2, y_3- t_3)$

## A.1 순전파

#### (소프트맥스 함수)

<img src="./images/A.1.png" width="150" height="150"/>
[A.1]

#### (소프트맥스 계층 계산 그래프)

<img src="./images/A-2.png" width="450" height="450"/>
[A-2]

#### (교차 엔트로피)

<img src="./images/A.2.png" width="150" height="150"/>
[A.2]

#### (Cross Entropy Error 계층 계산 그래프)

<img src="./images/A-3.png" width="450" height="450"/>
[A-3]

## A.2 역전파

#### (Cross Entropy Error 계층 역전파)

<img src="./images/A-4.png" width="450" height="450"/>
[A-4]

#### (Softmax 계층의 역전파)

(1단계)

<img src="./images/A-4(1).png" width="450" height="450"/>
[A-4(1)]

(2단계)

<img src="./images/A-4(2).png" width="450" height="450"/>
[A-4(2)]

* X 노드에서는 순전파의 입력을 서로 바꿔 곱한다
* 최상단의 경우 예시를 들면 <br>
$  -\frac{t_1}{y_1} * exp(a_1) =  - t_1 \frac{S}{exp(a_1)} exp(a_1) = -t_1S \; (\because y_1 = \frac{exp(a_1)}{S})$

(3단계)

<img src="./images/A-4(3).png" width="450" height="450"/>
[A-4(3)]

* 갈라진게 합쳐지므로 흘러온 값을 더함
* / 노드에서 출력 순전파의 제곱의 마이너스를 붙이므로<br>
$ -(t_1S + t_2S + t_3S) * -\frac{1}{S^2} $<br>
$ = \frac{1}{S}(t_1+t_2+t_3) = \frac{1}{S}  \; (\because (t_1, t_2, t_3) 원-핫 벡터)$

(4단계)

<img src="./images/A-4(4).png" width="450" height="450"/>
[A-4(4)]

* +노드이므로 그냥 흘려보냄

(5단계)

<img src="./images/A-4(5).png" width="450" height="450"/>
[A-4(5)]

* X노드에서 exp노드 방향 살피기
* X노드는 순전파의 입력을 바꿔서 곱한다 <br><br>
$ - \frac {t_1}{y_1} * \frac {1}{S} = - \frac{t_1}{exp(a_1)} \; (\because y_1 = \frac{exp(a_1)}{S})$


(6단계)

<img src="./images/A-4(6).png" width="450" height="450"/>
[A-4(6)]

#### (exp 노드 관계식)

<img src="./images/A.4.png" width="100" height="100"/>
[A.4]

* exp노드는 순전파의 출력을 그대로 곱해줌
* 두 갈래로 나눠지므로 두 합을 $exp(a_1)$과 곱한 형태가 역전파 <br><br>
$(\frac{1}{s} - \frac{t_1}{exp(a_1)})  exp(a_1) = \frac{exp(a_1)}{S} - t_1 = y_1 - t_1$

## A.3 정리

<img src="./images/A-5.png" width="600" height="600"/>
[A-5]

### 5.6.3 으로 다시 복귀

#### (중요한 특징)

* Softmax 계층의 출력과 정답 레이블의 차분이 신경망의 역전파에서 앞 계층으로 전달된다

#### (상황 가정)

* 정답 레이블 (0, 1, 0)이고 Softmax 계층 출력 (0.3, 0.2, 0.5)
* Softmax는 정답을 맞추지 못하는 상황임
* Softmax의 역전파는 (0.3 , -0.8, 0.5) 를 앞 계층으로 전파
* 앞 계층들이 깨달음을 얻을수 있도록..(?) 하는게 목표

In [49]:
# Softmax-with-Loss 계층 구현

In [51]:
class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None # 손실
        self.y = None # softmax 출력
        self.t = None # 정답 레이블 원-핫
        
    def forward(self, x, t):
        self.t = t
        self.y = softmax(x)
        self.loss = cross_entropy_error(self.y, self.t)
        return loss
    
    def backward(self, dout=1):
        batch_size = self.t.shape[0]
        dx = (self.y - self.t) / batch_size
        
        return dx
    
    #### 아래는 이전 장들에서 복붙한거
    def softmax(a):
        C = np.max(a)
        exp_a = np.exp(a-C)
        sum_exp_a = np.sum(exp_a)
        y = exp_a / sum_exp_a
    
        return y
    
    def cross_entropy_error(y, t):
        delta = 1e-7
        return -np.sum(t * np.log(y+delta))
    


## 5.7 오차역전파법 구현하기

### 5.7.1 신경망 학습의 전체 그림

0. 전제
    * 신경망에는 적응 가능한 가중치와 편향이 있고, 훈련 데이터를 통해 조정하는 과정을 학습이라함
1. 미니배치
    * 훈련 데이터 중 일부를 무작위로 가져온 미니 배치에 대해 손실 함수 값을 줄이는 것을 목표로 함
2. 기울기 산출
    * 미니배치의 손실 함수를 줄이기 위해 가중치 매개변수의 기울기 산출하여 손실함수를 줄이는 방향 제시
3. 매개변수 갱신
    * 가중치 매개변수를 기울기 방향으로 아주 조금 갱신
4. 반복

#### (오차역전파법 적용)

* 오차역전파법은 기울기 산출 단계에서 사용된다.
* 이 문서의 가장 상단에서 언급한 '수치 미분의 단점 : 계산 시간이 오래 걸린다'를 해결하기 위한 방법으로 오차역전파법을 이용

### 5.7.2 오차역전파법을 적용한 신경망 구현하기

In [2]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from common.layers import *
from common.gradient import numerical_gradient
from collections import OrderedDict

In [None]:
class TwoLayerNet:
    
    def __init__(self, input_size, hidden_size, output_size, weight_init_std =0.01):
        # 가중치 초기화
        
        self.params = {}
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size)
        self.params['b2'] = np.zeros(output_size)
        
        # 계층 생성
        self.layers = OrderedDict()
        self.layers['Affine1'] = Affine(self.params['W1'], self.params['b1'])
        self.layers['Relu1'] = Relu()
        self.layers['Affine2'] = Affine(self.params['W2'], self.params['b2'])
        self.lastLayer = SoftmaxWithLoss()
        
        
    def predict(self, x):
        for layer in self.layers.values():
            x = layer.forward(x)
        return x
        
        