In [None]:
import numpy as np
import matplotlib.pylab as plt

# 3. 신경망

## 3.1 퍼셉트론에서 신경망으로

### 3.1.3 활성화 함수의 등장

<code>활성화 함수(activation function)</code>: 입력 신호의 총합이 활성화를 일으키는지 정하는 역할

## 3.2 활성화 함수

퍼셉트론에서는 활성화 함수로 계단 함수(step function)을 활용  
신경망에서는 활성화 함수로 시그모이드 함수, 렐루 함수 등을 활용

### 3.2.1 시그모이드 함수

<code>시그모이드 함수(sigmoid function)</code>

$$ h(x) = \frac{1}{1+e^{-x}} $$

$e$는 자연상수로 $2.7182...$의 값을 갖는 실수

### 3.2.4 시그모이드 함수 구현하기

In [None]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

### 3.2.6 비선형 함수

- 선형 함수: 무언가 입력했을 때 출력이 입력의 상수배만큼 변하는 함수, $f(x) = ax + b$, $a$와 $b$는 상수  
- 비선형 함수: 선형이 아닌 함수, 직선 1개로는 그릴 수 없는 함수

신경망에서는 활성화 함수로 비선형 함수를 사용해야 함  
선형 함수를 이용하면 신경망의 층을 깊게 하는 의미가 없어지기 때문

선형 함수인 $h(x) = cx$를 활성화 함수로 사용한 3층 네트워크를 식으로 나타내보면  
$y(x) = h(h(h(x)))$가 되고, 이 계산은 $y(x) = c*c*c*x$처럼 세 번의 곱셈을 수행하지만  
실은 $y(x) = ax$와 똑같은 식임, $a = c^3$이라고 하면 끝임
즉, 은닉층이 없는 네트워크로 표현 가능

### 3.2.7 ReLU 함수

<code>ReLU 함수(Rectified Linear Unit function)</code>

$$ h(x) = \begin{cases} x, & (x>0) \\ 0, & (x\le0) \end{cases} $$

In [None]:
def relu(x):
    return np.maximum(0, x)

## 3.5 출력층 설계하기

- <code>분류(classification)</code>: 데이터가 어느 클래스(class)에 속하느냐는 문제  
  \- 시그모이드(sigmoid) 함수: 이진 클래스 분류  
  \- 소프트맥스(softmax) 함수: 다중 클래스 분류  
- <code>회귀(regression)</code>: 입력 데이터에서 (연속적인) 수치를 예측하는 문제  
  \- 항등(identity) 함수: 입력 = 출력 (입력을 그대로 출력)

### 3.5.1 항등 함수와 소프트맥스 함수 구현하기

<code>소프트맥스(Softmax)</code> 함수 구현

$$ y_k = \frac{\exp(a_k)}{\sum_{i=1}^{n} \exp(a_i)} $$

In [None]:
def softmax(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    
    return y

### 3.5.2 소프트맥스 함수 구현 시 주의점

#### 오버플로 문제
소프트맥스 함수는 지수 함수를 사용하는데, 아주 큰 값을 출력하기 쉬움

In [None]:
for x in range(0, 1001, 50):
    print(f'x = {x}, exp(x) = {np.exp(x)}')

x = 0, exp(x) = 1.0
x = 50, exp(x) = 5.184705528587072e+21
x = 100, exp(x) = 2.6881171418161356e+43
x = 150, exp(x) = 1.3937095806663797e+65
x = 200, exp(x) = 7.225973768125749e+86
x = 250, exp(x) = 3.7464546145026734e+108
x = 300, exp(x) = 1.9424263952412558e+130
x = 350, exp(x) = 1.0070908870280797e+152
x = 400, exp(x) = 5.221469689764144e+173
x = 450, exp(x) = 2.7071782767869983e+195
x = 500, exp(x) = 1.4035922178528375e+217
x = 550, exp(x) = 7.277212331783397e+238
x = 600, exp(x) = 3.7730203009299397e+260
x = 650, exp(x) = 1.956199921370272e+282
x = 700, exp(x) = 1.0142320547350045e+304
x = 750, exp(x) = inf
x = 800, exp(x) = inf
x = 850, exp(x) = inf
x = 900, exp(x) = inf
x = 950, exp(x) = inf
x = 1000, exp(x) = inf


  print(f'x = {x}, exp(x) = {np.exp(x)}')


무한대(inf)와 같은 큰 값끼리 나눗셈을 하면 결과 수치가 불안정해짐

In [None]:
a = np.array([1010, 1000, 990])
np.exp(a) / np.sum(np.exp(a))

  np.exp(a) / np.sum(np.exp(a))
  np.exp(a) / np.sum(np.exp(a))


array([nan, nan, nan])

아무런 조치 없이 그냥 계산하면 nan이 출력됨

In [None]:
c = np.max(a)
a - c

array([  0, -10, -20])

In [None]:
result = np.exp(a-c) / np.sum(np.exp(a-c))
result

array([9.99954600e-01, 4.53978686e-05, 2.06106005e-09])

입력 신호 중 최댓값을 빼주면 올바르게 계산 가능

In [None]:
def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a - c) # 오버플로 대책
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    
    return y

### 3.5.3 소프트맥스 함수의 특징

In [None]:
a = np.array([0.3, 2.9, 4.0])
y = softmax(a)
print(y)

[0.01821127 0.24519181 0.73659691]


In [None]:
np.sum(y)

1.0

소프트맥스 함수 출력의 총합은 1 → <code>확률</code>로 해석 가능  
위에서는 y[0]의 확률은 1.8%, y[1]의 확률은 24.5%, y[2]의 확률은 73.7%라고 해석 가능

기계학습의 문제 풀이는 <code>학습(training)</code>과 <code>추론(inference)</code>의 두 단계를 거쳐 이뤄짐  
학습 단계에서 모델을 학습하고, 추론 단계에서 앞서 학습한 모델로 미지의 데이터에 대해서 추론(분류)을 수행함  
학습 시, 출력층에서 소프트맥스 함수를 사용하지만  
추론 시, (현업에서는) 지수 함수 계산에 드는 자원 낭비를 줄이고자 출력층의 소프트맥스 함수는 생략하는 것이 일반적임

### 3.5.4 출력층의 뉴런 수 정하기

출력층의 뉴런 수는 풀려는 문제에 맞게 적절히 정해야함  
분류에서는 분류하고 싶은 클래스 수로 정하는 것이 일반적임  
ex. 이미지를 숫자 0부터 9 중 하나로 분류하는 문제라면 출력층의 뉴런을 10개로 설정

## 3.6 손글씨 숫자 인식

### 3.6.1 MNIST 데이터셋

In [None]:
import sys, os
sys.path.append(os.pardir)
from dataset.mnist import load_mnist

In [None]:
(x_train, t_train), (x_test, t_test) = load_mnist(flatten=True, normalize=False)

In [None]:
print(x_train.shape)
print(t_train.shape)
print(x_test.shape)
print(t_test.shape)

(60000, 784)
(60000,)
(10000, 784)
(10000,)


In [None]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from dataset.mnist import load_mnist
from PIL import Image

In [None]:
def img_show(img):
    pil_img = Image.fromarray(np.uint8(img))
    pil_img.show()

In [None]:
(x_train, t_train), (x_test, t_test) = load_mnist(flatten=True, normalize=False)

In [None]:
img = x_train[0]
label = t_train[0]
print(label)

5


In [None]:
print(img.shape)
img = img.reshape(28, 28)
print(img.shape)

(784,)
(28, 28)


In [None]:
img_show(img)

### 3.6.2 신경망의 추론 처리

In [None]:
def get_data():
    (x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, flatten=True, one_hot_label=False)
    return x_test, t_test

In [None]:
import pickle
def init_network():
    with open("dataset/sample_weight.pkl", 'rb') as f:
        network = pickle.load(f)

    return network

In [None]:
def predict(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']

    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = softmax(a3)

    return y

In [None]:
x, t = get_data()
network = init_network()

accuracy_cnt = 0
for i in range(len(x)):
    y = predict(network, x[i])
    p = np.argmax(y)
    if p == t[i]:
        accuracy_cnt += 1

print("Accuracy:" + str(float(accuracy_cnt) / len(x)))

Accuracy:0.9352


### 3.6.3 배치 처리

In [None]:
x, t = get_data()
network = init_network()

batch_size = 100
accuracy_cnt = 0

for i in range(0, len(x), batch_size):
    x_batch = x[i:i+batch_size]
    y_batch = predict(network, x_batch)
    p = np.argmax(y_batch, axis=1)
    accuracy_cnt += np.sum(p == t[i:i+batch_size])

print("Accuracy:" + str(float(accuracy_cnt) / len(x)))

Accuracy:0.9352


# 4. 신경망 학습

<code>학습</code>: 훈련 데이터로부터 가중치 매개변수의 최적값을 자동으로 획득하는 것

## 4.2 손실 함수

### 4.2.1 평균 제곱 오차

<code>평균 제곱 오차(mean squared error, MSE)</code>

$$ E = \frac{1}{n} \sum_{k}(y_k - t_k)^2 $$

각 원소의 출력(추정 값)과 정답 레이블(참 값)의 차를 제곱하고 모두 합한 후 평균  

$y_k$: 신경망의 출력(신경망이 추정한 값)  
$t_k$: 정답 레이블  
$k$: 데이터의 차원 수

In [None]:
def mean_squared_error(y, t):
    return np.sum((y-t)**2) / len(t)

### 4.2.2 교차 엔트로피 오차

<code>교차 엔트로피 오차(cross entropy error, CEE)</code>

$$ E = -\sum_{k} t_{k} \log{y_{k}} $$

여기서 $\log$는 밑이 $e$인 자연로그  

$y_k$: 신경망의 출력  
$t_k$: 정답 레이블  

$t_k$는 정답에 해당하는 인덱스의 원소만 1이고 나머지는 0 (원핫인코딩)  
→ $t_k=0$일 때는 모두 무시 가능하고, $t_k=1$일 때(정답일 때)만 자연로그 계산

예를 들어 정답 레이블은 '2'가 정답이라 하고 이때의 신경망 출력 $y_k$가 $0.6$이라면 교차 엔트로피 오차는 $-\log0.6 = 0.51$  
같은 조건에서 신경망 출력 $y_k$가 $0.1$이라면 교차 엔트로피 오차는 $-\log0.1 = 2.3$  
(상대적으로 제대로 예측한 경우(신경망 출력이 $0.6$인 경우) loss가 작고  
 상대적으로 잘못 예측한 경우(신경망 출력이 $0.1$인 경우) loss가 큼)

<img width="473" src="https://user-images.githubusercontent.com/77653353/192322965-5d57ab8b-a5b1-4b2f-a79c-c9a0cae2b55d.png">

In [None]:
def cross_entropy_error(y, t):
    delta = 1e-7
    return -np.sum(t * np.log(y + delta))

아주 작은 값인 delta를 더하여 절대 0이 되지 않도록, 즉 마이너스 무한대가 발생하지 않도록 한 것

### 4.2.3 미니배치 학습

이제 데이터 하나가 아닌 훈련 데이터 모두에 대한 손실 함수의 합을 구하는 방법을 생각해보자

훈련 데이터 모두에 대한 교차 엔트로피 오차

$$ E = - \frac{1}{N}\sum_{n}\sum_{k}t_{nk}\log y_{nk} $$

데이터가 $N$개라면 $t_{nk}$는 $n$번째 데이터의 $k$차원 째의 값을 의미  

$y_{nk}$: 신경망의 출력  
$t_{nk}$: 정답 레이블  

수식이 좀 복잡해 보이지만 데이터 하나에 대한 손실함수를 단순히 $N$개의 데이터로 확장했을 뿐임  
마지막에 $N$으로 나누어 정규화하여 '평균 손실 함수'를 구하는 것

수백만, 수천만개의 데이터를 일일이 계산하기에는 쉽지 않기 때문에  
훈련 데이터로부터 일부만 골라 학습을 수행하는데 이 일부를 <code>미니배치(mini-batch)</code>

### 4.2.4 (배치용) 교차 엔트로피 오차 구현하기

정답 레이블이 원-핫 인코딩인 경우

In [None]:
def cross_entropy_error(y, t):
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)

    batch_size = y.shape[0]
    return -np.sum(t * np.log(y)) / batch_size

In [None]:
y = np.array([[0, 0, 0.02, 0.03, 0,    0, 0, 0.1, 0.05, 0.8],\
              [0, 0, 0   , 0,    0.01, 0, 0, 0,   0.99, 0  ]])
t = np.array([[0, 0, 0, 1, 0, 0, 0, 0, 0, 0],\
              [0, 0, 0, 0, 0, 0, 0, 0, 1, 0]])

delta = 1e-7
batch_size = y.shape[0]

print(y.shape)
print(t.shape)
print(-np.sum(t * np.log(y + delta)) / batch_size)

(2, 10)
(2, 10)
1.7583023994178049


정답 레이블이 원-핫 인코딩이 아니라 '$2$'나 '$7$' 등의 숫자 레이블로 주어지는 경우

In [None]:
def cross_entropy_error(y, t):
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)

    batch_size = y.shape[0]
    return -np.sum(t * np.log(y[np.arange(batch_size), t])) / batch_size

In [None]:
y = np.array([[0, 0, 0.02, 0.03, 0,    0, 0, 0.1, 0.05, 0.8],\
              [0, 0, 0   , 0,    0.01, 0, 0, 0,   0.99, 0  ]])
t = np.array([3, 8])

delta = 1e-7
batch_size = y.shape[0]


print(y.shape)
print(t.shape)
print(y)
print(np.arange(batch_size))
print(t)
print(y[np.arange(batch_size), t]) # [ y[0,3] y[1,8] ]

y = y + delta
print(-np.sum(np.log(y[np.arange(batch_size), t])) / batch_size)

(2, 10)
(2,)
[[0.   0.   0.02 0.03 0.   0.   0.   0.1  0.05 0.8 ]
 [0.   0.   0.   0.   0.01 0.   0.   0.   0.99 0.  ]]
[0 1]
[3 8]
[0.03 0.99]
1.7583023994178049


정답 레이블이 숫자 레이블로 주어지는 경우, np.log(y[np.arange(batch_size), t])  
np.arange(batch_size)는 0부터 batch_size-1까지 배열을 생성함  
ex. batch_size=5라면,  
np.arange(batch_size)는 [0,1,2,3,4]라는 넘파이 배열 생성  
t에는 레이블이 [2,7,0,9,4]와 같이 저장되어 있으므로  
y[np.arange(batch_size), t]는 y[[0,1,2,3,4], [[2,7,0,9,4]]] → [y[0,2], y[1,7], y[2,0], y[3,9], y[4,4]]

In [None]:
# 위에서 reshape을 하는 이유?

a = np.array([1,2,3])
print(f'a = {a}')
print(f'a.shape = {a.shape}')
print(f'a.shape[0] = {a.shape[0]}')
print()

b = a.reshape(1, a.size)
print(f'b = {b}')
print(f'b.shape = {b.shape}')
print(f'b.shape[0] = {b.shape[0]}')

a = [1 2 3]
a.shape = (3,)
a.shape[0] = 3

b = [[1 2 3]]
b.shape = (1, 3)
b.shape[0] = 1


데이터가 하나인 경우(batch_size가 1인 경우)  
shape가 (3,) 처럼 나오기 때문에  
a.shape[0]가 1이 아닌 3으로 잘못된 batch_size가 입력됨

### 4.2.5 왜 손실 함수를 설정하는가?

우리의 궁극적인 목적은 높은 '정확도'를 끌어내는 매개변수 값을 찾는 것!  
그렇다면 왜 '정확도'라는 지표를 두고 손실 함수의 값을 거쳐갈까?

신경망 학습에서의 <code>미분</code>의 역할에 주목!  
가령 가상의 신경망이 있고, 그 신경망의 어느 한 가중치 매개변수에 주목한다고 해보자  
이때 그 가중치 매개변수의 손실 함수의 미분이란 '가중치 매개변수의 값을 아주 조금 변화시켰을 때, 손실 함수가 어떻게 변하나'라는 의미  
만약 이 미분 값이 음수면, 그 가중치 매개변수를 양의 방향으로 변화시켜 손실 함수의 값을 줄일 수 있고  
만약 이 미분 값이 양수면, 그 가중치 매개변수를 음의 방향으로 변화시켜 손실 함수의 값을 줄일 수 있음  
만약 이 미분 값이 0이면, 가중치 매개변수를 어느 쪽으로 움직여도 손실 함수의 값은 달라지지 않음

계단 함수의 미분은 대부분의 장소(0 이외의 곳)에서 0 → 계단 함수를 활성화 함수로 이용하면 손실함수를 지표로 삼는 게 아무 의미 없어짐  
매개변수의 작은 변화가 주는 파장을 계단 함수가 말살하여 손실 함수의 값에는 아무런 변화가 나타나지 않기 때문

## 4.3 수치 미분

### 4.3.1 미분

<code>미분</code>: 특정 순간의 변화량  
$x$의 작은 변화가 함수$f(x)$를 얼마나 변화시키느냐를 의미

$$ \frac{df(x)}{dx} = \lim_{h→0}\frac{f(x+h)-f(x)}{h} $$

위의 식을 참고하여 함수의 미분을 구하는 계산을 구현해보면

In [None]:
def numerical_diff(f, x):
    h = 10e-50
    return (f(x+h) - f(x)) / h

위의 방식은 두 가지 문제가 있는데
- 반올림 오차 문제 → 미세한 값 $h$를 $10^{-4}$정도로 조절
- 진정한 미분은 $x$위치의 함수의 기울기(접선)이지만 $h$를 무한히 0으로 좁히는 것 불가 → 중심 차분 또는 중앙 차분 사용($(x+h)$와 $(x-h)$일 때의 함수 $f$의 차분 계산)

In [None]:
def numerical_diff(f, x):
    h = 1e-4 # 0.0001
    return (f(x+h) - f(x-h)) / (2*h)

<code>수치 미분(numerical differentiation)</code>: 아주 작은 차분(임의 두 점에서의 함수 값들의 차이)으로 미분을 구하는 것  
<code>해석적 미분(analytic differentiation)</code>: 수식을 전개해 미분을 구하는 것 ex.$y = x^2$의 미분은 $\frac{dy}{dx} = 2x$

### 4.3.3 편미분

$$ f(x_0, x_1) = x_0^2 + x_1^2 $$

In [None]:
def function_2(x):
    return x[0]**2 + x[1]**2

위와 같은 함수가 있다고 해보자  
인수들의 제곱 합을 계산하는 단순한 식이지만, 이번엔 변수가 2개인 함수

<img width="473" alt="fig 4-8" src="https://user-images.githubusercontent.com/77653353/193848270-9e48b89b-d329-4663-9797-3095f4e597f9.png">

<code>편미분</code>: 변수가 여럿인 함수에 대한 미분, $\frac{\partial{f}}{\partial{x_0}}$이나 $\frac{\partial{f}}{\partial{x_1}}$

## 4.4 기울기

앞에서는 $x_0$와 $x_1$의 편미분을 변수별로 따로 계산했음  
그렇다면 $x_0$와 $x_1$의 편미분을 동시에 계산하려면?

$x_0=3$, $x_1=4$일 때 $(x_0, x_1)$ 양쪽의 편미분을 묶어서 $(\frac{\partial{f}}{\partial{x_0}}, \frac{\partial{f}}{\partial{x_1}})$처럼  
모든 변수의 편미분을 벡터로 정리한 것을 <code>기울기(gradient)</code>라고 함

In [None]:
def numerical_gradient(f, x):               # [3, 4]
    h = 1e-4
    grad = np.zeros_like(x)                 # [0, 0]

    for idx in range(x.size):               # idx=0, x.size=2
        tmp_val = x[idx]                    # tmp_val = 3

        # f(x+h) 계산
        x[idx] = tmp_val + h                # x[0] = 3.0001
        fxh1 = f(x)                         # fxh1 = 25.00060001

        # f(x-h) 계산
        x[idx] = tmp_val - h                # x[0] = 2.9999
        fxh2 = f(x)                         # fxh2 = 24.99940001
        
        grad[idx] = (fxh1 - fxh2) / (2*h)   # grad[0] = 0.0012 / 0.0002 = 6
        x[idx] = tmp_val # 값 복원          # x[0] = 3

    return grad

In [None]:
def function_2(x):
    return x[0]**2 + x[1]**2

In [None]:
numerical_gradient(function_2, np.array([3.0, 4.0]))

array([6., 8.])

In [None]:
numerical_gradient(function_2, np.array([0.0, 2.0]))

array([0., 4.])

In [None]:
numerical_gradient(function_2, np.array([3.0, 0.0]))

array([6., 0.])

기울기는 함수의 '가장 낮은 장소(최솟값)'를 가리키는 것  
기울기가 가리키는 쪽은 각 장소에서 함수의 출력 값을 가장 줄이는 방향

### 4.4.1 경사법(경사 하강법)

우리의 목표는 학습 단계에서 최적의 매개변수를 찾는 것이고, 이는 손실 함수가 최솟값이 될 때의 매개변수 값  
하지만 광대한 공간 속에서 어느 곳이 최솟값인지 알아내기 쉽지 않음  
이러한 상황에서 기울기를 잘 이용해 함수의 최솟값(또는 가능한 한 작은 값)을 찾으려는 것이 경사법

함수가 최솟값, 극솟값, 안장점이 되는 장소에서는 기울기가 0  
- 극솟값: 국소적인 최솟값  
- 안장점(saddle point): 어느 방향에서 보면 극댓값이고, 다른 방향에서 보면 극솟값이 되는 점

기울어진 방향이 꼭 최솟값을 가리키는 것은 아니지만, 그 방향으로 가야 함수의 값을 줄일 수 있음  
그래서 최솟값이 되는 장소를 찾는 문제에서는 기울기 정보를 단서로 나아갈 방향을 정함

<code>경사법(gradient method)</code>, <code>경사 하강법(gradient descent method)</code>:  
현 위치에서 기울어진 방향으로 일정 거리만큼 이동하고, 이동한 곳에서도 기울기를 구하고, 또 기울어진 방향으로 나아가서 함수의 값을 점차 줄이는 것

수식으로 나타내면

$$ x_0 = x_0 - \eta \frac{\partial{f}}{\partial{x_0}} $$  
$$ x_1 = x_1 - \eta \frac{\partial{f}}{\partial{x_1}} $$

<code>학습률(learning rate)</code>: 매개변수 값을 얼마나 갱신하느냐를 정하는 것, 여기서는 $\eta$

경사 하강법 구현

In [None]:
def gradient_descent(f, init_x, lr=0.01, step_num=100):     # f: 최적화하려는 함수
    x = init_x                                              # init_x: 초깃값
                                                            # lr: 학습률
    for i in range(step_num):                               # step_num: 경사법에 따른 반복 횟수
        grad = numerical_gradient(f, x)
        x -= lr * grad
    
    return x

<code>하이퍼파라미터(hyper parameter)</code>: 사람이 직접 설정해야 하는 매개변수 ex.학습률  
<code>파라미터(parameter)</code>: 훈련 데이터와 학습 알고리즘에 의해서 '자동'으로 획득되는 매개변수 ex.가중치, 편향

## 4.5 학습 알고리즘 구현하기

- 전제  
  신경망에는 적응 가능한 가중치와 편향이 있고, 이 가중치와 편향을 훈련 데이터에 적응하도록 조정하는 과정을 '학습'이라 함. 신경망 학습은 다음과 같이 4단계로 수행함  
  
- 1단계 - 미니배치  
  훈련 데이터 중 일부를 무작위로 가져옴. 이렇게 선별한 데이터를 미니배치라 하며, 그 미니배치의 손실 함수 값을 줄이는 것을 목표로 함  

- 2단계 - 기울기 산출  
  미니배치의 손실 함수 값을 줄이기 위해 각 가중치 매개변수의 기울기를 구함. 기울기는 손실 함수의 값을 가장 작게 하는 방향을 제시  

- 3단계 - 매개변수 갱신  
  가중치 매개변수를 기울기 방향으로 아주 조금 갱신함  

- 4단계 - 반복  
  1~3단계를 반복함

<code>확률적 경사 하강법(Stochastic Gradient Descent, SGD)</code>: 확률적으로 무작위로 골라낸 데이터에 대해 수행하는 경사 하강법

### 4.5.1 2층 신경망 클래스 구현하기

In [None]:
# coding: utf-8
import sys, os
sys.path.append(os.pardir)  # 부모 디렉터리의 파일을 가져올 수 있도록 설정
from common.functions import *
from common.gradient import numerical_gradient


class TwoLayerNet:

    def __init__(self, input_size, hidden_size, output_size, weight_init_std=0.01):
        # 가중치 초기화
        self.params = {}
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size)
        self.params['b2'] = np.zeros(output_size)

    def predict(self, x):
        W1, W2 = self.params['W1'], self.params['W2']
        b1, b2 = self.params['b1'], self.params['b2']
    
        a1 = np.dot(x, W1) + b1
        z1 = sigmoid(a1)
        a2 = np.dot(z1, W2) + b2
        y = softmax(a2)
        
        return y
        
    # x : 입력 데이터, t : 정답 레이블
    def loss(self, x, t):
        y = self.predict(x)
        
        return cross_entropy_error(y, t)
    
    def accuracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y, axis=1)
        t = np.argmax(t, axis=1)
        
        accuracy = np.sum(y == t) / float(x.shape[0])
        return accuracy
        
    # x : 입력 데이터, t : 정답 레이블
    def numerical_gradient(self, x, t):
        loss_W = lambda W: self.loss(x, t)
        
        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        
        return grads
        
    def gradient(self, x, t):
        W1, W2 = self.params['W1'], self.params['W2']
        b1, b2 = self.params['b1'], self.params['b2']
        grads = {}
        
        batch_num = x.shape[0]
        
        # forward
        a1 = np.dot(x, W1) + b1
        z1 = sigmoid(a1)
        a2 = np.dot(z1, W2) + b2
        y = softmax(a2)
        
        # backward
        dy = (y - t) / batch_num
        grads['W2'] = np.dot(z1.T, dy)
        grads['b2'] = np.sum(dy, axis=0)
        
        da1 = np.dot(dy, W2.T)
        dz1 = sigmoid_grad(a1) * da1
        grads['W1'] = np.dot(x.T, dz1)
        grads['b1'] = np.sum(dz1, axis=0)

        return grads

numerical_gradient 메서드는 수치 미분 방식으로 각 매개변수의 손실 함수에 대한 기울기를 계산  
gradient 메서드는 오차역전파법을 사용하여 기울기를 계산 (다음 장에서 진행)

### 4.5.2 미니배치 학습 구현하기

In [None]:
# coding: utf-8
import sys, os
sys.path.append(os.pardir)  # 부모 디렉터리의 파일을 가져올 수 있도록 설정
import numpy as np
import matplotlib.pyplot as plt
from dataset.mnist import load_mnist
from two_layer_net import TwoLayerNet

# 데이터 읽기
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

# 하이퍼파라미터
iters_num = 10000  # 반복 횟수를 적절히 설정한다.
train_size = x_train.shape[0]
batch_size = 100   # 미니배치 크기
learning_rate = 0.1

train_loss_list = []
train_acc_list = []
test_acc_list = []

# 1에폭당 반복 수
iter_per_epoch = max(train_size / batch_size, 1)

for i in range(iters_num):
    # 미니배치 획득
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    # 기울기 계산
    #grad = network.numerical_gradient(x_batch, t_batch)
    grad = network.gradient(x_batch, t_batch)
    
    # 매개변수 갱신
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key]
    
    # 학습 경과 기록
    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)
    
    # 1에폭당 정확도 계산
    if i % iter_per_epoch == 0:
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print("train acc, test acc | " + str(train_acc) + ", " + str(test_acc))

# 그래프 그리기
markers = {'train': 'o', 'test': 's'}
x = np.arange(len(train_acc_list))
plt.plot(x, train_acc_list, label='train acc')
plt.plot(x, test_acc_list, label='test acc', linestyle='--')
plt.xlabel("epochs")
plt.ylabel("accuracy")
plt.ylim(0, 1.0)
plt.legend(loc='lower right')
plt.show()


### 4.5.3 시험 데이터로 평가하기

위의 코드에서 1에포크별로 훈련 데이터와 시험 데이터에 대한 정확도를 기록함  
<code>에포크(epoch)</code>: 학습에서 훈련 데이터를 모두 소진했을 때의 횟수

# 5. 오차역전파법

앞 장에서는 신경망의 가중치 매개변수의 기울기는 수치 미분을 사용해서 구함  
수치 미분은 시간이 오래 걸린다는 단점  
이번 장에서는 가중치 매개변수의 기울기를 효율적으로 계산하는 오차역전파법을 다룸  
오차역전파법을 이해하는 방법 두 가지: 수식, 계산 그래프

## 5.1 계산 그래프

<code>계산 그래프(computational graph)</code>: 계산 과정을 그래프로 나타낸 것, 노드(node)와 에지(edge)로 표현

### 5.1.1 계산 그래프로 풀다

ex. 현빈 군은 슈퍼에서 1개에 100원인 사과를 2개 샀습니다. 이때 지불 금액을 구하세요. 단, 소비세가 10% 부과됩니다.

<img width="601" alt="fig 5-2" src="https://user-images.githubusercontent.com/77653353/194425362-70f6152d-7220-4027-8207-2ae909133086.png">


<code>순전파(forward propagation)</code>: 계산을 왼쪽에서 오른쪽으로 진행하는 단계  
<code>역전파(backward propagation)</code>: 계산을 오른쪽에서 왼쪽으로 반대로 진행하는 단계

### 5.1.2 국소적 계산

계산 그래프는 <code>국소적 계산</code>에 집중함  
전체 계산이 아무리 복잡하더라도 각 단계에서 하는 일은 해당 노드의 국소적 계산

<img width="643" alt="fig 5-4" src="https://user-images.githubusercontent.com/77653353/194426040-1b161e9b-348a-4ae7-8bc4-77543d484943.png">

위의 그림에서는 여러 식품을 구입(복잡한 계산)을 거쳐 총 금액이 4,000원이 되었는데  
사과와 다른 물품 값을 더하는 계산(4,000 + 200 = 4,200)은  
4,000이라는 숫자가 어떻게 계산되었느냐와는 상관없이, 단지 두 숫자를 더하면 된다는 것

### 5.1.3 왜 계산 그래프로 푸는가?

계산 그래프를 사용하는 가장 큰 이유는 역전파를 통해 <code>미분</code>을 효율적으로 계산할 수 있다는 점!

맨 위의 예시에서  
만약 사과 가격이 오르면 최종 금액에 어떤 영향을 끼치는지를 알고 싶다고 해보자  
이는 '사과 가격에 대한 지불 금액의 미분'을 구하는 문제에 해당됨  
사과 값을 $x$, 지불 금액을 $L$이라 했을 때 $\frac{\partial{L}}{\partial{x}}$를 구하는 것

<img width="608" alt="fig 5-5" src="https://user-images.githubusercontent.com/77653353/194427222-dbe08b8b-4e0e-4d25-9e89-ea908a9fe499.png">

역전파는 오른쪽에서 왼쪽으로 '1 → 1.1 → 2.2' 순으로 미분 값을 전달함  
사과가 1원 오르면 최종 금액은 2.2원 오른다는 뜻

## 5.2 연쇄법칙

국소적 미분을 전달하는 원리는 <code>연쇄법칙(chain rule)</code>에 따른 것

### 5.2.1 계산 그래프의 역전파

<img width="282" alt="fig 5-6" src="https://user-images.githubusercontent.com/77653353/194427676-a92a8aa2-b16b-474b-83b1-3e375243ab16.png">

역전파의 계산 절차는 신호 $E$에 노드의 국소적 미분 $\frac{\partial{y}}{\partial{x}}$을 곱한 후 다음 노드로 전달하는 것

### 5.2.2 연쇄법칙이란?

연쇄법칙을 설명하려면 우선 합성 함수부터  
<code>합성 함수</code>: 여러 함수로 구성된 함수

ex. $z = (x+y)^2$이라는 식은 아래처럼 두 개의 식으로 구성됨

$$ z = t^2 $$
$$ t = x + y $$

'합성 함수의 미분은 합성 함수를 구성하는 각 함수의 미분의 곱으로 나타낼 수 있다' 가 연쇄법칙의 원리

수식으로 쓰면

$$ \frac{\partial{z}}{\partial{x}} = \frac{\partial{z}}{\partial{t}} \frac{\partial{t}}{\partial{x}} $$

$$ \frac{\partial{z}}{\partial{t}} = 2t $$  
$$ \frac{\partial{t}}{\partial{x}} = 1 $$  
$$ \frac{\partial{z}}{\partial{x}} = 2t \cdot 1 = 2(x+y) $$

### 5.2.3 연쇄법칙과 계산 그래프

위의 연쇄법칙을 계산 그래프로 나타내면

<img width="466" alt="fig 5-7" src="https://user-images.githubusercontent.com/77653353/194429186-34492d6f-3168-4762-bde2-ff5ace04d458.png">

## 5.3 역전파

### 5.3.1 덧셈 노드의 역전파

$z = x + y$ 라는 식이 있다면

$$ \frac{\partial{z}}{\partial{x}} = 1 $$  
$$ \frac{\partial{z}}{\partial{y}} = 1 $$

왼쪽이 순전파, 오른쪽이 역전파

<img width="651" alt="fig 5-9" src="https://user-images.githubusercontent.com/77653353/194429956-0449676d-80a9-4e1d-bca8-e19c1661038e.png">

위의 그림에서 상류에서 전해진 미분이 $\frac{\partial{L}}{\partial{z}}$이라고 한다면  
덧셈 노드의 역전파는 <code>입력된 값을 그대로 다음 노드로</code> 보내게 됨

### 5.3.2 곱셈 노드의 역전파

$z = xy$ 라는 식이 있다면

$$ \frac{\partial{z}}{\partial{x}} = y $$  
$$ \frac{\partial{z}}{\partial{y}} = x $$

왼쪽이 순전파, 오른쪽이 역전파

<img width="651" alt="fig 5-12" src="https://user-images.githubusercontent.com/77653353/194430669-ae8cb860-49a4-4916-8e17-c8b3e28ab4b4.png">

위의 그림에서 상류에서 전해진 미분이 $\frac{\partial{L}}{\partial{z}}$이라고 한다면  
곱곱 노드의 역전파는 상류의 값에 순전파 때의 입력 신호들을 <code>서로 바꾼 값</code>을 곱해서 하류로 보내게 됨

덧셈의 역전파에서는 상류의 값을 그대로 흘려보내서 순방향 입력 신호의 값은 필요하지 않지만  
곱셈의 역전파에서는 순방향 입력 신호의 값이 필요하기에 곱셈 노드 구현 시 순전파의 입력 신호를 유지함

## 5.4 단순한 계층 구현하기

### 5.4.1 곱셈 계층

In [None]:
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None

    def forward(self, x, y):
        self.x = x
        self.y = y
        out = x * y
        return out
    
    def backward(self, dout):
        dx = dout * self.y # x와 y를 바꾼다.
        dy = dout * self.x
        return dx, dy

### 5.4.2 덧셈 계층

In [None]:
class AddLayer:
    def __init__(self):
        pass

    def forward(self, x, y):
        out = x + y
        return out

    def backward(self, dout):
        dx = dout * 1
        dy = dout * 1
        return dx, dy

## 5.5 활성화 함수 계층 구현하기

### 5.5.1 ReLU 계층

$$ y = \begin{cases}
x, & (x>0) \\
0, & (x \le 0)
\end{cases} $$

$$ \frac{\partial{y}}{\partial{x}} = \begin{cases}
1, & (x>0) \\
0, & (x \le 0)
\end{cases} $$

<img width="638" alt="fig 5-18" src="https://user-images.githubusercontent.com/77653353/194433624-d83e7e9a-23a6-472a-ac2e-7c420f9d0fec.png">

In [None]:
class Relu:
    def __init__(self):
        self.mask = None

    def forward(self, x):
        self.mask = (x <= 0)
        out = x.copy()
        out[self.mask] = 0
        return out

    def backward(self, dout):
        dout[self.mask] = 0
        dx = dout
        return dx

여기서 mask라는 인스턴스 변수는 True/False로 구성된 넘파이 배열

In [None]:
x = np.array( [[1.0, -0.5], [-2.0, 3.0]] )
print(x)

[[ 1.  -0.5]
 [-2.   3. ]]


In [None]:
mask = (x <= 0)
print(mask)

[[False  True]
 [ True False]]


### 5.5.2 Sigmoid 계층

$$ y = \frac{1}{1 + e^{-x}} $$

<img width="644" alt="fig 5-19" src="https://user-images.githubusercontent.com/77653353/194434874-d6dfd4a8-5cf6-4176-acf0-e96d94ceb8e4.png">

<img width="669" alt="fig 5-20" src="https://user-images.githubusercontent.com/77653353/194436706-1af8b171-d15f-4430-9e06-9ad0db8d798f.png">

위의 계산 그래프의 중간 과정을 그룹화하여 아래처럼 단순한 sigmoid 노드 하나로 대체 가능

<img width="305" alt="fig 5-21" src="https://user-images.githubusercontent.com/77653353/194436828-6c066b55-4ef0-4b19-819c-02a06ce11ce0.png">

그리고 $\frac{\partial{L}}{\partial{y}} y^2 e^{-x}$는 아래처럼 정리하여 쓸 수 있음

$$ \begin{matrix}
\frac{\partial{L}}{\partial{y}} y^2 e^{-x} &=& \frac{\partial{L}}{\partial{y}} \frac{1}{(1+e^{-x})^2} e^{-x} \\
&=& \frac{\partial{L}}{\partial{y}} \frac{1}{1+e^{-x}} \frac{e^{-x}}{1+e^{-x}} \\
&=& \frac{\partial{L}}{\partial{y}} y(1-y)
\end{matrix} $$

위의 식에서  

1행: $y^2$ → $\frac{1}{(1+e^{-x})^2}$  
2행: $\frac{1}{(1+e^{-x})^2}$ → $\frac{1}{1+e^{-x}} \frac{e^{-x}}{1+e^{-x}}$  
3행: $\frac{e^{-x}}{1+e^{-x}} = \frac{1+e^{-x}-1}{1+e^{-x}}$ → $(1-y)$

이처럼 sigmoid 계층의 역전파는 순전파의 출력($y$)만으로 계산 가능

In [None]:
class Sigmoid:
    def __init__(self):
        self.out = None
        
    def forward(self, x):
        out = 1 / (1 + np.exp(-x))
        self.out = out
        return out

    def backward(self, dout):
        dx = dout * self.out * (1.0 - self.out)
        return dx

## 5.6 Affine/Softmax 계층 구현하기

### 5.6.1 Affine 계층

신경망의 순전파 때 수행하는 <code>행렬의 내적</code>은 기하학에서 <code>어파인 변환(affine transformation)</code>이라고 함  
어파인 변환을 수행하는 처리를 Affine 계층이라는 이름으로 구현

<img width="645" alt="fig 5-25" src="https://user-images.githubusercontent.com/77653353/194439023-65569deb-45ca-4671-bbca-7988c8085f67.png">

행렬의 내적(dot) 노드도 곱셈 노드 처럼 서로 바꾼 값을 하류로 보냄  
다만, 행렬의 형상에 주의

### 5.6.2 배치용 Affine 계층

데이터를 하나만 고려한 것이 아닌 $N$개를 묶어서 순전파, 역전파

<img width="645" alt="fig 5-27" src="https://user-images.githubusercontent.com/77653353/194440287-883db143-a63e-4a7d-8267-ee0203973da2.png">

In [None]:
class Affine:
    def __init__(self, W, b):
        self.W = W
        self.b = b
        self.x = None
        self.dW = None
        self.db = None

    def forward(self, x):
        self.x = x
        out = np.dot(x, self.W) + self.b
        return out
    
    def backward(self, dout):
        dx = np.dot(dout, self.W.T)
        self.dW = np.dot(self.x.T, dout)
        self.db = np.sum(dout, axis=0)
        return dx

### 5.6.3 Softmax-with-Loss 계층

<img width="569" alt="fig 5-28" src="https://user-images.githubusercontent.com/77653353/194710101-77411fce-ffc4-4f62-9b0a-aa6bc0fc83a8.png">

위의 그림과 같이 Softmax 계층은 입력 값을 정규화(출력의 합이 1이 되도록 변형)하여 출력함  
학습(Training)시에는 위와 같이 Softmax 계층을 사용하여 예측 결과(output)를 정답(label)과 비교하여 손실(loss)을 구하지만  
추론(Inference)시에는 Softmax 계층을 사용하지 않고, 마지막 Affine 계층의 출력을 인식 결과로 이용함  
신경망에서 정규화하지 않는 출력 결과(위에서는 Softmax 앞의 Affine 계층의 출력)를 <code>점수(score)</code>라고 함  

Softmax-with-Loss 계층의 계산 그래프

<img width="720" alt="fig 5-29" src="https://user-images.githubusercontent.com/78716519/194718957-0dee0a7e-8110-42e3-8119-3b6726bf8994.png">


순전파와 역전파 과정은 "부록 A. Softmax-with-Loss 계층의 계산 그래프" 참고

<img width="643" alt="fig 5-30" src="https://user-images.githubusercontent.com/78716519/194719029-64436a4b-729a-434c-aee8-909f22b29fc2.png">

위의 그림은 '간소화한' Softmax-with-Loss 계층의 계산 그래프  
여기서 주목할 것은 역전파의 결과  
Softmax 계층의 역전파는 $(y_1-t_1,\ y_2-t_2,\ y_3-t_3)$라는 '말끔한' 결과 (왜 이렇게 나오는지는 부록 참고)  
신경망의 역전파에서는 예측결과와 정답의 차이인 오차가 앞 계층에 전해지는 것

분류 문제의 출력층에서는 '소프트맥스 함수'의 손실 함수로 '교차 엔트로피 오차'를 사용하니 역전파가 $(y_1-t_1,\ y_2-t_2,\ y_3-t_3)$로 말끔히 떨어짐  
회귀 문제의 출력층에서는 '항등 함수'의 손실 함수로 '평균 제곱 오차'를 사용해도 역전파가 $(y_1-t_1,\ y_2-t_2,\ y_3-t_3)$로 말끔히 떨어짐  

이런 말끔한 결과는 우연이 아니라 이렇게 설계했기 때문

잘못 예측한 경우  
정답 레이블:         $(0, 1, 0)$  
Softmax 계층의 출력: $(0.3, 0.2, 0.5)$  
정답의 인덱스는 1이지만, 출력에서는 이때의 확률이 겨우 0.2(20%)  
Softmax 계층의 역전파는 $(0.3, -0.8, 0.5)$라는 커다란 오차를 전파

제대로 예측한 경우  
정답 레이블:         $(0, 1, 0)$  
Softmax 계층의 출력: $(0.01, 0.99, 0)$  
정답의 인덱스는 1이고, 출력에서는 이때의 확률이 0.99(99%)  
Softmax 계층의 역전파는 $(0.01, -0.01, 0)$라는 커다란 오차를 전파

In [None]:
def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a - c) # 오버플로 대책
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    
    return y

def cross_entropy_error(y, t):
    delta = 1e-7
    return -np.sum(t * np.log(y + delta))

In [None]:
class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None # 손실
        self.y = None    # softmax의 출력
        self.t = None    # 정답 레이블(원-핫 벡터)

    def forward(self, x, t):
        self.t = t
        self.y = softmax(x)
        self.loss = cross_entropy_error(self.y, self.t)
        return self.loss

    def backward(self, dout=1):
        batch_size = self.t.shape[0]
        dx = (self.y - self.t) / batch_size
        return dx

역전파 때는 전파하는 값을 배치의 수(batch_size)로 나눠서 데이터 1개당 오차를 앞 계층으로 전파하는 점에 주의! <span style='color:pink'>!!!질문!!!</span>

# 6. 학습 관련 기술들

최적화, 초깃값, 하이퍼파라미터, 오버피팅 대응책(가중치 감소, 드롭아웃), 배치 정규화

## 6.1 매개변수 갱신

신경망 학습의 목적은 손실 함수의 값을 가능한 한 낮추는 매개변수를 찾는 것  
이는 곧 최적 매개변수를 찾는 문제이며, 이러한 문제를 푸는 것을 `최적화(optimization)`라고 함

### 6.1.1 모험가 이야기

광대하고 복잡한 지형을 지도도 없이 눈을 가린채로 '깊은 곳'을 찾지 않으면 안되는 상황에서  
중요한 단서가 되는 것이 땅의 `기울기`

### 6.1.2 확률적 경사 하강법(SGD)

수식으로 쓰면

$$ \mathbf{W} \leftarrow \mathbf{W} - \eta \frac{\partial{L}}{\partial{\mathbf{W}}} $$

In [None]:
class SGD:
    def __init__(self, lr=0.01):
        self.lr = lr

    def update(self, params, grads):
        for key in params.keys():
            params[key] -= self.lr * grads[key]

### 6.1.3 SGD의 단점

다음 함수의 최솟값을 구하는 문제를 생각해보자

$$ f(x,y) = \frac{1}{20}x^2 + y^2 $$

이 함수의 그래프와 등고선

<img width="648" alt="fig 6-1" src="https://user-images.githubusercontent.com/78716519/194982136-b6e76067-1ed4-409a-95b1-79f8f1c98424.png">

이 함수의 기울기를 그려보면

<img width="551" alt="fig 6-2" src="https://user-images.githubusercontent.com/78716519/194982284-f449d976-a6ca-4c88-87a3-511961e9734a.png">

이 기울기는 y축 방향은 크고, x축 방향은 작음  
즉 y축 방향은 가파른데, x축 방향은 완만해서  
최솟값이 되는 장소는 $(x,y) = (0,0)$이지만  
위의 그림이 보여주는 기울기 대부분은 $(0,0)$ 방향을 가리키지 않는다는 것

위의 함수에 SGD를 적용해보면

<img width="563" alt="fig 6-3" src="https://user-images.githubusercontent.com/78716519/194982516-2a938087-a225-441e-b9ef-a2862bf19aa9.png">

비효율적인 움직임 → SGD의 이러한 단점을 개선해주는 Momentum, AdaGrad, Adam 소개

### 6.1.4 모멘텀

`모멘텀(momentum)`: '운동량'을 뜻하는 단어, 공이 구르는 듯한 물리 법칙에 따르는 움직임

$$ \mathbf{v} \leftarrow \alpha \mathbf{v} - \eta \frac{\partial{L}}{\partial{\mathbf{W}}} $$
$$ \mathbf{W} \leftarrow \mathbf{W} + \mathbf{v} $$

$\mathbf{W}$: 갱신할 가중치 매개변수  
$\frac{\partial{L}}{\partial{\mathbf{W}}}$: $\mathbf{W}$에 대한 손실함수의 기울기  
$\eta$: 학습률  
$\mathbf{v}$: 물리에서 말하는 속도(velocity)  
$\alpha \mathbf{v}$항은 물체가 아무런 힘을 받지 않을 때 서서히 하강시키는 역할  
$\alpha$: 물리에서는 지면 마찰이나 공기 저항에 해당, $0.9$ 등의 값으로 설정함

첫번째 식은 기울기 방향으로 힘을 받아 물체가 가속된다는 물리 법칙을 나타냄

<img width="629" alt="fig 6-4" src="https://user-images.githubusercontent.com/78716519/194983373-7cfbcf3d-4f39-4667-9af5-e437fdfb93e5.png">

In [None]:
class Momentum:
    def __init__(self, lr=0.01, momentum=0.9):
        self.lr = lr
        self.momentum = momentum
        self.v = None # 초기화 때는 아무 값도 담지 않음
    
    def update(self, params, grads):
        if self.v is None:
            self.v = {}
            for key, val in params.items():
                self.v[key] = np.zeros_like(val) # 매개변수와 같은 구조의 데이터를 딕셔너리 변수로 저장

        for key in params.keys():
            self.v[key] = self.momentum*self.v[key] - self.lr*grads[key]
            params[key] += self.v[key]

모멘텀을 사용해서 6.1.3의 함수의 최적화 문제를 풀어보자

<img width="557" alt="fig 6-5" src="https://user-images.githubusercontent.com/78716519/194984403-7a73bfa6-4e80-464e-93d9-375501962fc1.png">

모멘텀의 갱신 경로는 공이 그릇 바닥을 구르듯 움직임  
SGD와 비교하면 '지그재그 정도'가 덜함

### 6.1.5 AdaGrad

신경망 학습에서는 학습률이 중요한데  
이 값이 너무 작으면 학습 시간이 너무 길어지고, 반대로 너무 크면 발산하여 올바른 학습을 할 수 없음  

학습률을 정하는 효과적 기술로  
`학습률 감소(learning rate decay)`: 학습을 진행하면서 학습률을 점차 줄여가는 방법, 처음에는 크게 학습하다가 조금씩 작게 학습하는 것  

학습률을 서서히 낮추는 가장 간단한 방법은 매개변수 '전체'의 학습률 값을 일괄적으로 낮추는 것  
이를 발전시킨 것이  
`AdaGrad`: '각각의' 매개변수에 '맞춤형' 학습률 값을 만들어줌  

수식으로 쓰면

$$ h \leftarrow h + \frac{\partial{L}}{\partial{\mathbf{W}}} \odot \frac{\partial{L}}{\partial{\mathbf{W}}} $$  
$$ \mathbf{W} \leftarrow \mathbf{W} + \eta \frac{1}{\sqrt{h}} \frac{\partial{L}}{\partial{\mathbf{W}}} $$

$\mathbf{W}$: 갱신할 가중치 매개변수  
$\frac{\partial{L}}{\partial{\mathbf{W}}}$: $\mathbf{W}$에 대한 손실함수의 기울기  
$\eta$: 학습률  
$h$: 기존 기울기 값을 제곱하여 계속 더해주는 변수 ($\odot$기호는 행렬의 원소별 곱셈을 의미)  
그리고 매개변수를 갱신할 때 $\frac{1}{\sqrt{h}}$을 곱해 학습률을 조정함  
매개변수의 원소 중에서 많이 움직인(크게 갱신된) 원소는 학습률이 낮아진다는 뜻

AdaGrad는 과거의 기울기를 제곱하여 계속 더해감 → 학습을 진행할수록 갱신 강도가 약해짐  
실제로 무한히 계속 학습한다면 어느 순간 갱신량이 0이 되어 전혀 갱신되지 않게 됨  
이 문제를 개선한 기법이  
`RMSProp`: 과거의 모든 기울기를 균일하게 더해가는 것이 아니라, 먼 과거의 기울기는 서서히 잊고 새로운 기울기 정보를 크게 반영함  
이를 `지수이동평균(exponential moving average, EMA)`이라 하여, 과거 기울기의 반영 규모를 기하급수적으로 감소시킴

In [None]:
class AdaGrad:
    def __init__(self, lr=0.01):
        self.lr = lr
        self.h = None

    def update(self, params, grads):
        if self.h is None:
            self.h = {}
            for key, val in params.items():
                self.h[key] = np.zeros_like(val)
        
        for key in params.keys():
            self.h[key] += grads[key] * grads[key]
            params[key] -= self.lr / (np.sqrt(self.h[key]) + 1e-7) * grads[key] # 1e-7 이라는 작은 값을 더해줌으로써 분모가 0이 되지 않도록 함

<img width="558" alt="fig 6-6" src="https://user-images.githubusercontent.com/77653353/195875561-c5e9cbfe-669d-4098-b114-04023c3ced35.png">

### 6.1.6 Adam

`Adam`: 모멘텀과 AdaGrad를 융합한 듯한 방법  

Adam은 하이퍼파라미터를 3개 설정 (자세한 내용은 논문 참조 http://arxiv.org/abs/1412.6980)  
하나는 학습률(논문에서는 $\alpha$), 나머지 두 개는 일차 모멘텀용 계수 $\beta_1$, 이차 모멘텀용 계수 $\beta_2$

In [None]:
class Adam:
    def __init__(self, lr=0.001, beta1=0.9, beta2=0.999):
        self.lr = lr
        self.beta1 = beta1
        self.beta2 = beta2
        self.iter = 0
        self.m = None
        self.v = None
        
    def update(self, params, grads):
        if self.m is None:
            self.m, self.v = {}, {}
            for key, val in params.items():
                self.m[key] = np.zeros_like(val)
                self.v[key] = np.zeros_like(val)
        
        self.iter += 1
        lr_t  = self.lr * np.sqrt(1.0 - self.beta2**self.iter) / (1.0 - self.beta1**self.iter)         
        
        for key in params.keys():
            #self.m[key] = self.beta1*self.m[key] + (1-self.beta1)*grads[key]
            #self.v[key] = self.beta2*self.v[key] + (1-self.beta2)*(grads[key]**2)
            self.m[key] += (1 - self.beta1) * (grads[key] - self.m[key])
            self.v[key] += (1 - self.beta2) * (grads[key]**2 - self.v[key])
            
            params[key] -= lr_t * self.m[key] / (np.sqrt(self.v[key]) + 1e-7)
            
            #unbias_m += (1 - self.beta1) * (grads[key] - self.m[key]) # correct bias
            #unbisa_b += (1 - self.beta2) * (grads[key]*grads[key] - self.v[key]) # correct bias
            #params[key] += self.lr * unbias_m / (np.sqrt(unbisa_b) + 1e-7)

<img width="560" alt="fig 6-7" src="https://user-images.githubusercontent.com/77653353/196036268-8fb9c87c-92e9-4c9c-9889-552b267e86d3.png">

### 6.1.7 어느 갱신 방법을 이용할 것인가?

네 가지 기법의 결과를 비교

<img width="649" alt="fig 6-8" src="https://user-images.githubusercontent.com/77653353/196036577-f9554cdb-f008-4c2c-9074-29dd70db4263.png">

모든 문제에서 항상 뛰어난 기법은 없지만, 주로 Adam이 많이 사용됨

## 6.2 가중치의 초깃값

### 6.2.1 초깃값을 0으로 하면?

`가중치 감소(weight decay)`: 가중치 매개변수의 값이 작아지도록 학습하는 방법, 오버피팅을 억제해 범용 성능을 높이는 테크닉  