# Chapter 06. 학습 관련 기술들

신경망 학습의 핵심 개념

- 가중치 매개변수의 최적값을 탐색하는 방법
- 가중치 매개변수의 초깃값
- Hyperparameter 설정 방법
- 오버피팅 대응책: 가중치 감소와 드롭아웃의 정규화 방법

$\Rightarrow$ 신경망(딥러닝)학습의 효율, 정확도 향상


## 6.1 매개변수 갱신

신경망 학습의 목적: 손실함수의 값을 최소화하는 가중치 매개변수 찾기 (매개변수의 최적값을 찾는 문제를 푸는 것: **최적화(optimization)**)

앞장에서는 SGD(Stochastic Gradient Descent, 확률적 경사 하강법)를 사용했다.

### 6.1.2 확률적 경사 하강법(SGD)

$W \leftarrow W - \eta \frac{\partial L}{\partial W}$

- $W$: 갱신할 가중치 매개변수
- $\frac{\partial L}{\partial W}$: 손실함수의 기울기
- $\eta$: learning rate

In [1]:
class SGD:
    def __init__(self, lr=0.01):
        self.lr = lr
        
    def update(self, params, grads):
        for key in params.keys():
            params[key] -= self.lr * grads[key]

In [3]:
# Pesudo code
network = TwoLayerNet(...)
optimizer = SGD()

for i in range(10000):
    ...
    x_batch, t_batch = get_mini_batch(...)  # mini-batch
    grads = network.gradient(x_batch, t_batch)
    params = network.params
    optimizer.update(params, grads)
    ...

NameError: name 'TwoLayerNet' is not defined

### 6.1.3 SGD의 단점

$f(x,y) = \frac{1}{20}x^2 + y^2$ ($x$축 방향으로 늘인 타원 모양)
- 이 함수의 기울기는 $y$축 방향은 크고, $x$축 방향은 작다. ($y$축 방향은 가파르고 $x$축 방향은 완만하다.)
- 최소값을 갖는 장소 $(x,y) = (0,0)$, 기울기의 대부분은 (0,0)을 가리키지 않는다.

**SGD의 단점**: **비등방성(anisotripy) 함수** (방향에 따라 성질, 즉 여기에서는 기울기가 달라지는 함수)에서는 탐색 경로가 비효율적이라는 것.

이런한 SGD의 단점을 개선해주는 **모멘텀, AdaGrad, Adam** 방법이 있다.


### 6.1.4 모멘텀

**모멘텀(Momentum)**: '운동량'을 뜻하는 단어, 물리와 관계 있다.