# 6. 학습관련 기술들  

# 6.1 매개변수 갱신  

최적화(optimization): 가능한 한 손실함수가 잔은 매개변수의 최적값을 찾는 것  
매개변수의 공간이 매우 넓고 복잡하여 매우 어려움  
따라서 미분을 이용한 확률적 경사하강법 (SGD)를 많이 사용  
앞으로는 다른 최적화 기법에 대해서도 다룰 것이다.  

## 6.1.1 모험가 이야기  

## 6.1.2 확률적 경사 하강법(SGD)  

SGD를 수식으로 쓰면 다음과 같다.  

<img src = "./image/e_6_1.png">  

η(eta): learning rate / W:  가중치  
위 식을 파이썬으로 구현해 보자.  

In [3]:
class SGD:
    def __init__(self, lr=0.01):
        self.lr = LookupError
    
    def update(self, params, grads):
        for key in params.keys():
            params[key] -=seelf.lr * grads[key]

SGD 클래스를 사용하면 신경망 매개변수의 진행을 다음과 같이 실행한다.  

```python

network = TwoLayerNet(...)
optimizer = SGD()

for i in range(10000):
    ...
    x_batch, t_batch = get_mini_batch(...) # 미니배치
    grads = network.gradient(x_batch, t_batch)
    params = network.params
    optimizer.update(params, grads)
    ...
```



매개변수 갱신자: optimizer  
이처럼 촤적화를 담당하는 클래스를 분리해 구현하면 기능을 모듈화하기 좋음

## 6.1.3 SGD의 단점  

SGD는 단순하고 구현이 쉽지만 문제애 따라서 비효울적  
SGD의 단점을 알아보고자 다믕 함수의 최솟값을 구해보자.  

<img src = "./image/e_6_2.png">  

이 함수를 좌표로 보면 다음과 같은 모습을 보인다.  

<img src = "./image/fig_6_1.png" width = "40%">  

x축 방향의 기울기는 완만하지만 y축 기울기의 방향은 가파르다.  
식에서 최솟값이 되는 장소는 (x, y) = (0,0) 이지만, 아래 그림을 보면 기울기는 대부분 (0,0)을 가리키지 않고있다.  

<img src = "./image/fig_6_2.png" width="40%">  

함수에 SGD를 적용해 보자. 담색의 시작 장소(초깃값)는 (x, y) = (-7.0, -2.0)으로 했다.  

<img src = "./image/fig_6_3.png" width="40%">  

최솟값까지 지그재그로 이동하여 비효율적이다.  
즉 SGD의 단점은 비등방성(anisotropy) 함수(방향에 따라 성질, 즉 여기에서는 기울기가 달라지는 함수)에서는 탐색 경로가 비효율적이라는 것이다.  
근본적인 원인은 기울어진 방향이 본래의 최솟값과 다른 방향을 가리켜서라는 점도 생각해 봐야한다.  
단점을 개선해 줄 수 있는 모멘텀, AdaGrad, Adam이라는 세 방법을 살펴보자.  

## 6.1.4 모멘텀

모멘텀(Momentum): 운동량을 뜻하는 단어로 물리와 관계있음, 수식으로는 다음과 같이 쓴다.  

<img src = "./image/e_6_3.png">
<img src = "./image/e_6_4.png">  

v라는 새로운 변수는 물리에서 속도(velocity)에 해당한다.  
모멘텀은 마치 공이 바닥의 기울기에 따라 구르는 듯한 움직임을 보인다.  

<img src="./image/fig_6_4.png">  

αv 항은 물체가 아무런 힘을 받지 않으면 서서히 하강시키는 역할을 한다.  
(α는 0.9등의 값으로 설정한다.) 모멘텀을 파이썬으로 구현해보자.  

In [2]:
import numpy as np 

class Momentum:
    def __init__(self, lr=0.01, momentum=0.9):
        self.lr =lr
        self.momentum = momentum
        self.v = None

    def update(self, params, grads):
        if self.v is None:
            self.v = {}
            for key, val in params.items():
                self.v[key] = np.seros_like(val)

        for key in params.keys():
            self.v[key] = self.momentum*self.v[key] - self.lr*grads[key]
            params[key] += self.v[key]

v는 속도이다. v는 초기에 아무 값도 없지만 update() 처음 호출시 매개변수와 같은구조의 데이터를 딕셔너리 변수로 저장한다. 
나머지는 위의 식들을 그대로 코드로 옮겨 놓았다.  
이제 모멘텀을 이용해서 SGD로 풀었던 최적화 문제를 풀어보면 다음과 같다.  

<img src = "./image/fig_6_5.png" width="40%">  

아직 지그재그의 느낌이 있지만 그 폭이 줄어들고 조금더 일정하다.  

## 6.1.5 AdaGrad  

신경망 학습에서 학습률의 값이 중요하다.  
학습률을 정하는 효과적인 기술로 학습률 감소(learning rate decay)가 있다.  
학습을 진행하면서 점차 학습률을 줄여가는 방법이다.  
원래는 학습률 값을 일괄적으로 낮췄지만 AdaGrad는 각 매개변수에 맞추어 값을 만들어준다.  
갱신 방법에 대한 수식은 다음과 같다.  
<img src = "./image/e_6_5.png"> <img src = "./image/e_6_6.png">  

h는 기존 기울기 값을 제곱하여 계속 더해준다. (⊙는 행렬의 원소별 곱셈을 의미)  
그리고 매개변수를 갱신할때 곱해 학습률을 조정한다.  
(매개변수의 원소 중에서 많이 움직인 원소는 학습률이 낮아진다는 의미)  

참고로 AdaGrad는 계속 갱신을 하다보면 언제인가 갱신을 멈추게 되는데 이것을 개선한 기법으로 RMSProp이 있다.  

AdaGrad를 구현해 보자.

In [1]:
class AdaGrad:

    def __init__(self, lr=0.01):
        self.lr = lr
        self.h = None
        
    def update(self, params, grads):
        if self.h is None:
            self.h = {}
            for key, val in params.items():
                self.h[key] = np.zeros_like(val)
            
        for key in params.keys():
            self.h[key] += grads[key] * grads[key]
            params[key] -= self.lr * grads[key] / (np.sqrt(self.h[key]) + 1e-7)

맨 마지막 줄의 1e-7은 0으로 나누는 사태를 방지하기 위해 있는 극소값이다.  
최적화 문제를 풀어보면 다음과 같은 결과가 나온다.  

<img src = "./image/fig_6_6.png" width = "40%">  

위의 그림을 보면 최솟값을 향해 효율적으로 움직이는 것을 알수 있다.  

## 6.1.6 Adam  

Adam은 모멘텀과 AdaGrad를 융합하자는 생각에서 출발한 기법이다. (사실 완전히 정확하지는 않다.)  
또한 Adam은 하이퍼 파라미터의 편향보정이 진행된다는 특징을 가지고 있다.  
Adam을 사용해서 쵲거화 문제를 풀어보면 다음과 같은 결과가 나온다.  

<img src = "./image/fig_6_7.png" width="40%">  

## 6.1.7 어느 갱신 방법을 이용할 것인가?  

<img src = "./image/fig_6_8.png" width="40%">  

위 그림을 보면 사용한 기법에 따라 갱신 경로가 다르다.  
보기에는 AdaGrad가 제일 나아보이지만 사실 그 결과는 폴어야 할 문제에 따라 달라짐.  
또한 하이퍼 파라미터를 어떻게 설정하느냐에 따라서도 결과가 바뀐다.  
모든 문제에서 항상 뛰어난 기법은 없고 각자의 장단점이 있음  

## 6.1.8 MNIST 데이터 셋으로 본 갱신 방법 비교  

손글씨 숫자 인식을 대상으로 지금까지의 4가지 기법을 비교해 보자.  

<img src = "./image/fig_6_9.png" width = "40%">  

100개의 뉴런으로 구성된 5층 신경망에서 ReLU를 활성화 함수로 사용했다.  
위를 보면 SGD의 학습 진도가 가장 느리고, 나머지는 비슷한데 AdaGrad가 조금 더 빠른 것으로 보인다.  
다만 하이퍼파라미터 (학습률), 신경망의 구조 등에 따라 결과는 달라질 수 있다.  
일반적으론 SGD가 가장 느리고 정확도도 조금 낮다.  