# 6장. 학습 관련 기술들

https://github.com/WegraLee/deep-learning-from-scratch

이 코드의 내용은 Deep Learning from Scratch를 참고했음을 밝힙니다.

![image.png](https://i.imgur.com/0CcM46E.png)

### 확률적 경사 하강법(SGD)(p190)

![image.png](https://i.imgur.com/80thYx9.png)

In [1]:
class SGD:
    def __init__(self, lr=0.01):
        self.lr = lr
        
    def update(self, params, grads):
        for key in params.keys():
            params[key] -= self.lr * grads[key]

In [2]:
# SGD 클래스를 사용하면 신경망 매개변수의 진행을 다음과 같이 수행할 수 있습니다.
# (다음 코드는 실제로는 동작하지 않는 의사 코드입니다)

# network = TwoLayerNet(...)
# optimizer = SGD()

# for i in range(10000):
#     ...
#     x_batch, t_batch = get_mini_batch(...) # 미니배치
#     grads = network.gradient(x_batch, t_batch)
#     params = network.params
#     optimizer.update(params, grads)

### SGD의 단점(p192)

![image.png](https://i.imgur.com/Y4LNTHZ.png)

* f(x,y)의 그래프(왼쪽)와 그 등고선(오른쪽)<br><br>

![image.png](https://i.imgur.com/LByqXQG.png)
![image.png](https://i.imgur.com/lAvJ57f.png)
<br>
이 함수는 '밥그릇'을 x축 방향으로 늘인 듯한 모습이고, 실제로 그 등고선은 x축 방향으로 늘인 타원으로 되어 있습니다. 또한 이 함수의 기울기는 y축 방향은 크고 x축 방향은 작다는 것이 특징입니다. 말하자면 y축 방향은 가파른데 x축 방향은 완만한 것이죠. 또, 여기에서 주의할 점으로는 식 f(x,y)가 최솟값이 되는 장소는 (x,y) = (0,0)이지만, 식 f(x,y)가 보여주는 기울기 대부분은 (0,0) 방향을 가리키지 않는다는 것입니다.

* SGD에 의한 최적화 갱신 경로 : 최솟값인 (0,0)까지 지그재그로 이동하니 비효율적이다.<br><br>

![image.png](https://i.imgur.com/TkVDUaa.png)

즉, SGD의 단점은 비등방성(anisotropy) 함수(방향에 따라 성질, 즉 여기에서는 기울기가 달라지는 함수)에서는 탐색 경로가 비효율적이라는 것입니다.

### 모멘텀(p194)

모멘텀(Momentum)은 '운동량'을 뜻하는 단어로, 물리와 관계가 있습니다(관성 이용).

![image.png](https://i.imgur.com/CJHuPS2.png)
![image.png](https://i.imgur.com/VHKEh4D.png)

In [3]:
# 인스턴스 변수 v가 물체의 속도입니다.
# v는 초기화 떄는 아무 값도 담지 않고, 대신 update()가 처음 호출될 때 매개변수와 같은 구조의 데이터를 딕셔너리 변수로 저장힙니다.

class Momentum:
    def __init__(self, lr=0.01, momentum=0.9):
        self.lr = lr
        self.momentum = momentum
        self.v = None
        
    def update(self, params, grads):
        if self.v is None:
            self.v = {}
            for key, val in params.items():
                self.v[key] = np.zeros_like(val)
                
        for key in params.keys():
            self.v[key] = self.momentum*self.v[key] - self.lr*grads[key]
            params[key] += self.v[key]

* 모멘텀에 의한 최적화 갱신 경로<br><br>
![image.png](https://i.imgur.com/rfQ1D2O.png)

그림에서 보듯 모멘텀의 갱신 경로는 공이 그릇 바닥을 구르듯 움직입니다. SGD와 비교하면 '지그재그 정도'가 덜한 것을 알 수 있죠. 이는 x축의 힘은 아주 작지만 방향은 변하지 않아서 한 방향으로 일정하게 가속하기 때문입니다. 거꾸로 y축의 힘은 크지만 위아래로 번갈아 받아서 상충하여 y축 방향의 속도는 안정적이지 않습니다. 전체적으로는 SGD보다 x축 방향으로 빠르게 다가가 지그재그 움직임이 줄어듭니다.

### AdaGrad(p196)

신경망 학습에서는 학습률 값이 중요합니다. 이 값이 너무 작으면 학습 시간이 너무 길어지고, 반대로 너무 크면 발산하여 학습이 제대로 이뤄지지 않습니다.<br>
이 학습률을 정하는 효과적 기술로 학습률 감소(learning rate decay)가 있습니다. 이는 학습을 진행하면서 학습률을 점차 줄여가는 방법입니다. 처음에는 크게 학습하다가 조금씩 작게 학습한다는 얘기로, 실제 신경망 학습에 자주 쓰입니다.<br>
학습률을 서서히 낮추는 가장 간단한 방법은 매개변수 '전체'의 학습률 값을 일괄적으로 낮추는 것이겠죠. 이를 더욱 발전시킨 것이 AdaGrad입니다. AdaGrad는 '각각의' 매개변수에 '맞춤형' 값을 만들어줍니다.<br>
AdaGrad는 개별 매개변수에 적응적으로(adaptive) 학습률을 조정하면서 학습을 진행합니다.

![image.png](https://i.imgur.com/CKk0Z3i.png)
![image.png](https://i.imgur.com/CIcJ3w7.png)

매개변수의 원소 중에서 많이 움직인(크게 갱신된) 원소는 학습률이 낮아진다는 뜻인데, 다시 말해 학습률 감소가 매개변수의 원소마다 다르게 적용됨을 뜻하죠. 즉, 많이 변해온 파라미터는 조금씩 스텝을 밟게 하고, 적게 변해온 파라미터는 크게 스텝을 밟게 합니다.

AdaGrad는 과거의 기울기를 제곱하여 계속 더해갑니다. 그래서 학습을 진행할수록 갱신 강도가 약해집니다. 실제로 무한히 계속 학습한다면 어느 순간 갱신량이 0이 되어 전혀 갱신되지 않게 되죠. 이 문제를 개선한 기법으로서 RMSProp이라는 방법이 있습니다. RMSProp은 과거의 모든 기울기를 균일하게 더해가는 것이 아니라, 먼 과거의 기울기는 서서히 잊고 새로운 기울기 정보를 크게 반영합니다. 이를 지수이동평균(Exponential Moving Average, EMA)이라 하여, 과거 기울기의 반영 규모를 기하급수적으로 감소시킵니다.

In [4]:
class AdaGrad:
    def __init__(self, lr=0.01):
        self.lr = lr
        self.h = None
        
    def update(self, params, grads):
        if self.h is None:
            self.h = {}
            for key, val in params.items():
                self.h[key] = np.zero_like(val)
                
        for key in params.keys():
            self.h[key] += grads[key] * grads[key]
            params[key] -= self.lr * grads[key] / (np.sqrt(self.h[key]) + 1e-7) # 1e-7은 self.h[key]에 0이 담겨 있다 해도 0으로 나누는 사태를 막아줍니다. 대부분의 딥러닝 프레임워크는 이 값도 인수로 설정할 수 있습니다.

![image.png](https://i.imgur.com/yTWXQFF.png)

위 그림을 보면 최솟값을 향해 효율적으로 움직이는 것을 알 수 있습니다. y축 방향은 기울기가 커서 처음에는 크게 움직이지만, 그 큰 움직임에 비례해 갱신 정도도 큰 폭으로 작아지도록 조정됩니다. 그래서 y축 방향으로 갱신 강도가 빠르게 약해지고, 지그재그 움직임이 줄어듭니다.

### Adam(p199)

모멘텀은 공이 그릇 바닥을 구르는 듯한 움직임을 보였습니다. AdaGrad는 매개변수의 원소마다 적응적으로 갱신 정도를 조정했습니다. 그럼 혹시 이 두 기법을 융합하면 어떻게 될까요? 이런 생각에서 출발한 기법이 바로 Adam입니다.<br>
Adam은 2015년에 제안된 새로운 방법입니다. 그 이론은 다소 복잡하지만 직관적으로는 모멘텀과 AdaGrad를 융합한 듯한 방법입니다. 이 두 방법의 이점을 조합했다면 매개변수 공간을 효율적으로 탐색해줄 것으로 기대해도 좋겠죠? 또, 하이퍼파라미터의 '편향 보정'이 진행된다는 점도 Adam의 특징입니다.

![image.png](https://i.imgur.com/BcUnHYI.png)

위 그림과 같이 Adam 갱신 과정도 그릇 바닥을 구르듯 움직입니다. 모멘텀과 비슷한 패턴인데, 모멘텀 때보다 공의 좌우 흔들림이 적습니다. 이는 학습의 갱신 강도를 적응적으로 조정해서 얻는 혜택입니다.

Adam은 하이퍼파라미터를 3개 설정합니다. 하나는 지금까지의 학습률(논문에서는 a로 등장), 나머지 두 개는 일차 모멘텀용 계수 B1과 이차 모멘텀용 계수 B2입니다. 논문에 따르면 기본 설정값은 B1은 0.9, B2는 0.999이며, 이 값이면 많은 경우에 좋은 결과를 얻을 수 있습니다.

지금까지 살펴본 바와 같이 사용한 기법에 다라 갱신 경로가 다릅니다. 위 경우만 보면 AdaGrad가 가장 나은 것 같은데, 사실 그 결과는 풀어야 할 문제가 무엇이냐에 따라 달라지므로 주의해야 합니다. 또, 당연하지만 (학습률 등의) 하이퍼파라미터를 어떻게 설정하느냐에 따라서도 결과가 바뀝니다.<br>
SGD, 모멘텀, AdaGrad, Adam의 네 후보 중 어느 것을 채택하면 될까요? 유감스럽게도 모든 문제에서 항상 뛰어난 기법이라는 것은 (아직까진) 없습니다. 각자의 장단이 있어 잘 푸는 문제와 서툰 문제가 있죠.<br>
지금도 많은 연구에서 SGD를 사용하고 있습니다. 모멘텀과 AdaGrad도 시도해볼 만한 가치가 충분합니다. 요즘에는 많은 분이 Adam에 만족해하며 쓰는 것 같습니다. 이는 각자의 상황을 고려해 여러 가지로 시도해보는 것이 중요합니다.