### 학습 관련 기술들, 그 첫 번째
신경망 학습의 목적은 손실 함수의 값을 가능한 한 낮추는 매개변수를 찾는 것이었다. 이는 곧 매개변수의 최적값을 찾는 문제이며, 이러한 문제를 푸는 것을 `최적화`라고 합니다. 다른 파일들에서 사용했던 확률적 경사 하강법에 대한 얘기를 할 것인데, 매개변수 공간을 무작정 찾는 것보다 똑똑한 방법입니다. 

In [None]:
# SGD 구현
class SGD:
    def __init__(self, lr=0.01):
        self.lr = lr
        
    def update(self, params, grads):
        for key in params.keys():
            params[key] -= self.lr * grads[key]

### SGD의 단점
SGD는 비등방성 함수(방향에 따라 성질, 즉 이 때에는 기울기가 달라지는 함수)에서는 탐색 경로가 비효율적이라는 것입니다. 이럴 때는 SGD같이 무작정 기울어진 방향으로 진행하는 단순한 방식보다 더 영리한 묘안이 간절해집니다. 

이러한 단점들을 극복하기 위해서 모멘텀, AdaGrad, Adam이라는 세 방법을 확인합니다.

### 모멘텀
모멘텀은 운동량을 뜻하는 단어로, 물리와 관계가 있습니다. 수식으로는 아래와 같이 씁니다.

> v ⬅️ ɑv - ŋ * ∂L/∂W <br> W ⬅️ W + v

SGD처럼 여기에서도 W는 갱신할 가중치 매개변수, ∂L/∂W은 W에 대한 손실함수의 기울기, ŋ는 학습률입니다. v라는 새로운 변수가 나오는데, 이는 물리에서 말하는 속도에 해당합니다. v가 포함된 식은 기울기 방향으로 힘을 받아 물체가 가속된다는 물리 법칙을 나타냅니다.

또한, ɑv항은 물체가 아무런 힘을 받지 않을 때 서서히 하강시키는 역할을 합니다. 

In [2]:
# 모멘텀 구현
import numpy as np

class Momentum:
    def __init__(self, lr = 0.01, momentum = 0.9):
        self.lr = lr
        self.momentum = momentum
        self.v = None
        
    def update(self, params, grads):
        if self.v is None:
            self.v = {}
            for key, val in params.items():
                self.v[key] = np.zeros_like(val)

a = np.array([1, 2, 3, 4])
print(np.zeros(a))
print(np.zeros_like(a))

[[[[0. 0. 0. 0.]
   [0. 0. 0. 0.]
   [0. 0. 0. 0.]]

  [[0. 0. 0. 0.]
   [0. 0. 0. 0.]
   [0. 0. 0. 0.]]]]
[0 0 0 0]
