# Stochastic Gradient Descent (SGD)
손실함수의 기울기가 0으로 수렴하는 방향으로 가중치들을 업데이트하는 기법.   
$W_{update} = W_{curr} - k(dL/dW)$    
'W에 대한 편미분' * '학습률' 만큼 이동.

## 단점
**loss function이 anisotropy function일 경우, 최솟값에 다다르지 못하거나, 비효율적으로 움직일 수 있음.**   
anisotropy function: 방향에 따라 성질이 달라지는 함수. 여기서는 축의 방향에 따라 기울기의 성질이 달라진다는 것.   
ex. y축에 따른 기울기는 크게 변하지만, x축에 따른 기울기는 크게 변하지 않는 경우.

# Momentum
$v_{update} = av_{curr} - k(dL/dW)$ (d라고 썼지만 편미분이다)   
$W_{update} = W_{curr} + v$

SGD 방식에 $av$를 더해줌으로써 손실함수 기울기가 작아도 비교적 많이 움직이도록 유도한다.   
비유하자면 저항같은 개념?   
그릇에서 굴러가는 공의 모습을 떠올리면 됨.

In [1]:
import numpy as np

In [2]:
class Momentum:
  def __init__(self, lr=0.01, momentum = 0.9):
    self.lr = lr
    self.momentum = momentum
    self.v = None

  def update(self, params, grads):
    if self.v is None:
      self.v = {}
      for key, val in params.items():
        self.v[key] = np.zeros_like(val)

    for key, val in params.items():
      self.v[key] = self.momentum * self.v[key] - self.lr * grads[key]
      params[key] += self.v[key]

# AdaGrad
learning rate를 서서히 감소시키는 기법.   
learning rate가 너무 크면 under fitting이 발생하고, 반대로 너무 작으면 학습 시간이 길어진다.   
학습시키면서 그때그때 적절한 learning rate를 찾아주는 기법이라고 보면 된다.

$h_{update} = h_{curr} + dL/dW (o) dL/dW$ ((o)는 행렬 원소끼리 곱. 즉 브로드캐스트 연산)   
$W_{update} = W_{new} - k(dL/dW)/sqrt(h)$    
learing rate $k$가 $sqrt(h)$배 만큼 줄어든다. 

## RMSProp
AdaGrad에서 어느 순간 갱신량이 0이 되는 걸 극복한 기법.    
필요에 따라 먼 과거의 기울기와 새로운 기울기의 영향력을 조절하는 방식.    
Exponential Moving Average(EMA, 지수이동평균)도 찾아보자.

In [3]:
class AdaGrad:
  def __init__(self, lr=0.01):
    self.lr = lr
    self.h = None

  def update(self, params, grads):
    if self.h is None:
      self.h = {}
      for key, val in params.itmes():
        self.h[key] = np.zeros_like(val)

    for key, val in params.itmes():
      self.h[key] += grads[key] * grads[key]
      params[key] -= self.lr * grads[key] / np.sqrt(self.h[key] + 1e-7)

# Adam
저자 피셜 Momentum + AdaGrad 라는데, 정확한건 논문을 찾아보자.   
코드는 책의 github 코드 참고