<a href="https://colab.research.google.com/github/ownit4137/TIL/blob/main/DL%20from%20Scratch/1/GradientDescentOptimization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 경사 하강법 최적화

## SGD(확률적)

$W  \leftarrow  W -  \eta \cfrac{\partial L}{\partial W} $

- 손실 함수의 기울기를 따라 weight을 갱신
- 비등방성(anisotropy) 함수일때는 탐색 경로가 비효율적, 지그재그 탐색


In [None]:
# pseudo
class SGD:
  ...
  self.lr = lr
  ...

  def update(self, params, grads):
    for key in params.keys():
      params[key] -= self.lr * grads[key]
  
  ...

## 모멘텀

$ v  \leftarrow   \alpha v -  \eta \cfrac{\partial L}{\partial W} $

$W  \leftarrow   W + v $

- 물리학의 개념을 도입
- 경사 하강법에 관성을 더해 줌
- 공이 그릇의 바닥을 구르는 듯한 움직임을 주어 지그재그 현상을 줄임

In [None]:
# pseudo
class Momentum:
  ...
  self.lr = lr
  self.momentum = momentum
  self.v = None
  ...

  def update(self, params, grads):
    if self.v == None:
      self.v = {}
      # 각 층마다 v를 0으로 초기화
      # v는 가중치의 shape과 같음
      for key, val in params.items():
        self.v[key] = np.zeros_like(val)

    for key in params.keys():
      self.v[key] = self.momentum * self.v[key] - self.lr * grads[key]
      params[key] += self.v[key]
    
  ...

## AdaGrad(Adaptive Gradient, 적응적)

$h  \leftarrow   h +  \cfrac{\partial L}{\partial W}  \odot  \cfrac{\partial L}{\partial W} $

$W  \leftarrow   W - \eta  \cfrac{1}{ \sqrt{h + \epsilon}} \cfrac{\partial L}{\partial W} $

- 학습이 진행될수록 $h$가 커져 학습률이 줄어듬
- 이전 변화가 크면 -> 학습률을 과감하게 줄임
- 이전 변화가 작으면 -> 학습률을 미세하게 줄임
- weight마다 학습률 감소가 각각 다르게 적용됨



In [None]:
class AdaGrad:
  ...
  self.lr = lr
  self.h = None
  ...
  
  def update(self, params, grads):
    if self.h == None:
      self.h = {}
      # 각 층마다 h를 0으로 초기화
      # h는 가중치의 shape과 같음
      for key, val in params.items():
        self.h[key] = np.zeros_like(val)

    for key in params.keys():
      self.h[key] += grads[key] * grads[key]
      # 0으로 나누는 것을 방지할 작은 값 e
      params[key] -= self.lr * grads[key] / (np.sqrt(self.h[key]) + 1e-7)
    
  ...

## Adam(Adaptive Moment Estimation)

- Adadelta, RMSprop처럼 gradient 제곱의 지수적 평균을 사용하고, momentum처럼 gradient의 지수적 평균도 사용함


> In addition to storing an exponentially decaying average of past squared gradients
 like Adadelta and RMSprop, Adam also keeps an exponentially decaying average of past gradients, similar to momentum