## SGD
비등방성 함수(방향에 따라 성질이 달라지는 함수에서 탐색 경로가 비효율적이다. 

In [2]:
import numpy as np


class SGD:
    def __init__(self, lr=0.01):
        self.lr = lr
    
    def update(self, params, grads):
        for key in params.keys():
            params[key] -= self.lr * grads[key]

## 모멘턴(Momentum)
한 방향으로 갈 때 점점 가속할 수 있게 변수 추가 

In [3]:
class Momentum:
    def __init__(self, lr=0.01, momentum=0.9):
        self.lr = lr
        self.momentum = momentum
        self.v = None
        
    def update(self, params, grads):
        if self.v is None:
            self.v = {}
            for key, val in params.items():
                self.v[key] = np.zeros_like(val)
                
        for key in params.key():
            self.v[key] = self.momentum*self.v[key] - self.lr*grads[key]
            params[key] += self.v[key]

## AdaGrad
학습률 감소 : 학습을 진행하면서 학습률을 점차 줄여가는 방법
AdaGrad는 개별 매개변수에 적응적으로 학습률을 조정하면서 학습을 진행한다 

In [5]:
class AdaGrad:
    def __init__(self, lr=0.01):
        self.lr = lr
        self.h = None
        
    def update(self, params, grads):
        if self.h is None:
            self.h = {}
        
        for key, val in params.items():
            self.h[key] = np.zeros_like(val)
            
    
        for key in params.keys():
            self.h[key] += grads[key] * grads[key]
            params[key] -= self.lr * grads[key] / (np.sqrt(self.h[key]) + 1e-7)

## Adam
모멘텀과 AdaGrad을 합쳐보면 어떨까?