In [3]:
# SGD = Stochastic Gradient Decent
# 가장 기본이 되는 optimizer는 GD(gradient descent)으로 경사를 따라 내려가면서 W를 update시킨다.
# full-batch가 아닌 mini_batch로 학습을 진행하는 것이 stochastic gradient decent
# full-batch로 epoch마다 weight를 수정하지 않고 빠르게 mini-batch로 weight를 수정하면서 학습하기 위해
class SGD:
    def __init__(self, lr=0.01):
        self.lr = lr
        
    def update(self, params, grads):
        for key in params.keys():
            params[key] -= self.lr * grads[key]

In [5]:
# 스텝 계산해서 움직인 후, 아까 내려 오던 관성 방향으로 또 가자
# SGD에 momentum 개념을 추가한 것이다. 현재 batch로만 학습하는 것이 아니라 이전의 batch 학습결과도 반영한다.
# momentum 0.9 -> 이번 batch에 의해 학습이 크게 좌지우지 되지 않게하기 위해 이전까지의 학습결과를
# 보통 0.9 반영하고 이번 batch는 0.1만 반영한다.
class Momentum:
    def __init__(self, lr=0.01, momentum=0.9):
        self.lr = lr
        self.momentum = momentum
        self.v = None
    
    def update(self, params, grads):
        if self.v is None:
            self.v = {}
            for key, val in params.items():
                self.v[key] = np.zeros_like(val)
                
        for key in params.keys():
            self.v[key] = self.momentum.v[key] - self.lr*grads[key]
            params[key] += self.v[key]

In [6]:
# 안가본곳은 성큼 빠르게 걸어 흝고 많이 가본곳은 잘 아니까 갈수록 보폭을 줄여 세밀히 탐색
# 학습을 통해 크게 변동이 있었던 가중치에 대해서는 학습률을 감소시키고 학습을 통해
# 아직 가중치의 변동이 별로 없었던 가중치는 학습률을 증가시켜서 학습이 되게끔 한다.
# 기존 SGD에서의 notation에서 h가 추가되었는데 h는 가중치 기울기 제곱들을 더해간다.
# 따라서 가중치 값에 많은 변동이 있었던 가중치는 점점 학습률을 감소시키게 된다.
# AdaGrad는 무한히 학습하면 어느 순간 h가 너무 커져서 학습이 아예 안될 수도 있다. 이를 RMSProp에서 개선한다.
class AdaGrad:
    def __init__(self, lr=0.01):
        self.lr = lr
        self.h = None
        
    def update(self, params, grads):
        if self.h is None:
            self.h = {}
            for key, val in params.items():
                self.h[key] = np.zeros_like(val)
        for key in params.keys():
            self.h[key] += grads[key] * grads[key]
            params[key] -= self.lr * grads[key] / (np.sqrt(self.h[key]) + 1e-7)
            # 여기에서 주의할 점은 마지막에 1e-7이라는 작은 값을 더하는 부분이다.
            # 이 작은 값은 self.h[key]에 0이 담겨있다 해도 0으로 나누는 사태를 막아준다.

In [None]:
# ADAM
class Adam:
    