In [1]:
import numpy as np

In [2]:
# SGD, Stochastic Gradient Descent (확률적인 기울기 하강법)
# 단순히 기울기가 제시한 방향으로 갱신한다.

class SGD:
    def __init__(self, learning_rate=0.01):
        self.learning_rate = learning_rate
        
    def update(self, parameters, gradients): # parameters 와 gradients는 딕셔너리 변수
        for key in parameters.key():
            parameters[key] -= self.learning_rate * gradients[key]
            

In [3]:
# Momentum은 [운동량], [관성]을 뜻하는 물리 용어
# 공이 바닥을 구르는 듯한 움직임을 보여준다.

class Momentum:
    def __init__(self, learning_rate=0.01, momentum=0.9):
        self.learning_rate = learning_rate
        self.momentum = momentum
        self.v = None # v는 속도(velocity)
        
    def update(self, parameters, gradients): # parameters 와 gradients는 딕셔너리 변수
        if self.v is None:
            self.v = {}
            for key, val in parameters.items():
                self.v[key] = np.zeros_like(val)
        
        for key in parameters.key():
            self.v[key] = (self.momentum * self.v[key]) - (self.learning_rate * gradients[key])
            parameters[key] += self.v[key]
            

In [4]:
# AdaGrad, Adaptive Gradient Algorithm
# 매개변수 각각에 적응형으로(맞춤형으로) 학습률을 조절하며 학습을 진행한다.

class AdaGrad:
    def __init__(self, learning_rate=0.01):
        self.learning_rate = learning_rate
        self.h = None
        
    def update(self, parameters, gradients): # parameters 와 gradients는 딕셔너리 변수
        if self.h is None:
            self.h = {}
            for key, val in parameters.items():
                self.h[key] = np.zeros_like(val)
        
        for key in parameters.key():
            self.h[key] += gradients[key] * gradients[key]
            parameters[key] -= (self.learning_rate * gradients[key]) / (np.sqrt(self.h[key])+ 1e-7) # 1e-7을 더해서 0으로 나누는 일이 없도록 해준다.
            

In [5]:
# Adam ,Adaptive Moment Estimation)
# 모멘텀과 AdaGrad를 융합해보면 어떨까? 라는 아이디어에서 시작됨
# 하이퍼파라미터의 편향보정이 진행된다는 점이 특징
# 모멘텀과 비슷한 움직임을 보이지만, 공의 좌우 흔들림이 적다. 이는 각각의 매개변수에 갱신 정도를 적응형으로 조절했기 때문.