In [12]:
# 확률적 경사 하강법(SGD; Stochastic Gradient Descent)
class SGD:
    def __init__(self, lr = 0.01):
        self.lr = lr
    
    def update(self, params, grads):
        for key in params.keys():
            params[key] -= self.lr * grads[key]
            
# python 소스 코드
weight[i] += - learning_rate * gradient

# Keras 소스 코드
kearas.optimizers.SGD(lr = 0.1)

In [None]:
## SGD 모멘텀(Momentum)
class Momentum:
    def __init__(self, lr=0.01, momentum=0.9):
        self.lr = lr
        self.momentum = momentum
        self.v = None
        
    def update(self, params, grads):
        if self.v is None:
            self.v = {}
            for key, val in params.items():                                
                self.v[key] = np.zeros_like(val)
                
        for key in params.keys():
            self.v[key] = self.momentum*self.v[key] - self.lr*grads[key] 
            params[key] += self.v[key]
            
# python 소스 코드
v = m * v - learning_rate * gradient
weight[i] += v

# Tensorflow 소스 코드
optimize = tf.train.MomentumOptimizer(learning_rate = 0.01, momentum = 0.9).minimize(loss)

# Keras 소스 코드
keras.optimizers.SGD(lr = 0.1, momentum = 0.9)

In [None]:
# Nesterov Accelrated Gradient(NAG, 네스테로프 모멘텀)

# python 소스 코드
v = m * v - learning_rate * gradient(weight[i-1] + m * v)
weight[i] += v

# Tensorflow 소스 코드
optimizer = tf.train.MomentumOptimizer(learning_rate = 0.01, momentum = 0.9, use_nesterov = True).minimize(loss)

# Keras 소스 코드
keras.optimizers.SGD(lr = 0.1, momentum = 0.9, nesterov = True)

In [None]:
# RMSProp

# python 소스 코드
g = gamma * g + (1 - gamma) * gradient ** 2
weight[i] += - learning_rate * gradient / (np.sqrt(g) + e)

# Tensorflow 소스 코드
optimize = tf.train.RMSPropOptimizer(learning_rate = 0.01, decay = 0.9, momentum = 0.0, epsilon = le - 1).minimizer(cost)

# Keras 소스 코드
keras.optimizers.RMSprop(lr = 0.001, rho = 0.9, epsilon = None, decay = 0.0)
# 하이퍼-파라미터 rho ==  𝛾(감마)


In [None]:
# AdaGrad
class AdaGrad:
    def __init__(self, lr=0.01):
        self.lr = lr
        self.h = None
        
    def update(self, params, grads):
        if self.h is None:
            self.h = {}
            for key, val in params.items():
                self.h[key] = np.zeros_like(val)
            
        for key in params.keys():
            self.h[key] += grads[key] * grads[key]
            params[key] -= self.lr * grads[key] / (np.sqrt(self.h[key]) + 1e-7)
            
# python 소스 코드
g += gradient**2
weight[i] += - learning_rate(gradient / (np.sqrt(g) + e))

In [None]:
# Adam

# Tensorflow 소스 코드
optimizer = tf.train.AdamOptimizer(learning_rate = 0.001, betal = 0.9, beta2 = 0.999, epsilon=1e-08).minimizer(loss)

# Kearas 소스 코드
keras.optimizers.Adam(lr = 0.001, beta_1 = 0.9, beta_2 = 0.999, epsilon = None, decay = 0.0, amsgrad = False)