<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#파라미터-갱신(최적화(Optimization)-방법)" data-toc-modified-id="파라미터-갱신(최적화(Optimization)-방법)-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>파라미터 갱신(최적화(Optimization) 방법)</a></span></li><li><span><a href="#가중치-초기화-방법" data-toc-modified-id="가중치-초기화-방법-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>가중치 초기화 방법</a></span></li></ul></div>

## 파라미터 갱신(최적화(Optimization) 방법)

In [1]:
# SGD
class SGD:
    def __init__(self, lr=0.01):
        self.lr = lr
        
    def update(self, params: dict, grads: dict):
        for key in params.keys():
            params[key] -= self.lr * grads[key]

In [2]:
# Momentum : 현재의 Gradient로 갱신할 때, 과거의 Gradient로 고려 -> 변수 v(Velocity)의 역할!
class Momentum:
    def __init__(self, lr=0.01, momentum=0.9):
        self.lr = lr
        self.momentum = momentum
        self.v = None
        
    def update(self, params: dict, grads: dict):
        if self.v is None:
            self.v = {}
            for key, val in params.items():
                self.v[key] = np.zeros_like(val)
        
        for key in parmas.keys():
            self.v[key] = (self.momentum * self.v) - (self.lr * grads[key])
            params[key] += self.v[key]

In [4]:
# AdaGrad : 학습률을 조정. 
# 학습률 조정하는 h값은 기울기값을 제곱한 값! 
# 그러므로 h값이 크다면 엄청 많이 움직였다는 것! 그래서 이것을 1/sqrt(h)로 해서 큰h값은 작게 움직이도록 설정!

class AdaGrad:
    def __init__(self, lr=0.01):
        self.lr = lr
        self.h = None
        
    def update(self, params: dict, grads: dict):
        if self.h is None:
            self.h = {}
            for key, val in params.items():
                self.h[key] = np.zeros_like(val)
                
        for key in params.keys():
            self.h[key] += self.grads[key] * self.grads[key]
            params[key] -= (self.lr * self.grads[key]) / (np.sqrt(self.h[key]) + 1e-7)
            

# RMSProp : AdaGrad + h에다가 지수평균을 도입
class RMSProp:
    def __init__(self, lr=0.01, rho=0.9):
        self.lr = lr
        self.rho = rho
        self.h = None
        
    def update(self, params: dict, grads: dict):
        if self.h is None:
            self.h = {}
            for key, val in params.items():
                self.h[key] = np.zeros_like(val)
        
        for key in params.keys():
            self.h[key] = rho * self.h[key] + (1 - rho) * (self.grads[key] * self.grads[key])
            params[key] -= (self.lr * self.grads[key]) / (np.sqrt(self.h[key]) + 1e-7)

- Adam은 RMSProp + Momentum을 결합과 편향 보정(Bias Correction) 항을 추가해서 사용하는 방법. 책에서 소스코드를 생략... 소스코드가 궁금하다면 <a href='https://github.com/young-hun-jo/deep-learning-from-scratch/blob/master/common/optimizer.py'>여기</a>로!

## 가중치 초기화 방법