# *학습 관련 기술들*

## 1.  매개변수 갱신

> - Optimization(최적화)은 손실함수의 최소값을 갖는 매개변수를 찾는 문제
- 고차원 신경망에서 이를 찾기란 쉽지 않지만 반복적으로 매개변수의 기울기(미분)를 찾아가며 근사할 수 있음
-  매개변수를 갱신하는 최적화 기법에는 SGD, Momemtum, AdaGrad, Adam 4종류가 있음

### 1) SGD (확률적 경사 하강법)

- SGD는 수식으로 다음과 같이 표현 가능
$$
W ← W - \eta\frac{\delta L}{\delta W}
$$
- $W$는 갱신할 매개변수고, $\frac{\delta L}{\delta W}$는 손실함수의 기울기로 여깅에 $\eta$만큼 값을 갱신한다는 의미
- SGD는 아래와 같이 구현 가능

In [1]:
class SGD:
    def __init__(self, lr = 0.01):
        self.lr = lr
       
    
    def update(self, params, grads):
        for key in params.keys():
            params[key] -= self.lr*grads[key]

- 핵심이 되는 params[key] -= self.lr\*grads[key]는 params[key] = params[key] - self.lr\*grads[key]와 같은 공식임
- 해석하자면 매개편수인 params를 기울기에 학습률을 곱한만큼 반대 방향으로 이동기킨다고 볼 수 있음
- 실제로 사용할 때에는 아래와 같이 사용 가능

In [None]:
network = TwoLayerNet(...)
optimizer = SGD()

for i in range(10000):
    ...
    x_batch, t_batch = get_mini_batch(...)
    grads = network.gradient(x_batch, t_batch)
    params = network.params
    optimizer.update(params, grads)
    ...

- 위와 같이 optimizer가 최적화를 수행할 수 있도록 '매개변수'와 '기울기' 정보만 제공하면 계산하도록 클래스 구현 ...(params, grads)
___

### 2) SGD의 단점

- SGD는 문제에 따라서 비효율적일 때가 많음