1. 신경망 학습의 목표
    - 신경망 학습의 목적은 손실 함수(Loss Function) 를 가능한 한 낮추는 가중치/편향 매개변수를 찾는 것이다.
        - 최적화(Optimization): 손실을 최소화하는 매개변수 찾기
        - 기울기(Gradient)를 이용해서 최적화 수행
        - 대표적 방법 : 확률적 경사 하강법 (SGD)



2. 확률적 경사 하강법 (SGD)


- 2.1 수식
    - $W \leftarrow W - \eta \frac{\partial L}{\partial W}$
        - $W$ : 가중치 매개변수
        - $\frac{\partial L}{\partial W}$ : 손실 함수에 대한 W의 기울기
        - $\eta $ : 학습률(learning rate)

- 2.2 SGD 클래스 구현
    - 학습률(lr)을 곱한 기울기를 매개변수에서 빼준다.



In [None]:
class SGD:
    def __init__(self, lr=0.01):
        self.lr = lr

    def update(self, params, grads):
        for key in params.keys():
            params[key] -= self.lr * grads[key]


3. SGD의 단점
    - 특정 방향(특히 y축 방향)으로 기울기가 큰 경우, 지그재그로 느리게 수렴하는 문제가 있다.
        - 비등방성 함수(anisotropic function)에서는 비효율적
        - 개선 방법 필요 → 모멘텀, AdaGrad, Adam 등장


4. 모멘텀 (Momentum)


- 4.1 수식
    - $v \leftarrow \alpha v - \eta \frac{\partial L}{\partial W}$
    - $W←W+v$
        - $v$ : 속도(velocity)
        - $α$ : 모멘텀 계수 (보통 0.9)





- 4.2 Momentum 클래스 구현
    - 이전 이동 방향을 고려해 빠르게 수렴하게 만든다.

In [None]:
class Momentum:
    def __init__(self, lr=0.01, momentum=0.9):
        self.lr = lr
        self.momentum = momentum
        self.v = None

    def update(self, params, grads):
        if self.v is None:
            self.v = {key: np.zeros_like(val) for key, val in params.items()}

        for key in params.keys():
            self.v[key] = self.momentum * self.v[key] - self.lr * grads[key]
            params[key] += self.v[key]


5. AdaGrad
    - 학습이 진행될수록 학습률을 자동으로 줄이는 방법.



- 5.1 수식
    - $h \leftarrow h + \left( \frac{\partial L}{\partial W} \right)^2$
    - $W \leftarrow W - \eta \frac{1}{\sqrt{h}} \frac{\partial L}{\partial W}$
        - $h$ : 과거 기울기의 제곱합



- 5.2 AdaGrad 클래스 구현
    - 학습을 진행할수록 학습률이 점점 줄어든다.
    - 오버플로 방지를 위해 분모에 아주 작은 수 1e−7 추가.

In [None]:
class AdaGrad:
    def __init__(self, lr=0.01):
        self.lr = lr
        self.h = None

    def update(self, params, grads):
        if self.h is None:
            self.h = {key: np.zeros_like(val) for key, val in params.items()}

        for key in params.keys():
            self.h[key] += grads[key] * grads[key]
            params[key] -= self.lr * grads[key] / (np.sqrt(self.h[key]) + 1e-7)


6. Adam
    - Momentum + AdaGrad를 합친 최적화 기법. 현재 가장 널리 쓰이는 방법 중 하나.
        - RMSProp + 모멘텀 + 편향 보정(Bias Correction) 사용 (지금 단계에서는 직접 구현 생략)

7. 최적화 기법 비교 요약

| 방법 | 특징 | 장단점 |
|:----|:-----|:-----|
| SGD | 가장 기본적인 경사 하강법 | 느릴 수 있음 |
| Momentum | 운동량을 고려하여 빠르게 수렴 | 튜닝 필요(모멘텀 계수) |
| AdaGrad | 학습률 자동 감소 | 지나치게 학습률이 작아질 수 있음 |
| Adam | Momentum + AdaGrad 융합 | 현재 가장 널리 사용됨 |
