# 옵티마이저 소개 및 종류
옵티마이저란, 딥러닝 모델의 학습 과정에서 모델의 파라미터를 업데이트하는 알고리즘이다. 즉, 모델이 학습 데이터에 대해 최적의 결과를 도출하기 위해 모델의 weight와 bias를 조정하는 데 사용된다.<br>
옵티마이저는 loss function에서 계산된 gradient를 이용해 모델의 파라미터를 업데이트 한다. loss function은 모델의 예측값과 실제값의 차이를 계산하는 함수로, 이 값을 최소화하는 방향으로 모델의 parameter를 조정한다.

### 옵티마이저 종류
- 경사하강법(Gradient Descent)
> 가장 기본적인 최적화 알고리즘 중 하나. 가중치를 조정할 때 매개변수에 대한 손실함수의 기울기를 이용해 최적화 하는 방법. 즉, 가중치 업데이트는 현재 가중치에서 기울기를 빼는 방식으로 이루어짐<br>
>> - Batch Gradient Descent : 전체 데이터셋에 대해 기울기를 계산하고 가중치 업데이트 -> 속도 느릴 수 있음, 메모리 사용량 많음, 하지만 최소값에 수렴하는 속도는 빠름<br>
>> - Gradient Descent Optimization : Stochastic Gradient Descent(SGD)는 데이터 하나씩 기울기를 계산하고 가중치 업데이트 -> 메모리 사용량 적음, 하지만 최소값에 수렴하는 속도는 느릴 수 있음, 경사하강이 매번 달라져서 최적값에 수렴하는 과정에서 지그재그로 이동하는 현상 발생할 수 있음
>> - Mini-batch Gradient Descent : 전체 데이터셋의 일부에 대해서만 기울기를 계산하고 가중치 업데이트 -> 메모리 사용량 적음, 한 개의 데이터를 처리하는 SGD보다 안정적으로 최적값에 수렴할 수 있다.
- 모멘텀(Momentum)
> 이전 기울기의 방향과 크기를 고려하여 새로운 기울기 계산. 이전 기울기의 방향이 현재 기울기와 일치하면 가중치를 더 크게 업데이트하고, 그렇지 않으면 더 작게 업데이트 한다. 일반적인 Gradient Descent는 지그재그로 움직이게 되지만 모멘텀은 이전 방향을 유지하면서 최적점에 빠르게 수렴할 수 있다. 모멘텀 값이 0에 가까울수록 Gradient Descent와 유사해지며, 1에 가까울수록 이전 방향을 보존하는 정도가 높아진다. 적절한 모멘텀 값을 설정하면 보다 빠르고 안정적인 학습을 할 수 있다.<br>
>> - Standard Mementum : 기본적인 모멘텀으로 이전 기울기의 방향과 크기를 고려하여 가중치 업데이트<br>
>> Nesterov Accelerated Gradient(NAG) : Standard Momentum에 비해 더 빠른 수렴 속도를 가지는 방법이다. 현재 위치에서 모멘텀 방향으로 이동한 후, 이동한 위치에서 기울기를 계산하여 가중치 업데이트<br>
>> Heavy-ball Momentum : Standard Momentum에서 모멘텀 방향의 속도를 감소시켜 overshooting(최적값을 지나쳐서 발산하는 현상)을 막는 방법이다. 이전 기울기와 현재 기울기의 합과 차를 고려하여 가중치 업데이트
- 아다그라드(Adagrad)
> 각각의 매개변수에 서로 다른 학습률을 적용하는 방식 사용. 데이터셋에서 매개변수에 대한 제곱된 gradient의 역사를 누적함으로써 각각의 매개변수에 대한 적응적은 학습률을 계산한다. 기울기 제곱 값의 누적 합을 이용해 학습률을 조절하는 방식으로, 매개변수별로 학습률을 조절할 수 있는 방법이다. 이전 기울기들의 제곱을 누적하여 학습률을 조절하므로 처음에는 크게 업데이트하다가 점차 학습률이 줄어들게 된다. 이러한 방식은 기울기의 크기가 큰 매개변수는 학습률이 감소하고, 기울기의 크기가 작은 매개변수는 학습률이 증가하는 경향을 보인다.<br>
>> 개별매개변수의 학습률을 적절하게 조절할 수 있어 매개변수의 스케일에 덜 민감해진다는 점이 있다. 하지만, 누적된 제곱 기울기 값이 계속해서 커져서 학습률이 점점 작아지는 문제가 있어, 학습이 오래될수록 업데이트가 매우 느려지는 경향이 있음.<br>
파라미터는 하나만 필요
- 알엠에스프롭(RMSprop)
> 기울기 제곱의 이동평균을 사용하여 학습률 조절. 각 매개변수에 대한 학습률을 따로 설정한다. 이 때 빈번하게 발생하는 기울기의 작은 값으로 인해 학습률이 지나치게 작아지는 문제가 발생한다. RMSprop은 이 문제를 해결하기 위해 기울기 제곱의 이동평균을 사용한다. 이동평균을 구할 때 지수이동평균(EMA)을 사용한다. EMA는 이동평균을 구할 때 과거의 값들을 지수적으로 감소시키면서 현재값을 계산하는 방식이다. 이 때 이동편균을 구하는 지수 가중치를 하이퍼파라미터로 설정할 수 있다.<br>
>> RMSprop의 학습률 조절 방법 : 기울기 제곱의 이동평균을 구한다. -> 구한 이동평균으로 학습률을 조절한다. 즉, 과거 기울기의 크기를 고려하면서 적절한 학습률을 계산한다.
- 아담(Adam)
> Momentum과 Adagrad의 아이디어를 결합한 옵티마이저. 각 매개변수마다 적응적인 학습률을 사용하며, 이전 기울기의 지수 가중 이동 평균과 이전 기울기 제곱의 지수가중 이동 평균을 계산하여 학습률을 조정한다.<br>
>> Adam 식<br>
>> 1. 현재 시점의 기울기 계산
>> 2. 이전 기울기의 지수 가중 이동 평균과 이전 기울기 제곱의 지수 가중 이동 평균 계산
>> 3. 학습률을 적응적으로 조정
>> 4. 매개변수 업데이트
> 이전 기울기의 방향과 크기를 고려하면서 매개변수를 업데이트 하기 때문에, 경사면이 급격하게 변하는 지점에서 빠르게 최적점에 다가갈 수 있다. 또한, Adagrad처럼 각 매개변수마다 적응적인 학습률을 사용하기 때문에, 학습이 더욱 안정적으로 이루어질 수 있다.

## 선형 회귀 모델의 학습에서 다양한 옵티마이저를 적용해보기

In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

### Boston data loader

In [2]:
boston_dataset = load_boston()
x_data = boston_dataset.data    # 학습 데이터
y_data = boston_dataset.target  # 라벨 데이터

# 데이터 스케일
scaler = StandardScaler()
x_data = scaler.fit_transform(x_data)

# 데이터 분할
x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size = 0.1, random_state=42)
print("x_train >> ", len(x_train))
print("x_test >> ", len(x_test))
print("y_train >> ", len(y_train))
print("y_test >> ", len(y_test))

x_train >>  455
x_test >>  51
y_train >>  455
y_test >>  51



    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np

        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_ho

### 모델 생성 및 하이퍼파라미터 설정

In [3]:
input_dim = x_data.shape[1]  # 13
output_dim = 1
lr = 0.0001
num_epochs = 1000

model = nn.Linear(input_dim, output_dim)

### 다양한 옵티마이저 설정

In [4]:
optimizers = {"SGD" : optim.SGD(model.parameters(), lr=lr),
            "Momentum" : optim.SGD(model.parameters(), lr=lr, momentum=0.9),
            "Adagrad" : optim.Adagrad(model.parameters(), lr=lr),
            "RMSprop" : optim.RMSprop(model.parameters(), lr=lr),
            "Adam" : optim.Adam(model.parameters(), lr=lr)}

### 모델 학습

In [14]:
for optimizer_name, optimizer in optimizers.items():
#     print(optimizer_name, optimizer)
    criterion = nn.MSELoss()
    optimizer.zero_grad()

    for epoch in range(num_epochs):
        inputs = torch.tensor(x_train, dtype=torch.float32)
        labels = torch.tensor(y_train, dtype=torch.float32)

        # Forward pass
        outputs = model(inputs)
        loss = criterion(outputs, labels)

        # Baxkward and optimize
        loss.backward()
        optimizer.step()

        if (epoch + 1) % 100 == 0:
            print(f"{optimizer_name} - Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}")

SGD - Epoch [100/1000], Loss: 100.4588
SGD - Epoch [200/1000], Loss: 539.5785
SGD - Epoch [300/1000], Loss: 195.6327
SGD - Epoch [400/1000], Loss: 410.5547
SGD - Epoch [500/1000], Loss: 345.2058
SGD - Epoch [600/1000], Loss: 255.8973
SGD - Epoch [700/1000], Loss: 489.2890
SGD - Epoch [800/1000], Loss: 136.6813
SGD - Epoch [900/1000], Loss: 571.8954
SGD - Epoch [1000/1000], Loss: 98.5846
Momentum - Epoch [100/1000], Loss: 97.6165
Momentum - Epoch [200/1000], Loss: 234.0833
Momentum - Epoch [300/1000], Loss: 957.0825
Momentum - Epoch [400/1000], Loss: 501456.9688
Momentum - Epoch [500/1000], Loss: 116150576.0000
Momentum - Epoch [600/1000], Loss: 13191459840.0000
Momentum - Epoch [700/1000], Loss: 535798153216.0000
Momentum - Epoch [800/1000], Loss: 5347576119296.0000
Momentum - Epoch [900/1000], Loss: 25009373373792256.0000
Momentum - Epoch [1000/1000], Loss: 8414575681509261312.0000
Adagrad - Epoch [100/1000], Loss: 8314683950614183936.0000
Adagrad - Epoch [200/1000], Loss: 83146839506

Loss : inf는 모델의 학습 과정에서 발생하는 오류 중 하나이다. inf는 무한대를 나타내며, 손실 함수 값이 무한대로 발산하여 발생하는 문제이다.

## 옵티마이저의 특징과 장단점

1. SGD
> - 가장 기본적인 옵티마이저
> - 무작위로 선택한 샘플(미니배치)의 그래디언트를 이용해 파라미터를 갱신
> - 속도가 빠르고 구현이 간단하지만, 수렴속도가 느리고 지역 최소값에 빠질 가능성이 있다.
2. Momentum
> - SGD와 비슷한 방식으로 가중치 갱신을 수행하지만, 그래디언트의 지수 이동 평균을 계산해 진동을 줄임
> - SGD에 비해 빠르게 수렴, 지역 최소값을 탈출하기 쉬움
> - 하지만 모멘텀 값에 따라 최적값을 지나쳐서 수렴하는 overshooting 문제가 발생할 수 있음<br>
- Adagrad(Adaptive Gradient)
> - 학습이 진행됨에 따라 그래디언트의 크기에 따라 학습률을 조정해 가중치를 갱신하는 방법
> - 각 파라미터마다 개별적으로 학습률을 조정하기 때문에 수렴속도가 빠르고, 하이퍼파라미터의 튜닝이 필요없다.
> - 그러나, 학습이 진행됨에 따라 학습률이 감소해 더 이상 업데이트가 일어나지 않을 수 있다.<br>
- RMSprop(Root Mean Square Propagation)
> - Adagrad의 단점을 보완한 방법
> - 학습률이 점점 줄어들도록 하는 대신, 지수 이동 평균을 사용하여 학습률을 유지함
> - 적응형 학습률 방법 중 하나로 SGD보다 빠르게 수렴하며, 불필요한 파라미터의 업데이트를 줄여준다.
- Adam
> - RMSprop와 Momentum을 합친 것으로, 학습 속도가 빠르며 안정적인 수렴을 보장한다.
> - 미분 값이 0인 지점에서도 움직이도록 하기 위한 편향 보정을 수행한다.
> - 자동으로 학습률을 조정하며, 처음에는 큰 학습률로 시작하다가 이후에는 학습률을 점진적으로 감소시키므로 수렴 속도를 향상시킬 수 있다.
> Gradient Descent에서 보여지는 최적점에서의 오실레이션 문제를 해결할 수 있다.
> - 적응적인 learning rate를 제공하므로 빠르게 수렴할 수 있다.
> - hyperparameter에 대한 민감도가 낮아서 하이퍼 파라미터를 튜닝하기 쉬운 편이다.
> - 하지만 일부 문제에서 다른 옵티마이저보다 성능이 떨어지는 경우가 있다. 또한, 일부 하이퍼 파라미터를 튜닝하지 않으면 성능이 떨어질 수 있다.
> - 더욱 복잡한 문제에 대해서는 다른 옵티마이저와 비교했을 때 성능이 떨어질 수 있다.