<h2 style="color: green;">3. 옵티마이저</h2>

옵티마이저(Optimizer)란, 딥러닝 모델의 학습 과정에서 모델의 파라미터를 업데이트하는 알고리즘입니다. 즉, 모델이 학습 데이터에 대해 최적의 결과를 도출하기 위해 모델의 가중치(weight)와 편향(bias)을 조정하는 데 사용됩니다.

옵티마이저는 손실 함수(loss function)에서 계산된 그래디언트(gradient)를 이용하여 모델의 파라미터를 업데이트합니다. 손실 함수는 모델의 예측 값과 실제 값의 차이를 계산하는 함수로, 이 값을 최소화하는 방향으로 모델의 파라미터를 조정합니다.

**옵티마이저의 종류**

+ 경사 하강법(Gradient Descent)
<br></br>
+ 모멘텀(Momentum)
<br></br>
+ 아다그라드(Adagrad)
<br></br>
+ 알엠에스프롭(RMSprop)
<br></br>
+ 아담(Adam)

<br></br>
## 3-1. 경사 하강법 (Gradient Descent Optimization)

가장 기본적인 최적화 알고리즘 중 하나로, 가중치를 조정할 때 매개변수에 대한 손실함수의 기울기 (gradient)를 이용하여 최적화하는 방법입니다. 즉, 가중치 업데이트는 현재 가중치에서 기울기를 빼는 방식으로 이루어집니다.

Gradient Descent는 크게 Batch Gradient Descent, Stochastic Gradient Descent(SGD), Mini-batch Gradient Descent로 나뉩니다.
<br></br>

+ ### 배치 경사 하강법*Batch Gradient Descent (SGD)*

Batch Gradient Descent는 전체 데이터셋에 대해 기울기를 계산하고 가중치를 업데이트합니다. 즉, 전체 데이터셋을 한번에 처리하므로 한번에 메모리를 많이 사용하게 되고, 처리시간이 오래 걸릴 수 있습니다. 하지만 전체 데이터셋에 대한 기울기를 계산하므로 최소값에 수렴하는 속도는 빠릅니다.

+ ### 미니배치 경사 하강법*Mini-batch Gradient Descent*

Mini-batch Gradient Descent는 전체 데이터셋의 일부(mini-batch)에 대해서만 기울기를 계산하고 가중치를 업데이트합니다. 즉, 전체 데이터셋보다 메모리 사용량이 적으면서, 한 개의 데이터를 처리 하는 SGD보다 안정적으로 최적값에 수렴할 수 있습니다.

+ ### 확률적 경사 하강법*Stochastic Gradient Descent (SGD)*

Stochastic Gradient Descent는 데이터 하나씩 기울기를 계산하고 가중치를 업데이트합니다. 즉, 데이터 한 개씩 처리하므로 전체 데이터셋보다 메모리 사용량이 적지만, 최소값에 수렴하는 속도가 느릴 수 있습니다. 또한, 경사 하강 방향이 매번 달라져서 최적값에 수렴하는 과정에서 지그재그로 이동하는 현상이 발생할 수 있습니다.

+ ### 모멘텀 최적화 *Momentum Optimization*

Momentum Optimization은 Gradient Descent의 한계를 보완하기 위해 등장한 방법 중 하나입니다. 이전 기울기의 방향과 크기를 고려하여 새로운 기울기를 계산합니다. 이전 기울기의 방향이 현재 기울기와 일치하면 가중치를 더 크게 업데이트하고, 그렇지 않으면 더 작게 업데이트합니다.

예를 들어, 기울기가 대각선 방향으로 지속적으로 나오는 경우, 일반적인 Gradient Descent는 오랜 시간 동안 최적점에 수렴하지 못하고 지그재그로 움직이게 됩니다. 하지만 Momentum Optimization은 이전 기울기를 더해서 가중치 업데이트를 수행하기 때문에 이전 방향을 유지하면서 최적점에 빠르게 수렴할 수 있습니다.

이전 기울기와 현재 기울기의 비율을 조절하는 momentum 하이퍼파라미터를 설정할 수 있습니다. momentum 값이 0에 가까울수록 Gradient Descent와 유사해지며, 1에 가까울수록 이전 방향을 보존하는 정도가 높아집니다. 적절한 momentum 값을 설정하면 보다 빠르고 안정적인 학습을 할 수 있습니다.

+ ### *Adam*

Momentum Optimization과 Adagrad Optimization의 아이디어를 결합한 옵티마이저입니다. Adam은 각 매개 변수마다 적응적인 학습률을 사용하며, 이전 기울기의 지수 가중 이동 평균과 이전 기울기 제곱의 지수 가중 이동 평균을 계산하여 학습률을 조정합니다.


## *선형 회귀 모델의 학습에서 다양한 옵티마이저를 적용*

In [7]:
import torch
import torch.nn as nn
import torch.optim as optim
from sklearn.datasets import fetch_california_housing
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

In [13]:
# 데이터 로드
california = fetch_california_housing()
x = california.data
y = california.target

# 데이터 스케일링
scaler = StandardScaler()
x = scaler.fit_transform(x)
# 데이터를 표준화(standardization)합니다. 표준화는 각 특징의 평균을 0, 표준 편차를 1로 만들어 데이터의 스케일을 일정하게 조정하는 과정입니다.

# 데이터 분할
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

# 모델 생성 및 하이퍼파라미터 설정
input_dim = x.shape[1]
output_dim = 1
learning_rate = 0.0001
num_epochs = 1000

model = nn.Linear(input_dim, output_dim)

In [9]:
#다양한 옵티마이저 설정
optimizers = {"SGD" : optim.SGD(model.parameters(), lr=learning_rate),
             "Momentum" : optim.SGD(model.parameters(), lr=learning_rate, momentum=0.9),
             "Adagrad" : optim.Adagrad(model.parameters(), lr=learning_rate),
             "RMSprop" : optim.RMSprop(model.parameters(), lr=learning_rate),
             "Adam" : optim.Adam(model.parameters(), lr=learning_rate)}

In [12]:
#모델 학습
for optimizer_name, optimizer in optimizers.items() :
    criterion = nn.MSELoss()
    optimizer.zero_grad()
    
    for epoch in range(num_epochs) :
        inputs = torch.tensor(x_train, dtype=torch.float32)
        labels = torch.tensor(y_train, dtype=torch.float32)
        
        #Forward pass
        outputs = model(inputs)
        loss = criterion(outputs, labels.view_as(outputs))  # 크기를 조절하여 일치시킴
        
        #Backward and optimize
        loss.backward()
        optimizer.step()
        
        #Print progress
        if (epoch+1) % 100 == 0:
            print(f"{optimizer_name} - Epoch [{epoch+1}/{num_epochs}], Loss : {loss.item():.4f}")

SGD - Epoch [100/1000], Loss : 0.7629
SGD - Epoch [200/1000], Loss : 4.9919
SGD - Epoch [300/1000], Loss : 1.6641
SGD - Epoch [400/1000], Loss : 3.6604
SGD - Epoch [500/1000], Loss : 3.0820
SGD - Epoch [600/1000], Loss : 2.2910
SGD - Epoch [700/1000], Loss : 4.4701
SGD - Epoch [800/1000], Loss : 1.2289
SGD - Epoch [900/1000], Loss : 5.3093
SGD - Epoch [1000/1000], Loss : 0.6956
Momentum - Epoch [100/1000], Loss : 0.7114
Momentum - Epoch [200/1000], Loss : 1.8788
Momentum - Epoch [300/1000], Loss : 54.5746
Momentum - Epoch [400/1000], Loss : 333.6345
Momentum - Epoch [500/1000], Loss : 741.2551
Momentum - Epoch [600/1000], Loss : 29782.7305
Momentum - Epoch [700/1000], Loss : 298174.6562
Momentum - Epoch [800/1000], Loss : 943067.5000
Momentum - Epoch [900/1000], Loss : 22727518.0000
Momentum - Epoch [1000/1000], Loss : 299659776.0000
Adagrad - Epoch [100/1000], Loss : 314379136.0000
Adagrad - Epoch [200/1000], Loss : 314379136.0000
Adagrad - Epoch [300/1000], Loss : 314379136.0000
Adag