### Optimizer와 경사 하강법

* 최적화는 각 학습 단계에서 모델의 오류를 줄이기 위해 모델 매개변수를 조정하는 과정으로 Optimizer는 최적화 알고리즘을 의미함.
* 대표적인 최적화 알고리즘이 확률적 경사하강법 (SGD : Stochastic Gradient Descent)
* PyTorch에는 모델과 데이터 타입에 따라, 보다 좋은 성능을 제공하는 ADRAM이나 RMSProp과 같은 다양한 옵티마이저가 있음

### SGD 경사 하강법 Optimizer 사용법

* 초기화 (모델 파라미터 리스트와 learning rate(학습률)을 넣어줌)

  * optimizer = torch.optim.SGD(model.parameters(), lr = learning_rate)

* 학습 단계 (반복 수행하며 최적화하는 단계)

  * optimizer.zero_grad()를 호출하여 모델 파라미터의 미분값(변화도)를 0으로 초기화 해줌
  * loss.backward()를 호출하여 backward pass를 계산하고, 연산에 연결된 각 텐서들의 미분 값을 각 텐서 객체.grad에 저장
  * optimizer.step()을 호출하여 역전파 단계에서 계산된 미분값(변화도)를 기반으로 모델 파라미터 값 업데이트
  


### optimizer.zero_grad() 이해

* 모델 파라미터의 미분값(변화도) 을 초기화해주지 않으면, 이어지는 모델 파라미터 연산시, 해당 연산에 대한 미분값(변화도)에, 기존 미분값(변화도)를 더해줌
* 따라서, 해당 연산에 대한 미분값(변화도)가 필요한 경우, optimizer.zero_grad()를 통해 기존 미분값(변화도)을 0으로 초기화 해줘야 함

In [6]:
import torch

w = torch.tensor(4.0, requires_grad=True)
z = 2 * w
z.backward()
print(w.grad)  # Output: tensor(2.)

z = 2 * w
z.backward()
print(w.grad)  # Output: tensor(4.)

z = 2 * w
z.backward() 
print(w.grad)  # Output: tensor(2.)

tensor(2.)
tensor(4.)
tensor(6.)


### SGD 경사 하강법 Optimizer 적용

In [14]:
import torch.nn.functional as F

x = torch.ones(4)
y = torch.zeros(3)

W = torch.rand(4, 3, requires_grad=True)
b = torch.rand(3, requires_grad=True)

In [15]:
learning_rate = 0.01
optimizer = torch.optim.SGD([W, b], lr=learning_rate)

In [16]:
nb_epochs = 300 # 원하는 만큼 경사 하강법 반복
for epoch in range(nb_epochs + 1):

  z = torch.matmul(x, W) + b  # 예측값 계산
  loss = F.mse_loss(z, y)  # 실제값과의 오차 계산

  optimizer.zero_grad()  # 기울기 초기화
  loss.backward()  # 기울기 계산
  optimizer.step()  # 매개변수 갱신
  

  # 100번마다 로그 출력
  if epoch % 100 == 0:
    print(epoch, nb_epochs, W, b, loss)


0 300 tensor([[0.7349, 0.5981, 0.3444],
        [0.3766, 0.3881, 0.2666],
        [0.7156, 0.8437, 0.2167],
        [0.7311, 0.4108, 0.5383]], requires_grad=True) tensor([0.2145, 0.6679, 0.0928], requires_grad=True) tensor(6.5196, grad_fn=<MseLossBackward0>)
100 300 tensor([[ 0.1990,  0.0359,  0.0625],
        [-0.1593, -0.1740, -0.0153],
        [ 0.1798,  0.2816, -0.0652],
        [ 0.1953, -0.1513,  0.2564]], requires_grad=True) tensor([-0.3213,  0.1058, -0.1891], requires_grad=True) tensor(0.0074, grad_fn=<MseLossBackward0>)
200 300 tensor([[ 0.1810,  0.0170,  0.0530],
        [-0.1773, -0.1930, -0.0248],
        [ 0.1617,  0.2627, -0.0747],
        [ 0.1772, -0.1703,  0.2469]], requires_grad=True) tensor([-0.3394,  0.0868, -0.1986], requires_grad=True) tensor(8.4124e-06, grad_fn=<MseLossBackward0>)
300 300 tensor([[ 0.1804,  0.0164,  0.0526],
        [-0.1779, -0.1936, -0.0251],
        [ 0.1611,  0.2620, -0.0750],
        [ 0.1766, -0.1709,  0.2466]], requires_grad=True) tensor([

## SGD 경사 하강법 Optimizer 적용 (PyTorch 신경망 모델 클래스 기반)

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

class LinearRegressionModel(nn.Module):

    def __init__(self, input_dim, output_dim):
        super().__init__()
        self.linear = nn.Linear(input_dim, output_dim)

    def forward(self, x):
        return self.linear(x)

model = LinearRegressionModel(4, 3)