# 3.3. 파이토치에서의 경사하강법

In [1]:
import torch

In [16]:
# 텐서를 생성하는 가장 간단한 방식
# 이렇게 생성하면, array처럼 2,3이 원소로 들어가는 게 아니라 2x3차원의 텐서를 생성함
X = torch.Tensor(2,3)
X

tensor([[8.1919e-10, 2.0447e+23, 1.3664e+22],
        [4.1914e+21, 5.1250e-11, 4.2330e+21]])

In [12]:
# 값을 넣을거면 Tensor가 아닌 tensor 클래스를 호출
X = torch.tensor([[1, 2, 3], [4, 5, 6]])
X

tensor([[1, 2, 3],
        [4, 5, 6]])

- 인자로 data, dtype, device, requrires_grad(기울기를 저장할지)등을 받음

In [13]:
x_tensor = torch.tensor(data = [2.0, 3.0], requires_grad = True)

In [14]:
x_tensor

tensor([2., 3.], requires_grad=True)

- 기울기를 계산

In [19]:
x = torch.tensor(data = [2., 3.], requires_grad = True)
y = x**2
z = 2*y + 3
# 연산 대상 식은 z = 2x^2 + 3

target = torch.tensor([3., 4.])
loss = torch.sum(torch.abs(z - target))
loss.backward() # 연산 그래프를 따라가며 잎노드인 x에 대한 기울기를 계산

print(x.grad) #잎 노드
print(y.grad) #잎 노드 X
print(z.grad) #잎 노드 X

tensor([ 8., 12.])
None
None


  print(y.grad) #잎 노드 X
  print(z.grad) #잎 노드 X


- 선형회귀분석 모델을 만들어 기울기를 계산하고 w, b를 업데이트까지 하는 코드를 보자

In [21]:
import torch
from torch import nn # 신경망 모델들이 포함되어있는 클래스
from torch import optim # 옵티마이저 : 경사하강 알고리즘들이 들어있음
from torch.nn import init # 초기화 방식을 결정할 수 있는 함수들이 포함된 클래스

In [35]:
num_data = 1000 # 데이터 수
num_epoch = 500 # 경사하강 횟수

x = init.uniform_(torch.Tensor(num_data, 1), -10, 10)
    # -10 ~ 10의 유니폼 분포로 초기화 전략 사용
    # 랜덤하게 초기화하기 때문에 Tensor를 사용하며 입력값으로, input_shape를 넣어줌
noise = init.normal_(torch.FloatTensor(num_data, 1), std = 1) # 현실성 반영을 위해 이번 테스트에서는 정규분포의 가우시안 노이즈 추가
y = 2*x + 3
y_noise = y + noise

In [36]:
model = nn.Linear(1, 1)
loss_func = nn.L1Loss()

- Linear 클래스는 input feature의 수와 결과로 나오는 output feature, bias 사용 여부를 초기화 인자로 받음
    - 지금은 1개의 특성을 가진 1000개의 데이터를 입력으로 넣었기에 input_shape = (1000, 1), input_feature = 1
    - output으로도 1개의 특성을 가진 1000개의 데이터를 받을 예정. 따라서 output_shape = (1000, 1), output_feature = 1
- L1손실 : loss(x, y) = 1/n * SIGMA(|x_i - y_i|)

In [37]:
list(model.parameters())

[Parameter containing:
 tensor([[0.8562]], requires_grad=True),
 Parameter containing:
 tensor([-0.1511], requires_grad=True)]

- 생성한 모델에서 학습이 필요한 파라메터들을 담고 있는 메서드

In [38]:
optimizer = optim.SGD(model.parameters(), lr = 0.01)

- 경사하강법 사용을 위해 SGD 옵티마이저 이용
- 옵티마이저 : 최적화 함수라고도 불리며, 경사하강법을 적용하여 오차를 줄이고 최적의 w, b를 근사할 수 있도록 하는 역할
- 옵티마이저의 인자로 모델에서 학습 대상이될 파라메터들을 입력하고 learning_rate 입력
    - 따라서 model.parameters() 메서드를 이용
    - 이렇게되면, w와 b가 학습됨

In [39]:
# 학습

label = y_noise

for i in range(num_epoch):
    optimizer.zero_grad() # 각 반복에서 지난 에포크에서 계산한 기울기를 0으로 초기화하는 과정
    output = model(x) # 선형 모델로부터 나온 결과값
    
    loss = loss_func(output, label) # y_pred와 y_true를 비교하여 loss 생성
    loss.backward() # 역전파를 통해 w와 b를 학습시킴
    optimizer.step() # learning_rate만큼 전진하여 model.parametes()에서 리턴되는 변수들의 기울기에 학습률을 적용
    
    if i % 20 == 0:
        print(loss.data)
        
param_list = list(model.parameters())
print(param_list[0].item(), param_list[1].item())

tensor(6.0180)
tensor(3.2893)
tensor(2.9079)
tensor(2.7090)
tensor(2.5158)
tensor(2.3248)
tensor(2.1357)
tensor(1.9494)
tensor(1.7740)
tensor(1.6092)
tensor(1.4575)
tensor(1.3272)
tensor(1.2122)
tensor(1.1112)
tensor(1.0290)
tensor(0.9683)
tensor(0.9209)
tensor(0.8862)
tensor(0.8603)
tensor(0.8406)
tensor(0.8254)
tensor(0.8140)
tensor(0.8050)
tensor(0.7986)
tensor(0.7939)
1.9994646310806274 2.8638575077056885
