# Gradient Descent

In [45]:
import torch
import torch.nn.functional as F

In [41]:
# target값 -> 실제값
target = torch.FloatTensor([[0.1, 0.2, 0.3],
                            [0.4, 0.5, 0.6],
                            [0.7, 0.8, 0.9]])
target 

tensor([[0.1000, 0.2000, 0.3000],
        [0.4000, 0.5000, 0.6000],
        [0.7000, 0.8000, 0.9000]])

In [52]:
# x -> (모델 파라미터로 예측한) 예측값
x = torch.rand_like(target)  # 임의의 값을 세팅

# This means the final scalar will be differentiate by x.
x.requires_grad = True
# You can get gradient of x, after differentiation.

In [53]:
x  # 3x3 matrix

tensor([[0.3633, 0.4203, 0.4412],
        [0.6838, 0.3091, 0.0767],
        [0.0068, 0.9675, 0.9947]], requires_grad=True)

In [54]:
# 타깃값과 예측값의 오차를 구해보면,
loss = F.mse_loss(x, target)

loss

tensor(0.1162, grad_fn=<MseLossBackward>)

In [55]:
threshold = 1e-5     # 10의 -5승보다 loss가 작을 때는 학습(미분)을 멈출 예정.
learning_rate = 1.
iter_cnt = 0

while loss > threshold:  # loss가 threshold보다 클 동안 미분 반복.
    iter_cnt += 1
    
    # loss는 위에서 구해놓았다.
    loss.backward()      # loss 미분 -> 결과: x.grad, 3x3의 기울기가 생긴다.

    x = x - learning_rate * x.grad   # x 업데이트(미분값에 학습률을 곱해서 뻬줌)
        
    # detach : 미분 함수 타입에서 숫자 타입으로 변환해준다. 
    # autograd가 연산할 때마다 computational graph를 그리는데 이것을 끊어주는 것. 
    # 그래야 넘파이와의 산술연산이 가능해진다.
    x.detach_()
    x.requires_grad_(True)
    
    # loss 계산 
    loss = F.mse_loss(x, target)
    
    print('%d-th Loss: %.4e' % (iter_cnt, loss))
    print(x, '\n')

1-th Loss: 7.0313e-02
tensor([[0.3048, 0.3713, 0.4098],
        [0.6208, 0.3515, 0.1930],
        [0.1609, 0.9303, 0.9736]], requires_grad=True) 

2-th Loss: 4.2535e-02
tensor([[0.2593, 0.3332, 0.3854],
        [0.5717, 0.3845, 0.2834],
        [0.2807, 0.9013, 0.9573]], requires_grad=True) 

3-th Loss: 2.5731e-02
tensor([[0.2239, 0.3036, 0.3664],
        [0.5336, 0.4102, 0.3538],
        [0.3739, 0.8788, 0.9446]], requires_grad=True) 

4-th Loss: 1.5566e-02
tensor([[0.1963, 0.2806, 0.3517],
        [0.5039, 0.4301, 0.4085],
        [0.4463, 0.8613, 0.9347]], requires_grad=True) 

5-th Loss: 9.4163e-03
tensor([[0.1749, 0.2627, 0.3402],
        [0.4808, 0.4457, 0.4511],
        [0.5027, 0.8477, 0.9270]], requires_grad=True) 

6-th Loss: 5.6963e-03
tensor([[0.1583, 0.2488, 0.3313],
        [0.4628, 0.4577, 0.4842],
        [0.5466, 0.8371, 0.9210]], requires_grad=True) 

7-th Loss: 3.4459e-03
tensor([[0.1453, 0.2379, 0.3243],
        [0.4489, 0.4671, 0.5099],
        [0.5807, 0.8288, 0.9

# (high level) GD 실제 적용 예시

In [39]:
# Linear 모델 정의
import torch.nn as nn
model = nn.Linear(5, 3)  # (input_dim, output_dim)

# optim.SGD()을 활용해서 모델 파라미터들의 미분을 수행하고, 파라미터 업데이트를 수행한다.
# -> Gradient Descent 수행
import torch.optim as optim
optimizer = optim.SGD(model.parameters(),  lr=0.001)