In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
torch.manual_seed(1)

<torch._C.Generator at 0x7fa7e0047590>

# 변수 선언

In [2]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])
print('x_train', x_train)
print(x_train.shape)
print('y_train', y_train)
print(y_train.shape)

x_train tensor([[1.],
        [2.],
        [3.]])
torch.Size([3, 1])
y_train tensor([[2.],
        [4.],
        [6.]])
torch.Size([3, 1])


# 가중치 및 편향 초기화

In [3]:
# 가중치 W을 0으로 초기화, 학습을 통해 값이 변경되는 변수임을 명시
W = torch.zeros(1, requires_grad=True)
print(W)

tensor([0.], requires_grad=True)


In [4]:
# 편향 b도 동일하게
b = torch.zeros(1, requires_grad=True)
print(b)

tensor([0.], requires_grad=True)


# 가설 세우기

In [5]:
hypothesis = x_train * W + b
print('hypothesis', hypothesis)

hypothesis tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)


# 비용 함수 선언하기

In [6]:
cost = torch.mean((hypothesis - y_train) ** 2)
print('cost', cost)

cost tensor(18.6667, grad_fn=<MeanBackward0>)


# 경사 하강법 구현

In [7]:
optimizer = optim.SGD([W, b], lr=0.01)

In [9]:
# 기울기 0으로 초기화 -> 새로운 가중치 편향에 대해 새로운 기울기를 구하기 위함
optimizer.zero_grad()
# 비용 함수 미분하여 기울기 계산
cost.backward()
# W, b 업데이트
optimizer.step()

# 훈련

In [11]:
nb_epochs = 1999 # 원하는만큼 경사 하강법을 반복
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    hypothesis = x_train * W + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 100번마다 로그 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, W.item(), b.item(), cost.item()
        ))

Epoch    0/1999 W: 1.997, b: 0.006 Cost: 0.000005
Epoch  100/1999 W: 1.998, b: 0.005 Cost: 0.000003
Epoch  200/1999 W: 1.998, b: 0.004 Cost: 0.000002
Epoch  300/1999 W: 1.999, b: 0.003 Cost: 0.000001
Epoch  400/1999 W: 1.999, b: 0.002 Cost: 0.000001
Epoch  500/1999 W: 1.999, b: 0.002 Cost: 0.000000
Epoch  600/1999 W: 1.999, b: 0.001 Cost: 0.000000
Epoch  700/1999 W: 2.000, b: 0.001 Cost: 0.000000
Epoch  800/1999 W: 2.000, b: 0.001 Cost: 0.000000
Epoch  900/1999 W: 2.000, b: 0.001 Cost: 0.000000
Epoch 1000/1999 W: 2.000, b: 0.001 Cost: 0.000000
Epoch 1100/1999 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1200/1999 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1300/1999 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1400/1999 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1500/1999 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1600/1999 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1700/1999 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1800/1999 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1900/1999 W: 2.000, b: 0.000 Cost: 0.000000


# `optimizer.zero_grad()`가 필요한 이유

In [13]:
w = torch.tensor(2.0, requires_grad=True)

np_epochs = 20
for epoch in range(np_epochs + 1):
    z = 2*w
    z.backward()
    print('수식을 w로 미분한 값 : {}'.format(w.grad))

수식을 w로 미분한 값 : 2.0
수식을 w로 미분한 값 : 4.0
수식을 w로 미분한 값 : 6.0
수식을 w로 미분한 값 : 8.0
수식을 w로 미분한 값 : 10.0
수식을 w로 미분한 값 : 12.0
수식을 w로 미분한 값 : 14.0
수식을 w로 미분한 값 : 16.0
수식을 w로 미분한 값 : 18.0
수식을 w로 미분한 값 : 20.0
수식을 w로 미분한 값 : 22.0
수식을 w로 미분한 값 : 24.0
수식을 w로 미분한 값 : 26.0
수식을 w로 미분한 값 : 28.0
수식을 w로 미분한 값 : 30.0
수식을 w로 미분한 값 : 32.0
수식을 w로 미분한 값 : 34.0
수식을 w로 미분한 값 : 36.0
수식을 w로 미분한 값 : 38.0
수식을 w로 미분한 값 : 40.0
수식을 w로 미분한 값 : 42.0


계속해서 미분값인 2가 누적되는 것을 볼 수 있음