In [13]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

# 랜덤 시드 : torch.manual_seed()
torch.manual_seed(1)

# 변수 선언
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])
print(x_train)
print(x_train.shape)
print(y_train)
print(y_train.shape)

# 가중치와 편향의 초기화

# 가중치 W를 0으로 초기화하고 학습을 통해 값이 변경되는 변수임을 명시함.
W = torch.zeros(1, requires_grad=True) 
# 가중치 W를 출력
print(W) 

b = torch.zeros(1, requires_grad=True)
print(b)

# 가설 세우기 
hypothesis = x_train * W + b
print(hypothesis)

# 비용 함수 선언
cost = torch.mean((hypothesis - y_train) ** 2) 
print(cost)

# 경사 하강법 구현
optimizer = optim.SGD([W, b], lr=0.01)

# 미분을 통해 얻은 기울기를 0으로 초기화
# 기울기를 초기화해야만 새로운 가중치 편향에 대해서 새로운 기울기를 구할 수 있다
optimizer.zero_grad() 

# 가중치 W와 편향 b에 대한 gradient 계산
cost.backward() 

# W와 b에서 리턴되는 변수들의 기울기에 학습률(learining rate) 0.01을 곱하여 빼줌으로서 업데이트
optimizer.step() 

tensor([[1.],
        [2.],
        [3.]])
torch.Size([3, 1])
tensor([[2.],
        [4.],
        [6.]])
torch.Size([3, 1])
tensor([0.], requires_grad=True)
tensor([0.], requires_grad=True)
tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)
tensor(18.6667, grad_fn=<MeanBackward0>)


In [14]:
# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])
# 모델 초기화
W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)
# optimizer 설정
optimizer = optim.SGD([W, b], lr=0.01)

nb_epochs = 100 # 원하는만큼 경사 하강법을 반복
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    hypothesis = x_train * W + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 100번마다 로그 출력
    if epoch % 10 == 0:
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, W.item(), b.item(), cost.item()
        ))

Epoch    0/100 W: 0.187, b: 0.080 Cost: 18.666666
Epoch   10/100 W: 1.224, b: 0.516 Cost: 1.844294
Epoch   20/100 W: 1.550, b: 0.638 Cost: 0.239337
Epoch   30/100 W: 1.655, b: 0.665 Cost: 0.083519
Epoch   40/100 W: 1.693, b: 0.662 Cost: 0.065829
Epoch   50/100 W: 1.709, b: 0.650 Cost: 0.061424
Epoch   60/100 W: 1.719, b: 0.636 Cost: 0.058413
Epoch   70/100 W: 1.726, b: 0.621 Cost: 0.055656
Epoch   80/100 W: 1.733, b: 0.607 Cost: 0.053039
Epoch   90/100 W: 1.739, b: 0.592 Cost: 0.050546
Epoch  100/100 W: 1.746, b: 0.578 Cost: 0.048171


In [17]:
x = torch.tensor([[1]])
print(x)
print(x.item())

x = torch.tensor(2.5)
print(x)
print(x.item())


tensor([[1]])
1
tensor(2.5000)
2.5


In [18]:
# optimizer.zero_grad()가 필요한 이유
# 파이토치는 미분을 통해 얻은 기울기를 이전에 계산된 기울기 값에 누적시키는 특징이 있다.

import torch
w = torch.tensor(2.0, requires_grad=True)

nb_epochs = 20
for epoch in range(nb_epochs + 1):

  z = 2*w

  z.backward() # 역전파, backward 함수를 쓰면 자동으로 미분이 계산된다
  print('수식을 w로 미분한 값 : {}'.format(w.grad))


수식을 w로 미분한 값 : 2.0
수식을 w로 미분한 값 : 4.0
수식을 w로 미분한 값 : 6.0
수식을 w로 미분한 값 : 8.0
수식을 w로 미분한 값 : 10.0
수식을 w로 미분한 값 : 12.0
수식을 w로 미분한 값 : 14.0
수식을 w로 미분한 값 : 16.0
수식을 w로 미분한 값 : 18.0
수식을 w로 미분한 값 : 20.0
수식을 w로 미분한 값 : 22.0
수식을 w로 미분한 값 : 24.0
수식을 w로 미분한 값 : 26.0
수식을 w로 미분한 값 : 28.0
수식을 w로 미분한 값 : 30.0
수식을 w로 미분한 값 : 32.0
수식을 w로 미분한 값 : 34.0
수식을 w로 미분한 값 : 36.0
수식을 w로 미분한 값 : 38.0
수식을 w로 미분한 값 : 40.0
수식을 w로 미분한 값 : 42.0
