In [1]:
import torch

In [None]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])

`x_train`과 `y_train`이 동일하므로 `W = 1`일 때 정확한 모델임. 

**cost function**이 작을수록 좋은 모델이기 때문에, 이를 최소화하는 W를 찾아야함. 

Linear regression에서는 보통 MSE를 사용함.

In [None]:
### Gradient Descent
-cost function을 최소화하려면 기울기가 음수일 때에는 W가 더 커져야하고, 기울기가 양수이면 W가 더 작아져야함.
-기울기가 가파를 수록 cost가 큰 것이므로 W를 크게, 완만할수록 W를 작게 바빠야할 것임.
-여기서의 기울기를 gradient라고 하고, 이 기울기는 cost function을 미분한 값임.

In [2]:
# cost function을 W에 대해 미분한 결과를 통해 gradient를 구함.  
gradient = 2 * torch.mean((W * x_train - y_train)*x_train)
lr = 0.1
W -= lr*gradient

NameError: ignored

In [5]:
# data
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])

# model initialization
W = torch.zeros(1)

# learning rate setting
lr = 0.1

nb_epochs = 10
for epoch in range(nb_epochs + 1):

  # compute H(x)
  hypothesis = x_train * W

  # compute cost gradient
  cost = torch.mean((hypothesis - y_train)**2)
  gradient = torch.sum((W * x_train - y_train) * x_train)

  print('Epoch {:4d} / {} W: {:.3f}, Cost: {:.6f}'.format(
      epoch, nb_epochs, W.item(), cost.item()
  ))

  # compute H(x) with cost gradient
  W -= lr * gradient

Epoch    0 / 15 W: 0.000, Cost: 4.666667
Epoch    1 / 15 W: 1.400, Cost: 0.746666
Epoch    2 / 15 W: 0.840, Cost: 0.119467
Epoch    3 / 15 W: 1.064, Cost: 0.019115
Epoch    4 / 15 W: 0.974, Cost: 0.003058
Epoch    5 / 15 W: 1.010, Cost: 0.000489
Epoch    6 / 15 W: 0.996, Cost: 0.000078
Epoch    7 / 15 W: 1.002, Cost: 0.000013
Epoch    8 / 15 W: 0.999, Cost: 0.000002
Epoch    9 / 15 W: 1.000, Cost: 0.000000
Epoch   10 / 15 W: 1.000, Cost: 0.000000
Epoch   11 / 15 W: 1.000, Cost: 0.000000
Epoch   12 / 15 W: 1.000, Cost: 0.000000
Epoch   13 / 15 W: 1.000, Cost: 0.000000
Epoch   14 / 15 W: 1.000, Cost: 0.000000
Epoch   15 / 15 W: 1.000, Cost: 0.000000


### Gradient Descent with `torch.optim`

`torch.optim`으로도 gradient descent를 할 수 있음.
- 시작할 때 Optimizer를 정의
- `optimizer.zero_grad()`로 gradient를 0으로 초기화
- `cost.backward()`로 cost function을 미분해서 gradient를 계산
- `optimizer.step()`으로 gradient descent

In [9]:
# data
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])

# model initialization
W = torch.zeros(1, requires_grad=True) 

# optimizer setting
optimizer = torch.optim.SGD([W], lr=0.15)

nb_epochs = 10
for epoch in range(nb_epochs + 1):

  # compute H(x)
  hypothesis = x_train * W

  # compute cost gradient
  cost = torch.mean((hypothesis - y_train)**2)

  print('Epoch {:4d} / {} W: {:.3f}, Cost: {:.6f}'.format(
      epoch, nb_epochs, W.item(), cost.item()
  ))

  # compute H(x) with cost gradient
  optimizer.zero_grad()
  cost.backward()
  optimizer.step()

Epoch    0 / 10 W: 0.000, Cost: 4.666667
Epoch    1 / 10 W: 1.400, Cost: 0.746667
Epoch    2 / 10 W: 0.840, Cost: 0.119467
Epoch    3 / 10 W: 1.064, Cost: 0.019115
Epoch    4 / 10 W: 0.974, Cost: 0.003058
Epoch    5 / 10 W: 1.010, Cost: 0.000489
Epoch    6 / 10 W: 0.996, Cost: 0.000078
Epoch    7 / 10 W: 1.002, Cost: 0.000013
Epoch    8 / 10 W: 0.999, Cost: 0.000002
Epoch    9 / 10 W: 1.000, Cost: 0.000000
Epoch   10 / 10 W: 1.000, Cost: 0.000000
