In [2]:
!pip install torch torchvision

Collecting torch
  Downloading torch-2.0.0-cp310-none-macosx_10_9_x86_64.whl (139.8 MB)
[K     |████████████████████████████████| 139.8 MB 14.3 MB/s eta 0:00:01    |██████████████                  | 60.8 MB 20.5 MB/s eta 0:00:04
[?25hCollecting torchvision
  Downloading torchvision-0.15.1-cp310-cp310-macosx_10_9_x86_64.whl (1.5 MB)
[K     |████████████████████████████████| 1.5 MB 23.9 MB/s eta 0:00:01
[?25hCollecting filelock
  Downloading filelock-3.12.0-py3-none-any.whl (10 kB)
Collecting sympy
  Downloading sympy-1.11.1-py3-none-any.whl (6.5 MB)
[K     |████████████████████████████████| 6.5 MB 32.9 MB/s eta 0:00:01
Collecting networkx
  Downloading networkx-3.1-py3-none-any.whl (2.1 MB)
[K     |████████████████████████████████| 2.1 MB 14.7 MB/s eta 0:00:01
Collecting mpmath>=0.19
  Downloading mpmath-1.3.0-py3-none-any.whl (536 kB)
[K     |████████████████████████████████| 536 kB 49.5 MB/s eta 0:00:01
[?25hInstalling collected packages: mpmath, sympy, networ

In [3]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

서비스를 배포한다고 가정했을때, 어떤 컴퓨터에서도 동일한 결과를 얻어야한다.

In [4]:
# 모델링을 연습하는 과정에서는 randomseed 를 고정해주는 것이 좋다.

torch.manual_seed(1)

<torch._C.Generator at 0x7fa8c8937db0>

# 데이터 선언

In [11]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

print(x_train.size(), y_train.size())

torch.Size([3, 1]) torch.Size([3, 1])


# weight 와 bias 초기화

- tensorflow 의 경우는 변수함수를 이용하여 변수임을 지정 \
`requires_grad` 를 이용하여 지정

In [21]:
W = torch.zeros(1, requires_grad=True)  # 변경되는 변수임을 선언
b = torch.zeros(1, requires_grad=True)
print(W.size(), b.size())

torch.Size([1]) torch.Size([1])


# 선형회귀 모델

- 가설세우기
- 비용함수
- 최적화(경사하강법)

In [22]:
## 가설세우기 ##
hypothesis = x_train * W + b
print(hypothesis)

tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)


In [23]:
## cost function ##
cost = torch.mean(hypothesis - y_train)**2 # mse : mean squre error
print(cost)

tensor(16., grad_fn=<PowBackward0>)


In [24]:
## 경사하강법 구현 ##

optimizer = optim.SGD([W, b], lr=0.01) # lr = learning rate

# gradient를 0으로 초기화 하고 시작

optimizer.zero_grad()

# 비용함수를 미분하여 최적화
cost.backward()

# W, b 를 업데이트
optimizer.step()

In [25]:
print(W, b) # 한번의 과정을 거쳤을 경우

tensor([0.1600], requires_grad=True) tensor([0.0800], requires_grad=True)


In [29]:
## 경사하강법을 반복하여 최적화
optimizer = optim.SGD([W, b], lr=0.1) # lr = learning rate


epochs = 100

for num in range(epochs):

    hypothesis = x_train * W + b

    cost = torch.mean((hypothesis - y_train)**2)

    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    print('Epoch {:4d} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
       num, W.item(), b.item(), cost.item()
    ))

print(W, b)

Epoch    0 W: 1.803, b: 0.448 Cost: 0.030275
Epoch    1 W: 1.808, b: 0.438 Cost: 0.028837
Epoch    2 W: 1.812, b: 0.427 Cost: 0.027467
Epoch    3 W: 1.817, b: 0.417 Cost: 0.026162
Epoch    4 W: 1.821, b: 0.407 Cost: 0.024919
Epoch    5 W: 1.825, b: 0.397 Cost: 0.023736
Epoch    6 W: 1.830, b: 0.387 Cost: 0.022608
Epoch    7 W: 1.834, b: 0.378 Cost: 0.021534
Epoch    8 W: 1.838, b: 0.369 Cost: 0.020511
Epoch    9 W: 1.842, b: 0.360 Cost: 0.019537
Epoch   10 W: 1.845, b: 0.352 Cost: 0.018609
Epoch   11 W: 1.849, b: 0.343 Cost: 0.017725
Epoch   12 W: 1.853, b: 0.335 Cost: 0.016883
Epoch   13 W: 1.856, b: 0.327 Cost: 0.016081
Epoch   14 W: 1.860, b: 0.319 Cost: 0.015317
Epoch   15 W: 1.863, b: 0.311 Cost: 0.014590
Epoch   16 W: 1.866, b: 0.304 Cost: 0.013897
Epoch   17 W: 1.870, b: 0.296 Cost: 0.013237
Epoch   18 W: 1.873, b: 0.289 Cost: 0.012608
Epoch   19 W: 1.876, b: 0.282 Cost: 0.012009
Epoch   20 W: 1.879, b: 0.276 Cost: 0.011439
Epoch   21 W: 1.882, b: 0.269 Cost: 0.010895
Epoch   22

### `optimizer.zero_grad()` 가 필요한 이유

파이토치는 미분을 통해 얻은 기울기는 이전에 계산된 기울기 값에 누적시키는 특징이 있다. \
따라서 값을 계속해서 합산하므로 \
미분값을 0으로 초기화 해주는 과정이 필요하다