In [1]:
import torch

In [2]:
x_train = torch.FloatTensor([[1],
                             [2],
                             [3]])
y_train = torch.FloatTensor([[2],
                             [4],
                             [6]])

- 선형회귀: 학습 데이터와 가장 잘 맞는 하나의 직선을 찾는 일
- 선형회귀의 가설(직선의 방정식)

$ y = Wx + b $  
$ H(x) = Wx + b $

- $W$: 가중치(weight)
- $b$: 편향(bias)

### 3. 비용 함수(Cost function)에 대한 이해

- 비용 함수(cost function) = 손실 함수(loss function) = 오차 함수(error function) = 목적 함수(objective function)

- 평균제곱오차(Mean Sqared Error)

$ cost(W, b) = \frac{1}{n} \sum\limits_{i=1}^n [y^i - H(x^i)]^2 $

- 평균제곱오차(즉, 비용함수)의 값을 "최소값"으로 만드는 $W$와 $b$를 찾아내는 것이 학습의 목적!

### 4. 옵티마이저 - 경사 하강법(Gradient Descent)

- 옵티마이저(optimizer) 알고리즘 = 최적화 알고리즘
- 옵티마이저 알고리즘을 통해 적절한 $W$와 $b$를 찾아내는 과정을 머신러닝에서 학습(training)이라고 부른다.
- 가장 기본적인 옵티마이저 알고리즘: Gradient Descent

#### Gradient Descent
- cost가 최소화되는 지점은 접선의 기울기가 0이 되는 지점, 즉, 미분값이 0이 되는 지점
- 경사하강법의 아이디어: 비용함수를 미분하여 현재 W에서의 접선의 기울기를 구하고, 접선의 기울기가 낮은 방향으로 W의 값을 변경하는 작업을 반복하는 것!

- 기울기 = $ \frac{d cost(W)}{d W} $

- 새로운 기울기 = $ W - \alpha \cdot \frac{d cost(W)}{d W} $

**기울기가 음수일 때**

$ W - \alpha \cdot$(음수기울기) $= W + \alpha \cdot$(양수기울기)  
(즉, W의 값이 증가하게 된다)

**기울기가 양수일 때**

$ W - \alpha \cdot$(양수기울기) $  
(즉, W의 값이 감소하게 된다)

- $\alpha$(learning rate): W의 값을 얼마나 크게 변경할지 그 폭을 결정하는 값.  
지나치게 크면 발산, 작으면 수렴하지 못하는 문제가 발생할 수 있다.

### 5. PyTorch로 선형회귀 구현하기

In [3]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [4]:
torch.manual_seed(1)

<torch._C.Generator at 0x2c2d6944bd0>

In [5]:
# 변수 선언
x_train = torch.FloatTensor([[1],
                             [2],
                             [3]])
y_train = torch.FloatTensor([[2],
                             [4],
                             [6]])

In [7]:
print(x_train)
print(x_train.shape)

tensor([[1.],
        [2.],
        [3.]])
torch.Size([3, 1])


In [14]:
# 가중치와 편향의 초기화
# 가중치를 0으로 초기화하고, 학습을 통해 값이 변경되는 변수임을 명시함.
W = torch.zeros(1, requires_grad=True) # requires_grad 파라미터는 '학습을 통해 값이 계속 변경된다'는 것을 의미함!
print(W)

tensor([0.], requires_grad=True)


In [9]:
b = torch.zeros(1, requires_grad=True)
print(b)

tensor([0.], requires_grad=True)


In [10]:
# 가설 세우기
hypothesis = x_train * W + b # (3, 1)
print(hypothesis)

tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)


In [11]:
# 비용 함수 선언하기
cost = torch.mean((hypothesis - y_train) ** 2)
print(cost)

tensor(18.6667, grad_fn=<MeanBackward0>)


In [12]:
# 경사하강법 구현하기
optimizer = optim.SGD([W, b], lr=0.01)

optimizer.zero_grad() # gradient를 0으로 초기화
cost.backward() # 비용함수를 미분하여 gradient 계산
optimizer.step() # W와 b를 업데이트

### 전체 코드

In [16]:
# 데이터
x_train = torch.FloatTensor([[1],
                             [2],
                             [3]])
y_train = torch.FloatTensor([[2],
                             [4],
                             [6]])

# 모델 초기화
W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

# optimizer 설정
optimizer = optim.SGD([W, b], lr=0.01)

nb_epochs = 2000 # 원하는 만큼 경사하강법을 반복
for epoch in range(nb_epochs):
    
    # H(x) 계산
    hypothesis = x_train * W + b
    
    # cost 계산
    cost = torch.mean((hypothesis - y_train)**2)
    
    # cost로 H(x) 개선
    optimizer.zero_grad() # gradient 초기화
    cost.backward() # gradient(미분값) 계산
    optimizer.step() # [W, b] update
    
    # 100번마다 로그 출력
    if epoch % 100 == 0:
        print(f"Epoch {epoch:4d}/{nb_epochs} W: {W.item()}, b: {b.item()}, Cost: {cost.item()}")

Epoch    0/2000 W: 0.18666668236255646, b: 0.07999999821186066, Cost: 18.66666603088379
Epoch  100/2000 W: 1.7456912994384766, b: 0.5780722498893738, Cost: 0.04817060008645058
Epoch  200/2000 W: 1.80009925365448, b: 0.4544214904308319, Cost: 0.029766537249088287
Epoch  300/2000 W: 1.8428597450256348, b: 0.35721680521965027, Cost: 0.018393920734524727
Epoch  400/2000 W: 1.876473307609558, b: 0.28080499172210693, Cost: 0.011366334743797779
Epoch  500/2000 W: 1.9028971195220947, b: 0.22073803842067719, Cost: 0.007023668382316828
Epoch  600/2000 W: 1.9236682653427124, b: 0.1735200434923172, Cost: 0.00434019835665822
Epoch  700/2000 W: 1.9399964809417725, b: 0.13640251755714417, Cost: 0.0026819754857569933
Epoch  800/2000 W: 1.952831506729126, b: 0.10722480714321136, Cost: 0.0016572937602177262
Epoch  900/2000 W: 1.9629212617874146, b: 0.0842885971069336, Cost: 0.0010241125710308552
Epoch 1000/2000 W: 1.9708527326583862, b: 0.06625857204198837, Cost: 0.0006328357267193496
Epoch 1100/2000 W:

- epoch: 전체 훈련 데이터가 학습에 한 번 사용된 주기(이번의 경우 2,000번 수행)