## 1. 선형회귀식

$y = Wx+b$
<br>
가설의 $H$를 따서 $y$ 대신 다음과 같이 표현하기도 한다.

$H(x) = Wx+b$
<br>
$W$ : 가중치 (Weight)
$b$ : 편향 (bias)

## 2. 비용 함수 (Cost function)
 
비용 함수 = 손실 함수 = 오차 함수 = 목적 함수

$MSE = \frac{1}{n}\sum_{i=1}^{n} [y^i-H(x^i)]^2$ 
<br>
  
$cost(W, b) = \frac{1}{n}\sum_{i=1}^{n} [y^i-H(x^i)]^2$
<br>
  
$Cost(W, b)를 최소가 되게 만드는 W, b를 구하자!$

## 3. 옵티마이저 - 경사 하강법 (Gradient Descent)

$ W := W - \alpha \frac {\partial} {\partial W} cost(W) $

In [8]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [9]:
torch.manual_seed(1)

<torch._C.Generator at 0x216ea455810>

In [10]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2],[4], [6]])

In [11]:
print(x_train)
print(x_train.shape)

tensor([[1.],
        [2.],
        [3.]])
torch.Size([3, 1])


In [12]:
print(y_train)
print(y_train.shape)

tensor([[2.],
        [4.],
        [6.]])
torch.Size([3, 1])


In [13]:
# 가중치 W를 0으로 초기화 후 학습을 통해 값이 변경되는 변수임을 명시
W = torch.zeros(1, requires_grad=True)
print(W)

tensor([0.], requires_grad=True)


In [14]:
# 가중치 b를 0으로 초기화 후 학습을 통해 값이 변경되는 변수임을 명시
b = torch.zeros(1, requires_grad=True)
print(b)

tensor([0.], requires_grad=True)


In [18]:
# 가설 선언
hypothesis = W*x_train+b
print(hypothesis)

tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)


In [19]:
# 비용 함수 선언
cost = torch.mean((hypothesis-y_train)**2)
print(cost)

tensor(18.6667, grad_fn=<MeanBackward0>)


In [20]:
# 경사 하강법 구현
optimizer = optim.SGD([W, b], lr=0.01)

In [22]:
# gradient를 0으로 초기화
optimizer.zero_grad()

In [23]:
# 비용 함수 미분하여 gradient 계산
cost.backward()

In [25]:
# W, b를 업데이트
optimizer.step()

## 통합 코드

In [35]:
# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

# W, b 초기화
W = torch.ones(1, requires_grad=True)
b = torch.ones(1, requires_grad=True)


optimizer = optim.SGD([W, b], lr=0.01)
n_epoch = 10000

check = {}

for epoch in range(n_epoch):
    
    # 가설
    h = W*x_train+b 
    
    # cost
    cost = torch.mean((h-y_train)**2)
    
    # 가중치, b 업데이트
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()
    
    check[epoch] = {'cost':cost, 'W':W, 'b':b}

In [36]:
check[0]

{'cost': tensor(1.6667, grad_fn=<MeanBackward0>),
 'W': tensor([2.0000], requires_grad=True),
 'b': tensor([8.7021e-06], requires_grad=True)}

In [40]:
check[9999]

{'cost': tensor(1.2278e-11, grad_fn=<MeanBackward0>),
 'W': tensor([2.0000], requires_grad=True),
 'b': tensor([8.7021e-06], requires_grad=True)}

## optimizer.zero_grad() 가 필요한 이유

In [42]:
w = torch.tensor(2.0, requires_grad=True)

nb_epochs = 20
for epoch in range(nb_epochs):

    z = 2*w

    z.backward()
    print(w.grad)

tensor(2.)
tensor(4.)
tensor(6.)
tensor(8.)
tensor(10.)
tensor(12.)
tensor(14.)
tensor(16.)
tensor(18.)
tensor(20.)
tensor(22.)
tensor(24.)
tensor(26.)
tensor(28.)
tensor(30.)
tensor(32.)
tensor(34.)
tensor(36.)
tensor(38.)
tensor(40.)
