## 경사하강법

- 학습을 위한 예제
- H(x) = x
- W = 1, b = 0일 때 가장 좋은 값이 된다. 
- 모델을 학습시켰을 때 좋은지를 판단하는 법을 학습

In [17]:
import torch

x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])

## Cost Function : Intuition

- W = 1일 때 cost = 0
- 1에서 멀어질수록 cost는 높아진다. 
- 선형회귀에서 사용하는 Cost Function은 MSE(Mean Squared Error)를 이용한다. 
- 오차제곱의 평균을 cost로 판단한다. 
- 그렇다면 어떻게 cost를 최소화시킬 수 있을까?

## Gradient Descent : Intuition

- **오차제곱**의 평균이라고 했다. 그렇다면 그래프는 2차함수의 형태를 가지게 된다. 
- 기울기를 이용하면 어떻게 될까?
- 기울기의 절대값이 클 수록 cost가 높은 상태이므로, W를 크게 변화시킨다. 

In [18]:
# 경사하강법 구현해보기
    
W = torch.zeros(1)

lr = 0.1

nb_epochs = 100

for epoch in range(nb_epochs+1):
    hypothesis = x_train * W
    cost = torch.mean((hypothesis - y_train) ** 2)
    gradient = torch.mean((hypothesis - y_train) * x_train)
    print('Epoch {:4d}/{} W : {:3f}, Cost: {:6f}'.format(epoch, nb_epochs, W.item(), cost.item()))
    
    W -= lr * gradient

print(W)

Epoch    0/100 W : 0.000000, Cost: 4.666667
Epoch    1/100 W : 0.466667, Cost: 1.327407
Epoch    2/100 W : 0.715556, Cost: 0.377574
Epoch    3/100 W : 0.848296, Cost: 0.107399
Epoch    4/100 W : 0.919091, Cost: 0.030549
Epoch    5/100 W : 0.956849, Cost: 0.008689
Epoch    6/100 W : 0.976986, Cost: 0.002472
Epoch    7/100 W : 0.987726, Cost: 0.000703
Epoch    8/100 W : 0.993454, Cost: 0.000200
Epoch    9/100 W : 0.996509, Cost: 0.000057
Epoch   10/100 W : 0.998138, Cost: 0.000016
Epoch   11/100 W : 0.999007, Cost: 0.000005
Epoch   12/100 W : 0.999470, Cost: 0.000001
Epoch   13/100 W : 0.999718, Cost: 0.000000
Epoch   14/100 W : 0.999849, Cost: 0.000000
Epoch   15/100 W : 0.999920, Cost: 0.000000
Epoch   16/100 W : 0.999957, Cost: 0.000000
Epoch   17/100 W : 0.999977, Cost: 0.000000
Epoch   18/100 W : 0.999988, Cost: 0.000000
Epoch   19/100 W : 0.999994, Cost: 0.000000
Epoch   20/100 W : 0.999997, Cost: 0.000000
Epoch   21/100 W : 0.999998, Cost: 0.000000
Epoch   22/100 W : 0.999999, Cos

### Gradient Descent by torch.optim

- optimizer를 이용해 모델 학습 처리

In [21]:
W = torch.zeros(1, requires_grad=True)

optimizer = torch.optim.SGD([W], lr=0.15)

nb_epochs = 10

for epoch in range(nb_epochs+1):
    hypothesis = x_train * W
    cost = torch.mean((hypothesis - y_train) ** 2)
            
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()
    print('Epoch {:4d}/{} W : {:3f}, Cost: {:6f}'.format(epoch, nb_epochs, W.item(), cost.item()))

Epoch    0/10 W : 1.400000, Cost: 4.666667
Epoch    1/10 W : 0.840000, Cost: 0.746667
Epoch    2/10 W : 1.064000, Cost: 0.119467
Epoch    3/10 W : 0.974400, Cost: 0.019115
Epoch    4/10 W : 1.010240, Cost: 0.003058
Epoch    5/10 W : 0.995904, Cost: 0.000489
Epoch    6/10 W : 1.001638, Cost: 0.000078
Epoch    7/10 W : 0.999345, Cost: 0.000013
Epoch    8/10 W : 1.000262, Cost: 0.000002
Epoch    9/10 W : 0.999895, Cost: 0.000000
Epoch   10/10 W : 1.000042, Cost: 0.000000
