# Deeper Look at Gradient Descent

- Hypothesis function 복습
- Temporial Data Definition
- Cost Function 이해
- Gradient Descent 이론
- Gradient Descent 구현
- Gradient Descent 구현(nn.optim)

$H(x) = Wx + b$

In [2]:
import torch

x_train = torch.FloatTensor( [ [1], [2], [3]])
y_train = torch.FloatTensor( [ [2], [4], [6]])

w = torch.zeros(1, requires_grad = True)
b = torch.zeros(1, requires_grad = True)
hypothesis = x_train * w + b

## Simpler Hypothesis Function

$ H(x) = Wx$

In [4]:
x_train = torch.FloatTensor( [ [1], [2], [3]])
y_train = torch.FloatTensor( [ [1], [2], [3]])

w = torch.zeros(1, requires_grad = True)
#b = torch.zeros(1, requires_grad = True)
hypothesis = x_train * w

## What is the best model?

- H(x) = x 가 정확한 model
- W = 1이 가장 좋은 숫자

- Model의 좋고 나쁨을 평가하는 방법은?

cost function : MSE 사용

## Gradient Descent  

- 곡선을 내려가자         
- 기울기가 클수록 더 멀리!         
- Gradient를 계산      
            

$ \frac{\delta cost} {\delta W} = \nabla W$

$ cost(W) = \frac{1}{m} \sum_{i = 1}^{m}(Wx^{(i)} - y^{(i)})^{2}$         

$ \nabla W = \frac{\delta cost}{\delta W} = \frac{2}{m}\sum_{i = 1}^{m}(Wx^{(i)} - y^{(i)})x^{(i)} $       
                     
$ W := W - \alpha\nabla W $

In [9]:
gradient = 2 * torch.mean( (w* x_train - y_train) * x_train)
lr = 0.1
w -=  lr * gradient

## Full Code

In [15]:
# Data
x_train = torch.FloatTensor( [ [1], [2], [3] ])
y_train = torch.FloatTensor( [ [1], [2], [3] ])

# Model Initial
w = torch.zeros(1)

# Learning Rate 설정
lr = 0.1

nb_epochs = 10

for epoch in range(nb_epochs + 1) :
    
    # H(x) 계산
    hypothesis = x_train * w
    
    # cost gradient 계산
    cost = torch.mean( (hypothesis - y_train) **2)
    gradient = torch.sum( (w*x_train - y_train) * x_train)
    
    print('Epoch {:4d}/{}, W : {:.3f}, Cost : {:.6f}'
          .format(epoch, nb_epochs, w.item(), cost.item()))
    
    # cost gradient로 H(x) 계산
    
    w -= lr * gradient

Epoch    0/10, W : 0.000, Cost : 4.666667
Epoch    1/10, W : 1.400, Cost : 0.746666
Epoch    2/10, W : 0.840, Cost : 0.119467
Epoch    3/10, W : 1.064, Cost : 0.019115
Epoch    4/10, W : 0.974, Cost : 0.003058
Epoch    5/10, W : 1.010, Cost : 0.000489
Epoch    6/10, W : 0.996, Cost : 0.000078
Epoch    7/10, W : 1.002, Cost : 0.000013
Epoch    8/10, W : 0.999, Cost : 0.000002
Epoch    9/10, W : 1.000, Cost : 0.000000
Epoch   10/10, W : 1.000, Cost : 0.000000


- Epoch : data로 학습한 횟수
- 학습하면서 점점 :
    - 1에 수렴하는 W
    - 줄어드는 cost

## Gradient Descent with torch.optim

- torch.optim으로도 gradient descent를 할 수 있다.
   - 시작할 때 Optimizer 정의
   - optimizer.zero_grad()로 gradient를 0으로 초기화
   - cost.backward()로 gradient 계산
   - optimizer.step()으로 gradient descent

In [None]:
# optimizer 설정
optimizer = torch.optim.SGD([w] , lr = 0.15)

# cost로 H(x) 개선

## 모든 학습 가능한 변수들을 0으로 초기화
optimizer.zero_grad()

## cost function mu1(?) 각 변수들의 gradient들을 채운다
cost.backward()

## 저장된 gradient로 실행
optimizer.step()

## Full Code with torch.optim

In [16]:
# Data
x_train = torch.FloatTensor( [ [1], [2], [3] ])
y_train = torch.FloatTensor( [ [1], [2], [3] ])

# Model Initial
w = torch.zeros(1, requires_grad = True)

# optimizer 설정
optimizer = torch.optim.SGD([w] , lr = 0.15)

nb_epochs = 10

for epoch in range(nb_epochs + 1) :
    
    # H(x) 계산
    hypothesis = x_train * w
    
    # cost gradient 계산
    cost = torch.mean( (hypothesis - y_train) **2)
    
    print('Epoch {:4d}/{}, W : {:.3f}, Cost : {:.6f}'
          .format(epoch, nb_epochs, w.item(), cost.item()))
    
    # cost로 H(x) 개선

    ## 모든 학습 가능한 변수들을 0으로 초기화
    optimizer.zero_grad()

    ## cost function mu1(?) 각 변수들의 gradient들을 채운다
    cost.backward()

    ## 저장된 gradient로 실행
    optimizer.step()

Epoch    0/10, W : 0.000, Cost : 4.666667
Epoch    1/10, W : 1.400, Cost : 0.746667
Epoch    2/10, W : 0.840, Cost : 0.119467
Epoch    3/10, W : 1.064, Cost : 0.019115
Epoch    4/10, W : 0.974, Cost : 0.003058
Epoch    5/10, W : 1.010, Cost : 0.000489
Epoch    6/10, W : 0.996, Cost : 0.000078
Epoch    7/10, W : 1.002, Cost : 0.000013
Epoch    8/10, W : 0.999, Cost : 0.000002
Epoch    9/10, W : 1.000, Cost : 0.000000
Epoch   10/10, W : 1.000, Cost : 0.000000


- Epoch : data로 학습한 횟수
- 학습하면서 점점 :
    - 1에 수렴하는 W
    - 줄어드는 cost

=> 지금까지 하나의 정보로부터 추측하는 model 생성 (일변수)

=> 다음 강의에선 여러개의 정보로부터 결론을 추측하는 model 생성 예정 (다변수)