# ▼ Deeper Look at Gradient Descent


- Hypothesis function 
- 사용할 모의 data확인
- Cost function 이해
- Gradient descent 이론
- Gradient descent 구현
- Gradient descent 구현 (nn.optim)

## Hypothesis (Linear Regression)

- H(x) = Wx + b

In [None]:
W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)
hypothesis = x_train * W + b

## Simpler Hypothesis Function

- H(x) = Wx
    - No Bias!
    

In [None]:
W = torch.zeros(1, requires_grad=True)
# b = torch.zeros(1, requires_grad=True)
hypothesis = x_train * W

## Dummy Data
- Input = Output 인 data를 사용
- 1 -> prediction: 1

In [1]:
import torch
from torch import optim
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])

## What is the best model?

- H(x) = x가 정확한 모델
- W = 1이 가장 좋은 숫자
    - W가 1일 때, data set에 있는 모든 data의 정확한 값을 예측
    
    
- W가 1이 아닌 값으로 시작할 때 학습목표는?
    - W를 1로 수렴시키는 것
    - W가 1에 가까울수록 더 정확한 모델이 됨
    
    
- **모델의 좋고 나쁨**을 평가하는 방법?
    - Cost function 이용

## Cost function: Intuition

- 모델의 예측값이 실제 data와 얼마나 다른지를 나타내는 값
    - 잘 학습된 모델일수록 낮은 cost를 가짐
    
    
- W = 1일 때, cost = 0
- W가 1에서 멀어질수록 예측값과 실제 데이터가 다름
    - cost가 높아짐

## Cost function: MSE
- Mean Squared Error(MSE)
    - Linear regression에서 쓰이는 cost function

In [None]:
cost = torch.mean((hypothesis - y_train) ** 2)

## Gradient Descent: Intuition


- 우리가 원하는 것은?
    - Cost function을 최소화



- Cost function을 최소화하려면?
    - 곡선을 내려가자
    - 기울기가 음수일 때: W가 커져야 함 ↑
    - 기울기가 양수일 때: W가 작아져야 함 ↓
    - 기울기가 가파르면: cost가 크다 ↑
        - so, W를 크게 바꾼다(멀리 보낸다)!
    - 기울기가 평평하면: cost가 0에 가깝다
        - so, W를 조금만 바꾼다
    - Gradient를 계산하자


- 기울기 = 'Gradient'

## Gradient Descent: Code

In [None]:
gradient = 2 * torch.mean((W * x_train - y_train) * x_train)
lr = 0.1
W -= lr * gradient

## Full Code


- Epoch: 데이터로 학습한 횟수
- 학습하면서 점점:
    - 1에 수렴하는 W
    - 줄어드는 cost

In [2]:
# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])
# 모델 초기화
W = torch.zeros(1)
# Learning rate 설정
lr = 0.1

nb_epochs = 10
for epoch in range(nb_epochs + 1):
    
    # H(x) 계산
    hypothesis = x_train * W
    
    # cost gradient 계산
    cost = torch.mean((hypothesis - y_train) ** 2)
    gradient = torch.sum((W * x_train - y_train) * x_train)
    
    print('Epoch {:4d}/{} W: {:.3f}, Cost: {:.6f}'.format
          (epoch, nb_epochs, W.item(), cost.item()
    ))
    
    # cost gradient로 H(x) 계산
    W -= lr * gradient

Epoch    0/10 W: 0.000, Cost: 4.666667
Epoch    1/10 W: 1.400, Cost: 0.746666
Epoch    2/10 W: 0.840, Cost: 0.119467
Epoch    3/10 W: 1.064, Cost: 0.019115
Epoch    4/10 W: 0.974, Cost: 0.003058
Epoch    5/10 W: 1.010, Cost: 0.000489
Epoch    6/10 W: 0.996, Cost: 0.000078
Epoch    7/10 W: 1.002, Cost: 0.000013
Epoch    8/10 W: 0.999, Cost: 0.000002
Epoch    9/10 W: 1.000, Cost: 0.000000
Epoch   10/10 W: 1.000, Cost: 0.000000


## Gradient Descent with torch.optim

- torch.optim으로도 gradient descent를 할 수 있음
    - 이 3줄을 통해 optimizer는 W에 gradient를 저장한 후,  
    그대로 W값을 gradient에 맞게 update 한다
        - 시작할 때 Optimizer 정의  
    (학습 가능한 변수, learning rate 포함)
        - optimizer.zero_grad()로 gradient를 0으로 초기화
            - optimizer에 저장되어 있는, 모든 학습 가능한 변수의 gradient를 전부 0으로 초기화
        - cost.backward()로 gradient 계산
            - cost function을 미분해서, 각 변수들의 gradient를 채움
        - optimizer.step()으로 gradient descent
            - 저장된 gradient 값으로 gradient descent 시행

In [None]:
# optimizer 설정
optimizer = optim.SGD([W], lr=0.15)

# cost로 H(x) 개선
optimizer.zero_grad()
cost.backward()
optimizer.step()

## Full Code with torch.optim

- 학습하면서 점점:
    - 1에 수렴하는 W
    - 줄어드는 cost

In [3]:
# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])
# 모델 초기화
W = torch.zeros(1, requires_grad=True)
# optimizer 설정
optimizer = optim.SGD([W], lr=0.15)

nb_epochs = 10
for epoch in range(nb_epochs + 1):
    
    # H(x) 계산
    hypothesis = x_train * W
    
    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)
    
    print('Epoch {:4d}/{} W: {:.3f}, Cost: {:.6f}'.format(
         epoch, nb_epochs, W.item(), cost.item()
    ))
        
    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

Epoch    0/10 W: 0.000, Cost: 4.666667
Epoch    1/10 W: 1.400, Cost: 0.746667
Epoch    2/10 W: 0.840, Cost: 0.119467
Epoch    3/10 W: 1.064, Cost: 0.019115
Epoch    4/10 W: 0.974, Cost: 0.003058
Epoch    5/10 W: 1.010, Cost: 0.000489
Epoch    6/10 W: 0.996, Cost: 0.000078
Epoch    7/10 W: 1.002, Cost: 0.000013
Epoch    8/10 W: 0.999, Cost: 0.000002
Epoch    9/10 W: 1.000, Cost: 0.000000
Epoch   10/10 W: 1.000, Cost: 0.000000
