# Lab-03 Deeper Look at Gradient Descent
- Hypothesis function 복습
- 사용할 모의 data 확인
- Cost function 이해
- Gradient descent 이론
- Gradient descent 구현
- Gradient descent 구현 (nn.optim)

## Hypothesis (Linear Regression)

$H(x) = Wx + b$ (Weight $W$, Bias $b$)

In [2]:
import torch

## Simpler Hypothesis Function
$H(x) = Wx$ (No Bias!)

In [7]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])

W = torch.zeros(1, requires_grad=True)
# b = torch.zeros(1, requires_grad=True)
hypothesis = x_train * W + b

## What is the best model
$H(x)=x$가 정확한 모델. $W=1$가 가장 좋은 숫자.

어떻게 모델의 좋고 나쁨을 평가할 수 있을까?

## Cost function: Intuition

- $W=1$일 때 $cost=0$
- $1$에서 멀어질수록 높아진다.

Mean Squared Error (MSE) :
$cost(W,b) = \frac{1}{m} \sum_{i=1}^{m} (H(x^{(i)}) - y^{(i)})^2$

## Gradient Descent: Intuition

- 곡선을 내려가자.
- 기울기가 클수록 더 멀리!
- "**Gradient**"를 계산하자

## Gradient Descent: The Math

$\frac{\partial cost}{\partial W} = \nabla W$

$\nabla W = \frac{\partial cost}{\partial W} = \frac{2}{m} \sum_{i=1}{m} (Wx^{(i)} - y^{(i)})x^{(i)}$

$W := W - \alpha \nabla W$ : Gradient Descent (Gradient를 이용해 Cost를 줄인다.)

## Full Code

In [8]:
# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])
# 모델 초기화
W = torch.zeros(1)
# learning rate 설정
lr = 0.1

nb_epochs = 10
for epoch in range(nb_epochs + 1):
    
    # H(x) 계산
    hypothesis = x_train * W
    
    # cost gradient 계산
    cost = torch.mean((hypothesis - y_train) ** 2)
    gradient = torch.sum((W * x_train - y_train) * x_train)
    
    print("Epoch {:4d}/{} W: {:.3f}, Cost: {:.6f}".format(epoch, nb_epochs, W.item(), cost.item()))
    
    # cost gradient로 H(x) 개선
    W -= lr * gradient

Epoch    0/10 W: 0.000, Cost: 4.666667
Epoch    1/10 W: 1.400, Cost: 0.746666
Epoch    2/10 W: 0.840, Cost: 0.119467
Epoch    3/10 W: 1.064, Cost: 0.019115
Epoch    4/10 W: 0.974, Cost: 0.003058
Epoch    5/10 W: 1.010, Cost: 0.000489
Epoch    6/10 W: 0.996, Cost: 0.000078
Epoch    7/10 W: 1.002, Cost: 0.000013
Epoch    8/10 W: 0.999, Cost: 0.000002
Epoch    9/10 W: 1.000, Cost: 0.000000
Epoch   10/10 W: 1.000, Cost: 0.000000


## Gradient Descent with `torch.optim`

```
# optimizer 설정
optimizer = optim.SGD([W], lr=0.15)

# cost로 H(x) 개선
optimizer.zero_grad()
cost.backward()
optimizer.step()
```

In [14]:
# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])
# 모델 초기화
W = torch.zeros(1, requires_grad=True)
# optimizer 설정
optimizer = optim.SGD([W], lr=0.15)

nb_epochs = 10
for epoch in range(nb_epochs + 1):
    
    # H(x) 계산
    hypothesis = x_train * W
    
    # cost gradient 계산
    cost = torch.mean((hypothesis - y_train) ** 2)
    
    print("Epoch {:4d}/{} W: {:.3f}, Cost: {:.6f}".format(epoch, nb_epochs, W.item(), cost.item()))
    
    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

Epoch    0/10 W: 0.000, Cost: 4.666667
Epoch    1/10 W: 1.400, Cost: 0.746667
Epoch    2/10 W: 0.840, Cost: 0.119467
Epoch    3/10 W: 1.064, Cost: 0.019115
Epoch    4/10 W: 0.974, Cost: 0.003058
Epoch    5/10 W: 1.010, Cost: 0.000489
Epoch    6/10 W: 0.996, Cost: 0.000078
Epoch    7/10 W: 1.002, Cost: 0.000013
Epoch    8/10 W: 0.999, Cost: 0.000002
Epoch    9/10 W: 1.000, Cost: 0.000000
Epoch   10/10 W: 1.000, Cost: 0.000000


## What's Next?
- 지금까지 하나의 정보로부터 추측하는 모델을 만들었습니다.
    - 예시 1) 수업 참여도 -> 수업 점수
    - 예시 2) 총 수면 시간 -> 집중력   
- 하지만 대부분의 추측은 많은 정보를 추합해서 이뤄집니다.
    - 예시 1) 쪽지 시험 성적들 -> 중간고사 성적
    - 예시 2) 암의 위치, 넓이, 모양 -> 치료 성공률
- 여러 개의 정보로부터 결론을 추측하는 모델은 어떻게 만들까요?