# Deeper Look at Gradient Descent

- Hypothesis function 복습
- 사용할 모의 data 확인
- Cost function 이해
- Gradient descent 이론
- Gradient descent 구현
- Gradient descent 구현 (nn.optim)

In [11]:
import torch

W = torch.zeros(1, requires_grad = True)
b = torch.zeros(1, requires_grad = True)

In [12]:
# 3쌍의 값을 갖는 dataset 정의
x_train = torch.FloatTensor([[1],[2],[3]])
y_train = torch.FloatTensor([[2],[4],[6]])

In [13]:
hypothesis = x_train * W + b

## Cost function : MSE (Mean Squard Error)

In [14]:
cost = torch.mean((hypothesis - y_train) ** 2)

In [15]:
cost

tensor(18.6667, grad_fn=<MeanBackward0>)

### Gradient Descent

costfunction을 최소화 하기
- 곡선을 내려가자
- 기울기가 음수일떈 W가 더 커져야 하고
- 기울기가 양수일땐 W가 더 작아져야 한다.
- 기울기 경사가 클수록 W값을 크게 해주고
- 기울기 경사가 평평할 수록 W값을 작게 해준다.
- 그럼 이러한 gradient를 이용해 cost를 줄이려면 어떻게 해야할까?

- W: = W - a(W변화량)

In [16]:
gradient = 2 * torch.mean((W * x_train - y_train) * x_train)

In [20]:
lr = 0.1
W = W - (lr * gradient)

In [22]:
W

tensor([1.8667], grad_fn=<SubBackward0>)

# Full Code

In [24]:
# 데이터
import torch

W = torch.zeros(1, requires_grad = True)
b = torch.zeros(1, requires_grad = True)

x_train = torch.FloatTensor([[1],[2],[3]])
y_train = torch.FloatTensor([[2],[4],[6]])

lr = 0.1

nb_epochs = 10
for epoch in range(nb_epochs + 1) :
    
    # H(x) 계산
    hypothesis = W * x_train + b
    
    # cost gradient 계산
    cost = torch.mean((hypothesis - y_train) ** 2)
    gradient = torch.sum((W * x_train - y_train) * x_train)
    
    print('Epoch {:4d}/{} W: {:.3f}, b: {:4f} Cost : {:.6f}'. format(epoch, nb_epochs, W.item(), b.item(), cost.item()))
    
    
    # cost gradient 로 개선
    W = W - (lr * gradient)

Epoch    0/10 W: 0.000, b: 0.000000 Cost : 18.666666
Epoch    1/10 W: 2.800, b: 0.000000 Cost : 2.986666
Epoch    2/10 W: 1.680, b: 0.000000 Cost : 0.477867
Epoch    3/10 W: 2.128, b: 0.000000 Cost : 0.076459
Epoch    4/10 W: 1.949, b: 0.000000 Cost : 0.012233
Epoch    5/10 W: 2.020, b: 0.000000 Cost : 0.001957
Epoch    6/10 W: 1.992, b: 0.000000 Cost : 0.000313
Epoch    7/10 W: 2.003, b: 0.000000 Cost : 0.000050
Epoch    8/10 W: 1.999, b: 0.000000 Cost : 0.000008
Epoch    9/10 W: 2.001, b: 0.000000 Cost : 0.000001
Epoch   10/10 W: 2.000, b: 0.000000 Cost : 0.000000


- Epoch : 데이터로 학습한 횟수
- 학습하면서
    - 1에 수렴하는 W
    - 줄어드는 cost

# Gradient Descent with torch.optim

- torch.optim 으로도 gradient descent 를 할 수 있습니다.
    - 시작할 때 Optimizer 정의
    - optimizer.zero_grad() 로 gradient 0으로 초기화
    - cost.backward()로 gradient 계산
    - optimizer.step() 으로 gradient descent

# Full Code with torch.optim

In [52]:
import torch

# 데이터
x_train = torch.FloatTensor([[1],[2],[3]])
y_train = torch.FloatTensor([[3],[6],[9]])

# 모델 초기화
W = torch.zeros(3, requires_grad = True)
optimizer = torch.optim.SGD([W], lr = 0.15)

epochs = 10
for epoch in range(epochs +1) :
     # H(x) 계산
    hypothesis = W * x_train + b
    
    # cost gradient 계산
    cost = torch.mean((hypothesis - y_train) ** 2)
    
    print('Epoch {:4d}/{}   Cost : {:.6f}'. format(epoch, epochs, cost.item()))
    
    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

Epoch    0/10   Cost : 42.000000
Epoch    1/10   Cost : 11.946666
Epoch    2/10   Cost : 3.398162
Epoch    3/10   Cost : 0.966588
Epoch    4/10   Cost : 0.274941
Epoch    5/10   Cost : 0.078205
Epoch    6/10   Cost : 0.022245
Epoch    7/10   Cost : 0.006327
Epoch    8/10   Cost : 0.001800
Epoch    9/10   Cost : 0.000512
Epoch   10/10   Cost : 0.000146


In [53]:
W

tensor([2.9970, 2.9970, 2.9970], requires_grad=True)