<a href="https://colab.research.google.com/github/kookeej/DILAB/blob/main/7.1-7.7/lab02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Lab02 - Linear regression
===
* Data definition
* Hypothesis
* Compute loss
* Gradient descent algorithm
    
우리는 학습 데이터를 먼저 정의하고 학습할 Hypothesis를 구현한다. 그리고 학습 데이터를 이용하여 연속적으로 모델을 개선시킨다. 그러기 위해서 Gradient descent algorithm을 통해서 loss를 계산하고, 이를 최소화하는 방향으로 학습한다.

In [1]:
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F

# 1. Data Definition
먼저 training data 중 x값과 y값을 각기 다른 tensor에 저장한다. x는 입력값이고 y는 출력값이다.

In [2]:
# Data definition
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

# 2. Hypothesis

```linear regression```은 학습 데이터와 가장 적합한 하나의 직선(모델)을 찾는 일이다. 이러한 직선은 아래와 같은 함수로 나타낼 수 있다.     
```
H(x) = Wx + b
```
W는 ```weight```, b는 ```bias```라고 한다. 따라서 hypothesis를 정의하기 위해서는 먼저 W와 b를 정의해야 한다.    
W와 b를 모두 0으로 초기화한다면 어떨까? 항상 출력은 0이 된다.

In [3]:
W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)
hypothesis = x_train * W + b

* ```requires_grad=True```를 사용하여 W와 b를 학습시킬 것을 명시한다. 해당 tensor에 대한 계산 모두 tracking하여 기울기를 구해준다.
* ```torch.zeros()```는 0으로된 tensor를 말한다. ```torch.zeros(1, requires_grad=True)```는 0으로만 이루어진 (1,) 크기의 tensor를 말한다.

여기까지 data와 model 정의가 모두 끝났다. 이제 학습을 시킨다. 학습을 시키기 위해서는 우리의 모델이 얼마나 정답과 가까운지를 알아야 한다. 학습을 시키기 전에 ```cost function```를 정의할 것이고 ```cost```값을 최소화시키는 것이 우리의 목표다.    
cost function의 형태는 아래와 같다.        

![cost_function](https://render.githubusercontent.com/render/math?math=cost%28W%2C%20b%29%20%3D%20%5Cfrac%7B1%7D%7Bm%7D%20%5Csum%5Em_%7Bi%3D1%7D%20%5Cleft%28%20H%28x%5E%7B%28i%29%7D%29%20-%20y%5E%7B%28i%29%7D%20%5Cright%29%5E2&mode=display)


In [4]:
cost = torch.mean((hypothesis - y_train) ** 2)

# 3. Gradient Descent Algorithm
우리가 구한 ```cost(W, b)```을 통해 cost function을 최소화시키는 W, b값을 찾을 것이다. cost(W, b)는 밥그릇과 같은 모양을 하고 있기 때문에 경사도(기울기)가 0이 되는 지점을 찾으면 된다. 

In [5]:
optimizer = torch.optim.SGD([W, b], lr=0.01)

optimizer.zero_grad()       # zero_grad()로 gradient를 초기화한다.  ?????왜??????
cost.backward()             # backward()로 gradient를 계산한다. ?????????왜??????
optimizer.step()            # step을 통해 개선해 나간다.

* pytorch에서는 왜 항상 optimizer.zero_grad()를 해줄까?    
        Pytorch에서는 gradients값들을 추후에 backward를 해줄때 계속 더해주기 때문이다. 따라서 우리는 backpropagation을 하기 전에 gradient를 항상 zero로 만들어주고 시작해야한다.
        매번 cost.backward()를 호출할 때, 매번 gradient를 더해주는 것으로 설정되어 있다. 따라서 학습 loop를 돌 때, 정상적으로 학습이 이루어지기 위해서는 한 번의 학습이 완료되어지면 gradient를 항상 0으로 만들어주어야 한다.



이제 완성된 코드를 모두 살펴본다.

In [6]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])

W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

optimizer = torch.optim.SGD([W, b], lr=0.01)

nb_epochs = 1000
for epoch in range(nb_epochs + 1):
    hypothesis = x_train * W + b
    cost = torch.mean((hypothesis - y_train) ** 2)

    optimizer.zero_grad()
    cost.backward()
    optimizer.step()
    
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, W.item(), b.item(), cost.item()
        ))

Epoch    0/1000 W: 0.093, b: 0.040 Cost: 4.666667
Epoch  100/1000 W: 0.873, b: 0.289 Cost: 0.012043
Epoch  200/1000 W: 0.900, b: 0.227 Cost: 0.007442
Epoch  300/1000 W: 0.921, b: 0.179 Cost: 0.004598
Epoch  400/1000 W: 0.938, b: 0.140 Cost: 0.002842
Epoch  500/1000 W: 0.951, b: 0.110 Cost: 0.001756
Epoch  600/1000 W: 0.962, b: 0.087 Cost: 0.001085
Epoch  700/1000 W: 0.970, b: 0.068 Cost: 0.000670
Epoch  800/1000 W: 0.976, b: 0.054 Cost: 0.000414
Epoch  900/1000 W: 0.981, b: 0.042 Cost: 0.000256
Epoch 1000/1000 W: 0.985, b: 0.033 Cost: 0.000158


* epoch(에포크)란?    
        한 번의 epoch는 인공 신경망에서 전체 데이터 셋에 대해 forward pass + backward pass과정을 거친 것을 말한다. 
        즉, 전체 데이터 셋에 대해 한 번의 학습을 완료한 상태이다. 
        위 코드는 총 1000번의 학습을 한다는 뜻이다. 

반복적으로 학습하며 최적의 W와 b값을 찾아나간다. 


* 한번만    
    1. 데이터 정의
    2. Hypothesis 초기화
    3. Optimizer 정의

* 반복     
    1. Hypothesis 예측
    2. Cost 계산
    3. Optimizer로 학습