<a href="https://colab.research.google.com/github/enoosoft/ai_fsec/blob/master/colab/Day_2_01_linear_regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Linear Regression

## Theoretical Overview

$$ H(x) = Wx + b $$

$$ cost(W, b) = \frac{1}{m} \sum^m_{i=1} \left( H(x^{(i)}) - y^{(i)} \right)^2 $$

 - $H(x)$: 주어진 $x$ 값에 대해 예측을 어떻게 할 것인가
 - $cost(W, b)$: $H(x)$ 가 $y$ 를 얼마나 잘 예측했는가

## Imports

In [153]:
import torch
import torch.nn as nn #Newtral network
import torch.nn.functional as F 
import torch.optim as optim # Gradient decent 쓰기위함

In [154]:
# For reproducibility 랜던하게 나오는 결과를 통일하기 위함
torch.manual_seed(1)

<torch._C.Generator at 0x7ff1ff1a9930>

## Data

We will use fake data for this example.

In [155]:
x_train = torch.FloatTensor([[1], [2], [3]]) # x 3x1
y_train = torch.FloatTensor([[1], [2], [3]]) # y 3x1

In [156]:
print(x_train)
print(x_train.shape)

tensor([[1.],
        [2.],
        [3.]])
torch.Size([3, 1])


In [157]:
print(y_train)
print(y_train.shape)

tensor([[1.],
        [2.],
        [3.]])
torch.Size([3, 1])


## Weight Initialization

In [158]:
W = torch.zeros(1, requires_grad=True) # 직선 초기화(y=0, 실무에서는 초기화가 중요함)
print(W)

tensor([0.], requires_grad=True)


In [159]:
b = torch.zeros(1, requires_grad=True)
print(b)

tensor([0.], requires_grad=True)


## Hypothesis

$$ H(x) = Wx + b $$

In [160]:
hypothesis = x_train * W + b
print(hypothesis)

tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)


## Cost

$$ cost(W, b) = \frac{1}{m} \sum^m_{i=1} \left( H(x^{(i)}) - y^{(i)} \right)^2 $$

In [161]:
print(hypothesis)

tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)


In [162]:
print(y_train)

tensor([[1.],
        [2.],
        [3.]])


In [163]:
print(hypothesis - y_train)

tensor([[-1.],
        [-2.],
        [-3.]], grad_fn=<SubBackward0>)


In [164]:
print((hypothesis - y_train) ** 2)

tensor([[1.],
        [4.],
        [9.]], grad_fn=<PowBackward0>)


In [165]:
cost = torch.mean((hypothesis - y_train) ** 2)
print(cost)

tensor(4.6667, grad_fn=<MeanBackward0>)


## Gradient Descent 경사하강 알고리즘
 - lr: learning rate = 학습률(해상도?)

In [166]:
optimizer = optim.SGD([W, b], lr=0.01)

In [167]:
optimizer.zero_grad()
cost.backward()
optimizer.step()

- 위 3개 세트로 사용한다

In [168]:
print(W)
print(b)

tensor([0.0933], requires_grad=True)
tensor([0.0400], requires_grad=True)


Let's check if the hypothesis is now better.

In [169]:
hypothesis = x_train * W + b
print(hypothesis)

tensor([[0.1333],
        [0.2267],
        [0.3200]], grad_fn=<AddBackward0>)


In [171]:
cost = torch.mean((hypothesis - y_train) ** 2)
print(cost)

tensor(3.6927, grad_fn=<MeanBackward0>)


## Training with Full Code

In reality, we will be training on the dataset for multiple epochs. This can be done simply with loops.

In [184]:
# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])
# 모델 초기화
W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)
# optimizer 설정
optimizer = optim.SGD([W, b], lr=0.1)

nb_epochs = 500
for epoch in range(nb_epochs + 1):
    
    # H(x) 계산
    hypothesis = x_train * W + b
    
    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 50번마다 로그 출력
    if epoch % 10 == 0:
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, W.item(), b.item(), cost.item()
        ))

Epoch    0/500 W: 0.933, b: 0.400 Cost: 4.666667
Epoch   10/500 W: 0.876, b: 0.282 Cost: 0.011979
Epoch   20/500 W: 0.903, b: 0.221 Cost: 0.007363
Epoch   30/500 W: 0.924, b: 0.173 Cost: 0.004526
Epoch   40/500 W: 0.940, b: 0.136 Cost: 0.002782
Epoch   50/500 W: 0.953, b: 0.107 Cost: 0.001710
Epoch   60/500 W: 0.963, b: 0.084 Cost: 0.001051
Epoch   70/500 W: 0.971, b: 0.065 Cost: 0.000646
Epoch   80/500 W: 0.977, b: 0.051 Cost: 0.000397
Epoch   90/500 W: 0.982, b: 0.040 Cost: 0.000244
Epoch  100/500 W: 0.986, b: 0.032 Cost: 0.000150
Epoch  110/500 W: 0.989, b: 0.025 Cost: 0.000092
Epoch  120/500 W: 0.991, b: 0.019 Cost: 0.000057
Epoch  130/500 W: 0.993, b: 0.015 Cost: 0.000035
Epoch  140/500 W: 0.995, b: 0.012 Cost: 0.000021
Epoch  150/500 W: 0.996, b: 0.009 Cost: 0.000013
Epoch  160/500 W: 0.997, b: 0.007 Cost: 0.000008
Epoch  170/500 W: 0.997, b: 0.006 Cost: 0.000005
Epoch  180/500 W: 0.998, b: 0.005 Cost: 0.000003
Epoch  190/500 W: 0.998, b: 0.004 Cost: 0.000002
Epoch  200/500 W: 0.

## High-level Implementation with `nn.Module`

Remember that we had this fake data.

In [82]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])

이제 linear regression 모델을 만들면 되는데, 기본적으로 PyTorch의 모든 모델은 제공되는 `nn.Module`을 inherit 해서 만들게 됩니다.

In [83]:
class LinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(1, 1)

    def forward(self, x):
        return self.linear(x)

모델의 `__init__`에서는 사용할 레이어들을 정의하게 됩니다. 여기서 우리는 linear regression 모델을 만들기 때문에, `nn.Linear` 를 이용할 것입니다. 그리고 `forward`에서는 이 모델이 어떻게 입력값에서 출력값을 계산하는지 알려줍니다.

In [84]:
model = LinearRegressionModel()

## Hypothesis

이제 모델을 생성해서 예측값 $H(x)$를 구해보자

In [85]:
hypothesis = model(x_train)

In [86]:
print(hypothesis)

tensor([[0.0739],
        [0.5891],
        [1.1044]], grad_fn=<AddmmBackward0>)


## Cost

이제 mean squared error (MSE) 로 cost를 구해보자. MSE 역시 PyTorch에서 기본적으로 제공한다.

In [87]:
print(hypothesis)
print(y_train)

tensor([[0.0739],
        [0.5891],
        [1.1044]], grad_fn=<AddmmBackward0>)
tensor([[1.],
        [2.],
        [3.]])


In [88]:
cost = F.mse_loss(hypothesis, y_train)

In [89]:
print(cost)

tensor(2.1471, grad_fn=<MseLossBackward0>)


## Gradient Descent

마지막 주어진 cost를 이용해 $H(x)$ 의 $W, b$ 를 바꾸어서 cost를 줄여봅니다. 이때 PyTorch의 `torch.optim` 에 있는 `optimizer` 들 중 하나를 사용할 수 있습니다.

In [90]:
optimizer = optim.SGD(model.parameters(), lr=0.01)

In [91]:
optimizer.zero_grad()
cost.backward()
optimizer.step()

## Training with Full Code

이제 Linear Regression 코드를 이해했으니, 실제로 코드를 돌려 피팅시켜보겠습니다.

In [92]:
class LinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(1, 1)

    def forward(self, x):
        return self.linear(x)

# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])
# 모델 초기화
model = LinearRegressionModel()
# optimizer 설정
optimizer = optim.SGD(model.parameters(), lr=0.1)

nb_epochs = 1000
for epoch in range(nb_epochs + 1):
    
    # H(x) 계산
    prediction = model(x_train)
    
    # cost 계산
    cost = F.mse_loss(prediction, y_train)
    
    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()
    
    # 100번마다 로그 출력
    if epoch % 100 == 0:
        params = list(model.parameters())
        W = params[0].item()
        b = params[1].item()
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, W, b, cost.item()
        ))

Epoch    0/1000 W: 0.733, b: 0.853 Cost: 4.630286
Epoch  100/1000 W: 0.969, b: 0.071 Cost: 0.000767
Epoch  200/1000 W: 0.997, b: 0.006 Cost: 0.000006
Epoch  300/1000 W: 1.000, b: 0.001 Cost: 0.000000
Epoch  400/1000 W: 1.000, b: 0.000 Cost: 0.000000
Epoch  500/1000 W: 1.000, b: 0.000 Cost: 0.000000
Epoch  600/1000 W: 1.000, b: 0.000 Cost: 0.000000
Epoch  700/1000 W: 1.000, b: 0.000 Cost: 0.000000
Epoch  800/1000 W: 1.000, b: 0.000 Cost: 0.000000
Epoch  900/1000 W: 1.000, b: 0.000 Cost: 0.000000
Epoch 1000/1000 W: 1.000, b: 0.000 Cost: 0.000000


점점 $H(x)$ 의 $W$ 와 $b$ 를 조정해서 cost가 줄어드는 것을 볼 수 있습니다.