# Linear Regression

## Train dataset and Test dataset
+ Train dataset: 예측을 위해 사용하는 dataset 
+ Test dataset: 훈련 후 모델이 얼마나 잘 작동하는지 판별하는 dataset
 

In [1]:
import torch 
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

torch.manual_seed(1234) # random seed

<torch._C.Generator at 0x175ed1a5b10>

In [2]:
# train dataset 구성
x_train = torch.FloatTensor([[1],[2],[3]])
y_train = torch.FloatTensor([[2],[4],[6]])

print(x_train.shape, y_train.shape) # 3 by 1 that each both

torch.Size([3, 1]) torch.Size([3, 1])


## Hypothesis
+ linear regression의 hypothesis
    + $y=Wx+b$ == $H(x) = Wx+b$
    + $W$: weights (slope)
    + $b$: bias

## Cost function
+ cost function = loss function = error function = objective function
+ MSE(Mean Squared Error) 
    + 가설의 error의 크기를 측정하기 위함\
    $MSE = {1 \over n}\sum_{i=1}^n [y^{(i)}-H(x^{(i)})]^2$
        + $n$: number of data
    + regression 문제에서 적절한 $W$와 $b$를 찾기 위함
        + 즉 MSE의 값을 최소로 만들기 위한 $W$와 $b$를 찾아 훈련에 반영하기 위함
        + 이를 cost function으로 재정의하면 다음과 같음\
            $ cost(W,b) = {1 \over n}\sum_{i=1}^n [y^{(i)}-H(x^{(i)})]^2$

## Optimizer - Gradient Descent
+ cost function의 값을 최소로 하는 minimizer $W$와 $b$를 찾기 위한 방법으로 쓰임
+ Gradient Descent
    + $W$에 대한 Gradient Descent를 한다고 할 때 다음과 같다\
    $W \colonequals W - \alpha {\frac{\partial}{\partial W}} cost(W)$
        + $\alpha$: Learning rate, $W$의 값을 변경할 때, 얼마나 크게 변경할지 결정함
            + $\alpha$를 지나치게 높은 값을 가질 때 찾고자 하는 $W$의 값이 발산 할 수 있음
            + $\alpha$를 지나치게 낮을 값을 가질 떄 학습 속도가 느려짐

In [3]:
# implement linear regression with pytorch

# initialize weights and bias variables
W = torch.zeros(1, requires_grad=True) # 0으로 initialize하고 학습을 통해 변수가 변경됨
b = torch.zeros(1, requires_grad=True)

# implement gradient for linear regression
opt = optim.SGD([W, b], lr=0.01) # optimizer is stochastic gradient descent, learning rate set to 0.01

'''
epoch: 전체 train date가 학습에 한번 사용된 주기
'''
# number of epochs
n_epoch = 1999


In [4]:
for epoch in range(n_epoch+1): 
    # calculate the hypothesis
    hyp = x_train*W+b

    # calculate cost function for linear regression
    cost = torch.mean((hyp-y_train)**2)

    '''
    - 미분을 통해 얻은 slope를 0으로 초기화
    : 새로운 parameter bias에 대해 새로운 slope를 구할 수 있기 때문
    '''
    # initialize slope to zero from calculated, avoid to cummulated values
    opt.zero_grad()
    # calculate slope about W and b, derivative cost function
    cost.backward()
    # w와 b에서 return되는 변수들의 기울기에 대해 learning rate를 곱하여 빼줌으로서 업데이트
    opt.step()
    # epoch 100회씩마다 관련 결과 출력 
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
            epoch, n_epoch, W.item(), b.item(), cost.item())) # W가 2 그리고 b가 0에 가까운 값에 도달함

Epoch    0/1999 W: 0.187, b: 0.080 Cost: 18.666666
Epoch  100/1999 W: 1.746, b: 0.578 Cost: 0.048171
Epoch  200/1999 W: 1.800, b: 0.454 Cost: 0.029767
Epoch  300/1999 W: 1.843, b: 0.357 Cost: 0.018394
Epoch  400/1999 W: 1.876, b: 0.281 Cost: 0.011366
Epoch  500/1999 W: 1.903, b: 0.221 Cost: 0.007024
Epoch  600/1999 W: 1.924, b: 0.174 Cost: 0.004340
Epoch  700/1999 W: 1.940, b: 0.136 Cost: 0.002682
Epoch  800/1999 W: 1.953, b: 0.107 Cost: 0.001657
Epoch  900/1999 W: 1.963, b: 0.084 Cost: 0.001024
Epoch 1000/1999 W: 1.971, b: 0.066 Cost: 0.000633
Epoch 1100/1999 W: 1.977, b: 0.052 Cost: 0.000391
Epoch 1200/1999 W: 1.982, b: 0.041 Cost: 0.000242
Epoch 1300/1999 W: 1.986, b: 0.032 Cost: 0.000149
Epoch 1400/1999 W: 1.989, b: 0.025 Cost: 0.000092
Epoch 1500/1999 W: 1.991, b: 0.020 Cost: 0.000057
Epoch 1600/1999 W: 1.993, b: 0.016 Cost: 0.000035
Epoch 1700/1999 W: 1.995, b: 0.012 Cost: 0.000022
Epoch 1800/1999 W: 1.996, b: 0.010 Cost: 0.000013
Epoch 1900/1999 W: 1.997, b: 0.008 Cost: 0.000008

__forward 연산__
+ $H(x)$  식에 입력 $x$로부터 예측된 $y$를 얻는 연산

__backward 연산__
+ 학습 과정에서 cost function을 미분하여 slope를 구하는 연산

## Auto Gradient
+ model이 복잡해질수록 optimizer를 직접 구현해지기 어려워 짐
+ 이에 대한 복잡함을 덜고자 auto gradient 기능을 사용함

In [5]:
# declare variable randomly
w = torch.tensor(2.0, requires_grad=True)

n_epoch=100

y = w**2
z = 2*y+5

# derivate about w 
z.backward()

print(f'calculated:{w.grad}')


calculated:8.0


# Multivariable Linear regression
+ Hypothesis\
$H(x) = w_1 x_1+w_2 x_2 + ... + b$

In [6]:
# train dataset
x1_train = torch.FloatTensor([[73], [93], [89], [96], [73]])
x2_train = torch.FloatTensor([[80], [88], [91], [98], [66]])
x3_train = torch.FloatTensor([[75], [93], [90], [100], [70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

# initialize weights and bias
w1 = torch.zeros(1, requires_grad=True)
w2 = torch.zeros(1, requires_grad=True)
w3 = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

# set optimizer to SGD
opt = optim.SGD([w1, w2, w3, b], lr=1e-5)

# number of epochs
n_epoch = 1000

for epoch in range(n_epoch+1):
    hyp = x1_train*w1 + x2_train*w2 + x3_train*w3 + b
    cost = torch.mean((hyp-y_train)**2)
    
    # improving hypothesis to cost
    opt.zero_grad()
    cost.backward()
    opt.step()
    
    if epoch % 100==0:
        print(f'Epoch {epoch}/{n_epoch} w1: {w1.item():.3f} w2: {w2.item():.3f} w3: {w3.item():.3f} b: {b.item():.3f} cost: {cost.item():.6f}')
    

Epoch 0/1000 w1: 0.294 w2: 0.294 w3: 0.297 b: 0.003 cost: 29661.800781
Epoch 100/1000 w1: 0.674 w2: 0.661 w3: 0.676 b: 0.008 cost: 1.563634
Epoch 200/1000 w1: 0.679 w2: 0.655 w3: 0.677 b: 0.008 cost: 1.497607
Epoch 300/1000 w1: 0.684 w2: 0.649 w3: 0.677 b: 0.008 cost: 1.435026
Epoch 400/1000 w1: 0.689 w2: 0.643 w3: 0.678 b: 0.008 cost: 1.375730
Epoch 500/1000 w1: 0.694 w2: 0.638 w3: 0.678 b: 0.009 cost: 1.319511
Epoch 600/1000 w1: 0.699 w2: 0.633 w3: 0.679 b: 0.009 cost: 1.266222
Epoch 700/1000 w1: 0.704 w2: 0.627 w3: 0.679 b: 0.009 cost: 1.215696
Epoch 800/1000 w1: 0.709 w2: 0.622 w3: 0.679 b: 0.009 cost: 1.167818
Epoch 900/1000 w1: 0.713 w2: 0.617 w3: 0.680 b: 0.009 cost: 1.122429
Epoch 1000/1000 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.009 cost: 1.079378


In [7]:
# implement multivariable regression on vector operation

# declare train data
x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  80], 
                               [96,  98,  100],   
                               [73,  66,  70]])   # 5 by 3 
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]]) # 5 by 1 

print(x_train.shape, y_train.shape)

torch.Size([5, 3]) torch.Size([5, 1])


In [8]:
# declare weight and bias
w = torch.zeros((3,1), requires_grad=True) # x_train과 operation을 하려면 연산 조건(크기)에 맞아야 함
b = torch.zeros(1,requires_grad=True) 

# optimizer 
opt = optim.SGD([w,b], lr=1e-5)

# number of epochs
n_epoch = 20

In [9]:
for epoch in range(n_epoch+1):
    hyp = x_train.matmul(w)+b 
    cost = torch.mean((hyp - y_train)**2)
    
    opt.zero_grad()
    cost.backward()
    opt.step()
    
    print(f'Epoch {epoch}/{n_epoch} w1: {w1.item():.3f} w2: {w2.item():.3f} w3: {w3.item():.3f} b: {b.item():.3f} cost: {cost.item():.6f}')

Epoch 0/20 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.003 cost: 29661.800781
Epoch 1/20 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.005 cost: 9537.694336
Epoch 2/20 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.006 cost: 3069.590088
Epoch 3/20 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.007 cost: 990.670898
Epoch 4/20 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.007 cost: 322.482086
Epoch 5/20 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.008 cost: 107.717064
Epoch 6/20 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.008 cost: 38.687496
Epoch 7/20 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.008 cost: 16.499043
Epoch 8/20 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.008 cost: 9.365656
Epoch 9/20 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.008 cost: 7.071114
Epoch 10/20 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.008 cost: 6.331847
Epoch 11/20 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.008 cost: 6.092532
Epoch 12/20 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.008 cost: 6.013817
Epoch 13/20 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.008 cost: 5.986785
Epoch 14/20 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.008 cost: 5.976325
Ep

# Implement the Linear regression with nn.Module
+ pytorch에서 이미 구현되어 있는 모듈을 이용하여 linear regressio 구현

In [10]:
# set seed number for fixed random variables 
torch.manual_seed(1)

# simple linear regression
# data 
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

# declare model and initialization
mod = nn.Linear(1,1) # simple linear model이므로 input dimension과 ouput dimension은 1
print(list(mod.parameters()))

[Parameter containing:
tensor([[0.5153]], requires_grad=True), Parameter containing:
tensor([-0.4414], requires_grad=True)]


In [11]:
# optimizer
opt = optim.SGD(mod.parameters(), lr=0.001)

# number of epochs 
n_epoch = 2000

for epoch in range(n_epoch+1):
    pred = mod(x_train) # hypothesis
    cost = F.mse_loss(pred, y_train) # MSE offer from pytorch in nn.Module
    
    opt.zero_grad()
    cost.backward()
    opt.step()
    
    if epoch % 100==0:
        print(f'Epoch {epoch}/{n_epoch}  cost: {cost.item():.6f}')

Epoch 0/2000  cost: 13.103541
Epoch 100/2000  cost: 1.411435
Epoch 200/2000  cost: 0.155259
Epoch 300/2000  cost: 0.020147
Epoch 400/2000  cost: 0.005470
Epoch 500/2000  cost: 0.003738
Epoch 600/2000  cost: 0.003404
Epoch 700/2000  cost: 0.003228
Epoch 800/2000  cost: 0.003074
Epoch 900/2000  cost: 0.002930
Epoch 1000/2000  cost: 0.002792
Epoch 1100/2000  cost: 0.002661
Epoch 1200/2000  cost: 0.002536
Epoch 1300/2000  cost: 0.002417
Epoch 1400/2000  cost: 0.002304
Epoch 1500/2000  cost: 0.002195
Epoch 1600/2000  cost: 0.002092
Epoch 1700/2000  cost: 0.001994
Epoch 1800/2000  cost: 0.001901
Epoch 1900/2000  cost: 0.001811
Epoch 2000/2000  cost: 0.001726


In [12]:
# check variable W an b
# declare input randomly
n_var = torch.FloatTensor([[4.0]])

# 임의 변수를 예측한 모델에 입력하여 결과 저장 
pred_n = mod(n_var)

print(pred_n)

# parameters after train
print(list(mod.parameters()))

tensor([[7.9167]], grad_fn=<AddmmBackward0>)
[Parameter containing:
tensor([[1.9518]], requires_grad=True), Parameter containing:
tensor([0.1097], requires_grad=True)]


In [13]:
# multivariable regression model
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

mod = nn.Linear(3,1)

print(list(mod.parameters()))

[Parameter containing:
tensor([[-0.1119,  0.2710, -0.5435]], requires_grad=True), Parameter containing:
tensor([0.3462], requires_grad=True)]


In [14]:
opt = optim.SGD(mod.parameters(), lr=1e-5)

n_epoch = 2000
for epoch in range(n_epoch+1):
    pred = mod(x_train)
    cost=F.mse_loss(pred, y_train)
    
    opt.zero_grad()
    cost.backward()
    opt.step()
    
    if epoch % 100==0:
        print(f'Epoch {epoch}/{n_epoch}  cost: {cost.item():.6f}')
    

Epoch 0/2000  cost: 42134.707031
Epoch 100/2000  cost: 5.960053
Epoch 200/2000  cost: 5.654707
Epoch 300/2000  cost: 5.365413
Epoch 400/2000  cost: 5.091429
Epoch 500/2000  cost: 4.831834
Epoch 600/2000  cost: 4.585997
Epoch 700/2000  cost: 4.353075
Epoch 800/2000  cost: 4.132411
Epoch 900/2000  cost: 3.923455
Epoch 1000/2000  cost: 3.725502
Epoch 1100/2000  cost: 3.537972
Epoch 1200/2000  cost: 3.360326
Epoch 1300/2000  cost: 3.192056
Epoch 1400/2000  cost: 3.032674
Epoch 1500/2000  cost: 2.881700
Epoch 1600/2000  cost: 2.738672
Epoch 1700/2000  cost: 2.603201
Epoch 1800/2000  cost: 2.474846
Epoch 1900/2000  cost: 2.353286
Epoch 2000/2000  cost: 2.238110


In [15]:
# check variable W an b
# declare input randomly
n_var = torch.FloatTensor([[73,80,75]])

# 임의 변수를 예측한 모델에 입력하여 결과 저장 
pred_n = mod(n_var)

print(pred_n)

# parameters after train
print(list(mod.parameters()))

tensor([[153.7184]], grad_fn=<AddmmBackward0>)
[Parameter containing:
tensor([[0.8541, 0.8475, 0.3096]], requires_grad=True), Parameter containing:
tensor([0.3568], requires_grad=True)]


# Implement linear regression with class


In [16]:
# simple linear regression

torch.manual_seed(1) # seed

# declare train data
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

# model class
class LinearRegression(nn.Module):
    def __init__(self):
        super().__init__() # nn.Module 클래스의 속성들을 가지고 initialize됨
        self.linear = nn.Linear(1,1)
    
    # model이 train data를 입력받아 forward 연산을 진행시키는 함수 
    # model object를 data와 함께 호출하면 자동을 실행됨 
    def forward(self,x):
        return self.linear(x)

# generate model
mod = LinearRegression() 
# optimizer 
opti = optim.SGD(mod.parameters(), lr = 0.01)
# number of epochs 
n_epoch = 2000

for epoch in range(n_epoch+1):
    pred = mod(x_train)
    cost = F.mse_loss(pred, y_train)

    # improve H(x) to cost
    opt.zero_grad()
    cost.backward()
    opt.step()
    
    if epoch % 100==0:
        print(f'Epoch {epoch}/{n_epoch}  cost: {cost.item():.6f}')



Epoch 0/2000  cost: 13.103541
Epoch 100/2000  cost: 13.103541
Epoch 200/2000  cost: 13.103541
Epoch 300/2000  cost: 13.103541
Epoch 400/2000  cost: 13.103541
Epoch 500/2000  cost: 13.103541
Epoch 600/2000  cost: 13.103541
Epoch 700/2000  cost: 13.103541
Epoch 800/2000  cost: 13.103541
Epoch 900/2000  cost: 13.103541
Epoch 1000/2000  cost: 13.103541
Epoch 1100/2000  cost: 13.103541
Epoch 1200/2000  cost: 13.103541
Epoch 1300/2000  cost: 13.103541
Epoch 1400/2000  cost: 13.103541
Epoch 1500/2000  cost: 13.103541
Epoch 1600/2000  cost: 13.103541
Epoch 1700/2000  cost: 13.103541
Epoch 1800/2000  cost: 13.103541
Epoch 1900/2000  cost: 13.103541
Epoch 2000/2000  cost: 13.103541


In [17]:
# multivariable regression model

torch.manual_seed(1) # seed 

# data
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])


# model class
class MultivariableRegression(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3,1)
        
    def forward(self, x):
        return self.linear(x)

# generate model
mod = MultivariableRegression()

# optimizer
opt = optim.SGD(mod.parameters(), lr = 1e-5)

# number of epochs 
n_epoch = 2000

for epoch in range(n_epoch+1):
    pred = mod(x_train)
    cost = F.mse_loss(pred, y_train)
    
    opt.zero_grad()
    cost.backward()
    opt.step()
    
    if epoch % 100==0:
        print(f'Epoch {epoch}/{n_epoch}  cost: {cost.item():.6f}')

Epoch 0/2000  cost: 31667.599609
Epoch 100/2000  cost: 0.225993
Epoch 200/2000  cost: 0.223911
Epoch 300/2000  cost: 0.221941
Epoch 400/2000  cost: 0.220059
Epoch 500/2000  cost: 0.218271
Epoch 600/2000  cost: 0.216575
Epoch 700/2000  cost: 0.214950
Epoch 800/2000  cost: 0.213413
Epoch 900/2000  cost: 0.211952
Epoch 1000/2000  cost: 0.210559
Epoch 1100/2000  cost: 0.209230
Epoch 1200/2000  cost: 0.207967
Epoch 1300/2000  cost: 0.206762
Epoch 1400/2000  cost: 0.205618
Epoch 1500/2000  cost: 0.204529
Epoch 1600/2000  cost: 0.203481
Epoch 1700/2000  cost: 0.202486
Epoch 1800/2000  cost: 0.201539
Epoch 1900/2000  cost: 0.200634
Epoch 2000/2000  cost: 0.199770


# Mini Batch and Data Load
+ 수십만개 이상의 전체 data에 대해 gradient descent를 수행하기엔 시간이 많이 걸림 
+ 전체 data를 더 작은 단위로 나눠서 해당 단위로 학습하는 것이 더 효율적이므로 mini batch 개념이 등장함
    + mini batch 학습을 하게 되면 해당 batch만큼 cost를 계산하고 gradient discent를 수행함
    + 그리고 다음 해당 batch를 가져가서 gradient discent를 수행하고 마지막 batch까지 iteration
    + 이러한 방법으로 전체 data에 대한 학습이 끝나면 epoch 1회가 끝남
+ batch size는 CPU와 GPU의 memory가 2의 배수이므로 데이터 송수신의 효율을 위해 주로 2의 제곱수를 사용함 
<br> <br>  
+ Batch gradient discent: 전체 data에 대해 한 번에 gradient discent를 수행함
    + 전체 data를 사용하므로 weight 값이 optimum value에 수렴하는 과정이 매우 안정적 
    + 너무 많은 계산량
+ Mini batch gradient discent: mini batch 단위로 gradient discent를 수행함
    + 훈련 속도가 빠름 
    + 단, 전체 data 중 일부만 보고 수행하여 optimum value로 수렴하는 과정에 헤멤 

## Iteration 
+ if given data size: 2000 and set to batch size: 200 -> number of iterations is 10 (data size/batch size)
    + i.e. 10 updates parameters for each epoch

## Data load
+ pytorch에서 data를 쉽게 다루기 위해 dataset과 data loader를 제공함
    + 즉, mini batch 학습, data shuffle, parallel processing까지 간단히 처리 가능함
    + 기본적인 사용 방법은 dataset을 define하고 이를 data loader에 전달하는 것임 

In [18]:
from doctest import script_from_examples
from torch.utils.data import TensorDataset # tesor dataset
from torch.utils.data import DataLoader  # data loader
torch.manual_seed(1)

# data 
x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  90], 
                               [96,  98,  100],   
                               [73,  66,  70]])  

# print(x_train.size())
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])
# print(y_train.size())

# use input to TensorDataset and save to dataset
ds = TensorDataset(x_train, y_train)

# data loader
'''
- data loader는 기본적으로 2개의 인자를 받음
    - dataset, batch size
    - batch size는 통상적으로 2의 배수 사용
    - shuffle을 true로 하면 각 epoch마다 dataset을 섞어 data가 학습되는 순서를 바꿈
'''
# dl의 길이(number of iterations)가 3인 이유
dl = DataLoader(ds, batch_size=2, shuffle=False)
# print(list(dl))

# model 
mod = nn.Linear(3,1)
# optimizer
opt = optim.SGD(mod.parameters(), lr=1e-5)
# number of epochs
n_ep = 20

for epoch in range(n_ep+1):
    for batch_idx, samples in enumerate(dl):
        x_train, y_train = samples
        pred = mod(x_train)
        cost = F.mse_loss(pred, y_train)
        
        opt.zero_grad()
        cost.backward()
        opt.step()
        
        print(f'Epoch {epoch:4d}/{n_ep} Batch {batch_idx+1}/{len(dl)} cost: {cost.item():.6f}')    # batch에서 왜 3이 나왔을까?
        
        '''
        - dl의 길이(number of iterations)가 3인 이유
            - batch size는 2이고 x train은 (5,3), y train은 (5,1)이므로 데이터의 크기는 5 
            - data size / batch size = 2.5이지만 2.5번 반복으론 전체 data를 순회할 수 없으므로 3번 반복함
        '''

Epoch    0/20 Batch 1/3 cost: 30638.056641
Epoch    0/20 Batch 2/3 cost: 12562.412109
Epoch    0/20 Batch 3/3 cost: 1531.081421
Epoch    1/20 Batch 1/3 cost: 1155.684326
Epoch    1/20 Batch 2/3 cost: 442.472046
Epoch    1/20 Batch 3/3 cost: 56.349838
Epoch    2/20 Batch 1/3 cost: 48.919380
Epoch    2/20 Batch 2/3 cost: 12.958294
Epoch    2/20 Batch 3/3 cost: 2.104483
Epoch    3/20 Batch 1/3 cost: 3.452895
Epoch    3/20 Batch 2/3 cost: 0.078747
Epoch    3/20 Batch 3/3 cost: 0.084672
Epoch    4/20 Batch 1/3 cost: 0.851869
Epoch    4/20 Batch 2/3 cost: 0.156786
Epoch    4/20 Batch 3/3 cost: 0.004761
Epoch    5/20 Batch 1/3 cost: 0.577582
Epoch    5/20 Batch 2/3 cost: 0.265107
Epoch    5/20 Batch 3/3 cost: 0.000706
Epoch    6/20 Batch 1/3 cost: 0.533139
Epoch    6/20 Batch 2/3 cost: 0.289340
Epoch    6/20 Batch 3/3 cost: 0.000344
Epoch    7/20 Batch 1/3 cost: 0.524804
Epoch    7/20 Batch 2/3 cost: 0.294127
Epoch    7/20 Batch 3/3 cost: 0.000292
Epoch    8/20 Batch 1/3 cost: 0.523086
Epoch 

# Custom Dataset
+ torch.utils.data.Dataset을 상속받아 직접 custom dataset을 만드는 경우가 있음 
    + torch.utils.data.Dataset은 pytorch에서 dataset을 제공하는 abstractive class
+ dataset을 상속받아 다음 method들을 override 하여 custom dataset을 만들 수 있다.

__key-terminal__
+ override: 상위 class에서 정의된 variable과 method의 내용을 하위 클래스에서 변경하여 재정의하는 것
    + method의 이름, parameter의 갯수나 type이 동일해야 함
    + 주로 상위 class의 동작을 상속받은 하위 class에서 변경하기 위해 사용됨
    + 상속 관계에서 만 가능  
+ overloading: 하나의 class 내 또는 상속 관계에 있는 class 간에 같은 이름을 갖는 method가 다른 작업을 할 수 있는 것
    + method의 이름은 같고 parameter의 갯수나 type이 다른 함수를 정의하는 것
    + 동일 클래스 내 또는 상속 관계 둘 다 가능

In [19]:
# import module
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

# simple linear regression with custom dataset
class CustomDataset(Dataset):
    # part of preprocessing dataset
    def __init__(self):
        self.x_data = [[73, 80, 75],
                   [93, 88, 93],
                   [89, 91, 90],
                   [96, 98, 100],
                   [73, 66, 70]]
        self.y_data = [[152], [185], [180], [196], [142]]
        
    # return the number of overall data
    # 총 sample의 수를 적어주는 부분
    def __len__(self):
        return len(self.x_data)
        
    # index를 입력받아 mapping되는 입출력의 data를 tensor 형태로 return
    # dataset에서 특정 1개의 sample을 가져오는 함수
    def __getitem__(self, idx):
        x = torch.FloatTensor(self.x_data[idx])
        y = torch.FloatTensor(self.y_data[idx])
        return x,y

In [20]:
ds = CustomDataset()
dl = DataLoader(ds, batch_size=2, shuffle=True)

mod = nn.Linear(3,1)
opt = optim.SGD(mod.parameters(), lr=1e-5)

n_epoch = 20 

for epoch in range(n_epoch+1):
    for batch_idx, samples in enumerate(dl):
        x_train, y_train = samples
        pred = mod(x_train)
        cost = F.mse_loss(pred, y_train)
        
        opt.zero_grad()
        cost.backward()
        opt.step()
        
        print(f'Epoch {epoch:4d}/{n_ep} Batch {batch_idx+1}/{len(dl)} cost: {cost.item():.6f}')
        

Epoch    0/20 Batch 1/3 cost: 44327.171875
Epoch    0/20 Batch 2/3 cost: 10033.855469
Epoch    0/20 Batch 3/3 cost: 2258.893311
Epoch    1/20 Batch 1/3 cost: 1216.072144
Epoch    1/20 Batch 2/3 cost: 557.448486
Epoch    1/20 Batch 3/3 cost: 262.458679
Epoch    2/20 Batch 1/3 cost: 39.818665
Epoch    2/20 Batch 2/3 cost: 15.440739
Epoch    2/20 Batch 3/3 cost: 2.757791
Epoch    3/20 Batch 1/3 cost: 12.319376
Epoch    3/20 Batch 2/3 cost: 2.018374
Epoch    3/20 Batch 3/3 cost: 15.770846
Epoch    4/20 Batch 1/3 cost: 4.162767
Epoch    4/20 Batch 2/3 cost: 6.820552
Epoch    4/20 Batch 3/3 cost: 16.022591
Epoch    5/20 Batch 1/3 cost: 7.107206
Epoch    5/20 Batch 2/3 cost: 4.565801
Epoch    5/20 Batch 3/3 cost: 15.153234
Epoch    6/20 Batch 1/3 cost: 4.444887
Epoch    6/20 Batch 2/3 cost: 6.947250
Epoch    6/20 Batch 3/3 cost: 10.440168
Epoch    7/20 Batch 1/3 cost: 2.658041
Epoch    7/20 Batch 2/3 cost: 17.536879
Epoch    7/20 Batch 3/3 cost: 4.148447
Epoch    8/20 Batch 1/3 cost: 8.140711