# Linear Regression

해당 repository 및 code들은 wikidocs에서 제공하는 'Pytorch로 시작하는 딥 러닝 입문'을 참고하였음을 밝힙니다. 해당 자료를 바탕으로 숙지한 개념과 추가적인 저의 생각을 기록할 계획입니다. 출처는 다음 사이트와 같습니다.<br><br>
* https://wikidocs.net/book/2788

# 01. 선형 회귀(Linear Regression)

비용 함수(cost function) = 손실 함수(loss function) = 오차 함수(error function) = 목적 함수(objective function)

### 1. 기본 셋팅

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [None]:
# 현재 실습하고 있는 파이썬 코드를 재실행해도 다음에도 같은 결과가 나오도록 랜덤 시드(random seed)를 줍니다.

torch.manual_seed(1)

<torch._C.Generator at 0x7fc974738df0>

### 2. 변수 선언

In [None]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

In [None]:
print(x_train)
print(x_train.shape)

tensor([[1.],
        [2.],
        [3.]])
torch.Size([3, 1])


In [None]:
print(y_train)
print(y_train.shape)

tensor([[2.],
        [4.],
        [6.]])
torch.Size([3, 1])


### 3. 가중치와 편향의 초기화

In [None]:
# 가중치 W를 0으로 초기화하고 학습을 통해 값이 변경되는 변수임을 명시함
W = torch.zeros(1, requires_grad=True)
# 가중치 W를 출력
print(W)

tensor([0.], requires_grad=True)


텐서에는 requries_grad라는 속성이 있습니다. 이것을 True로 설정하면 자동 미분 기능이 적용됩니다. requires_grad=True가 적용된 텐서에서 연산을 하면, 계산 그래프가 생성되며 backward 함수를 호출하면 그래프로부터 자동으로 미분이 계산됩니다.

In [None]:
b = torch.zeros(1, requires_grad=True)
print(b)

tensor([0.], requires_grad=True)


### 4. 가설 세우기

In [None]:
hypothesis = x_train * W + b
print(hypothesis)

tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)


### 5. 비용 함수 선언하기

In [None]:
# 앞서 배운 torch.mean으로 평균을 구한다.
cost = torch.mean((hypothesis - y_train)**2)
print(cost)

tensor(18.6667, grad_fn=<MeanBackward0>)


### 6. 경사 하강법 구현하기

In [None]:
optimizer = optim.SGD([W, b], lr=0.01)

In [None]:
# gradient를 0으로 초기화
optimizer.zero_grad()
# 비용 함수를 미분하여 gradient 계산
cost.backward()
# W와 b를 업데이트
optimizer.step()

### 7. 전체 코드

In [None]:
# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

# 모델 초기화
W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

# optimizer 설정
optimizer = optim.SGD([W, b], lr=0.01)

nb_epochs = 2000 # 원하는만큼 경사 하강법을 반복
for epoch in range(nb_epochs+1):

    # H(x) 계산
    hypothesis = x_train * W + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train)**2)

    # cost로 H(x) 계산
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 100번마다 로그 출력
    # W와 b tensor의 원소값 확인 방법: W.item(), b.item()
    # cost 확인 방법: cost.item()
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(epoch, nb_epochs, W.item(), b.item(), cost.item()))

Epoch    0/2000 W: 0.187, b: 0.080 Cost: 18.666666
Epoch  100/2000 W: 1.746, b: 0.578 Cost: 0.048171
Epoch  200/2000 W: 1.800, b: 0.454 Cost: 0.029767
Epoch  300/2000 W: 1.843, b: 0.357 Cost: 0.018394
Epoch  400/2000 W: 1.876, b: 0.281 Cost: 0.011366
Epoch  500/2000 W: 1.903, b: 0.221 Cost: 0.007024
Epoch  600/2000 W: 1.924, b: 0.174 Cost: 0.004340
Epoch  700/2000 W: 1.940, b: 0.136 Cost: 0.002682
Epoch  800/2000 W: 1.953, b: 0.107 Cost: 0.001657
Epoch  900/2000 W: 1.963, b: 0.084 Cost: 0.001024
Epoch 1000/2000 W: 1.971, b: 0.066 Cost: 0.000633
Epoch 1100/2000 W: 1.977, b: 0.052 Cost: 0.000391
Epoch 1200/2000 W: 1.982, b: 0.041 Cost: 0.000242
Epoch 1300/2000 W: 1.986, b: 0.032 Cost: 0.000149
Epoch 1400/2000 W: 1.989, b: 0.025 Cost: 0.000092
Epoch 1500/2000 W: 1.991, b: 0.020 Cost: 0.000057
Epoch 1600/2000 W: 1.993, b: 0.016 Cost: 0.000035
Epoch 1700/2000 W: 1.995, b: 0.012 Cost: 0.000022
Epoch 1800/2000 W: 1.996, b: 0.010 Cost: 0.000013
Epoch 1900/2000 W: 1.997, b: 0.008 Cost: 0.000008

### optimizer.zero_grad()가 필요한 이유

파이토치는 미분을 통해 얻은 기울기를 이전에 계산된 기울기값에 누적시키는 특징이 있습니다.

In [None]:
import torch
W = torch.tensor(2.0, requires_grad=True)

nb_epochs = 20
for epoch in range(nb_epochs+1):

    Z = 2*W
    
    # optimizer.zero_grad()
    Z.backward()
    print('수식을 w로 미분한 값: {}'.format(W.grad))

수식을 w로 미분한 값: 2.0
수식을 w로 미분한 값: 4.0
수식을 w로 미분한 값: 6.0
수식을 w로 미분한 값: 8.0
수식을 w로 미분한 값: 10.0
수식을 w로 미분한 값: 12.0
수식을 w로 미분한 값: 14.0
수식을 w로 미분한 값: 16.0
수식을 w로 미분한 값: 18.0
수식을 w로 미분한 값: 20.0
수식을 w로 미분한 값: 22.0
수식을 w로 미분한 값: 24.0
수식을 w로 미분한 값: 26.0
수식을 w로 미분한 값: 28.0
수식을 w로 미분한 값: 30.0
수식을 w로 미분한 값: 32.0
수식을 w로 미분한 값: 34.0
수식을 w로 미분한 값: 36.0
수식을 w로 미분한 값: 38.0
수식을 w로 미분한 값: 40.0
수식을 w로 미분한 값: 42.0


### torch.manual_seed()를 하는 이유

torch.manual_seed()를 사용한 프로그램의 결과는 다른 컴퓨터에서 실행시켜도 동일한 결과를 얻을 수 있습니다. 그 이유는 torch.manual_seed()는 난수 발생 순서와 값을 동일하게 보장해준다는 특징때문입니다.

In [None]:
import torch

In [None]:
torch.manual_seed(3)
print('랜덤 시드가 3일 때')
for i in range(1,3):
    print(torch.rand(1))

랜덤 시드가 3일 때
tensor([0.0043])
tensor([0.1056])


In [None]:
torch.manual_seed(5)
print('랜덤 시드가 5일 때')
for i in range(1,3):
  print(torch.rand(1))

랜덤 시드가 5일 때
tensor([0.8303])
tensor([0.1261])


In [None]:
torch.manual_seed(3)
print('랜덤 시드가 다시 3일 때')
for i in range(1,3):
  print(torch.rand(1))

랜덤 시드가 다시 3일 때
tensor([0.0043])
tensor([0.1056])


# 02. 자동 미분(Autograd)

In [None]:
import torch

In [None]:
# requires_grad=True: 이 텐서에 대한 기울기를 저장하겠다는 의미, w.grad에 w에 대한 미분값이 저장

W = torch.tensor(2.0, requires_grad=True)

In [None]:
y = W**2
z = 2*y + 5

In [None]:
# 해당 수식의 w에 대한 기울기 계산

z.backward()

In [None]:
print('수식을 w로 미분한 값: {}'.format(W.grad))

수식을 w로 미분한 값: 8.0


# 03. 다중 선형 회귀(Multivariable Linear Regression)

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [None]:
torch.manual_seed(1)

<torch._C.Generator at 0x7fc974738df0>

In [None]:
# 훈련 데이터
x1_train = torch.FloatTensor([[73], [93], [89], [96], [73]])
x2_train = torch.FloatTensor([[80], [88], [91], [98], [66]])
x3_train = torch.FloatTensor([[75], [93], [90], [100], [70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

In [None]:
# 가중치 w와 편향 b 초기화
w1 = torch.zeros(1, requires_grad=True)
w2 = torch.zeros(1, requires_grad=True)
w3 = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

In [None]:
# optimizer 설정
optimizer = optim.SGD([w1, w2, w3, b], lr=1e-5)

nb_epochs = 1000
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    hypothesis = x1_train * w1 + x2_train * w2 + x3_train * w3 + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 100번마다 로그 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} w1: {:.3f} w2: {:.3f} w3: {:.3f} b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, w1.item(), w2.item(), w3.item(), b.item(), cost.item()
        ))

Epoch    0/1000 w1: 0.294 w2: 0.294 w3: 0.297 b: 0.003 Cost: 29661.800781
Epoch  100/1000 w1: 0.674 w2: 0.661 w3: 0.676 b: 0.008 Cost: 1.563628
Epoch  200/1000 w1: 0.679 w2: 0.655 w3: 0.677 b: 0.008 Cost: 1.497595
Epoch  300/1000 w1: 0.684 w2: 0.649 w3: 0.677 b: 0.008 Cost: 1.435044
Epoch  400/1000 w1: 0.689 w2: 0.643 w3: 0.678 b: 0.008 Cost: 1.375726
Epoch  500/1000 w1: 0.694 w2: 0.638 w3: 0.678 b: 0.009 Cost: 1.319497
Epoch  600/1000 w1: 0.699 w2: 0.633 w3: 0.679 b: 0.009 Cost: 1.266215
Epoch  700/1000 w1: 0.704 w2: 0.627 w3: 0.679 b: 0.009 Cost: 1.215703
Epoch  800/1000 w1: 0.709 w2: 0.622 w3: 0.679 b: 0.009 Cost: 1.167810
Epoch  900/1000 w1: 0.713 w2: 0.617 w3: 0.680 b: 0.009 Cost: 1.122429
Epoch 1000/1000 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.009 Cost: 1.079390


### 행렬 연산을 고려하여 파이토치로 구현하기

In [None]:
x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  90], 
                               [96,  98,  100],   
                               [73,  66,  70]])
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

In [None]:
print(x_train.shape)
print(y_train.shape)

torch.Size([5, 3])
torch.Size([5, 1])


In [None]:
# 가중치와 편향 선언
W = torch.zeros((3, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)

In [None]:
hypothesis = x_train.matmul(W) + b

In [None]:
# The full code

x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  90], 
                               [96,  98,  100],   
                               [73,  66,  70]])  
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

# 모델 초기화
W = torch.zeros((3, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)      # broadcasting
# optimizer 설정
optimizer = optim.SGD([W, b], lr=1e-5)

nb_epochs = 20
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    # 편향 b는 브로드 캐스팅되어 각 샘플에 더해집니다.
    hypothesis = x_train.matmul(W) + b      # (5,1) = (5,3) * (3,1) + (1,1)

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 100번마다 로그 출력
    print('Epoch {:4d}/{} hypothesis: {} Cost: {:.6f}'.format(
        epoch, nb_epochs, hypothesis.squeeze().detach(), cost.item()
    ))

Epoch    0/20 hypothesis: tensor([0., 0., 0., 0., 0.]) Cost: 29661.800781
Epoch    1/20 hypothesis: tensor([67.2578, 80.8397, 79.6523, 86.7394, 61.6605]) Cost: 9298.520508
Epoch    2/20 hypothesis: tensor([104.9128, 126.0990, 124.2466, 135.3015,  96.1821]) Cost: 2915.712402
Epoch    3/20 hypothesis: tensor([125.9942, 151.4381, 149.2133, 162.4896, 115.5097]) Cost: 915.040527
Epoch    4/20 hypothesis: tensor([137.7967, 165.6247, 163.1911, 177.7112, 126.3307]) Cost: 287.936096
Epoch    5/20 hypothesis: tensor([144.4044, 173.5674, 171.0168, 186.2332, 132.3891]) Cost: 91.371071
Epoch    6/20 hypothesis: tensor([148.1035, 178.0143, 175.3980, 191.0042, 135.7812]) Cost: 29.758249
Epoch    7/20 hypothesis: tensor([150.1744, 180.5042, 177.8509, 193.6753, 137.6805]) Cost: 10.445267
Epoch    8/20 hypothesis: tensor([151.3336, 181.8983, 179.2240, 195.1707, 138.7440]) Cost: 4.391237
Epoch    9/20 hypothesis: tensor([151.9824, 182.6789, 179.9928, 196.0079, 139.3396]) Cost: 2.493121
Epoch   10/20 hypo

위와 같은 행렬 연산을 기반으로 하는 구현은 행렬의 shape을 중요하게 생각해야 한다. 위 예시를 기반으로 설명하겠다. 최종적으로 생각해야 할 부분을 먼저 언급하자면, 행렬 연산의 결과인 hypothesis의 shape이 적절하게 구성되었는지를 봐야 한다. 이 문제는 3개의 column을 가진 데이터를 바탕으로 1개의 값을 예측하는 것을 목표로 한다. 또한 그 데이터의 row는 5개, 즉 데이터의 갯수는 5개이다. 즉, hypothesis는 (5,1)의 shape을 가져야 한다는 것을 의미한다. 이를 바탕으로 W와 b의 shape을 생각해본다면 다음과 같다.<br>
<br>
hypothesis = x_train.matmul(W) + b<br>
(5,1) = (5,3) * (3,1) + (1,1)<br>
<br>
이 때 b는 broadcasting을 통해 연산이 수행되기 때문에 (1,1)의 행렬이 (5,1)의 행렬과 같은 연산을 수행한다.

# 04. nn.Module로 구현하는 선형 회귀

~~~python
import torch.nn as nn
model = nn.Linear(input_dim, output_dim)

import torch.nn.functional as F
cost = F.mse_loss(prediction, y_train)
~~~

### 1. 단순 선형 회귀 구현하기

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [None]:
torch.manual_seed(1)

<torch._C.Generator at 0x7f08ab64d1b0>

In [None]:
# 데이터: y=2x를 가정된 상태에서 만들어진 데이터
# 목표: W=2, b=0의 값을 제대로 찾아내도록 하는 것

x_train = torch.FloatTensor([[1],[2],[3]])
y_train = torch.FloatTensor([[2],[4],[6]])

In [None]:
# 모델을 선언 및 초기화. 단순 선형 회귀이므로 input_dim=1, output_dim=1.
model = nn.Linear(1,1)

model에는 가중치 W와 편향 b가 저장되어져 있습니다. 이 값은 model.parameters()라는 함수를 사용하여 불러올 수 있는데, 한 번 출력해보겠습니다.

In [None]:
# type을 list로 변경하여 출력
print(list(model.parameters()))

[Parameter containing:
tensor([[0.5153]], requires_grad=True), Parameter containing:
tensor([-0.4414], requires_grad=True)]


In [None]:
print(model.parameters())

<generator object Module.parameters at 0x7f08aac77c50>


2개의 값이 출력되는데 첫번째 값이 W고, 두번째 값이 b에 해당됩니다. 두 값 모두 현재는 랜덤 초기화가 되어져 있습니다. 그리고 두 값 모두 학습의 대상이므로 requires_grad=True가 되어져 있는 것을 볼 수 있습니다.

In [None]:
# optimizer 설정. 경사 하강법 SGD를 사용하고 learing rate를 의미하는 lr은 0.01
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

In [None]:
# 전체 훈련 데이터에 대해 경사 하강법을 2,000회 반복
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train)  # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward() # backward 연산
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
        print('Epoch {:4d}/{} Cost: {:.6f}'.format(
            epoch, nb_epochs, cost.item()
        ))

Epoch    0/2000 Cost: 13.103541
Epoch  100/2000 Cost: 0.002791
Epoch  200/2000 Cost: 0.001724
Epoch  300/2000 Cost: 0.001066
Epoch  400/2000 Cost: 0.000658
Epoch  500/2000 Cost: 0.000407
Epoch  600/2000 Cost: 0.000251
Epoch  700/2000 Cost: 0.000155
Epoch  800/2000 Cost: 0.000096
Epoch  900/2000 Cost: 0.000059
Epoch 1000/2000 Cost: 0.000037
Epoch 1100/2000 Cost: 0.000023
Epoch 1200/2000 Cost: 0.000014
Epoch 1300/2000 Cost: 0.000009
Epoch 1400/2000 Cost: 0.000005
Epoch 1500/2000 Cost: 0.000003
Epoch 1600/2000 Cost: 0.000002
Epoch 1700/2000 Cost: 0.000001
Epoch 1800/2000 Cost: 0.000001
Epoch 1900/2000 Cost: 0.000000
Epoch 2000/2000 Cost: 0.000000


In [None]:
# 임의의 입력 4를 선언
new_var = torch.FloatTensor([[4.0]])
# 입력한 값 4에 대해서 예측값 y를 리턴받아서 pred_y에 저장
pred_y = model(new_var) # forward 연산
# y = 2x 이므로 입력이 4라면 y가 8에 가까운 값이 나와야 제대로 학습이 된 것
print('훈련 후 입력이 4일 때의 예측값 :', pred_y)

훈련 후 입력이 4일 때의 예측값 : tensor([[7.9989]], grad_fn=<AddmmBackward>)


In [None]:
print(list(model.parameters()))

[Parameter containing:
tensor([[1.9994]], requires_grad=True), Parameter containing:
tensor([0.0014], requires_grad=True)]


* H(x) 식에 입력 x로부터 예측된 y를 얻는 것을 forward 연산이라고 합니다.
* 학습 전, prediction = model(x_train)은 x_train으로부터 예측값을 리턴하므로 forward 연산입니다.
* 학습 후, pred_y = model(new_var)는 임의의 값 new_var로부터 예측값을 리턴하므로 forward 연산입니다.
* 학습 과정에서 비용 함수를 미분하여 기울기를 구하는 것을 barward 연산이라고 합니다.
* cost.backward()는 비용 함수로부터 기울기를 구하라는 의미이며 backward 연산입니다.

### 2. 다중 선형 회귀 구현하기

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [None]:
torch.manual_seed(1)

<torch._C.Generator at 0x7f08ab64d1b0>

In [None]:
# 3개의 x로부터 하나의 y를 예측하는 문제
# H(x) = w1x1 + w2x2 + w3x3 + b

# 데이터
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

In [None]:
# 모델을 선언 및 초기화. 다중 선형 회귀이므로 input_dim=3, output_dim=1.
model = nn.Linear(3,1)

In [None]:
print(list(model.parameters()))

[Parameter containing:
tensor([[ 0.2975, -0.2548, -0.1119]], requires_grad=True), Parameter containing:
tensor([0.2710], requires_grad=True)]


In [None]:
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

In [None]:
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)
    # model(x_train)은 model.forward(x_train)와 동일함.

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward()
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

Epoch    0/2000 Cost: 31667.597656
Epoch  100/2000 Cost: 0.225988
Epoch  200/2000 Cost: 0.223910
Epoch  300/2000 Cost: 0.221930
Epoch  400/2000 Cost: 0.220059
Epoch  500/2000 Cost: 0.218271
Epoch  600/2000 Cost: 0.216572
Epoch  700/2000 Cost: 0.214955
Epoch  800/2000 Cost: 0.213415
Epoch  900/2000 Cost: 0.211952
Epoch 1000/2000 Cost: 0.210554
Epoch 1100/2000 Cost: 0.209230
Epoch 1200/2000 Cost: 0.207966
Epoch 1300/2000 Cost: 0.206768
Epoch 1400/2000 Cost: 0.205618
Epoch 1500/2000 Cost: 0.204526
Epoch 1600/2000 Cost: 0.203479
Epoch 1700/2000 Cost: 0.202486
Epoch 1800/2000 Cost: 0.201539
Epoch 1900/2000 Cost: 0.200637
Epoch 2000/2000 Cost: 0.199769


In [None]:
# 임의의 입력 [73, 80, 75]를 선언
new_var =  torch.FloatTensor([[73, 80, 75]]) 
# 입력한 값 [73, 80, 75]에 대해서 예측값 y를 리턴받아서 pred_y에 저장
pred_y = model(new_var) 
print("훈련 후 입력이 73, 80, 75일 때의 예측값 :", pred_y) 

훈련 후 입력이 73, 80, 75일 때의 예측값 : tensor([[151.2305]], grad_fn=<AddmmBackward>)


In [None]:
print(list(model.parameters()))

[Parameter containing:
tensor([[0.9778, 0.4539, 0.5768]], requires_grad=True), Parameter containing:
tensor([0.2802], requires_grad=True)]


In [None]:
# 발산하는 경우

# 모델을 선언 및 초기화.
model = nn.Linear(3,1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)

In [None]:
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)
    # model(x_train)은 model.forward(x_train)와 동일함.

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward()
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

Epoch    0/2000 Cost: 39633.414062
Epoch  100/2000 Cost: nan
Epoch  200/2000 Cost: nan
Epoch  300/2000 Cost: nan
Epoch  400/2000 Cost: nan
Epoch  500/2000 Cost: nan
Epoch  600/2000 Cost: nan
Epoch  700/2000 Cost: nan
Epoch  800/2000 Cost: nan
Epoch  900/2000 Cost: nan
Epoch 1000/2000 Cost: nan
Epoch 1100/2000 Cost: nan
Epoch 1200/2000 Cost: nan
Epoch 1300/2000 Cost: nan
Epoch 1400/2000 Cost: nan
Epoch 1500/2000 Cost: nan
Epoch 1600/2000 Cost: nan
Epoch 1700/2000 Cost: nan
Epoch 1800/2000 Cost: nan
Epoch 1900/2000 Cost: nan
Epoch 2000/2000 Cost: nan


# 05. 클래스로 파이토치 모델 구현하기

파이토치로 구현한 대부분의 코드들을 보면 모델을 생성할 때 클래스(Class)를 사용한다. 이러한 방법이 파이토치의 장점과도 연결되기도 한다. 따라서 클래스로 파이토치 모델을 구현하는 과정을 눈여겨볼 필요가 있다.

### 1. 모델을 클래스로 구현하기

~~~python
# 모델을 선언 및 초기화. 단순 선형 회귀이므로 input_dim=1, output_dim=1.
model = nn.Linear(1,1)
~~~

In [None]:
class LinearRegressionModel(nn.Module):      # torch.nn.Module을 상속받는 파이썬 클래스
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(1,1)    # 단순 선형 회귀이므로 input_dim=1, output_dim=1.

    def forward(self, x):
        return self.linear(x)

In [None]:
model = LinearRegressionModel()

클래스(class) 형태의 모델은 nn.Module을 상속받습니다. 그리고 \_\_init\_\_()에서 모델의 구조와 동적을 정의하는 생성자를 정의합니다. 이는 파이썬에서 객체가 갖는 속성값을 초기화하는 역할로, 객체가 생성될 때 자동으로 호출됩니다. super() 함수를 부르면 여기서 만든 클래스는 nn.Module 클래스의 속성들을 가지고 초기화 됩니다. forward() 함수는 모델이 학습데이터를 입력받아서 forward 연산을 진행시키는 함수입니다. 이 forward() 함수는 model 객체를 데이터와 함께 호출하면 자동으로 실행이 됩니다. 예를 들어 model이란 이름의 객체를 생성 후, model(입력 데이터)와 같은 형식으로 객체를 호출하면 자동으로 forward 연산이 수행됩니다.

~~~python
# 모델을 선언 및 초기화. 다중 선형 회귀이므로 input_dim=3, output_dim=1.
model = nn.Linear(3,1)
~~~

In [None]:
class MultivariateLinearRegressionModule(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3,1)    # 다중 선형 회귀이므로 input_dim=3, output_dim=1.

    def forward(self, x):
        return self.linear(x)

In [None]:
mdoel = MultivariateLinearRegressionModule()

### 2. 단순 선형 회귀 클래스로 구현하기

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [None]:
torch.manual_seed(1)

<torch._C.Generator at 0x7f08ab64d1b0>

In [None]:
# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

In [None]:
class LinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(1, 1)

    def forward(self, x):
        return self.linear(x)

In [None]:
model = LinearRegressionModel()

In [None]:
# optimizer 설정. 경사 하강법 SGD를 사용하고 learning rate를 의미하는 lr은 0.01
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

In [None]:
# 전체 훈련 데이터에 대해 경사 하강법을 2,000회 반복
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward() # backward 연산
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

Epoch    0/2000 Cost: 13.103541
Epoch  100/2000 Cost: 0.002791
Epoch  200/2000 Cost: 0.001724
Epoch  300/2000 Cost: 0.001066
Epoch  400/2000 Cost: 0.000658
Epoch  500/2000 Cost: 0.000407
Epoch  600/2000 Cost: 0.000251
Epoch  700/2000 Cost: 0.000155
Epoch  800/2000 Cost: 0.000096
Epoch  900/2000 Cost: 0.000059
Epoch 1000/2000 Cost: 0.000037
Epoch 1100/2000 Cost: 0.000023
Epoch 1200/2000 Cost: 0.000014
Epoch 1300/2000 Cost: 0.000009
Epoch 1400/2000 Cost: 0.000005
Epoch 1500/2000 Cost: 0.000003
Epoch 1600/2000 Cost: 0.000002
Epoch 1700/2000 Cost: 0.000001
Epoch 1800/2000 Cost: 0.000001
Epoch 1900/2000 Cost: 0.000000
Epoch 2000/2000 Cost: 0.000000


### 3. 다중 선형 회귀 클래스로 구현하기

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [None]:
torch.manual_seed(1)

<torch._C.Generator at 0x7f08ab64d1b0>

In [None]:
# 데이터
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

In [None]:
class MultivariateLinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3, 1) # 다중 선형 회귀이므로 input_dim=3, output_dim=1.

    def forward(self, x):
        return self.linear(x)

In [None]:
model = MultivariateLinearRegressionModel()

In [None]:
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 

In [None]:
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    # model(x_train)은 model.forward(x_train)와 동일함.
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward()
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

Epoch    0/2000 Cost: 31667.597656
Epoch  100/2000 Cost: 0.225988
Epoch  200/2000 Cost: 0.223910
Epoch  300/2000 Cost: 0.221930
Epoch  400/2000 Cost: 0.220059
Epoch  500/2000 Cost: 0.218271
Epoch  600/2000 Cost: 0.216572
Epoch  700/2000 Cost: 0.214955
Epoch  800/2000 Cost: 0.213415
Epoch  900/2000 Cost: 0.211952
Epoch 1000/2000 Cost: 0.210554
Epoch 1100/2000 Cost: 0.209230
Epoch 1200/2000 Cost: 0.207966
Epoch 1300/2000 Cost: 0.206768
Epoch 1400/2000 Cost: 0.205618
Epoch 1500/2000 Cost: 0.204526
Epoch 1600/2000 Cost: 0.203479
Epoch 1700/2000 Cost: 0.202486
Epoch 1800/2000 Cost: 0.201539
Epoch 1900/2000 Cost: 0.200637
Epoch 2000/2000 Cost: 0.199769


# 06. 미니 배치와 데이터 로드(Mini Batch and Data Load)

* 전체 데이터에 대해서 한 번에 경사 하강법을 수행하는 방법을 '배치 경사 하강법' 이라고 부릅니다. 반면, 미니 배치 단위로 경사 하강법을 수행하는 방법을 '미니 배치 경사 하강법' 이라고 부릅니다.
* 배치 경사 하강법은 경사 하강법을 할 때, 전체 데이터를 사용하므로 가중치 값이 최적값에 수렴하는 과정이 매우 안정적이지만, 계산량이 너무 많이 듭니다. 미니 배치 경사 하강법은 경사 하강법을 할 때, 전체 데이터의 일부만을 보고 수행하므로 최적값으로 수렴하는 과정에서 값이 조금 헤매기도 하지만 훈련 속도가 빠릅니다.
* 배치 크기는 보통 2의 제곱수를 사용합니다. ex)2,4,8,16,32,64... 그 이유는 CPU와 GPU의 메모리가 2의 배수이므로 배치크기가 2의 제곱수일 경우에 데이터 송수신의 효율을 높일 수 있다고 합니다.

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [None]:
from torch.utils.data import TensorDataset # 텐서데이터셋
from torch.utils.data import DataLoader # 데이터로더

In [None]:
x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  90], 
                               [96,  98,  100],   
                               [73,  66,  70]])  
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

파이토치에서는 데이터를 좀 더 쉽게 다룰 수 있도록 유용한 도구로써 데이터셋(Dataset)과 데이터로더(DataLoader)를 제공합니다. 이를 사용하면 미니 배치 학습, 데이터 셔플(shuffle), 병렬 처리까지 간단히 수행할 수 있습니다. 기본적인 사용 방법은 Dataset을 정의하고, 이를 DataLoader에 전달하는 것입니다.

In [None]:
dataset = TensorDataset(x_train, y_train)

In [None]:
# 미니 배치의 크기(batch_size)는 통상적으로 2의 배수를 사용합니다.
# shuffle=True를 선택하면 Epoch마다 데이터셋을 섞어서 데이터가 학습되는 순서를 바꿉니다.
# 모델이 데이터셋의 순서에 익숙해지는 것을 방지하여 학습할 때는 이 옵션을 True를 주는 것을 권장합니다.

dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

In [None]:
model = nn.Linear(3,1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 

In [None]:
nb_epochs = 20
for epoch in range(nb_epochs + 1):                          # epoch 단위
  for batch_idx, samples in enumerate(dataloader):          # batch 단위
    # print(batch_idx)
    # print(samples)
    x_train, y_train = samples
    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train)

    # cost로 H(x) 계산
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
        epoch, nb_epochs, batch_idx+1, len(dataloader),
        cost.item()
        ))

Epoch    0/20 Batch 1/3 Cost: 51817.808594
Epoch    0/20 Batch 2/3 Cost: 12653.617188
Epoch    0/20 Batch 3/3 Cost: 6224.733398
Epoch    1/20 Batch 1/3 Cost: 1230.082275
Epoch    1/20 Batch 2/3 Cost: 540.522339
Epoch    1/20 Batch 3/3 Cost: 88.642670
Epoch    2/20 Batch 1/3 Cost: 38.976562
Epoch    2/20 Batch 2/3 Cost: 16.985460
Epoch    2/20 Batch 3/3 Cost: 9.642894
Epoch    3/20 Batch 1/3 Cost: 1.608261
Epoch    3/20 Batch 2/3 Cost: 0.465206
Epoch    3/20 Batch 3/3 Cost: 0.008624
Epoch    4/20 Batch 1/3 Cost: 0.833656
Epoch    4/20 Batch 2/3 Cost: 0.469592
Epoch    4/20 Batch 3/3 Cost: 0.130757
Epoch    5/20 Batch 1/3 Cost: 0.272926
Epoch    5/20 Batch 2/3 Cost: 0.497130
Epoch    5/20 Batch 3/3 Cost: 0.037129
Epoch    6/20 Batch 1/3 Cost: 0.257865
Epoch    6/20 Batch 2/3 Cost: 0.322190
Epoch    6/20 Batch 3/3 Cost: 0.616135
Epoch    7/20 Batch 1/3 Cost: 0.729212
Epoch    7/20 Batch 2/3 Cost: 0.316328
Epoch    7/20 Batch 3/3 Cost: 0.378833
Epoch    8/20 Batch 1/3 Cost: 0.326609
Epoch 

In [None]:
# 임의의 입력 [73, 80, 75]를 선언
new_var =  torch.FloatTensor([[73, 80, 75]]) 
# 입력한 값 [73, 80, 75]에 대해서 예측값 y를 리턴받아서 pred_y에 저장
pred_y = model(new_var) 
print("훈련 후 입력이 73, 80, 75일 때의 예측값 :", pred_y) 

훈련 후 입력이 73, 80, 75일 때의 예측값 : tensor([[151.9567]], grad_fn=<AddmmBackward>)


# 07. 커스텀 데이터셋(Custom Dataset)

### 1. 커스텀 데이터셋(Custom Dataset)

~~~python
class CustomDataset(torch.utils.data.Dataset):
    def __init__(self):
    데이터셋의 전처리를 해주는 부분

    def __len__(self):
    데이터셋의 길이. 즉, 총 샘플의 수를 적어주는 부분

    def __getitem__(self, idx):
    데이터셋에서 특정 1개의 샘플을 가져오는 함수
~~~

* len(dataset)을 했을 때 데이터셋의 크기를 리턴할 len
* dataset[i]을 했을 때 i번째 샘플을 가져오도록 하는 인덱싱을 위한 get_item

### 2. 커스텀 데이터셋(Custom Dataset)으로 선형 회귀 구현하기

In [None]:
import torch
import torch.nn.functional as F

In [None]:
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

In [None]:
# Dataset 상속
class CustomDataset(Dataset): 
  def __init__(self):
    self.x_data = [[73, 80, 75],
                   [93, 88, 93],
                   [89, 91, 90],
                   [96, 98, 100],
                   [73, 66, 70]]
    self.y_data = [[152], [185], [180], [196], [142]]

  # 총 데이터의 개수를 리턴
  def __len__(self): 
    return len(self.x_data)

  # 인덱스를 입력받아 그에 맵핑되는 입출력 데이터를 파이토치의 Tensor 형태로 리턴
  def __getitem__(self, idx): 
    x = torch.FloatTensor(self.x_data[idx])
    y = torch.FloatTensor(self.y_data[idx])
    return x, y

In [None]:
dataset = CustomDataset()
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

In [None]:
model = torch.nn.Linear(3,1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 

In [None]:
nb_epochs = 20
for epoch in range(nb_epochs + 1):
  for batch_idx, samples in enumerate(dataloader):
    # print(batch_idx)
    # print(samples)
    x_train, y_train = samples
    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train)

    # cost로 H(x) 계산
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
        epoch, nb_epochs, batch_idx+1, len(dataloader),
        cost.item()
        ))

Epoch    0/20 Batch 1/3 Cost: 63661.281250
Epoch    0/20 Batch 2/3 Cost: 10067.084961
Epoch    0/20 Batch 3/3 Cost: 2716.841553
Epoch    1/20 Batch 1/3 Cost: 1348.486816
Epoch    1/20 Batch 2/3 Cost: 1097.204102
Epoch    1/20 Batch 3/3 Cost: 158.506470
Epoch    2/20 Batch 1/3 Cost: 59.605232
Epoch    2/20 Batch 2/3 Cost: 22.883549
Epoch    2/20 Batch 3/3 Cost: 0.894626
Epoch    3/20 Batch 1/3 Cost: 12.151095
Epoch    3/20 Batch 2/3 Cost: 0.560245
Epoch    3/20 Batch 3/3 Cost: 1.468366
Epoch    4/20 Batch 1/3 Cost: 4.421027
Epoch    4/20 Batch 2/3 Cost: 2.371263
Epoch    4/20 Batch 3/3 Cost: 2.859255
Epoch    5/20 Batch 1/3 Cost: 2.935665
Epoch    5/20 Batch 2/3 Cost: 3.300919
Epoch    5/20 Batch 3/3 Cost: 1.740164
Epoch    6/20 Batch 1/3 Cost: 0.247510
Epoch    6/20 Batch 2/3 Cost: 6.430074
Epoch    6/20 Batch 3/3 Cost: 3.996827
Epoch    7/20 Batch 1/3 Cost: 3.309131
Epoch    7/20 Batch 2/3 Cost: 2.880211
Epoch    7/20 Batch 3/3 Cost: 0.233025
Epoch    8/20 Batch 1/3 Cost: 1.610294
Epo

In [None]:
# 임의의 입력 [73, 80, 75]를 선언
new_var =  torch.FloatTensor([[73, 80, 75]]) 
# 입력한 값 [73, 80, 75]에 대해서 예측값 y를 리턴받아서 pred_y에 저장
pred_y = model(new_var) 
print("훈련 후 입력이 73, 80, 75일 때의 예측값 :", pred_y) 

훈련 후 입력이 73, 80, 75일 때의 예측값 : tensor([[153.9687]], grad_fn=<AddmmBackward>)


~~~python
import torch
import torch.nn.functional as F

from torch.utils.data import Dataset
from torch.utils.data import DataLoader

# Dataset 상속
class CustomDataset(Dataset): 
  def __init__(self):
    self.x_data = [[73, 80, 75],
                   [93, 88, 93],
                   [89, 91, 90],
                   [96, 98, 100],
                   [73, 66, 70]]
    self.y_data = [[152], [185], [180], [196], [142]]

  # 총 데이터의 개수를 리턴
  def __len__(self): 
    return len(self.x_data)

  # 인덱스를 입력받아 그에 맵핑되는 입출력 데이터를 파이토치의 Tensor 형태로 리턴
  def __getitem__(self, idx): 
    x = torch.FloatTensor(self.x_data[idx])
    y = torch.FloatTensor(self.y_data[idx])
    return x, y

dataset = CustomDataset()
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

model = torch.nn.Linear(3,1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 

nb_epochs = 20
for epoch in range(nb_epochs + 1):
  for batch_idx, samples in enumerate(dataloader):
    # print(batch_idx)
    # print(samples)
    x_train, y_train = samples
    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train)

    # cost로 H(x) 계산
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
        epoch, nb_epochs, batch_idx+1, len(dataloader),
        cost.item()
        ))
~~~

Keras로 구현된 github repository나 Kaggle을 보면서 custom dataset을 바탕으로 transfer learning을 적용할 때 CustomDataset이라는 클래스를 선언한 코드들을 종종 보곤 했다. 처음에는 관행이라고 생각했는데, (물론 진짜 관행일수도 있지만) 파이토치를 공부하면서 그 이유를 짐작할 수 있었다. 파이토치의 클래스 기반 구현 방식을 차용해왔다고 생각한다. 위의 코드 또한 CustomDataset이라는 클래스를 선언하여 custom dataset을 관리한다.<br>
내가 사용해야 할 모델은 실력 좋으신 선배님들이 논문을 통해서 (지금 이 순간조차도) 꾸준히 연구하며 발표하고 있다. 현재로써 나의 역할은 발표된 모델을 내가 해결하고자 하는 문제에 적용할 수 있는 능력을 기르는 것인데, 그것을 위한 첫 번째 능력이 custom datset을 모델에 적합하게 전처리하는 능력이라고 생각한다. 따라서 해당 파트를 제대로 이해하고 응용하는 연습을 해야 할 것이다.