## 파이토치를 사용한 선형회귀, 배치경사법

### 선형회귀와 자동 미분

#### Autograd(자동미분)
- 텐서 모든 연산에 대한 자동 미분을 제공
- 실행과 동이세 정의되는 torch의 특성상, 매 순간마다 적절한 backpropagation(역전파) 제공

#### Zero grad
- 계산의 편리성을 위해 미분값을 표현하는 변수를 하나로 고정
- 해당 위치에서 미분값만 필요한 경우 초기화 필요

In [4]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [9]:
x_train = torch.FloatTensor([[1],[2],[3]])
y_train = torch.FloatTensor([[2],[4],[6]])

## 모델 선언 및 초기화. 단순 선형회귀는 input_dim=1, output_dim=1
model = nn.Linear(1, 1)

## optimizer 설정. SGD사용, lr는 0.01
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

## 전체훈련 데이터 경사하강법 2000회 반복
nb_epochs = 2_000

for epoch in range(nb_epochs + 1):
    # H(x) 계산
    predict = model(x_train)
    # cost 계산
    cost = F.mse_loss(predict, y_train)

    optimizer.zero_grad() ## gradient를 0으로 초기화
    cost.backward() ## backward 연산
    optimizer.step()  ## W와 b를 업데이트

    if epoch % 50 == 0:
        # 50번 마다 로그출력
        print(f'Epoch {epoch:4d}/{nb_epochs} Cost: {cost.item():.6f}')

print(f'w: {model.weight.data}, b: {model.bias.data}')

Epoch    0/2000 Cost: 9.845132
Epoch   50/2000 Cost: 0.005536
Epoch  100/2000 Cost: 0.004291
Epoch  150/2000 Cost: 0.003373
Epoch  200/2000 Cost: 0.002652
Epoch  250/2000 Cost: 0.002084
Epoch  300/2000 Cost: 0.001638
Epoch  350/2000 Cost: 0.001288
Epoch  400/2000 Cost: 0.001012
Epoch  450/2000 Cost: 0.000796
Epoch  500/2000 Cost: 0.000626
Epoch  550/2000 Cost: 0.000492
Epoch  600/2000 Cost: 0.000387
Epoch  650/2000 Cost: 0.000304
Epoch  700/2000 Cost: 0.000239
Epoch  750/2000 Cost: 0.000188
Epoch  800/2000 Cost: 0.000148
Epoch  850/2000 Cost: 0.000116
Epoch  900/2000 Cost: 0.000091
Epoch  950/2000 Cost: 0.000072
Epoch 1000/2000 Cost: 0.000056
Epoch 1050/2000 Cost: 0.000044
Epoch 1100/2000 Cost: 0.000035
Epoch 1150/2000 Cost: 0.000027
Epoch 1200/2000 Cost: 0.000022
Epoch 1250/2000 Cost: 0.000017
Epoch 1300/2000 Cost: 0.000013
Epoch 1350/2000 Cost: 0.000010
Epoch 1400/2000 Cost: 0.000008
Epoch 1450/2000 Cost: 0.000006
Epoch 1500/2000 Cost: 0.000005
Epoch 1550/2000 Cost: 0.000004
Epoch 16

In [6]:
# 입력값 4
new_var = torch.FloatTensor([[4.0]])

# 입력값 4에 대한 예측값 y를 리턴 pred_y에 저장
pred_y = model(new_var) # forward 연산

# y = 2x
print(f'훈련 후 입력값 4에 대한 예측값 = {pred_y}')

훈련 후 입력값 4에 대한 예측값 = tensor([[7.9968]], grad_fn=<AddmmBackward0>)


### 미니배치 경사하강법, 데이터로더 제작

#### Pytorch를 이용한 다변수 선형회귀(다중선형회귀)

In [10]:
import torch
import torch.nn as nn
import torch.nn.functional as F

## 데이터
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152],[185],[180],[196],[142]])

## 모델 선언 및 초기화. 단순 선형회귀는 input_dim=1, output_dim=1
model = nn.Linear(3, 1)    ## H(x) = w1x1 + w2x2 + w3x3 + b
## learning rate 0.00001

## optimizer 설정. SGD사용, lr는 0.01
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

## 전체훈련 데이터 경사하강법 2000회 반복
nb_epochs = 2_000

for epoch in range(nb_epochs + 1):
    # H(x) 계산
    predict = model(x_train)
    # cost 계산
    cost = F.mse_loss(predict, y_train)

    optimizer.zero_grad() ## gradient를 0으로 초기화
    cost.backward() ## backward 연산
    optimizer.step()  ## W와 b를 업데이트

    if epoch % 50 == 0:
        # 50번 마다 로그출력
        print(f'Epoch {epoch:4d}/{nb_epochs} Cost: {cost.item():.6f}')

print(f'w: {model.weight.data}, b: {model.bias.data}')

# 입력값 4
new_var = torch.FloatTensor([[73, 80, 75]])
pred_y = model(new_var)
print(f'훈련 후 입력값 73, 80, 75에 대한 예측값 = {pred_y}')

Epoch    0/2000 Cost: 33830.406250
Epoch   50/2000 Cost: 1.009084
Epoch  100/2000 Cost: 1.006417
Epoch  150/2000 Cost: 1.003765
Epoch  200/2000 Cost: 1.001143
Epoch  250/2000 Cost: 0.998547
Epoch  300/2000 Cost: 0.995962
Epoch  350/2000 Cost: 0.993408
Epoch  400/2000 Cost: 0.990862
Epoch  450/2000 Cost: 0.988351
Epoch  500/2000 Cost: 0.985855
Epoch  550/2000 Cost: 0.983373
Epoch  600/2000 Cost: 0.980915
Epoch  650/2000 Cost: 0.978470
Epoch  700/2000 Cost: 0.976067
Epoch  750/2000 Cost: 0.973656
Epoch  800/2000 Cost: 0.971279
Epoch  850/2000 Cost: 0.968908
Epoch  900/2000 Cost: 0.966573
Epoch  950/2000 Cost: 0.964233
Epoch 1000/2000 Cost: 0.961912
Epoch 1050/2000 Cost: 0.959605
Epoch 1100/2000 Cost: 0.957337
Epoch 1150/2000 Cost: 0.955054
Epoch 1200/2000 Cost: 0.952819
Epoch 1250/2000 Cost: 0.950571
Epoch 1300/2000 Cost: 0.948359
Epoch 1350/2000 Cost: 0.946147
Epoch 1400/2000 Cost: 0.943946
Epoch 1450/2000 Cost: 0.941775
Epoch 1500/2000 Cost: 0.939614
Epoch 1550/2000 Cost: 0.937458
Epoc

##### 미니배치 경사하강법

- 대용량의 데이터(여기는...), 모델의 복잡도 증가, 파라미터 증가 등에 전체 데이터를 한꺼번에 처리하기 힘듬
- 데이터 일부 미니배치를 이용 경가하강법 수행
    - Pytorch Dataset, DataLoader를 이용하여 미니배치 학습, 셔플, 병렬처리 기능 사용
    - Dataset을 상속한 TensorDataset 사용

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
## Dataset 클래스를 상속받아 객체를 생성, DataLoader에 입력
from torch.utils.data import TensorDataset  # 텐서데이터셋
## Mini-batch training이 포함된 util 클래스
from torch.utils.data import DataLoader # 데이터로더

## 데이터
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152],[185],[180],[196],[142]])

## 미니배치를 위한 데이터셋 변경
dataset = TensorDataset(x_train, y_train)
## 배치사이즈가 2, 셔플이므로 랜덤하게 2개의 x와 y가 추출됨
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

## 모델 선언 및 초기화. 단순 선형회귀는 input_dim=1, output_dim=1
model = nn.Linear(3, 1)    ## H(x) = w1x1 + w2x2 + w3x3 + b
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

## 전체훈련 데이터 경사하강법 2000회 반복
nb_epochs = 2_000
for epoch in range(nb_epochs + 1):
    ## DataLoader의 객체를 반복문을 통해 mini-batch 단위로 샘플을 추출
    for batch_idx, samples in enumerate(dataloader):
        x_train, y_train = samples

        # 이하 동일
        predict = model(x_train)
        cost = F.mse_loss(predict, y_train)

        optimizer.zero_grad() ## gradient를 0으로 초기화
        cost.backward() ## backward 연산
        optimizer.step()  ## W와 b를 업데이트

        print(f'Epoch {epoch:4d}/{nb_epochs} Batch {batch_idx+1} / {len(dataloader)} Cost: {cost.item():.6f}')

# 입력값 임의 
new_var = torch.FloatTensor([[73, 80, 75]])
pred_y = model(new_var)
print(f'훈련 후 입력값 73, 80, 75에 대한 예측값 = {pred_y}')

Epoch    0/2000 Batch 1 / 3 Cost: 71314.187500
Epoch    0/2000 Batch 2 / 3 Cost: 11492.414062
Epoch    0/2000 Batch 3 / 3 Cost: 3068.991211
Epoch    1/2000 Batch 1 / 3 Cost: 2070.850098
Epoch    1/2000 Batch 2 / 3 Cost: 655.112549
Epoch    1/2000 Batch 3 / 3 Cost: 206.809555
Epoch    2/2000 Batch 1 / 3 Cost: 69.950401
Epoch    2/2000 Batch 2 / 3 Cost: 10.769848
Epoch    2/2000 Batch 3 / 3 Cost: 22.576418
Epoch    3/2000 Batch 1 / 3 Cost: 6.771673
Epoch    3/2000 Batch 2 / 3 Cost: 1.658316
Epoch    3/2000 Batch 3 / 3 Cost: 0.645020
Epoch    4/2000 Batch 1 / 3 Cost: 3.759870
Epoch    4/2000 Batch 2 / 3 Cost: 0.655556
Epoch    4/2000 Batch 3 / 3 Cost: 4.822747
Epoch    5/2000 Batch 1 / 3 Cost: 1.568620
Epoch    5/2000 Batch 2 / 3 Cost: 2.941730
Epoch    5/2000 Batch 3 / 3 Cost: 1.842387
Epoch    6/2000 Batch 1 / 3 Cost: 0.535015
Epoch    6/2000 Batch 2 / 3 Cost: 5.923668
Epoch    6/2000 Batch 3 / 3 Cost: 2.408284
Epoch    7/2000 Batch 1 / 3 Cost: 2.088492
Epoch    7/2000 Batch 2 / 3 Cost:

### 커스텀데이터셋 제작

- TensorDataset이 아닌, Dataset 클래스를 이용

#### 사용이유
- 비정형 데이터 및 사용자 정의 전처리, 복잡한 데이터(중 특정부분만) 로드 로직, 효율적인 메모리 관리(데이터 전체를 메모리에 올리지 않고 필요할 때마다 올릴수 있음), 유연성을 제공 

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import Dataset  # 텐서데이터셋 대신 커스텀데이터셋을 위한 부모 클래스
from torch.utils.data import DataLoader # 데이터로더

class MyDataset(Dataset):
    ## 3개의 매직메서드 필요
    ### 생성자
    def __init__(self, x_data, y_data):
        # super().__init__()
        self.x_data = x_data
        self.y_data = y_data
    
    ### 인덱스를 통한 클래스 객체 슬라이싱
    def __getitem__(self, index):
        # return super().__getitem__(index)
        return self.x_data[index], self.y_data[index]
    
    ## 크기 반환
    def __len__(self):
        return len(self.x_data)

## 데이터
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152],[185],[180],[196],[142]])

## 미니배치를 위한 데이터셋 변경
dataset = MyDataset(x_train, y_train)
## 배치사이즈가 2, 셔플이므로 랜덤하게 2개의 x와 y가 추출됨
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

## 모델 선언 및 초기화. 단순 선형회귀는 input_dim=1, output_dim=1
model = nn.Linear(3, 1)    ## H(x) = w1x1 + w2x2 + w3x3 + b
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

## 전체훈련 데이터 경사하강법 2000회 반복
nb_epochs = 2_000
for epoch in range(nb_epochs + 1):
    ## DataLoader의 객체를 반복문을 통해 mini-batch 단위로 샘플을 추출
    for batch_idx, samples in enumerate(dataloader):
        x_train, y_train = samples

        # 이하 동일
        predict = model(x_train)
        cost = F.mse_loss(predict, y_train)

        optimizer.zero_grad() ## gradient를 0으로 초기화
        cost.backward() ## backward 연산
        optimizer.step()  ## W와 b를 업데이트

        print(f'Epoch {epoch:4d}/{nb_epochs} Batch {batch_idx+1} / {len(dataloader)} Cost: {cost.item():.6f}')

# 입력값 임의 
new_var = torch.FloatTensor([[73, 80, 75]])
pred_y = model(new_var)
print(f'훈련 후 입력값 73, 80, 75에 대한 예측값 = {pred_y}')

Epoch    0/2000 Batch 1 / 3 Cost: 8238.554688
Epoch    0/2000 Batch 2 / 3 Cost: 6165.712891
Epoch    0/2000 Batch 3 / 3 Cost: 1221.711304
Epoch    1/2000 Batch 1 / 3 Cost: 341.390869
Epoch    1/2000 Batch 2 / 3 Cost: 53.700836
Epoch    1/2000 Batch 3 / 3 Cost: 44.353615
Epoch    2/2000 Batch 1 / 3 Cost: 6.046781
Epoch    2/2000 Batch 2 / 3 Cost: 5.749180
Epoch    2/2000 Batch 3 / 3 Cost: 0.003983
Epoch    3/2000 Batch 1 / 3 Cost: 0.000517
Epoch    3/2000 Batch 2 / 3 Cost: 3.445483
Epoch    3/2000 Batch 3 / 3 Cost: 0.153615
Epoch    4/2000 Batch 1 / 3 Cost: 0.120028
Epoch    4/2000 Batch 2 / 3 Cost: 2.526635
Epoch    4/2000 Batch 3 / 3 Cost: 0.813426
Epoch    5/2000 Batch 1 / 3 Cost: 2.681708
Epoch    5/2000 Batch 2 / 3 Cost: 0.108838
Epoch    5/2000 Batch 3 / 3 Cost: 0.317025
Epoch    6/2000 Batch 1 / 3 Cost: 0.046468
Epoch    6/2000 Batch 2 / 3 Cost: 0.078837
Epoch    6/2000 Batch 3 / 3 Cost: 5.666239
Epoch    7/2000 Batch 1 / 3 Cost: 1.435982
Epoch    7/2000 Batch 2 / 3 Cost: 2.01598