In [1]:
# 06. 미니배치와 데이터 로드

# 데이터를 로드하는 방법과 미니 배치 경사 하강법(Minibatch Gradient Descent)
# 데이터가 매우 클 때 데이터를 더 작은 단위로 나누어서 해당 단위로 학습하는 개념

# 미니배치학습
# 하나의 미니 배치를 가져가서 미니 배치에 대한 비용(cost) 를 계산하고, 경사 하강법 수행, 다음 미니 배치 가져가서 반복
# 전체 데이터에 대한 학습이 1회 끝나면 1 에포크(Epoch) 가 끝난다

# 미니 배치의 사이즈 : 배치 크기(batch size)

# 전체 데이터에 대해 한 번에 경사 하강법을 수행하는 방법 : '배치 경사 하강법'
# 미니 배치 단위로 경사 하강법을 수행하는 방법 : '미니 배치 경사 하강법'

In [2]:
# 이터레이션(Iteration)

# 한 번의 에포크(epoch) 내에서 이루어지는 매개변수인 가중치 W 와 b의 업데이트 횟수
# 전체데이터 크기가 2000 이고 배치 크기가 200 이라면 이터레이션 수는 총 10

In [3]:
# 데이터 로드하기(Data Load)

# 파이토치는 데이터를 좀 더 쉽게 다룰 수 있도록 데이터셋(Dataset) 과 데이터로더(DataLoader)를 제공한다
# 미니 배치 학습, 데이터 셔플, 병렬 처리를 간단하게 수행 가능

# Dataset 정의 -> DataLoader 에 전달

In [4]:
# 텐서를 입력받아 Dataset의 형태로 변환해주는 TensorDtaset 실습

In [5]:
# 파이토치 도구 임포트
import torch
import torch.nn as nn
import torch.nn.functional as F

# TensorDataset 과 DataLoader 임포트
from torch.utils.data import TensorDataset # 텐서 데이터셋
from torch.utils.data import DataLoader # 데이터로더

In [6]:
# TensorDataset 은 기본적으로 텐서를 입력으로 받음
# 데이터 선언
x_train = torch.FloatTensor([[73, 80, 75],
                            [93, 88, 93],
                            [89, 91, 90],
                            [96, 98, 100],
                            [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

# TensorDataset 의 입력으로 사용하고 dataset으로 저장
dataset = TensorDataset(x_train, y_train)

In [7]:
# 데이터셋을 만들었으면 데이터로더를 사용 가능
# 데이터로더는 보통 2개의 인자 입력 : 데이터셋, 미니 배치의 크기(2의 배수)
# 추가 인자 shuffle : Epoch 마다 데이터셋을 섞어서 데이터가 학습되는 순서 변경

dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

In [8]:
# 모델과 옵티마이저 선언
model = nn.Linear(3, 1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

In [11]:
# 훈련 진행
nb_epochs = 200
for epoch in range(nb_epochs + 1):
    for batch_idx, samples in enumerate(dataloader):
        print(batch_idx)
        print(samples)
        x_train, y_train = samples
        # H(x) 계산
        prediction = model(x_train)

        # cost
        cost = F.mse_loss(prediction, y_train)

        # cost 로 H(x) 개선
        optimizer.zero_grad()
        cost.backward()
        optimizer.step()

        print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(epoch, nb_epochs, batch_idx+1, len(dataloader), cost.item()))


0
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196.],
        [142.]])]
Epoch    0/200 Batch 1/3 Cost: 7.416526
1
[tensor([[93., 88., 93.],
        [73., 80., 75.]]), tensor([[185.],
        [152.]])]
Epoch    0/200 Batch 2/3 Cost: 1.740636
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch    0/200 Batch 3/3 Cost: 0.450678
0
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196.],
        [142.]])]
Epoch    1/200 Batch 1/3 Cost: 6.907091
1
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch    1/200 Batch 2/3 Cost: 0.221558
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch    1/200 Batch 3/3 Cost: 3.262186
0
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch    2/200 Batch 1/3 Cost: 1.207110
1
[tensor([[ 93.,  88.,  93.],
        [ 96.,  98., 100.]]), tensor([[185.],
        [196.]])]
Epoch    2/200 Batch 2/3 Cost: 3.172712
2
[tensor([[73., 66., 70.]]), te

In [12]:
# 임의의 입력 [73, 80, 75] 선언
new_val = torch.FloatTensor([[73, 80, 75]])
# 입력한 값 [73, 80, 75] 에 대해 예측값 y를 리턴받아서 pred_y 에 저장
pred_y = model(new_val)

print("훈련 후 입력값이 73, 80, 75 일 때의 예측값 : ", pred_y)

훈련 후 입력값이 73, 80, 75 일 때의 예측값 :  tensor([[152.6816]], grad_fn=<AddmmBackward0>)
