<a href="https://colab.research.google.com/github/seoharuss/AI_study/blob/main/DataLoader_PyTorch.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 데이터 로드하기(Data Load)

파이토치에서는 데이터를 좀 더 쉽게 다룰 수 있도록 유용한 도구
- 데이터셋
- 데이터로더

이를 사용하면 **미니 배치 학습**, 데이터 셔플, 병렬 처리까지 간단히 수행 가능

기본적인 사용방법은 dataset을 정의하고, 이를 dataloader에 전달하는 것

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

# tensorDataset과 DataLoader를 import
from torch.utils.data import TensorDataset # 텐서데이터셋
from torch.utils.data import DataLoader # 데이터로더

x_train  =  torch.FloatTensor([[73,  80,  75],
                               [93,  88,  93],
                               [89,  91,  90],
                               [96,  98,  100],
                               [73,  66,  70]])
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

dataset = TensorDataset(x_train, y_train)

파이토치의 데이터셋을 만들었다면 데이터로더를 사용 가능하다.

데이터로더는 기본적으로 2개의 인자를 입력받는다.
- 1개는 데이터셋, 미니배치의 크기
  - 이 때 미니 배치의 크기는 통상적으로 2의 배수를 사용
- shuffle
  - shuffle=True를 선택하면 Epoch마다 데이터셋을 섞어서 데이터가 학습되는 순서를 바꾼다.

> 사람으로 비유
사람도 같은 문제지를 계속 풀면 어느 순간 문제의 순서에 익숙해질 수 있다.
예를 들어 어떤 문제지의 12번 문제를 풀면서, 13번 문제가 뭔지는 기억이 안나지만 어제 풀었던 기억으로 정답은 5번이였던 것 같은데, 하면서 문제 자체보단 순서에 익숙해질 수 있다는 것이다.
그럴 때 문제지를 풀 때마다 문제 순서를 랜덤으로 바꾸면 도움이 된다.

마찬가지로 모델이 데이터셋의 순서에 익숙해지는 것을 방지하여 학습할 때는 이 옵션을 True를 주는 것을 권장

In [None]:
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

이제 모델과 옵티마이저 설정

In [None]:
model = nn.Linear(3,1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

훈련을 진행

batch_idx와 samples를 주석처리했다.
- 어떤 식으로 훈련되고 있는지 궁금하다면 주석 처리를 해제하고 훈련시키기를 추천

In [None]:
nb_epochs = 20
for epoch in range(nb_epochs + 1):
  for batch_idx, samples in enumerate(dataloader):
    # print(batch_idx)
    # print(samples)
    x_train, y_train = samples

    prediction = model(x_train)

    cost = F.mse_loss(prediction, y_train)

    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
        epoch, nb_epochs, batch_idx+1, len(dataloader),
        cost.item()
        ))

Epoch    0/20 Batch 1/3 Cost: 0.317422
Epoch    0/20 Batch 2/3 Cost: 6.595792
Epoch    0/20 Batch 3/3 Cost: 1.910862
Epoch    1/20 Batch 1/3 Cost: 1.966341
Epoch    1/20 Batch 2/3 Cost: 2.939692
Epoch    1/20 Batch 3/3 Cost: 1.464375
Epoch    2/20 Batch 1/3 Cost: 2.113513
Epoch    2/20 Batch 2/3 Cost: 1.066051
Epoch    2/20 Batch 3/3 Cost: 6.718360
Epoch    3/20 Batch 1/3 Cost: 2.883324
Epoch    3/20 Batch 2/3 Cost: 1.697973
Epoch    3/20 Batch 3/3 Cost: 2.045054
Epoch    4/20 Batch 1/3 Cost: 3.267419
Epoch    4/20 Batch 2/3 Cost: 1.812342
Epoch    4/20 Batch 3/3 Cost: 1.300503
Epoch    5/20 Batch 1/3 Cost: 3.380405
Epoch    5/20 Batch 2/3 Cost: 1.921927
Epoch    5/20 Batch 3/3 Cost: 1.353550
Epoch    6/20 Batch 1/3 Cost: 2.344679
Epoch    6/20 Batch 2/3 Cost: 0.895626
Epoch    6/20 Batch 3/3 Cost: 6.865973
Epoch    7/20 Batch 1/3 Cost: 1.723011
Epoch    7/20 Batch 2/3 Cost: 2.762575
Epoch    7/20 Batch 3/3 Cost: 2.306101
Epoch    8/20 Batch 1/3 Cost: 0.493308
Epoch    8/20 Batch 2/3 C

Cost의 값이 점차 작아진다.
- epoch를 더 늘려서 훈련하면 cost값이 더 작아질 여지가 있다.

모델의 입력으로 임의의 값을 넣어서 예측값을 확인하자 !

In [None]:
new_var = torch.FloatTensor([[73, 80, 75]])

pred_y = model(new_var)
print("훈련 후 입력이 73, 80, 75일 때의 예측값 :", pred_y)

훈련 후 입력이 73, 80, 75일 때의 예측값 : tensor([[153.7094]], grad_fn=<AddmmBackward0>)
