In [27]:
import os
import torch
from torchvision import datasets, transforms

In [28]:
torch.manual_seed(7777)

<torch._C.Generator at 0x104346610>

# PyTorch에서 Dataloader 만들기
`torch.utils.data.DataLoader`를 사용함
- `torch.utils.data.DataLoader` 는 기본적으로 아래 두 가지 인수를 받음
    1. `torch.utils.data.dataset.Dataset`
    2. `batch_size`

In [29]:
batch_size = 32

In [30]:
train_loader = torch.utils.data.DataLoader(
    datasets.MNIST('dataset/', train=True, download=True,
                    transform=transforms.Compose([
                        transforms.ToTensor(),
                        transforms.Normalize(mean=(0.5,), std=(0.5,))
                    ])),
    batch_size = batch_size,
    # 제너레이터에서 배치사이즈 만큼의 데이터를 뽑는다.
    shuffle=True    # train 할때는 셔플을 사용한다.
)

In [31]:
# 제너레이터 : 배치사이즈 만큼의 데이터를 뽑고 그걸 리턴해주는 역할을 한다.
gen = datasets.MNIST('dataset/', train=True, download=True, transform=transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize(mean=(0.5,), std=(0.5,))
]))

In [32]:
gen

Dataset MNIST
    Number of datapoints: 60000
    Root location: dataset/
    Split: Train
    StandardTransform
Transform: Compose(
               ToTensor()
               Normalize(mean=(0.5,), std=(0.5,))
           )

In [33]:
x, y = next(iter(gen))

In [34]:
x.shape, y

(torch.Size([1, 28, 28]), 5)

In [35]:
x, y = next(iter(train_loader))
x.shape, y.shape
# batch의 데이터를 반환한다.

(torch.Size([32, 1, 28, 28]), torch.Size([32]))

# Local에 있는 데이터를 torch.utils.data.dataset.Dataset 로 만들기
- ImageFolder : 간단하게 로컬에 있는 이미지 데이터셋을 불러옴. 디렉토리 구조가 다음과 같아야 한다.
    - dataset
        - class0
            - xxx.png
            - yyy.png
            - ...
        - class1
            - xxx.png
            - yyy.png
            - ...
        - class2
            - xxx.png
            - yyy.png
            - ...

In [36]:
train_dir = '../datasets/mnist_png/training/'
test_dir = '../datasets/mnist_png/testing/'

In [37]:
os.listdir(train_dir + '9')

['36655.png',
 '32433.png',
 '28319.png',
 '4968.png',
 '23502.png',
 '37211.png',
 '51194.png',
 '374.png',
 '27016.png',
 '5492.png',
 '3785.png',
 '35374.png',
 '52304.png',
 '20792.png',
 '19113.png',
 '32396.png',
 '52462.png',
 '13358.png',
 '44214.png',
 '6164.png',
 '49730.png',
 '38877.png',
 '11215.png',
 '41422.png',
 '34903.png',
 '7252.png',
 '53998.png',
 '1623.png',
 '4983.png',
 '3020.png',
 '44228.png',
 '12708.png',
 '45888.png',
 '3746.png',
 '19885.png',
 '5860.png',
 '33249.png',
 '24053.png',
 '20235.png',
 '41813.png',
 '59084.png',
 '34254.png',
 '5874.png',
 '39016.png',
 '43792.png',
 '33275.png',
 '176.png',
 '50088.png',
 '47292.png',
 '27566.png',
 '25371.png',
 '36319.png',
 '7087.png',
 '43786.png',
 '162.png',
 '9041.png',
 '40264.png',
 '30783.png',
 '19477.png',
 '8439.png',
 '42315.png',
 '35189.png',
 '40270.png',
 '21842.png',
 '45308.png',
 '44016.png',
 '1421.png',
 '8363.png',
 '15517.png',
 '43751.png',
 '43037.png',
 '32816.png',
 '18755.png',


In [38]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

In [39]:
train_dataset = datasets.ImageFolder(
    root = train_dir,
    transform=transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize(0.5, 0.5)
    ])
)

In [40]:
test_dataset = datasets.ImageFolder(
    root = test_dir,
    transform=transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize(0.5, 0.5)
    ])
)

In [41]:
x,y = next(iter(train_dataset))

In [42]:
x.shape, y
# 하나의 샘플이다.

(torch.Size([3, 28, 28]), 0)

In [43]:
train_loader = torch.utils.data.DataLoader(
    train_dataset,
    batch_size=32,
    shuffle=True
)

In [44]:
test_loader = torch.utils.data.DataLoader(
    test_dataset,
    batch_size=32,
    shuffle=True
)

In [45]:
x, y = next(iter(train_loader))

In [46]:
x.shape, y.shape

(torch.Size([32, 3, 28, 28]), torch.Size([32]))