# 데이터 다루기

In [1]:
import os
import torch
from torch import nn 
from torch import optim
import torch.nn.functional as F

from torchvision import datasets, transforms

In [2]:
torch.manual_seed(7777)

<torch._C.Generator at 0x27c5a7bf350>

### Pytorch에서 Dataloader 만들기

`torch.utils.data.DataLoader`를 사용함.

- `torch.utils.data.DataLoader` 는 기본적으로 아래 두가지 인수를 받음
    
    1. `torch.utils.data.dataset.Dataset`
    2. `batch_size`

##### 데이터 로더 설정

In [3]:
batch_size = 32

In [4]:
train_loader = torch.utils.data.DataLoader(
    datasets.MNIST('dataset/', train=True, download=True,
                   transform=transforms.Compose([
                       transforms.ToTensor(),
                       transforms.Normalize(mean=(0.5,), std=(0.5,))
                   ])),
    batch_size=batch_size,
    shuffle=True)

- Dataloader는 generator이다.

데이터로더를 만드는데 batch_size 만큼의 샘플을 얻어줌

In [5]:
gen = train_loader = torch.utils.data.DataLoader(
    datasets.MNIST('dataset/', train=True, download=True,
                   transform=transforms.Compose([
                       transforms.ToTensor(),
                       transforms.Normalize(mean=(0.5,), std=(0.5,))
                   ])),
    batch_size=batch_size,
    shuffle=True)

In [6]:
x, y = next(iter(gen))
x.shape, y.shape

(torch.Size([32, 1, 28, 28]), torch.Size([32]))

### Local에 있는 데이터를 torch.utils.data.dataset.Dataset으로 만들기

- ImageFolder : 간단하게 로컬에 있는 이미지 데이터셋을 불러옴. 디렉토리 구조가 다음과 같아야 한다.
```
    - dataset             (폴더명)
        - class0          (폴더명)
            - xxx.png     (이미지명)
            - yyy.png
            - zzz.png
            
        - class1         
            - xxx.png     
            - yyy.png
            - zzz.png
            
        - class2          
            - xxx.png     
            - yyy.png
            - zzz.png
            
        - class3          
            - xxx.png     
            - yyy.png
            - zzz.png
```        

- 데이터 불러오기 -> 데이터 로더로 만들기
    - 데이터 로더는 학습을 진행할수 있도록 전처리를 해준다 생각하자.

In [7]:
train_dir = '../datasets/mnist_png/training/'
test_dir = '../datasets/mnist_png/testing/'

In [8]:
os.listdir(train_dir + '9')[:3] # '../datasets/mnist_png/training/9' 하위 이미지들

['10003.png', '10004.png', '10023.png']

##### 디바이스 설정

In [9]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
device

device(type='cuda')

##### ImageFolder 활용 데이터 불러오기

In [10]:
train_dataset = datasets.ImageFolder(
    root=train_dir,
    transform=transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize(0.5,0.5)
    ])
)

test_dataset = datasets.ImageFolder(
    root=test_dir,
    transform=transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize(0.5,0.5)
    ])
)

In [11]:
x, y = next(iter(train_dataset))
x.shape, y

(torch.Size([3, 28, 28]), 0)

##### 데이터 로더 설정 (feat, ImageFolder)

In [12]:
batch_size = 32

train_loader = torch.utils.data.DataLoader(
    train_dataset,
    batch_size=batch_size,
    shuffle=True
)

test_loader = torch.utils.data.DataLoader(
    test_dataset,
    batch_size=batch_size,
    shuffle=True
)

In [13]:
x, y = next(iter(train_loader))
x.shape, y.shape

(torch.Size([32, 3, 28, 28]), torch.Size([32]))