# DataLoader

PyTorchでミニバッチ学習を行うときに便利なクラス。

In [1]:
import torch
from torch.utils.data import Dataset, DataLoader


---

## `Dataset`

DataLoaderを作るために必要なクラス。  
扱うデータセットとその情報を記述する。

PyTorch側で用意されている基底クラスを継承して作成する。

In [2]:
Dataset

torch.utils.data.dataset.Dataset

最低限必要な特殊メソッドが2つある。
- `__len__(self)`: データ数を返す。
- `__getitem__(self, idx: int)`: 指定したインデックスのインスタンス（データ）を返す。

最も簡単な例を実装してみる。

In [3]:
class SimpleDataset(Dataset):
    def __init__(self, data):
        self.data = data

    def __getitem__(self, idx):
        return self.data[idx]

    def __len__(self):
        return len(self.data)

実際に適当なデータを入れてみる。

In [4]:
data = [1, 2, 3, 4, 5]
dataset = SimpleDataset(data)
n_data = len(dataset)
print('num of data:', n_data)
for i in range(n_data):
    print(f'index {i}:', dataset[i])

num of data: 5
index 0: 1
index 1: 2
index 2: 3
index 3: 4
index 4: 5


教師あり学習の場合は、`__getitem__`で正解も返すようにする。

In [5]:
class SimpleDatasetWithTarget(Dataset):
    def __init__(self, data, target):
        self.data = data
        self.target = target

    def __getitem__(self, idx):
        return self.data[idx], self.target[idx]

    def __len__(self):
        return len(self.data)

In [6]:
data = [1, 2, 3, 4, 5]
target = [1, 4, 9, 16, 25]
dataset = SimpleDatasetWithTarget(data, target)
for i in range(len(dataset)):
    x, t = dataset[i]
    print(f'index {i}: data={x}, target={t}')

index 0: data=1, target=1
index 1: data=2, target=4
index 2: data=3, target=9
index 3: data=4, target=16
index 4: data=5, target=25



---

## `DataLoader`

`Dataset`を元にミニバッチ学習を行うためのクラス。  
バッチサイズ分のデータを取り出すイテレータ。

In [12]:
data = [1, 2, 3, 4, 5]
dataset = SimpleDataset(data)
batch_size = 2

dataloader = DataLoader(dataset, batch_size=batch_size)
for x in dataloader:
    print(x)

tensor([1, 2])
tensor([3, 4])
tensor([5])


\[1, 2, 3, 4, 5]というデータからバッチサイズ2で順番にデータを取り出した。  
取り出されたデータは自動的に`torch.Tensor`に変換される。

バッチサイズのデフォルト値は1。

In [13]:
dataloader = DataLoader(dataset)
for x in dataloader:
    print(x)

tensor([1])
tensor([2])
tensor([3])
tensor([4])
tensor([5])


`Dataset`が`__getitem__`でタプルを返す場合は`DataLoader`もタプルを返す。

In [19]:
dataset = SimpleDatasetWithTarget(data, target)
dataloader = DataLoader(dataset)
for batch in dataloader:
    print(batch)

[tensor([1]), tensor([1])]
[tensor([2]), tensor([4])]
[tensor([3]), tensor([9])]
[tensor([4]), tensor([16])]
[tensor([5]), tensor([25])]


（本当は`list`）

In [20]:
type(batch)

list