In [1]:
import torch
from torch.utils.data import Dataset, DataLoader, SequentialSampler, RandomSampler, SubsetRandomSampler, BatchSampler

## DataLoader
- DataLoader는 Dataset에 대하여 data를 로드하는 iterative한 객체이다.
- DataLoader는 아래와 같은 argument를 받는다.

```python
DataLoader(dataset, batch_size=1, shuffle=False, sampler=None,
           batch_sampler = None, num_workers=0, collate_fn= None,
           pin_memory=False, drop_last = False, timeout=0, 
           work_init_fn = None, *, prefetch_factor=2, 
           persistent_workers=False))
```

batch_size

In [3]:
from torch.utils.data import DataLoader, Dataset, Sampler

# 간단한 데이터셋 정의
class SimpleDataset(Dataset):
    def __init__(self, data):
        self.data = data

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        return self.data[idx]

# 사용자 정의 샘플러 정의
class CustomSampler(Sampler):
    def __init__(self, data_source, indices):
        self.data_source = data_source
        self.indices = indices

    def __iter__(self):
        return iter(self.indices)

    def __len__(self):
        return len(self.indices)

# 데이터셋 생성
data = [i for i in range(100)]
dataset = SimpleDataset(data)

# 특정 순서의 인덱스 정의
custom_indices = [99, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]  # 예시로 첫 번째 배치가 마지막 인덱스를 포함하도록 설정

# CustomSampler를 사용하는 DataLoader 생성
custom_sampler = CustomSampler(dataset, custom_indices)
dataloader = DataLoader(dataset, sampler=custom_sampler, batch_size=10)

# 데이터 로딩 예시
for batch in dataloader:
    print(batch)

tensor([99,  0,  1,  2,  3,  4,  5,  6,  7,  8])
tensor([ 9, 10])


shuffle


sampler

batch_sampler

num_workers

collate_fn

pin_memory

drop_last

timeout

work_init_fn