In [12]:
from torch.utils.data import Dataset, DataLoader, BatchSampler, SequentialSampler

# 定义一个简单的数据集
class MyDataset(Dataset):
    def __getitem__(self, index):
        return index

    def __len__(self):
        return 10#总迭代次数 100个批次的每次为10的数据

class IterationBasedBatchSampler(BatchSampler):
    def __init__(self, batch_sampler, num_iterations, start_iter=0):
        self.batch_sampler = batch_sampler
        self.num_iterations = num_iterations
        self.start_iter = start_iter

    def __iter__(self):
        iteration = self.start_iter
        while iteration <= self.num_iterations:
            # 如果 batch_sampler 耗尽，就从头开始
            for batch in self.batch_sampler:
                if iteration > self.num_iterations:
                    return
                print('yield', iteration, batch)
                iteration += 1
                #输出这是yeild内部，用字符串的形式区分开与后面的i与bathc
                yield batch

    def __len__(self):
        return self.num_iterations

# 创建数据集实例
dataset = MyDataset()

# 创建 SequentialSampler 和 BatchSampler 实例
sampler = SequentialSampler(dataset)
batch_sampler = BatchSampler(sampler, batch_size=3, drop_last=False)

# 创建 IterationBasedBatchSampler 实例
iter_based_sampler = IterationBasedBatchSampler(batch_sampler, num_iterations=10)

# 创建 DataLoader 实例
data_loader = DataLoader(dataset, batch_sampler=iter_based_sampler)

# 遍历 DataLoader
for i, batch in enumerate(data_loader):
    print(i, batch)
""" 
在这个例子中，`MyDataset` 是一个简单的数据集，它只返回索引作为数据。
`SequentialSampler` 是一个采样器，它按顺序返回所有的索引。
`BatchSampler` 是一个批次采样器，
它从 `SequentialSampler` 中采样出大小为 10 的批次。
`IterationBasedBatchSampler` 是一个基于迭代的批次采样器，
它从 `BatchSampler` 中采样出 50 个批次。  此时len为100 最后的数据点是到100的
`DataLoader` 是一个数据加载器，
它从 `IterationBasedBatchSampler` 中加载数据。
当你运行这个例子，你会看到输出的批次索引和数据。每个批次的大小是 10,
总共有 50 个批次。 """

yield 0 [0, 1, 2]
0 tensor([0, 1, 2])
yield 1 [3, 4, 5]
1 tensor([3, 4, 5])
yield 2 [6, 7, 8]
2 tensor([6, 7, 8])
yield 3 [9]
3 tensor([9])
yield 4 [0, 1, 2]
4 tensor([0, 1, 2])
yield 5 [3, 4, 5]
5 tensor([3, 4, 5])
yield 6 [6, 7, 8]
6 tensor([6, 7, 8])
yield 7 [9]
7 tensor([9])
yield 8 [0, 1, 2]
8 tensor([0, 1, 2])
yield 9 [3, 4, 5]
9 tensor([3, 4, 5])
yield 10 [6, 7, 8]
10 tensor([6, 7, 8])


' \n在这个例子中，`MyDataset` 是一个简单的数据集，它只返回索引作为数据。\n`SequentialSampler` 是一个采样器，它按顺序返回所有的索引。\n`BatchSampler` 是一个批次采样器，\n它从 `SequentialSampler` 中采样出大小为 10 的批次。\n`IterationBasedBatchSampler` 是一个基于迭代的批次采样器，\n它从 `BatchSampler` 中采样出 50 个批次。  此时len为100 最后的数据点是到100的\n`DataLoader` 是一个数据加载器，\n它从 `IterationBasedBatchSampler` 中加载数据。\n当你运行这个例子，你会看到输出的批次索引和数据。每个批次的大小是 10,\n总共有 50 个批次。 '

In [None]:
""" 如果batch_size=3,drop_last=True,那么最后一个批次的数据点不足3个，len是数据点的个数,就会被丢弃 """

In [2]:
a = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
b = a[0:-1:2]

In [3]:
b

[0, 2, 4, 6, 8]