In [2]:
#如下为关于TensorDataset/Dataloader的使用
import torch
from torch.utils import data

# 创建简单的特征张量
# 这里创建了一个形状为 (4, 2) 的特征张量，代表 4 个样本，每个样本有 2 个特征
features = torch.tensor([
    [1.0, 2.0],
    [3.0, 4.0],
    [5.0, 6.0],
    [7.0, 8.0]
])

# 创建对应的标签张量
# 这里创建了一个形状为 (4,) 的标签张量，代表 4 个样本的标签
labels = torch.tensor([0, 1, 0, 1])

# 将特征张量和标签张量组合成一个元组
data_arrays = (features, labels)
print(data_arrays)
# 使用 TensorDataset 组合多个张量成一个数据集
# 这里进行了解包操作，将 data_arrays 中的每个张量作为独立参数传入
dataset = data.TensorDataset(*data_arrays)
print(f"dataset类型: {type(dataset)}")

(tensor([[1., 2.],
        [3., 4.],
        [5., 6.],
        [7., 8.]]), tensor([0, 1, 0, 1]))
dataset类型: <class 'torch.utils.data.dataset.TensorDataset'>


### TensorDataset构造函数的输入
#### torch.utils.data.TensorDataset 类的构造函数接收多个 PyTorch 张量作为输入，这些张量需要满足以下条件：

- 类型：输入必须是 torch.Tensor 类型的对象。
- 第一维长度一致：所有输入张量的第一个维度（通常表示样本数量）的长度必须相同。这是因为 TensorDataset 会按照相同的索引来组合这些张量中的元素，从而形成一个个样本。

### Q：
####  我看到事实上我的features和labels的形状并不能横向拼接在一起，这会有影响吗
### A:
#### 在使用 torch.utils.data.TensorDataset 组合 features 和 labels 时，它们不需要在形状上能够横向拼接，只要它们的第一个维度（样本数量）相同就不会有影响

In [3]:
# 访问数据集中的第一个样本
print(dataset[0])
#如果dataset创建时传入多个张量，那么dataset[0]返回的是一个元组，元组中的每个元素对应一个张量的 第一个维度

sample_features, sample_label = dataset[0]
print(f"第一个样本的特征: {sample_features}")
print(f"第一个样本的标签: {sample_label}")

(tensor([1., 2.]), tensor(0))
第一个样本的特征: tensor([1., 2.])
第一个样本的标签: 0


### Q：
####  DataLoader的作用在哪里
### A:
#### DataLoader 是一种管理内存的好方法，尤其在处理大规模数据集时，它具有以下几个优势有助于内存管理
- 批量加载数据：DataLoader 允许你将数据分成小批量，这对于处理大规模数据集非常有用。这意味着你可以在每次迭代中处理一部分数据，而不是一次性加载整个数据集，从而减少内存的使用。
- 多线程加载数据：DataLoader 可以使用多个线程同时加载数据，从而加速数据的读取过程，特别是当数据集很大时。

In [4]:
# 使用 DataLoader 对数据集进行批量加载
# 这里设置批量大小为 2，即每次加载 2 个样本
batch_size = 2
data_loader = data.DataLoader(dataset, batch_size=batch_size, shuffle=True)
#每次遍历都会重新打乱数据
# 遍历数据加载器
for batch_features, batch_labels in data_loader:
    print("-" * 30)
    print(f"批次特征: \n{batch_features}")
    print(f"批次标签: \n{batch_labels}")

------------------------------
批次特征: 
tensor([[5., 6.],
        [3., 4.]])
批次标签: 
tensor([0, 1])
------------------------------
批次特征: 
tensor([[1., 2.],
        [7., 8.]])
批次标签: 
tensor([0, 1])


### Q：
####  两次用for对DataLoader的迭代是不是不会互相影响，但如果将其变为迭代器就会统一记录次数
### A:
#### 你说得对。使用 for 循环两次迭代 DataLoader 时，每次迭代都是独立的，不会相互影响；而如果将 DataLoader 转换为迭代器（iterator），迭代状态会被记录，迭代次数会统一计数。



In [71]:
data_iter=iter(data_loader)
next(data_iter)

[tensor([[1., 2.],
         [5., 6.]]),
 tensor([0, 0])]