## The CIFAR-10 dataset

https://www.cs.toronto.edu/~kriz/cifar.html

### 1. 数据集概况

- CIFAR-10 是由 Canadian Institute for Advanced Research 发布的一个经典彩色图像数据集：共计 60,000 张 32×32 像素的 RGB 图像，分为 10 个类别￼
- 每个类别约有 6,000 张图像
- 训练集：50,000 张；测试集：10,000 张
- 类别名称分别是：airplane, automobile, bird, cat, deer, dog, frog, horse, ship, truck。  


### 2. “cifar-10-batches-py” 版本结构
- 在 Python 版本（“cifar-10-batches-py”）中，数据被分为 5 个训练批次（data_batch_1…data_batch_5），每个批次包含 10,000 张图像；以及 1 个测试批次（test_batch）也包含 10,000 张。  ￼
- 每个批次（pickle 文件）内部存储为一个字典（通过 pickle.load 加载），典型键包括：
	- b"data"：形状 (10000, 3072) 的 uint8 数组，每行为一张图片。  ￼
	- b"labels"：长度 10000 的列表/数组，每个元素为标签（0-9）。  ￼
	- b"filenames"：对应每张图片的文件名（可选）。  ￼
- 还有一个 batches.meta 文件，存储元信息，例如 b"label_names"（类别名称列表）和 b"num_cases_per_batch" 等。
	- batches.meta 是二进制的元信息文件；要用 pickle.load() 来正确解析
	
	``` python
	import pickle
	meta_path = "/home/wyj/datas/cifar-10-batches-py/batches.meta"
	with open(meta_path, "rb") as f:
		meta = pickle.load(f, encoding="bytes")
	print(meta)
	```
	- 元数据输出内容：
		- label_names 是 CIFAR-10 的 10 个类别名称
		- num_cases_per_batch 表示每个批次包含 10000 张图片
		- num_vis 表示每张图片的向量长度为 3072（=32×32×3）
	``` json
	{
		b'num_cases_per_batch': 10000,
		b'label_names': [
			b'airplane', b'automobile', b'bird', b'cat', b'deer',
			b'dog', b'frog', b'horse', b'ship', b'truck'
		],
    	b'num_vis': 3072
	}
	```


### 3.图像与数据格式说明
- 每张图像展平成一维向量长度为 3072 = 32 × 32 × 3
	- 前 1024 项为红色通道 (R)，接下 1024 为绿色 (G)，最后 1024 为蓝色 (B)
	- 然后可重塑为 (3,32,32)，再转
- 图像尺寸较小（32×32），因此该数据集常被用于快速实验、模型验证、算法原型测试

### 4.使用场景与特点

- 该数据集已成为机器学习／计算机视觉中标准基准任务之一，研究者常用其来评估网络结构、训练技巧、超参数设置。 ￼
- 优点：数据量适中、类别数量适中、图像尺寸小，便于快速训练与调试
- 局限：图像较小、物体背景复杂不如更大数据集（如 ImageNet）那样真实；因此经常作为“入门”或“基准”而非最终部署用

### 5.典型调用与读取方式

在 Python 中，可以使用如下方式读取某批次（简化示例）：

``` python
import pickle
with open('data_batch_1', 'rb') as f:
    d = pickle.load(f, encoding='bytes')
X = d[b'data']    # numpy array (10000, 3072)
y = d[b'labels']  # list of length 10000
```

在深度学习框架中（如 PyTorch/TensorFlow）也有现成接口，只需要确保 root 路径下存在 cifar-10-batches-py 文件夹即可