In [None]:
"""0. 图像分类数据集(Fashion-MNIST)
在介绍softmax回归的实现前我们先引入一个 多类图像分类数据集。 它将在后面的章节
中被多次使用，以方便我们观察比较算法之间的模型精度和计算效率上的区别。图像分类
数据集中最常用的是手写数字识别数据集MNIST[1]. 但大部分模型在MNIST上的分类精度
都超过了95%。 为了更直观地观察算法之间的差别，我们将使用一个图像内容更加复杂的
数据集Fashion-MNIST[2](这个数据集也比较小，只有几十M, 没有GPU的电脑也能吃得消)。
本节我们将使用torchvision包，它是服务于Pytorch深度学习框架的，主要用来构建
计算机视觉模型。Torchvision主要由以下几部分构成：

1. torchvision.datasets: 一些记载数据的函数和常用的数据集接口
2. torchvision.models: 包含常用的模型结构(含预训练模型)， 例如 AlexNet, 
VGG, ResNet等
3.torchvision.transforms: 常用的图片变换，例如剪裁，旋转等
4. torchvison.utils: 其他的一些有用的方法

"""

In [None]:
"""补充知识
AlexNet， VGG, ResNet都是卷积神经网络(CNN)的架构
1.AlexNet:由Alex Krizhevsky等人于2012年提出，它以很大优势获得了ImageNet比赛的
冠军。 它具有更深的网络结构，包括5层卷积和3层全连接，并使用了数据增广， Dropout
和ReLU激活函数等方法来改进模型的训练过程。

2.VGG：Visual Geometry(几何学) Group的缩写， 它是当前最流行的CNN模型之一。VGG通过使用一系列大小为3x3的小尺寸卷积核
和pooling层构造深度卷积神经网络，并取得了较好的效果，它因为结构简单，应用性极强
而广受研究者欢迎

3.ResNet: Residual Network的缩写， 它是一种具有残差学习能力的深度卷积神经网络。它通过在网络中引入
“跳跃连接”， 使得网络可以更好地学习残差函数，从而解决了深度神经网络中梯度消失
和梯度爆炸的问题。 ResNet在ImageNet比赛中获得了冠军，并在多个视觉任务中取得了
优异的成绩
"""

In [1]:
"""1. 获取数据集
首先导入需要的包
我们还指定了参数transform = transforms.ToTensor()使所有数据转换为Tensor,
如果不进行转换则返回的是PIL图片。 transforms.ToTensor()将尺寸为(HxWxC)且
数据位于[0, 255]的PIL图片或者数据类型为np.uint8的NumPy数组转换为尺寸为（CxHxW）
且数据类型为torch.float32且位于[0.0, 1.0]的Tensor
"""

'1. 获取数据集\n首先导入需要的包\n'

In [1]:
%matplotlib inline
import torch
import torchvision
from torch.utils import data
from torchvision import transforms
from d2l import torch as d2l

d2l.use_svg_display()

In [2]:
trans = transforms.ToTensor()
mnist_train = torchvision.datasets.FashionMNIST(
    root=r"C:\Users\sunya\Desktop\Machine_learning\data", train=True, transform=trans, download=True)
mnist_test = torchvision.datasets.FashionMNIST(
    root=r"C:\Users\sunya\Desktop\Machine_learning\data", train=False, transform=trans, download=True)

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz to C:\Users\sunya\Desktop\Machine_learning\data\FashionMNIST\raw\train-images-idx3-ubyte.gz


100.0%


Extracting C:\Users\sunya\Desktop\Machine_learning\data\FashionMNIST\raw\train-images-idx3-ubyte.gz to C:\Users\sunya\Desktop\Machine_learning\data\FashionMNIST\raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz to C:\Users\sunya\Desktop\Machine_learning\data\FashionMNIST\raw\train-labels-idx1-ubyte.gz


100.0%


Extracting C:\Users\sunya\Desktop\Machine_learning\data\FashionMNIST\raw\train-labels-idx1-ubyte.gz to C:\Users\sunya\Desktop\Machine_learning\data\FashionMNIST\raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz to C:\Users\sunya\Desktop\Machine_learning\data\FashionMNIST\raw\t10k-images-idx3-ubyte.gz


100.0%


Extracting C:\Users\sunya\Desktop\Machine_learning\data\FashionMNIST\raw\t10k-images-idx3-ubyte.gz to C:\Users\sunya\Desktop\Machine_learning\data\FashionMNIST\raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz to C:\Users\sunya\Desktop\Machine_learning\data\FashionMNIST\raw\t10k-labels-idx1-ubyte.gz


100.0%

Extracting C:\Users\sunya\Desktop\Machine_learning\data\FashionMNIST\raw\t10k-labels-idx1-ubyte.gz to C:\Users\sunya\Desktop\Machine_learning\data\FashionMNIST\raw






In [None]:
"""
Fashion-MNIST由10个类别的图像组成， 每个类别由训练数据集(train dataset)
中的6000张图像和测试数据集(test dataset)中的1000张图像组成。因此，训练集
和测试集分别包含60000和10000张图像。 测试数据集不会用于训练，只用于评估模型性能
"""

In [3]:
print(len(mnist_train))
print(len(mnist_test))

60000
10000


In [4]:
type(mnist_train)

torchvision.datasets.mnist.FashionMNIST

In [5]:
# 每个输入图像的高度和宽度均为28像素。 数据集由灰度图像组成，其通道数为1。 为了
#简洁起见，本书将高度h像素，宽度w像素图像的形状记为h x w或(h, w)
mnist_train[0][0].shape


torch.Size([1, 28, 28])

In [None]:
"""
像素是数字图像中的最小单元。它是图像中的一个点，表示图像中的采样颜色。像素常
用来表示图像的分辨率。一张分辨率为1920x1080的图像包含1920x1080=2073600个像素。

对于灰度图像，通道数是1，因为每个像素只有一个灰度值表示其亮度。
图像的通道数是指图像像素值的维度。对于彩色图像，其通道数是3(RGB),因为每个像素
由三个通道(红绿蓝)的像素值组成，分别表示颜色的强度
"""