### **学习目标**
1. 使用pytorch中的torchvision库演示一段数据集提取，转换和加载的流程

In [1]:
# torchvision是pytorch中的计算机视觉库

# 总体分为4个步骤
#     1. 准备数据
#     2. 建立模型
#     3. 训练模型
#     4. 分析结果

1.1 引入包，以及相关知识

In [2]:
# 大概了解一下 ETL 的过程(Extract， Transform， Load)
# Extract data from a data source.
# Transform data into a desirable format.
# Load data into a suitable structure.
# 当我们完成了 ETL 的过程，我们就准备好了开始建立和训练我们的深度学习模型

In [4]:
import torch # # 顶层包和张量库
# 顶层包的意义在于提供对整个库的访问，使得用户可以方便地使用库中的所有模块和函数
# 顶层包的引入也可以使代码更加简洁，因为可以使用更短的名称来引用库中的模块和函数

# import the torchvision library
import torchvision # 是pytorch中的一个库，但也是单独安装的

# import the transforms module from torchvision
import torchvision.transforms as transforms # 提供图片处理中通用转换


In [5]:
# 在当前的任务中的 ETL
# Extract – Get the Fashion-MNIST image data from the source.
# Transform – Put our data into tensor form.
# Load – Put our data into an object to make it easily accessible.

# 为了完成上述任务，pytorch提供了两个类便于我们进行处理
# 1. torch.utils.data.Dataset
# 2. torch.utils.data.DataLoader


In [6]:
# Dataset 表示数据集的抽象类
# 使用数据集的抽象类可以使我们更容易地处理数据集，因为它提供了一些有用的功能，如数据集的划分和批处理等。
# 此外，它还可以帮助我们更好地组织代码，使其更易于维护和重用。
# 有两个方法是重要的
# 1. __len__ 返回数据集的长度
# 2. __getitem__ 从特定的索引位置获取一个元素
# 简单的示例

import torch.utils.data as data

class OHIC(data.Dataset):
    def __init__(self, data):
        self.data = data
        
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, index):
        return self.data[index]

In [7]:
# DataLoader 是一个用于批量加载数据的迭代器
# 封装数据集并提供对底层数据的访问。
# 它可以从给定的数据集中自动批量加载数据，并将其组合成一个张量。
# DataLoader还提供了一些有用的功能，如数据集的随机抽样和多线程数据加载等

In [9]:
# torchvision 包含以下四部分
# 1. Datasets ** 重要
# 2. Models ** 重要

# 3. Transforms
# 4. Utils

# 在 torchvison 中是直接拓展了数据集
# 获取 MNIST 和 fashion-MNIST 数据集的不同之处仅仅在于 URL 不同

In [None]:
# 使用 torchvision 获得 fashion-mnist 数据集的实例

train_set = torchvision.datasets.FashionMNIST(
    root='./data'
    ,train=True
    ,download=True
    ,transform=transforms.Compose([
        transforms.ToTensor()
    ])
)
