In [1]:
"""
Pytorch是Facebook研究团队所开发的一款深度学习框架，具备自主性强，易操作，模型稳定等优点，类似的框架还有TensorFlow

下面是一些关于Pytorch进行深度学习的简单介绍和教程：
1.https://www.zhihu.com/collection/710418581?page=2
2.https://blog.csdn.net/sinat_39448069/article/details/120866541?spm=1001.2014.3001.5506
3.https://blog.csdn.net/weixin_44216612/article/details/124203730?spm=1001.2014.3001.5506

基于Pytorch进行深度学习主要分为以下几步：
1. 封装数据集
2. 加载数据集
3. 构建神经网络模型
4. 构建训练模式
5. 模型的训练
6. 保存模型
7. 模型预测

1.Dataset
    1.1.batch_size
    1.2.transform
2.DataLoader
3.Model
    3.1.network
    3.2.loss
    3.3.optimizer
        3.3.1.Learning rate
        3.3.2.Early stopping
4.分布式模型改造
5.超参数优化
6.checkpoint
7.train 函数
    7.1.Accuracy, recall 计算
    7.2.Save model
8.test 函数
    8.1.记录 precision
9.Matplotlib 绘图
10.load model
11.inference


一个深度学习模型一般包含以下几个文件：
datasets文件夹：存放需要训练和测试的数据集
dataset.py：加载数据集，将数据集转换为固定的格式，返回图像集和标签集
model.py：根据自己的需求搭建一个深度学习模型，具体搭建方法参考
config.py：将需要配置的参数均放在这个文件中，比如batchsize，transform，epochs，lr等超参数
train.py:加载数据集，训练
predict.py：加载训练好的模型，对图像进行预测
requirements.txt:一些需要的库，通过pip install -r requirements.txt可以进行安装
readme：记录一些log
log文件：存放训练好的模型
loss文件夹：存放训练记录的loss图像
"""



'\nPytorch是Facebook研究团队所开发的一款深度学习框架，具备自主性强，易操作，模型稳定等优点，类似的框架还有TensorFlow\n\n下面是一些关于Pytorch进行深度学习的简单介绍和教程：\n1.https://www.zhihu.com/collection/710418581?page=2\n2.https://blog.csdn.net/sinat_39448069/article/details/120866541?spm=1001.2014.3001.5506\n3.https://blog.csdn.net/weixin_44216612/article/details/124203730?spm=1001.2014.3001.5506\n\n基于Pytorch进行深度学习主要分为以下几步：\n1. 封装数据集\n2. 加载数据集\n3. 构建神经网络模型\n4. 构建训练模式\n5. 模型的训练\n6. 保存模型\n7. 模型预测\n\n1.Dataset\n    1.1.batch_size\n    1.2.transform\n2.DataLoader\n3.Model\n    3.1.network\n    3.2.loss\n    3.3.optimizer\n        3.3.1.Learning rate\n        3.3.2.Early stopping\n4.分布式模型改造\n5.超参数优化\n6.checkpoint\n7.train 函数\n    7.1.Accuracy, recall 计算\n    7.2.Save model\n8.test 函数\n    8.1.记录 precision\n9.Matplotlib 绘图\n10.load model\n11.inference\n'

In [None]:
# 1.加载模块，封装数据集，加载数据集
"""
知识点：
1.Dataset： 覆写Dataset类用于对数据集进行封装，对数据进行预处理，清洗数据，记录 sample 与 label 的对应关系等等；
2.DataLoader ：Dataloader类用于将 Dataset 封装成迭代器，将数据向量化，使之更适合加载进入神经网络。
3.Transform：
4.Totensor：
"""

# 1.1.加载Pytorch的torchvision模块自带数据集，以FashionMNIST为例
import torch
import torchvision
from torchvision import datasets
from torchvision.transforms import ToTensor
import matplotlib.pyplot as plt
import numpy as np

# 训练集
train_data = datasets.FashionMNIST(
    root="Data",  # 数据存储路径
    train=True, # 下载训练集(True)或测试集(False)
    download=True, # 是否从互联网下载Pytorch自带的数据
    transform=ToTensor() # 特征标签转换
)

# 测试集
test_data = datasets.FashionMNIST(
    root="Data", 
    train=False,
    download=True,
    transform=ToTensor()
)

# 单一样本数据预览
sample = next(iter(train_data)) # 将train_data转为迭代器，并取第一个数据
"""
其中iter函数可用于将列表、字典、字符串等转换为迭代器（可用循环整体调用，也可用next函数逐个调用）
如 A = iter([1,2,3,4])
1. for i in A: print(i) 输出为1 2 3 4
2. next(A); next(A) 输出为1 2
"""
image,label = sample # image为图片数据，label为标签
print(image.shape) # 输出图片数据格式：torch.Size([1, 28, 28])，其中颜色通道数为1，长宽各为28个数据位
plt.imshow(image.squeeze(), cmap='gray') # 输出图片
print('label:',label)

# 批量样本数据预览
train_loader = torch.utils.data.DataLoader(train_data, batch_size=10) # 取10个样本
batch = next(iter(train_loader))
images,labels = batch
print(images.shape) # 输出为torch.Size([10, 1, 28, 28])，其中样本数为10
grid = torchvision.utils.make_grid(images,nrow=10) # 设置一个布局，将images中的图像按一行10个拼接输出
plt.figure(figsize=(15,15)) # 设定画布大小
plt.imshow(np.transpose(grid,(1,2,0))) # 调换图像各阶数据，将通道信息放在最后，便于显示
print(labels)


# 1.2.加载本地数据集，以图像数据hymenoptera_data为例
"""
从上面加载官方数据集不难看出，加载本地数据集我们同样需得到以下结果：
【1】得到所有样本数据，样本数据标签及地址  
【2】得到数据集长度 
【3】能够得到指定位置或数量的数据集，以便后续的预处理操作 
"""
import os
from PIL import Image
from torch.utils.data import Dataset, dataloader

class MyData(Dataset):

    def __init__(self, root_dir, label_dir): # 初始化函数。提供数据地址和路径信息
        self.root_dir = root_dir
        self.label_dir = label_dir
        self.path = os.path.join(self.root_dir, self.label_dir)
        self.img_path = os.listdir(self.path)
    
    def __len__(self): # 总样本数量
        return len(self.img_path)

    def _getitem__(self, index): # 取出指定位置的数据内容和标签信息
        img_name = self.img_path[index]
        img_item_path = os.path.join(self.root_dir, self.label_dir, img_name)
        img = Image.open(img_item_path)
        
        return img,img_name

root_dir = 'C:\\Users\\XGQ\\Desktop\\Programs\\Python\\Python程序\\Learning\\Deep Learning\\Data\\hymenoptera_data\\train'
ants_label_dir = 'ants'
ants_dataset = MyData(root_dir, ants_label_dir)

image, label = ants_dataset._getitem__(0)
print('label:',label)
image

# 1.3.加载本地数据集，以文本数据xxx为例