In [1]:
%matplotlib inline
import torch
import torchvision
import torch.nn as nn
import numpy as np
import torchvision.transforms as transforms
import matplotlib.pyplot as plt

In [2]:
batch_size = 256
num_workers = 4
#下载训练集到指定目录
mnist_train = torchvision.datasets.FashionMNIST(root='/home/retoo/Desktop/实验/数据集/3 深度学习/3FashionMNIST', train=True, download=True, transform=transforms.ToTensor())
# 下载测试集到指定目录
mnist_test = torchvision.datasets.FashionMNIST(root='/home/retoo/Desktop/实验/数据集/3 深度学习/3FashionMNIST', train=False, download=True, transform=transforms.ToTensor())
# 将训练集组成一个批次
train_iter = torch.utils.data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True, num_workers=num_workers)
# 将测试集组成一个批次
test_iter = torch.utils.data.DataLoader(mnist_test, batch_size=batch_size, shuffle=True, num_workers=num_workers)

In [3]:
feature, label = mnist_train[0]#读取第一个获得的训练数据，每一个训练数据均为data与label
print(feature.shape, label)  # Channel x Height x Width　＃每一个data为三通道数据,label为单通道标签数据

torch.Size([1, 28, 28]) 9


In [4]:
def dropout(X, drop_prob):#定义droppout模块
    X = X.float()
    assert 0 <= drop_prob <= 1#设置丢失的概率，如果不是０~1,则系统设置错误
    keep_prob = 1 - drop_prob
    # 这种情况下把全部元素都丢弃
    if keep_prob == 0:
        return torch.zeros_like(X)#如果丢失率为１００％,则返回的值全部为零
    # print(X.shape)
    # print(X.sum().item())
    mask = (torch.rand(X.shape) < keep_prob).float()  # 丢失概率不为全部，X.shape([2,8]),随机生产一个０－1的形状与Ｘ相同的，小于０．５的为１，否则为０
    # 通过ｍａｓｋ＊Ｘ，保留１位置的值/home/retoo/Desktop/实验/数据集/3.深度学习/3FashionMNIST', train=False, download=True, transform=transforms.ToTensor())
    
    # 为了维持训练和测试的时候输出的期望保持一致，在代码上有两种做法，一种是在训练的时候对输出除以1-p（保留的概率），另外一种则是在预测的时候对输出乘以p

    return mask * X / keep_prob

In [5]:
X = torch.arange(16).view(2, 8)#假设输入的图像为１６个，将其resize到(2,8)
dropout(X, 0.5)

tensor([[ 0.,  0.,  0.,  6.,  8.,  0., 12., 14.],
        [16., 18.,  0., 22., 24.,  0.,  0., 30.]])

In [6]:
num_inputs, num_outputs, num_hiddens1, num_hiddens2 = 784, 10, 256, 256#设置各层的网络节点数
W1 = torch.tensor(np.random.normal(0, 0.01, size=(num_inputs, num_hiddens1)), dtype=torch.float, requires_grad=True)
#W1为第一层的参数，输入节点与第一层隐含层之间的参数
b1 = torch.zeros(num_hiddens1, requires_grad=True)#第一层的偏置量
W2 = torch.tensor(np.random.normal(0, 0.01, size=(num_hiddens1, num_hiddens2)), dtype=torch.float, requires_grad=True)
#W２为第二层的参数，第一层隐含层与第二层隐含层之间的参数
b2 = torch.zeros(num_hiddens2, requires_grad=True)#第二层的偏置量
W3 = torch.tensor(np.random.normal(0, 0.01, size=(num_hiddens2, num_outputs)), dtype=torch.float, requires_grad=True)
#W３为第三层的参数，第二层隐含层与输出层之间的参数
b3 = torch.zeros(num_outputs, requires_grad=True)#第三层的偏置量
params = [W1, b1, W2, b2, W3, b3]#参数列表，但是每个参数均为tensor

In [7]:
drop_prob1, drop_prob2 = 0.2, 0.5#不同的droppout比例
def net(X, is_training=True):
    X = X.view(-1, num_inputs)#将输入展平为一维的
    H1 = (torch.matmul(X, W1) + b1).relu()
    if is_training:  # 只在训练模型时使用丢弃法
        H1 = dropout(H1, drop_prob1)  # 在第一层全连接后添加丢弃层
    H2 = (torch.matmul(H1, W2) + b2).relu()
    if is_training:
        H2 = dropout(H2, drop_prob2)  # 在第二层全连接后添加丢弃层
    return torch.matmul(H2, W3) + b3

In [8]:
loss = torch.nn.CrossEntropyLoss()#损失函数直接选择torch.nn中的交叉熵损失函数

In [9]:
def sgd(params, lr, batch_size):
    for param in params:
        param.data -= lr * param.grad / batch_size # 注意这里更改param时用的param.data

In [10]:
def evaluate_accuracy(data_iter, net):
    acc_sum, n = 0.0, 0
    for X, y in data_iter:
        if isinstance(net, torch.nn.Module):#如果net模型为基于torch.nn.Module搭建的，深度学习的常用模型
            net.eval() # 评估模式, 这会关闭dropout
            acc_sum += (net(X).argmax(dim=1) == y).float().sum().item()
            net.train() # 改回训练模式
        else: # 自定义的模型
            if('is_training' in net.__code__.co_varnames): # 如果有is_training这个参数
                #net.__code__.co_varnames 将函数的局部变量以元组的形式返回，除此以外，还有fun.__code__.co_argcount返回函数中参数的个数等（*args以前的）
                # 将is_training设置成False
                #?为什么在精度计算的过程中需要将网络修改为验证模式
                acc_sum += (net(X, is_training=False).argmax(dim=1) == y).float().sum().item()
            else:
                acc_sum += (net(X).argmax(dim=1) == y).float().sum().item()
        n += y.shape[0]
    return acc_sum / n

In [11]:
num_epochs, lr = 5, 0.1

def train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size,
              params=None, lr=None, optimizer=None):
    for epoch in range(num_epochs):
        train_l_sum, train_acc_sum, n = 0.0, 0.0, 0#训练的时候，每个epoch都需要对其进行清零
        for X, y in train_iter:
            y_hat = net(X)
            l = loss(y_hat, y).sum()#l还是为tensor，值是一个．

            # 梯度清零
            if optimizer is not None:#如果定义了优化器
                optimizer.zero_grad()
            elif params is not None and params[0].grad is not None:#如果定义了参数
                for param in params:
                    param.grad.data.zero_()
            l.backward()#梯度反向求导
            if optimizer is None:
                sgd(params, lr, batch_size)#没有定义优化器，用自己定义的sgd求解参数
            else:
                optimizer.step()  #优化器为torch中提供的，则用.step()
            train_l_sum += l.item()#每次生成的batch个损失函数，在一次epoch中集中计算一次
            train_acc_sum += (y_hat.argmax(dim=1) == y).sum().item()#在每次的预测输出中，通过概率最大值与标签值之间的比较
            n += y.shape[0]#batch值
        test_acc = evaluate_accuracy(test_iter, net)#验证集数据的精度计算
        print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f'
              % (epoch + 1, train_l_sum / n, train_acc_sum / n, test_acc))

In [12]:
num_epochs, lr = 5, 100.0
train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, params, lr)
#对比实验２，本实验中损失函数更小，训练的精度也要更高些．

epoch 1, loss 0.0046, train acc 0.554, test acc 0.739
epoch 2, loss 0.0023, train acc 0.785, test acc 0.739
epoch 3, loss 0.0019, train acc 0.823, test acc 0.811
epoch 4, loss 0.0017, train acc 0.839, test acc 0.825
epoch 5, loss 0.0016, train acc 0.847, test acc 0.792
