# 第3章 深度学习计算框架

## 3.4 张量

**1. 张量的创建**

1. 以Python列表形式创建张量

In [1]:
import torch
data = [[1, 2],[3, 4]]
x_list = torch.tensor(data)
print(x_list)

tensor([[1, 2],
        [3, 4]])


2. 以numpy数组形式创建张量

In [2]:
import numpy as np
np_array = np.array(data, dtype=float)
x_np = torch.from_numpy(np_array)
print(x_np)

tensor([[1., 2.],
        [3., 4.]], dtype=torch.float64)


3. 以指定形状、常量创建张量

In [3]:
x_ones = torch.ones(2, 3)
x_zeros = torch.zeros(2, 3)
x_rand = torch.rand(2, 3)
x_randn = torch.randn(2, 3)

print(x_ones)
print(x_zeros)
print(x_rand)
print(x_randn)

tensor([[1., 1., 1.],
        [1., 1., 1.]])
tensor([[0., 0., 0.],
        [0., 0., 0.]])
tensor([[0.4492, 0.1088, 0.9981],
        [0.5390, 0.9038, 0.0843]])
tensor([[-0.6765, -0.7505, -0.2299],
        [-0.4672,  0.1520,  0.4656]])


4. 根据已有张量创建张量

In [4]:
x_ones_like = torch.ones_like(x_list)
x_zeros_like = torch.zeros_like(x_list)

# x_list为整型数据，与均匀分布和标准分布需要的浮点型数据冲突
x_rand_like = torch.rand_like(x_list, dtype=torch.float)  # 以dtype参数重载数据类型
x_randn_like = torch.randn_like(x_list, dtype=torch.float)

5. 其他常用张量创建方法

torch.full(size, value)根据输入的形状和值来创建张量

In [5]:
x_full = torch.full([3, 4], 3.14)
print(x_full)

tensor([[3.1400, 3.1400, 3.1400, 3.1400],
        [3.1400, 3.1400, 3.1400, 3.1400],
        [3.1400, 3.1400, 3.1400, 3.1400]])


torch.arange(start, end, step)将创建一个左闭右开区间[start, end)内的一维张量，其步长为step

In [6]:
x_arange = torch.arange(1, 10, 1)
print(x_arange)

tensor([1, 2, 3, 4, 5, 6, 7, 8, 9])


torch.linspace(start, end, steps)将创建一个闭区间[start, end]内的一维向量，其中的元素个数为steps，呈等间隔分布

In [7]:
x_linspace = torch.linspace(0, 10, 21)
print(x_linspace)

tensor([ 0.0000,  0.5000,  1.0000,  1.5000,  2.0000,  2.5000,  3.0000,  3.5000,
         4.0000,  4.5000,  5.0000,  5.5000,  6.0000,  6.5000,  7.0000,  7.5000,
         8.0000,  8.5000,  9.0000,  9.5000, 10.0000])


**2.张量的数据类型、类型转换**

In [8]:
x_ones = torch.ones(2, 3)
x_ones_8bit_int = x_ones.type(torch.CharTensor)
x_ones_32bit_int = x_ones.type(torch.IntTensor)

print(x_ones_8bit_int)
print(x_ones_32bit_int)

tensor([[1, 1, 1],
        [1, 1, 1]], dtype=torch.int8)
tensor([[1, 1, 1],
        [1, 1, 1]], dtype=torch.int32)


PyTorch也支持在定义张量时直接通过dtype参数指定数据类型

In [9]:
x_ones_int8 = torch.ones(2, 3, dtype=torch.int8)
x_ones_int16 = torch.ones(2, 3, dtype=torch.int16)
x_ones_int32 = torch.ones(2, 3, dtype=torch.int32)
x_ones_int64 = torch.ones(2, 3, dtype=torch.int64)
x_ones_float16 = torch.ones(2, 3, dtype=torch.float16)
x_ones_float32 = torch.ones(2, 3, dtype=torch.float32)
x_ones_float64 = torch.ones(2, 3, dtype=torch.float64)

print(x_ones_int8.type())
print(x_ones_int16.type())
print(x_ones_int32.type())
print(x_ones_int64.type())
print(x_ones_float16.type())
print(x_ones_float32.type())
print(x_ones_float64.type())

torch.CharTensor
torch.ShortTensor
torch.IntTensor
torch.LongTensor
torch.HalfTensor
torch.FloatTensor
torch.DoubleTensor


PyTorch张量与Numpy数组的互相转换

In [10]:
import numpy as np
a = np.ones([3, 2],dtype=np.float32)
print(a)

[[1. 1.]
 [1. 1.]
 [1. 1.]]


Numpy转化成Tensor

In [11]:
b = torch.from_numpy(a)
print(b)
b = torch.Tensor(a) 
print(b)

tensor([[1., 1.],
        [1., 1.],
        [1., 1.]])
tensor([[1., 1.],
        [1., 1.],
        [1., 1.]])


Tensor 转化为 Numpy

In [12]:
c = b.numpy()
print(c)

[[1. 1.]
 [1. 1.]
 [1. 1.]]


Numpy和Tensor共享内存的示例

In [13]:
a[0, 1]=10     # 将10赋值给第一行第二列元素赋值
print(b)
print(c)

tensor([[ 1., 10.],
        [ 1.,  1.],
        [ 1.,  1.]])
[[ 1. 10.]
 [ 1.  1.]
 [ 1.  1.]]


注意： 当numpy的数据类型和Tensor的类型不一样的时候，数据会被复制，不会共享内存

CPU张量与GPU张量的互相转换

默认情况下，张量会创建在CPU上

In [14]:
a = torch.randn(2, 3)
print(a.device)

cpu


创建GPU张量

In [15]:
if torch.cuda.is_available(): # 如果支持GPU加速
    a = torch.randn(2,3, device=torch.device('cuda:0'))
   	# 等价于
    # a.torch.randn(2,3).cuda(0)
    # 但是前者更快
print(a.device)

cuda:0


GPU张量和CPU张量相互转化

In [16]:
device = torch.device('cpu')
b =a.to(device)
print(b.device)
device = torch.device('cuda:0')
c =b.to(device)
print(c.device)

cpu
cuda:0


**3.张量的形状调整操作**

通过tensor.view方法可以调整Tensor的形状，但必须保证调整前后元素总数一致。view不会修改自身的数据，返回的新Tensor与源Tensor共享内存，也即更改其中的一个，另外一个也会跟着改变

In [17]:
a = torch.arange(0, 8)
print(a.view(2, 4))

tensor([[0, 1, 2, 3],
        [4, 5, 6, 7]])


tensor.view当某一维为-1的时候，会自动计算它的大小

In [18]:
b = a.view(-1, 4) 
print(b)
print(b.shape)

tensor([[0, 1, 2, 3],
        [4, 5, 6, 7]])
torch.Size([2, 4])


由于a和b共享内存，因此a修改，b也会跟着修改

In [19]:
a[1] = 10
print(b)

tensor([[ 0, 10,  2,  3],
        [ 4,  5,  6,  7]])


避免内存共享可采取拷贝方法，torch.clone()函数可以返回一个完全相同的Tensor，新的Tensor将开辟新的内存

In [20]:
c= b.clone()
b[1]= 1  # 改变b，不会发生改变
print(c)

tensor([[ 0, 10,  2,  3],
        [ 4,  5,  6,  7]])


在实际应用中可能经常需要添加或减少某一维度，可以使用squeeze和unsqueeze两个函数

unsqueeze操作

In [21]:
c = b.unsqueeze(dim=1) #在第1维（下标从0开始）上增加“１”
#等价于 b[:,None]
print(c.shape)
d = b.unsqueeze(-1) # -1表示倒数第一个维度
print(d.shape)

torch.Size([2, 1, 4])
torch.Size([2, 4, 1])


squeeze操作

In [22]:
# 注意每次压缩的形状
c = b.unsqueeze(dim=1) #在第1维（下标从0开始）上增加“１”
c = b.view(1, 1, 1, 2, 4)
print(c)
d = c.squeeze(0) # 压缩第0维的“１”
print(d)
d = c.squeeze() # 把所有维度为“1”的压缩
print(d)

tensor([[[[[ 0, 10,  2,  3],
           [ 1,  1,  1,  1]]]]])
tensor([[[[ 0, 10,  2,  3],
          [ 1,  1,  1,  1]]]])
tensor([[ 0, 10,  2,  3],
        [ 1,  1,  1,  1]])


resize是另一种可用来调整size的方法，但与view不同，它可以修改Tensor的大小。如果新大小超过了原大小，会自动分配新的内存空间，而如果新大小小于原大小，则之前的数据依旧会被保存

In [23]:
c = b.resize_(1, 4)
print(c)
c = b.resize_(3, 4) # 旧的数据依旧保存着，多出的大小会分配新空间
print(c)

tensor([[ 0, 10,  2,  3]])
tensor([[              0,              10,               2,               3],
        [              1,               1,               1,               1],
        [             25,  93970119698776, 140551396087024,               1]])


repeat方法会根据给定的size，每个维度扩展size对应数，得到新的Tensor张量

In [24]:
a = torch.arange(0, 3).view(3,1)
print(a.shape)
b = a.repeat(3,4)
c = a.repeat(2,3,4)
print(b.shape)
print(c.shape)

torch.Size([3, 1])
torch.Size([9, 4])
torch.Size([2, 9, 4])


Tensor张量的维度变换可以采用permute方法和transpose方法。transpose(input, dim0, dim1) 交换给定的dim0和dim1。Permute()可以一次操作多个维度，但每次操作必须传入所有维度

In [25]:
a = torch.arange(0, 6).view(2,1,3)
b = torch.transpose(a,0,1)    
# 注意没有torch.permute,只有x.permute()
c = a.permute(2,0,1)
print(a.shape)
print(b.shape)
print(c.shape)

torch.Size([2, 1, 3])
torch.Size([1, 2, 3])
torch.Size([3, 2, 1])


注意：permute方法和transpose方法均返回原Tensor的view。即改变其中一个值，也会导致另一个值改变

In [26]:
c[0,1]=100
print(a)
print(b)
print(c)

tensor([[[  0,   1,   2]],

        [[100,   4,   5]]])
tensor([[[  0,   1,   2],
         [100,   4,   5]]])
tensor([[[  0],
         [100]],

        [[  1],
         [  4]],

        [[  2],
         [  5]]])


**4.张量的逐元素操作**

逐元素操作会对Tensor的每一个元素(point-wise，又名element-wise)进行操作，此类操作的输入与输出形状一致，对于很多操作，例如div、mul、pow、fmod等，PyTorch都实现了运算符重载，所以可以直接使用运算符。如a ** 2 等价于torch.pow(a,2), a * 2等价于torch.mul(a,2)

In [27]:
a = torch.arange(0, 6).float()
print(torch.cos(a))
print(a %  2) # 等价于t.fmod(a, 3)
print(a ** 3) # 等价于t.pow(a, 2)

tensor([ 1.0000,  0.5403, -0.4161, -0.9900, -0.6536,  0.2837])
tensor([0., 1., 0., 1., 0., 1.])
tensor([  0.,   1.,   8.,  27.,  64., 125.])


**5.张量的归并操作**

此类操作会使输出形状小于输入形状，并可以沿着某一维度进行指定操作。如加法sum，既可以计算整个Tensor的和，也可以计算Tensor中每一行或每一列的和

In [28]:
b = torch.ones(3, 2)
c= b.sum(dim = 0, keepdim=True)
print(c)
# keepdim=False，不保留维度"1"，注意形状
c= b.sum(dim=0, keepdim=False)
print(c)

tensor([[3., 3.]])
tensor([3., 3.])


cumsum则可以沿着行累加

In [29]:
a = torch.arange(0, 6).view(2, 3)
print(a)
b = a.cumsum(dim=1)
print(b)

tensor([[0, 1, 2],
        [3, 4, 5]])
tensor([[ 0,  1,  3],
        [ 3,  7, 12]])


**6.张量的索引操作**

Tensor支持与numpy.ndarray类似的索引操作，语法上也类似，如无特殊说明，索引出来的结果与原tensor共享内存，即修改一个，另一个会跟着修改

In [30]:
a = torch.randn(3, 4)

print(a)
print(a[0]) # 第0行(下标从0开始)
print(a[:, 0]) # 第0列
print(a[0][2]) # 第0行第2个元素，等价于a[0, 2]
print(a[0, -1]) # 第0行最后一个元素
print(a[:2]) # 前两行
print(a[:2, 0:2])# 前两行，第0,1列
print(a[0:1, :2]) # 第0行，前两列
print(a[0, :2]) # 注意上一个print的区别：形状不同

tensor([[-0.9428,  1.5430,  1.2373, -1.4099],
        [-0.8818, -0.0888,  0.9404,  0.3046],
        [ 0.9807,  1.5769, -0.3019,  0.6895]])
tensor([-0.9428,  1.5430,  1.2373, -1.4099])
tensor([-0.9428, -0.8818,  0.9807])
tensor(1.2373)
tensor(-1.4099)
tensor([[-0.9428,  1.5430,  1.2373, -1.4099],
        [-0.8818, -0.0888,  0.9404,  0.3046]])
tensor([[-0.9428,  1.5430],
        [-0.8818, -0.0888]])
tensor([[-0.9428,  1.5430]])
tensor([-0.9428,  1.5430])


None类似于np.newaxis, 为a新增了一个轴，等价于a.view(1, a.shape[0], a.shape[1])

In [31]:
a = torch.randn(3, 4)

print(a[None].shape)
print(a[None].shape )# 等价于a[None,:,:]
print(a[:,None,:].shape)
print(a[:,None,:,None,None].shape)
print(a > 1 )# 返回一个ByteTensor
print(a[a>1] )# 等价于a.masked_select(a>1), 选择结果与原tensor不共享内存空间
print(a[torch.LongTensor([0,1])]) # 第0行和第1行

torch.Size([1, 3, 4])
torch.Size([1, 3, 4])
torch.Size([3, 1, 4])
torch.Size([3, 1, 4, 1, 1])
tensor([[False, False, False, False],
        [False, False, False, False],
        [False, False, False, False]])
tensor([])
tensor([[ 0.9719, -1.2487,  0.6139,  0.4218],
        [-0.8369,  0.2941, -1.6502, -1.7448]])


gather作为一个比较复杂的操作，三维tensor的gather操作如下所示

In [32]:
a = torch.arange(0, 16).view(4, 4)
index1 = torch.LongTensor([[0,1,2,3]])
index2 = torch.LongTensor([[3,2,1,0]]).t()
index3 = torch.LongTensor([[3,2,1,0]])
index4 = torch.LongTensor([[0,1,2,3],[3,2,1,0]]).t()

print(a)
print(a.gather(0, index1))# 选取对角线的元素
print(a.gather(1, index2))# 选取反对角线上的元素
print(a.gather(0, index3))# 选取反对角线上的元素，注意与上面的不同
print(a.gather(1, index4))# 选取两个对角线上的元素

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15]])
tensor([[ 0,  5, 10, 15]])
tensor([[ 3],
        [ 6],
        [ 9],
        [12]])
tensor([[12,  9,  6,  3]])
tensor([[ 0,  3],
        [ 5,  6],
        [10,  9],
        [15, 12]])


对tensor的任何索引操作仍是一个tensor，想要获取标准的python对象数值，需要调用tensor.item(), 这个方法只对包含一个元素的tensor适用

In [33]:
a = torch.arange(0, 16).view(4, 4)
d = a[0:1, 0:1, None]

print(a[0,0])#依旧是tensor
print(a[0,0].item())# python float
print(d.shape)
print(d.item()) # 只包含一个元素的tensor即可调用tensor.item,与形状无关

tensor(0)
0
torch.Size([1, 1, 1])
0


PyTorc支持绝大多数numpy的高级索引。高级索引可以看成是普通索引操作的扩展，但是高级索引操作的结果一般不和原始的Tensor共享内存

In [34]:
x = torch.arange(0,27).view(3,3,3)

print(x)
print(x[[1, 2], [1, 2], [2, 0]]) # x[1,1,2]和x[2,2,0]
print(x[[2, 1, 0], [0], [1]])# x[2,0,1],x[1,0,1],x[0,0,1]
print(x[[0, 2], ...])# x[0] 和 x[2] 

tensor([[[ 0,  1,  2],
         [ 3,  4,  5],
         [ 6,  7,  8]],

        [[ 9, 10, 11],
         [12, 13, 14],
         [15, 16, 17]],

        [[18, 19, 20],
         [21, 22, 23],
         [24, 25, 26]]])
tensor([14, 24])
tensor([19, 10,  1])
tensor([[[ 0,  1,  2],
         [ 3,  4,  5],
         [ 6,  7,  8]],

        [[18, 19, 20],
         [21, 22, 23],
         [24, 25, 26]]])


**7.张量的比较操作**

比较一个tensor和一个数，可以使用clamp函数

In [35]:
a = torch.linspace(0, 15, 6).view(2, 3)
b = torch.linspace(15, 0, 6).view(2, 3)

print(a)
print(b)
print(a>b)
print(a[a>b]) # a中大于b的元素
print(torch.max(a))
print(torch.max(b, dim=1))
# 第一个返回值的15和6分别表示第0行和第1行最大的元素
# #第二个返回值的0和0表示上述最大的数是该行第0个元素
print(torch.max(a,b))
print(torch.clamp(a, min=10))# 比较a和10较大的元素 

tensor([[ 0.,  3.,  6.],
        [ 9., 12., 15.]])
tensor([[15., 12.,  9.],
        [ 6.,  3.,  0.]])
tensor([[False, False, False],
        [ True,  True,  True]])
tensor([ 9., 12., 15.])
tensor(15.)
torch.return_types.max(
values=tensor([15.,  6.]),
indices=tensor([0, 0]))
tensor([[15., 12.,  9.],
        [ 9., 12., 15.]])
tensor([[10., 10., 10.],
        [10., 12., 15.]])


**8.张量的线性代数操作**

PyTorch的线性函数主要封装了Blas和Lapack，其用法和接口都与之类似

In [36]:
a = torch.tensor([[1,2,3],[4,5,6],[7,8,9]])

print(a)
print(torch.trace(a)) # 求矩阵a的迹
print(torch.diag(a)) # 求矩阵a的对角线元素
print(torch.triu(a)) # 求矩阵a的上三角矩阵，无偏移量
print(torch.triu(a, diagonal=1)) # 求矩阵a的上三角矩阵，偏移量为1
print(torch.tril(a)) # 求矩阵a的下三角矩阵，无偏移量
print(torch.tril(a, diagonal=-1)) # 求矩阵a的下三角矩阵，偏移量为1

tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])
tensor(15)
tensor([1, 5, 9])
tensor([[1, 2, 3],
        [0, 5, 6],
        [0, 0, 9]])
tensor([[0, 2, 3],
        [0, 0, 6],
        [0, 0, 0]])
tensor([[1, 0, 0],
        [4, 5, 0],
        [7, 8, 9]])
tensor([[0, 0, 0],
        [4, 0, 0],
        [7, 8, 0]])


bmm函数用于计算批量矩阵的乘法，即同时批量组矩阵乘法

In [37]:
c = torch.randn((2,2,5)) # 批量大小为2，即两组2*5的矩阵
d = torch.reshape(c,(2,5,2)) # 两组5*2的矩阵

print(c)
print(d)
print(torch.bmm(c,d))

tensor([[[-0.0723, -0.4299,  0.1832, -0.4865, -0.7040],
         [-0.7577, -0.9718,  0.1325, -2.1047, -1.4561]],

        [[-1.7467, -0.2075, -0.1490, -1.0882,  0.5957],
         [ 0.8632,  0.3368,  0.7400,  0.5647, -2.2321]]])
tensor([[[-0.0723, -0.4299],
         [ 0.1832, -0.4865],
         [-0.7040, -0.7577],
         [-0.9718,  0.1325],
         [-2.1047, -1.4561]],

        [[-1.7467, -0.2075],
         [-0.1490, -1.0882],
         [ 0.5957,  0.8632],
         [ 0.3368,  0.7400],
         [ 0.5647, -2.2321]]])
tensor([[[ 1.7520,  1.0620],
         [ 4.8934,  2.5395]],

        [[ 2.9631, -1.6752],
         [-2.1874,  5.4933]]])


需要注意，矩阵的转置会导致存储空间不连续，torch.view等方法操作需要连续的Tensor，导致如果按照语义的形状进行view拉伸，数字会不连续

In [38]:
t = torch.tensor([[2, 1, 3], [4, 5, 9]])
t1 = t.t()
print(t)
print(t.view(1,6))
print(t1)
print(t1.view(1,6)) 

tensor([[2, 1, 3],
        [4, 5, 9]])
tensor([[2, 1, 3, 4, 5, 9]])
tensor([[2, 4],
        [1, 5],
        [3, 9]])


RuntimeError: view size is not compatible with input tensor's size and stride (at least one dimension spans across two contiguous subspaces). Use .reshape(...) instead.

此时需调用它的.contiguous方法将其转为连续

In [39]:
t2 = t1.contiguous()

print(t2)
print(t2.view(1,6))

tensor([[2, 4],
        [1, 5],
        [3, 9]])
tensor([[2, 4, 1, 5, 3, 9]])


## 3.5 动态计算图

使用PyTorch来实现单层感知机的例子，并进一步分析PyTorch的自动求导机制，首先需要使用PyTorch来表示上述计算过程，设置参数requires_grad=True，在计算图中指定变量需要计算梯度

In [40]:
import torch

x = torch.ones(5)  # 输入x: [1, 1, 1, 1, 1]
y = torch.zeros(3)  # 标签y: [0, 0, 0]
w = torch.randn(5, 3, requires_grad=True) # 使用标准分布初始化参数矩阵w
b = torch.randn(3, requires_grad=True) # 使用标准分布初始化参数向量b
z = torch.matmul(x, w)+b  # 中间变量z=x*w+b
loss = torch.nn.functional.binary_cross_entropy_with_logits(z, y) # 求交叉熵损失值

可以使用PyTorch的grad_fn函数来查看中间变量的梯度函数类型，它将记录中间变量是由什么操作得到输出的

In [41]:
print(f"Gradient function for z = {z.grad_fn}")
print(f"Gradient function for loss = {loss.grad_fn}")
print(f"Gradient function for w = {w.grad_fn}")  # 未指定需要计算梯度
print(f"Gradient function for b = {b.grad_fn}")  # 未指定需要计算梯度

Gradient function for z = <AddBackward0 object at 0x7fd3bac85a90>
Gradient function for loss = <BinaryCrossEntropyWithLogitsBackward0 object at 0x7fd3bac85e50>
Gradient function for w = None
Gradient function for b = None


可以看到，对于计算过程中的中间变量z和最终输出loss，PyTorch会自动地记录它们所参与的运算。而对于用户定义初始化的变量w，b，它们称为叶子节点，其对应的梯度函数为None

PyTorch提供了backward()函数，用以自动地求解所有requires_grad=True的张量的梯度

In [42]:
loss.backward()
print(w.grad)
print(b.grad)

tensor([[0.1011, 0.2972, 0.0466],
        [0.1011, 0.2972, 0.0466],
        [0.1011, 0.2972, 0.0466],
        [0.1011, 0.2972, 0.0466],
        [0.1011, 0.2972, 0.0466]])
tensor([0.1011, 0.2972, 0.0466])


## 3.6神经网络层和模块

在PyTorch中，torch.nn中封装了大量可供直接调用的模块，包括常用的全连接层、卷积层（Convolutional Layer）、池化层（Pooling Layer）等神经网络基础模块，也包括各种激活函数、损失函数等常用的数学运算操作，用户可以直接调用这些模块完整地搭建各种神经网络模型

1. **torch.nn.Flatten**： 使用torch.nn.Flatten()可以定义一个展开层，它可以将输入的高维张量展开为1维

In [43]:
input_image = torch.rand(3,128,128) #假设输入3个128*128的矩阵
flatten = torch.nn.Flatten() # 定义一个展平层
flat_image = flatten(input_image) # 使用展平层将矩阵展开成向量
print(flat_image.shape)

torch.Size([3, 16384])


2. **torch.nn.Linear**：使用torch.nn.Linear(in_features, out_features)可以直接定义一个输入和输出分别为in_features和out_features的全连接层

In [44]:
fc = torch.nn.Linear(128*128, 20) # 定义一个128*128到20的全连接层
output = fc(flat_image)
print(output.size())

torch.Size([3, 20])


3. **torch.nn.ReLU**：使用torch.nn.ReLU()可以定义一个ReLU激活函数层

In [45]:
relu = torch.nn.ReLU()
output = relu(output)
print(output)

tensor([[0.0000, 0.3538, 0.4886, 0.0000, 0.5667, 0.0616, 0.0000, 0.4835, 0.0000,
         0.0000, 0.0000, 0.0243, 0.0591, 0.0000, 0.3148, 0.3913, 0.4390, 0.0000,
         0.0000, 0.4294],
        [0.0000, 0.4610, 0.4736, 0.1083, 0.3916, 0.0000, 0.0000, 0.6451, 0.0000,
         0.0000, 0.0000, 0.4695, 0.0000, 0.0719, 0.2537, 0.1805, 0.5672, 0.1406,
         0.0000, 0.3099],
        [0.0074, 0.1678, 0.2357, 0.0830, 0.0547, 0.3910, 0.0000, 0.5839, 0.0000,
         0.0000, 0.0638, 0.2261, 0.0000, 0.0000, 0.5542, 0.0604, 0.4876, 0.0747,
         0.0000, 0.2898]], grad_fn=<ReluBackward0>)


4. **torch.nn.Sequence**：orch.nn.Sequence()是一个有序的模块容器，它能够按顺序封装多个模块

In [46]:
seq_modules = torch.nn.Sequential(
    torch.nn.Flatten(),
    torch.nn.Linear(128*128, 20),
    torch.nn.ReLU(),
)
input_image = torch.rand(3,128,128)
output = seq_modules(input_image)
print(output.shape)

torch.Size([3, 20])


5. **torch.optim**：PyTorch的optim模块内封装了一系列的优化方法，也称为优化器（optimizer），例如torch.optim.SGD（随机梯度下降）、torch.optim.Adagrad、torch.optim.Adam等等

## 3.7 PyTorch神经网络学习实践

**1.模型定义**

在PyTorch中，torch.nn.Module是所有的网络模块和神经网络模型的基类，用户在自定义模型时，也需要继承该基类，同时必须定义以下两个函数：

（1）\_\_init\_\_()：构造函数，定义模型所需要用的神经网络层，并完成模型的初始化；

（2）forward()：前向传播函数，定义输入数据前向传播的计算过程。

这里以3层全连接层神经网络的定义为例：

In [47]:
import torch
import torch.nn as nn

class FullyConnectedNetwork(nn.Module):
    # 构造函数，定义网络中的模块
    def __init__(self):
        super(FullyConnectedNetwork, self).__init__()
        # 展开层，将输入图片展开为一维向量
        self.flatten = nn.Flatten()
        # 3层全连接层
        self.linear_layers = nn.Sequential(
            nn.Linear(28*28, 512),   # 输入层：将输入映射到长度为512
            nn.ReLU(),               # ReLU激活函数
            nn.Linear(512, 512),     # 隐藏层
            nn.ReLU(),
            nn.Linear(512, 10),      # 输出层：将特征向量映射到10个类别
        )

    # 前向传播函数
    def forward(self, x):
        x = self.flatten(x)  # 展开图片
        outputs = self. linear_layers(x) # 经过全连接层得到输出
        return outputs
# 实例化模型
model = FullyConnectedNetwork()

**2.载入数据**

使用torchvision库可以直接下载并导入MNIST数据集，并使用PyTorch的DataLoader模块将数据集处理成神经网络所需的批量数据

In [48]:
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor, Lambda

# 定义训练集
training_data = datasets.MNIST(
    root= "../chapter_2",  # 所用mnist数据集已在第二章中下载过
    train=True,
    download=True,
    transform=ToTensor()
)

# 定义测试集
test_data = datasets.MNIST(
    root="../chapter_2",
    train=False,
    download=True,
    transform=ToTensor()
)

# 设置批量大小为64
train_dataloader = DataLoader(training_data, batch_size=64)
test_dataloader = DataLoader(test_data, batch_size=64)

**3.定义超参数**

在开始训练神经网络前，需要定义以下几个主要的超参数:
1. 训练轮数（epochs）
2. 批量大小（batch_size）
3. 学习率（learning_rate）

In [49]:
epochs = 5
learning_rate = 1e-3
batch_size = 64

**4.定义损失函数**

这里使用第二章所介绍的常用分类损失函数——交叉熵损失（Cross Entropy Loss），在PyTorch中，可以直接调用nn.CrossEntropyLoss()模块来定义

In [50]:
loss_fn = nn.CrossEntropyLoss()

**5.定义优化器**

这里使用第二章所介绍的随机梯度下降优化方法作为优化器，在PyTorch中，可以直接调用torch.optim.SGD()模块来定义，这里需要传入两个参数（1）模型参数（2）学习率

In [51]:
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

**6.定义单轮训练函数及单轮测试函数**

一般情况下，可以先定义出单轮的训练及测试函数，在这里只考虑遍历一次数据集所需要完成的操作，主要包括前向传播、梯度反向传播、梯度更新和打印相关指标：

In [52]:
# 单轮训练函数
def train_one_epoch(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)

    # 遍历训练集
    for batch, (X, y) in enumerate(dataloader):
        # 前向传播：直接向实例化后的模型传入数据
        pred = model(X)

        # 计算损失函数值
        loss = loss_fn(pred, y)

        # 反向传播前将优化器的梯度清空
        optimizer.zero_grad()

        # 梯度反向传播
        loss.backward()

        # 优化器对模型内的参数进行更新
        optimizer.step()

        # 每100个批量样本打印一次损失函数值
        if batch % 100 == 0:
            loss, current = loss.item(), batch * len(X)
            print("loss: %.5f  [%d/%d]" % (loss, current, size))

# 单轮测试函数
def test_one_epoch(dataloader, model, loss_fn):
    size = len(dataloader.dataset)
    num_batches = len(dataloader)

    # 初始化测试指标
    test_loss, correct = 0, 0

    # 关闭梯度记录
    with torch.no_grad():
        for X, y in dataloader:
            pred = model(X)
            test_loss += loss_fn(pred, y).item()
            correct += (pred.argmax(1) == y).type(torch.float).sum().item()

    # 计算测试指标并打印
    test_loss /= num_batches
    correct /= size
    print("Accuracy: %.2f, Avg loss: %.5f \n" % (correct, test_loss))

**7.完整训练流程**

在完整的训练流程中，只需要执行对应轮数次的循环，每个循环内执行一次单轮训练和单轮测试（也可以多轮训练后测试一次）。

In [53]:
for t in range(epochs):
    print("Epoch %d\n-------------------------------" % (t+1))
    train_one_epoch(train_dataloader, model, loss_fn, optimizer)
    test_one_epoch(test_dataloader, model, loss_fn)
print("Done!")

Epoch 1
-------------------------------
loss: 2.30868  [0/60000]
loss: 2.30138  [6400/60000]
loss: 2.28546  [12800/60000]
loss: 2.29151  [19200/60000]
loss: 2.28362  [25600/60000]
loss: 2.27611  [32000/60000]
loss: 2.27325  [38400/60000]
loss: 2.27761  [44800/60000]
loss: 2.26591  [51200/60000]
loss: 2.25338  [57600/60000]
Accuracy: 0.44, Avg loss: 2.25552 

Epoch 2
-------------------------------
loss: 2.26061  [0/60000]
loss: 2.25077  [6400/60000]
loss: 2.24649  [12800/60000]
loss: 2.22963  [19200/60000]
loss: 2.23356  [25600/60000]
loss: 2.22571  [32000/60000]
loss: 2.21154  [38400/60000]
loss: 2.23173  [44800/60000]
loss: 2.20441  [51200/60000]
loss: 2.18678  [57600/60000]
Accuracy: 0.63, Avg loss: 2.18833 

Epoch 3
-------------------------------
loss: 2.19347  [0/60000]
loss: 2.17783  [6400/60000]
loss: 2.18728  [12800/60000]
loss: 2.13683  [19200/60000]
loss: 2.15387  [25600/60000]
loss: 2.14445  [32000/60000]
loss: 2.11160  [38400/60000]
loss: 2.15391  [44800/60000]
loss: 2.102

**8.模型参数保存及调用**

当模型训练结束后，可以将模型保存至PyTorch的pth文件中，后续就可以无需训练直接调用文件中的已训练模型进行测试。
使用torch.save()函数可以将模型保存至pth文件

In [54]:
torch.save(model, 'model.pth')

使用torch.load()函数可以将模型从pth中读取出来，这时模型中的参数已经训练过，可以直接调用测试

In [55]:
model_new = torch.load('model.pth')

test_one_epoch(test_dataloader, model_new, loss_fn)

Accuracy: 0.75, Avg loss: 1.57559 



可以看到，输出了与前面已训练模型一致的测试指标