# 导入Pytorch包

In [1]:
import torch
print(torch.__version__)

1.8.1


# Pytorch中的张量

In [2]:
t = torch.randn(2,3,4) # 构造2×3×4的张量
t

tensor([[[ 1.4984, -0.9228,  1.4272,  0.1067],
         [-0.4146,  0.0096, -1.4511, -0.5422],
         [-0.7358, -2.6458,  0.4067, -0.4270]],

        [[ 0.4901, -0.9034, -1.4142, -0.9202],
         [ 1.2967,  0.5022, -0.5990, -1.5181],
         [-1.7619,  0.2434, -0.1443, -1.7986]]])

In [3]:
t[1,2,3] # 取张量在0维1号、1维2号、2维3号的元素（编号从0开始）

tensor(-1.7986)

In [4]:
t[:,1:-1,1:3] # 仅仅一个冒号表示取所有的，-1表示最后一个元素

tensor([[[ 0.0096, -1.4511]],

        [[ 0.5022, -0.5990]]])

In [5]:
t[1,2,3] = -10
t

tensor([[[ 1.4984e+00, -9.2275e-01,  1.4272e+00,  1.0665e-01],
         [-4.1462e-01,  9.5839e-03, -1.4511e+00, -5.4220e-01],
         [-7.3581e-01, -2.6458e+00,  4.0668e-01, -4.2700e-01]],

        [[ 4.9011e-01, -9.0341e-01, -1.4142e+00, -9.2017e-01],
         [ 1.2967e+00,  5.0223e-01, -5.9902e-01, -1.5181e+00],
         [-1.7619e+00,  2.4338e-01, -1.4431e-01, -1.0000e+01]]])

In [6]:
t > 0 # 张量大于零部分的掩码

tensor([[[ True, False,  True,  True],
         [False,  True, False, False],
         [False, False,  True, False]],

        [[ True, False, False, False],
         [ True,  True, False, False],
         [False,  True, False, False]]])

In [7]:
t[t>0] # 根据掩码选择张量的元素，注意最后选出来的是一个向量

tensor([1.4984, 1.4272, 0.1067, 0.0096, 0.4067, 0.4901, 1.2967, 0.5022, 0.2434])

In [8]:
t1 = torch.rand(3, 4) # 产生一个3×4的张量
t1 # 打印张量的值

tensor([[0.0121, 0.5494, 0.7134, 0.2747],
        [0.7769, 0.4577, 0.4190, 0.7304],
        [0.9208, 0.1160, 0.3357, 0.8412]])

In [9]:
t1.sqrt() # 张量的平方根，张量内部方法

tensor([[0.1100, 0.7412, 0.8446, 0.5241],
        [0.8814, 0.6766, 0.6473, 0.8546],
        [0.9596, 0.3406, 0.5794, 0.9172]])

In [10]:
torch.sqrt(t1) # 张量的平方根，函数形式

tensor([[0.1100, 0.7412, 0.8446, 0.5241],
        [0.8814, 0.6766, 0.6473, 0.8546],
        [0.9596, 0.3406, 0.5794, 0.9172]])

In [11]:
t1.sqrt_() # 平方根原地操作

tensor([[0.1100, 0.7412, 0.8446, 0.5241],
        [0.8814, 0.6766, 0.6473, 0.8546],
        [0.9596, 0.3406, 0.5794, 0.9172]])

In [12]:
torch.sum(t1) # 默认对所有的元素求和

tensor(8.0767)

In [13]:
torch.sum(t1, 0) # 对第0维的元素求和

tensor([1.9510, 1.7584, 2.0714, 2.2959])

In [14]:
torch.sum(t1, [0,1]) # 对第0、1维的元素求和

tensor(8.0767)

In [15]:
t1.mean() # 对所有元素求平均，也可以用torch.mean函数

tensor(0.6731)

In [16]:
t1.mean(0) # 对第0维的元素求平均

tensor([0.6503, 0.5861, 0.6905, 0.7653])

In [17]:
torch.mean(t1, [0,1]) # 对第0、1维元素求平均

tensor(0.6731)

# Pytorch四则运算

In [18]:
t1 = torch.rand(2, 3)
t2 = torch.rand(2, 3)

In [19]:
t1.add(t2) # 四则运算，不改变参与运算的张量的值

tensor([[0.9177, 1.5102, 0.8777],
        [1.3057, 0.1986, 0.9767]])

In [20]:
t1+t2

tensor([[0.9177, 1.5102, 0.8777],
        [1.3057, 0.1986, 0.9767]])

In [21]:
t1.sub(t2)

tensor([[ 0.4833,  0.2429, -0.4988],
        [-0.0795, -0.1621,  0.9336]])

In [22]:
t1-t2

tensor([[ 0.4833,  0.2429, -0.4988],
        [-0.0795, -0.1621,  0.9336]])

In [23]:
t1.mul(t2)

tensor([[0.1522, 0.5554, 0.1304],
        [0.4247, 0.0033, 0.0206]])

In [24]:
t1*t2

tensor([[0.1522, 0.5554, 0.1304],
        [0.4247, 0.0033, 0.0206]])

In [25]:
t1.div(t2)

tensor([[ 3.2249,  1.3834,  0.2752],
        [ 0.8852,  0.1013, 44.3768]])

In [26]:
t1/t2

tensor([[ 3.2249,  1.3834,  0.2752],
        [ 0.8852,  0.1013, 44.3768]])

In [27]:
t1.add_(t2) # 四则运算，改变参与运算张量的值

tensor([[0.9177, 1.5102, 0.8777],
        [1.3057, 0.1986, 0.9767]])

# Pytorch找极值

In [28]:
t = torch.randn(3,4) # 建立一个3×4的张量
t

tensor([[-1.2409,  0.2499,  0.7204, -0.4018],
        [ 1.6818, -0.1766,  1.2821, -0.4112],
        [ 0.4681,  0.2892, -0.1123,  0.8871]])

In [29]:
torch.argmax(t, 0) # 函数调用，返回的是沿着第0个维度，极大值所在位置

tensor([1, 2, 1, 2])

In [30]:
t.argmin(1) # 内置方法调用，返回的是沿着第1个维度，极小值所在的位置

tensor([0, 3, 2])

In [31]:
torch.max(t, -1) # 函数调用，返回的是沿着最后一个维度，包含极大值和极大值所在位置的元组

torch.return_types.max(
values=tensor([0.7204, 1.6818, 0.8871]),
indices=tensor([2, 0, 3]))

In [32]:
t.min(0) # 内置方法调用，返回的是沿着第0个维度，包含极小值和极小值所在位置的元组

torch.return_types.min(
values=tensor([-1.2409, -0.1766, -0.1123, -0.4112]),
indices=tensor([0, 1, 2, 1]))

In [33]:
t.sort(-1) # 沿着最后一个维度排序，返回排序后的张量和张量元素在该维度的原始位置

torch.return_types.sort(
values=tensor([[-1.2409, -0.4018,  0.2499,  0.7204],
        [-0.4112, -0.1766,  1.2821,  1.6818],
        [-0.1123,  0.2892,  0.4681,  0.8871]]),
indices=tensor([[0, 3, 1, 2],
        [3, 1, 2, 0],
        [2, 1, 0, 3]]))

# Pytorch生成矩阵

In [34]:
torch.rand(3,3) # 生成3×3的矩阵，矩阵元素服从[0, 1)上的均匀分布

tensor([[0.3254, 0.3043, 0.2033],
        [0.9478, 0.5332, 0.6365],
        [0.6496, 0.0318, 0.6290]])

In [35]:
torch.randn(2,3,4) # 生成2×3×4的张量，张量元素服从标准正态分布

tensor([[[ 0.4802,  0.4705,  0.8875,  0.9517],
         [ 0.3005,  0.8741,  0.6716, -1.6585],
         [ 0.7615,  2.0114, -0.0398,  0.8948]],

        [[-0.2796, -2.0190, -0.4466, -0.3262],
         [-0.0858,  0.4345, -1.4627,  1.0755],
         [-0.7847, -0.2864, -0.1628, -0.1309]]])

In [36]:
torch.zeros(2,2,2) # 生成 2×2×2的张量，张量元素全为0

tensor([[[0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.]]])

In [37]:
torch.ones(1,2,3) # 生成1×2×3的张量，张量元素全为1

tensor([[[1., 1., 1.],
         [1., 1., 1.]]])

In [38]:
torch.eye(3) # 生成3×3的单位矩阵

tensor([[1., 0., 0.],
        [0., 1., 0.],
        [0., 0., 1.]])

In [39]:
torch.randint(0, 10, (3,3)) # 生成0（包含）到10（不含）之间均匀分布整数的3×3矩阵

tensor([[1, 1, 2],
        [8, 3, 0],
        [1, 7, 7]])

In [40]:
t = torch.randn(3,3) # 生成一个随机正态分布的张量t
t

tensor([[-2.0507, -0.3820,  0.5350],
        [ 0.2742,  0.9491, -1.1857],
        [ 0.3739, -0.6750,  1.7353]])

In [41]:
torch.zeros_like(t) # 生成一个元素全为0的张量，形状和给定张量t相同

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

In [42]:
torch.ones_like(t) # 生成一个元素全为1的张量，形状和给定张量t相同

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])

In [43]:
torch.rand_like(t) # 生成一个元素服从[0, 1)上的均匀分布的张量，形状和给定张量t相同

tensor([[0.8036, 0.5105, 0.1551],
        [0.2936, 0.3234, 0.4115],
        [0.1518, 0.6082, 0.2032]])

In [44]:
torch.randn_like(t) # 生成一个元素服从标准正态分布的张量，形状和给定张量t相同

tensor([[-1.2938,  1.5869,  1.1519],
        [ 2.4700, -0.7452,  0.9494],
        [-0.5171, -1.9639,  0.3839]])

In [45]:
t.new_tensor([1,2,3]).dtype # 根据Python列表生成张量，注意这里输出的是单精度浮点数

torch.float32

In [46]:
t.new_zeros(3, 3) # 生成相同类型且元素全为0的张量

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

In [47]:
t.new_ones(3,3) # 生成相同类型且元素全为1的张量

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])

# PyTorch在不同设备上的张量

In [48]:
torch.randn(3, 3, device="cpu") # 获取存储在CPU上的一个张量

tensor([[ 0.2595, -0.1001, -2.1963],
        [ 0.0815, -0.0470,  0.6868],
        [-0.5317, -2.3013,  0.6649]])

In [49]:
torch.randn(3, 3, device="cuda:0") # 获取存储在0号GPU上的一个张量

tensor([[-0.0841, -1.2441,  0.9748],
        [-0.0713,  0.3282, -1.1074],
        [-1.7640,  0.6918, -0.3489]], device='cuda:0')

In [51]:
torch.randn(3, 3, device="cuda:0").cpu().device # 张量从1号GPU转移到CPU

device(type='cpu')

# 获取张量的属性

In [52]:
t = torch.randn(3,4,5) # 产生一个3×4×5的张量

In [53]:
t.ndimension() # 获取维度的数目

3

In [54]:
t.nelement() # 获取该张量的总元素数目

60

In [55]:
t.size() # 获取该张量每个维度的大小，调用方法

torch.Size([3, 4, 5])

In [56]:
t.shape # 获取该张量每个维度的大小，访问属性

torch.Size([3, 4, 5])

In [57]:
t.size(0) # 获取该张量维度0的大小，调用方法

3

In [59]:
t = torch.randn(12) # 产生大小为12的向量
t

tensor([-0.3630, -0.9360, -1.3932, -0.0465, -0.3566, -1.7818, -0.5255, -0.0464,
         0.6985,  0.3168, -0.6262, -0.4928])

In [60]:
t.view(3, 4) # 向量改变形状为3×4的矩阵

tensor([[-0.3630, -0.9360, -1.3932, -0.0465],
        [-0.3566, -1.7818, -0.5255, -0.0464],
        [ 0.6985,  0.3168, -0.6262, -0.4928]])

In [61]:
t.view(4, 3) # 向量改变形状为4×3的矩阵

tensor([[-0.3630, -0.9360, -1.3932],
        [-0.0465, -0.3566, -1.7818],
        [-0.5255, -0.0464,  0.6985],
        [ 0.3168, -0.6262, -0.4928]])

In [62]:
t.view(-1, 4) # 第一个维度为-1，PyTorch会自动计算该维度的具体值

tensor([[-0.3630, -0.9360, -1.3932, -0.0465],
        [-0.3566, -1.7818, -0.5255, -0.0464],
        [ 0.6985,  0.3168, -0.6262, -0.4928]])

In [64]:
t.view(4, 3)[0, 0] = 1.0

tensor([ 1.0000, -0.9360, -1.3932, -0.0465, -0.3566, -1.7818, -0.5255, -0.0464,
         0.6985,  0.3168, -0.6262, -0.4928])

In [65]:
t.data_ptr() # 获取张量的数据指针

2297009985152

In [66]:
t.view(3,4).data_ptr() # 数据指针不改变

2297009985152

In [67]:
t.view(4,3).data_ptr() # 同上，不改变

2297009985152

In [68]:
t.view(3,4).contiguous().data_ptr() # 同上，不改变

2297009985152

In [69]:
t.view(4,3).contiguous().data_ptr() # 同上，不改变

2297009985152

In [70]:
t.view(3,4).transpose(0,1).data_ptr() # transpose方法交换两个维度的步长

2297009985152

In [71]:
t.view(3,4).transpose(0,1).contiguous().data_ptr() # 步长和维度不兼容，重新生成张量

2297009980672

# 矩阵乘法

In [72]:
a = torch.randn(3,4) # 建立一个3×4的张量
b = torch.randn(4,3) # 建立一个4×3的张量

In [73]:
torch.mm(a,b) # 矩阵乘法，调用函数，返回3×3的矩阵乘积

tensor([[ 2.3687, -2.9115,  5.4869],
        [ 0.3083, -0.2303, -1.2176],
        [ 0.7740,  2.4785,  2.3907]])

In [74]:
a.mm(b) # 矩阵乘法，内置方法

tensor([[ 2.3687, -2.9115,  5.4869],
        [ 0.3083, -0.2303, -1.2176],
        [ 0.7740,  2.4785,  2.3907]])

In [75]:
a@b # 矩阵乘法，@运算符号

tensor([[ 2.3687, -2.9115,  5.4869],
        [ 0.3083, -0.2303, -1.2176],
        [ 0.7740,  2.4785,  2.3907]])

In [77]:
a = torch.randn(2,3,4) # 建立一个大小为2×3×4的张量
b = torch.randn(2,4,3) # 建立一个张量，大小为2×4×3

In [78]:
torch.bmm(a,b) # （迷你）批次矩阵乘法，返回结果为2×3×3，函数形式

tensor([[[ 1.4739,  2.9392, -1.7326],
         [-1.1097, -1.3699,  4.1391],
         [ 0.7955,  0.3833, -1.2821]],

        [[ 0.7600, -0.2136, -2.3286],
         [ 2.8435, -1.5178,  2.6848],
         [ 1.9172,  0.9560, -0.0873]]])

In [79]:
a.bmm(b) # 同上乘法，内置方法形式

tensor([[[ 1.4739,  2.9392, -1.7326],
         [-1.1097, -1.3699,  4.1391],
         [ 0.7955,  0.3833, -1.2821]],

        [[ 0.7600, -0.2136, -2.3286],
         [ 2.8435, -1.5178,  2.6848],
         [ 1.9172,  0.9560, -0.0873]]])

In [80]:
a@b # 运算符号形式，根据输入张量的形状决定调用批次矩阵乘法

tensor([[[ 1.4739,  2.9392, -1.7326],
         [-1.1097, -1.3699,  4.1391],
         [ 0.7955,  0.3833, -1.2821]],

        [[ 0.7600, -0.2136, -2.3286],
         [ 2.8435, -1.5178,  2.6848],
         [ 1.9172,  0.9560, -0.0873]]])

In [81]:
a = torch.randn(2,3,4) # 随机产生张量
b = torch.randn(2,4,3)
a.bmm(b) # 批次矩阵乘法的结果
torch.einsum("bnk,bkl->bnl", a, b) # einsum函数的结果，和前面的结果一致

tensor([[[-5.8431, -1.0391, -4.1262],
         [-1.8185, -1.9655, -1.5293],
         [ 1.0536,  2.7590,  0.8201]],

        [[ 1.3796,  1.6736, -2.9382],
         [ 0.0380, -1.8394, -1.5867],
         [ 0.0423, -0.1402, -1.1595]]])

# 矩阵的分割和拼接

In [82]:
t1 = torch.randn(3,4) # 随机产生四个张量
t2 = torch.randn(3,4)
t3 = torch.randn(3,4)
t4 = torch.randn(3,2) # 沿着最后一个维度做堆叠，返回大小为3×4×3的张量
torch.stack([t1,t2,t3], -1).shape
torch.cat([t1,t2,t3,t4], -1).shape # 沿着最后一个维度做拼接，返回大小为3×14的张量
t = torch.randn(3, 6) # 随机产生一个3×6的张量
t.split([1,2,3], -1) # 把张量沿着最后一个维度分割为三个张量
t.split(3, -1) # 把张量沿着最后一个维度分割，分割大小为3，输出的张量大小均为3×3
t.chunk(3, -1) # 把张量沿着最后一个维度分割为三个张量，大小均为3×2

(tensor([[ 0.4921,  1.4065],
         [-1.1661, -0.8217],
         [-0.5071, -1.2097]]),
 tensor([[ 1.5540,  1.7092],
         [-2.0540,  0.3542],
         [ 1.8504,  1.0398]]),
 tensor([[-1.2422,  0.7291],
         [-1.6102, -0.7184],
         [-0.0781,  0.9372]]))

In [83]:
t = torch.rand(3, 4) # 随机生成一个张量
t.shape

torch.Size([3, 4])

In [84]:
t.unsqueeze(-1).shape # 扩增最后一个维度

torch.Size([3, 4, 1])

In [85]:
t.unsqueeze(-1).unsqueeze(-1).shape # 继续扩增最后一个维度

torch.Size([3, 4, 1, 1])

In [86]:
t = torch.rand(1,3,4,1) # 随机生成一个张量，有两个维度大小为1
t.shape

torch.Size([1, 3, 4, 1])

In [87]:
t.squeeze().shape # 压缩所有大小为1的维度

torch.Size([3, 4])

# PyTorch中的模块

In [91]:
import torch.nn as nn

In [92]:

class Model(nn.Module):
    def __init__(self, ...): # 定义类的初始化函数，...是用户的传入参数
        super(Model, self).__init__()
        ... # 根据传入的参数来定义子模块
    
    def forward(self, ...): # 定义前向计算的输入参数，...一般是张量或者其他的参数
        ret = ... # 根据传入的张量和子模块计算返回张量
        return ret

SyntaxError: invalid syntax (<ipython-input-92-1f99770d1500>, line 2)

In [93]:
class LinearModel(nn.Module):
    def __init__(self, ndim):
        super(LinearModel, self).__init__()
        self.ndim = ndim

        self.weight = nn.Parameter(torch.randn(ndim, 1)) # 定义权重
        self.bias = nn.Parameter(torch.randn(1)) # 定义偏置

    def forward(self, x):
        # 定义线性模型 y = Wx + b
        return x.mm(self.weight) + self.bias

# 线性回归模型

In [94]:
lm = LinearModel(5) # 定义线性回归模型，特征数为5
x = torch.randn(4, 5) # 定义随机输入，迷你批次大小为4
lm(x) # 得到每个迷你批次的输出

tensor([[-2.6777],
        [ 0.7976],
        [-2.5083],
        [-0.0823]], grad_fn=<AddBackward0>)

In [95]:
x

tensor([[-2.0959,  0.1805,  0.7451,  0.3042,  0.4736],
        [ 0.5046, -0.0352, -0.0502,  0.8034,  0.2216],
        [-1.7134, -0.5659, -0.7996,  1.0295, -0.9309],
        [-0.5578,  0.0725,  0.2961,  1.4139, -0.9004]])

In [96]:
lm = LinearModel(5) # 定义线性模型
x = torch.randn(4, 5) # 定义模型输入
lm(x) # 根据模型获取输入对应的输出
lm.named_parameters() # 获取模型参数（带名字）的生成器
list(lm.named_parameters()) # 转换生成器为列表
lm.parameters() # 获取模型参数（不带名字）的生成器
list(lm.parameters()) # 转换生成器为列表
lm.cuda() # 将模型参数移到GPU上
list(lm.parameters()) # 显示模型参数，可以看到已经移到了GPU上（device='cuda:0'）
lm.half() # 转换模型参数为半精度浮点数
list(lm.parameters()) # 显示模型参数，可以看到已经转换为了半精度浮点数（dtype=torch.float16）

[Parameter containing:
 tensor([[-1.9609],
         [ 0.4797],
         [ 0.2874],
         [ 0.6187],
         [-0.2153]], device='cuda:0', dtype=torch.float16, requires_grad=True),
 Parameter containing:
 tensor([-0.4885], device='cuda:0', dtype=torch.float16, requires_grad=True)]

# 梯度反向传播

In [98]:
t1 = torch.randn(3, 3, requires_grad=True) # 定义一个3×3的张量
t1

tensor([[ 2.0617,  1.0214,  0.4219],
        [-0.1225,  0.0185,  0.4327],
        [ 0.7676,  0.0477, -3.1819]], requires_grad=True)

In [99]:
t2 = t1.pow(2).sum() # 计算张量的所有分量平方和
t2.backward() # 反向传播

In [100]:
t1.grad # 梯度是张量原始分量的2倍
t2 = t1.pow(2).sum() # 再次计算所有分量的平方和
t2.backward() # 再次反向传播
t1.grad # 梯度累积
t1.grad.zero_() # 单个张量清零梯度的方法

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

In [103]:
t1 = torch.randn(3,3,requires_grad = True) #初始化t1张量
t2 = t1.pow(2).sum()
torch.autograd.grad( t2 , t1 ) # t2张量对t1张量求导

(tensor([[ 1.6051, -0.2905, -4.7186],
         [ 2.0027,  1.0019, -1.2083],
         [ 2.6031,  0.5484, -0.3146]]),)