### 2.3.1 单个张量的函数运算

在2.2节中，我们介绍了一些基本的张量的基本操作。在撰写深度学习项目时，我们往往会遇到另一类操作-张量的运算。例如，对于张量做四则运算、线性变换或激活。这些基础操作可以通过PyTorch中的一些函数实现。


In [4]:
import torch
t1 = torch.rand(4, 5)
t1

tensor([[0.7474, 0.7519, 0.7765, 0.6680, 0.3413],
        [0.6366, 0.3437, 0.5580, 0.9147, 0.5428],
        [0.4006, 0.2978, 0.9326, 0.8999, 0.9007],
        [0.6733, 0.8226, 0.5247, 0.0224, 0.5228]])

In [7]:
torch.sqrt(t1) # 张量的平方根

tensor([[0.8645, 0.8671, 0.8812, 0.8173, 0.5842],
        [0.7979, 0.5863, 0.7470, 0.9564, 0.7368],
        [0.6329, 0.5457, 0.9657, 0.9486, 0.9491],
        [0.8206, 0.9070, 0.7244, 0.1495, 0.7231]])

In [8]:
t1

tensor([[0.7474, 0.7519, 0.7765, 0.6680, 0.3413],
        [0.6366, 0.3437, 0.5580, 0.9147, 0.5428],
        [0.4006, 0.2978, 0.9326, 0.8999, 0.9007],
        [0.6733, 0.8226, 0.5247, 0.0224, 0.5228]])

In [9]:
t1.sqrt_()  # 在原张量上进行操作
t1  # 张量的值被改变

tensor([[0.8645, 0.8671, 0.8812, 0.8173, 0.5842],
        [0.7979, 0.5863, 0.7470, 0.9564, 0.7368],
        [0.6329, 0.5457, 0.9657, 0.9486, 0.9491],
        [0.8206, 0.9070, 0.7244, 0.1495, 0.7231]])

In [10]:
torch.sum(t1)  # 张量所有元素求和

tensor(15.2051)

In [None]:
torch.sum(t1, 0) # 对第0维的元素求和

tensor([3.1159, 2.9061, 3.3183, 2.8718, 2.9931])

In [17]:
torch.sum(t1, [0,1]) # 对第0维和第1维的元素求和  

tensor(15.2051)

In [18]:
torch.mean(t1, [0,1]) # 对第0维和第1维的元素求平均

tensor(0.7603)

对于上述求平方根和求平均值，也可以使用张量自带的方法进行。

In [20]:
t1.sqrt()
t1.mean([0,1]) 

tensor(0.7603)

对于大多数我们常用的函数，一般有两种调用方式。一种可以是使用张量的内置方法，另一种则是使用torch自带的函数，这两种的操作结果均相同。

### 2.3.2 多个张量的函数运算

除了前面对单个张量作为参数进行操作外，还有以两个张量作为参数的操作。比如，两个形状相同的张量之间的逐个元素的四则运算。

In [22]:
t1 = torch.rand(2 ,3)
t2 = torch.rand(2 ,3)
print("t1:\n", t1)
print("t2:\n", t2)

t1:
 tensor([[0.4987, 0.0617, 0.1971],
        [0.0913, 0.3373, 0.5552]])
t2:
 tensor([[0.1045, 0.8589, 0.8635],
        [0.6098, 0.4399, 0.4111]])


In [23]:
t1.add(t2)  # 逐元素相加，不改变参与运算张量的值

tensor([[0.6032, 0.9206, 1.0606],
        [0.7011, 0.7772, 0.9662]])

In [24]:
t1 + t2  # 逐元素相加

tensor([[0.6032, 0.9206, 1.0606],
        [0.7011, 0.7772, 0.9662]])

In [25]:
t1.sub(t2)  # 逐元素相减，不改变参与运算张量的值

tensor([[ 0.3942, -0.7972, -0.6664],
        [-0.5185, -0.1026,  0.1441]])

In [26]:
t1-t2

tensor([[ 0.3942, -0.7972, -0.6664],
        [-0.5185, -0.1026,  0.1441]])

In [27]:
t1.mul(t2)  # 逐元素相乘，不改变参与运算张量的值

tensor([[0.0521, 0.0530, 0.1702],
        [0.0557, 0.1484, 0.2282]])

In [28]:
t1*t2

tensor([[0.0521, 0.0530, 0.1702],
        [0.0557, 0.1484, 0.2282]])

In [29]:
t1.div(t2)  # 逐元素相除，不改变参与运算张量的值

tensor([[4.7706, 0.0718, 0.2283],
        [0.1497, 0.7668, 1.3506]])

In [30]:
t1/t2 # 逐元素相除

tensor([[4.7706, 0.0718, 0.2283],
        [0.1497, 0.7668, 1.3506]])

同样的，这些内置的方法也有“下划线”版本，可以改变调用方法中张量的值。

In [31]:
t1.add_(t2)  # 逐元素相加，改变调用方法中张量的值
t1  

tensor([[0.6032, 0.9206, 1.0606],
        [0.7011, 0.7772, 0.9662]])

### 2.3.3 张量的极值和排序

我们通常在编写代码时，要获得张量(沿着某个维度)的最大值或最小值，以及这些值所在的位置，此时我们便可以使用`max`和`min`。通过传入具体的维度，同时返回该维度最大和最小值的位置，以及对应最大值和最小值组成的元组(Tuple)。

同时我们将介绍排序函数`sort`(其默认顺序为从小到大，如果要从大到小则需要设置参数为`descending=True`)，同样传入具体需要排序的维度，将返回排序后的张量，以及对应排序后元素在原始张量上的位置。

In [32]:
t = torch.randn(3, 4) # 创建一个3行4列的张量
t

tensor([[ 0.9481, -0.0889, -0.2772, -0.5187],
        [-0.4270,  0.5304, -0.8407, -0.3956],
        [-1.1071,  0.8501,  0.3515, -1.5352]])

In [33]:
torch.argmax(t, dim=0)  # 返回沿着第0个维度，极大值所在的位置

tensor([0, 2, 2, 1])

In [34]:
t.argmin(dim=0)  # 返回沿着第0个维度，极小值所在的位置

tensor([2, 0, 1, 2])

In [None]:
torch.max(t, dim=-1)  # 返回沿着最后一个维度，极大值及其位置

torch.return_types.max(
values=tensor([0.9481, 0.5304, 0.8501]),
indices=tensor([0, 1, 1]))

In [36]:
t.min(0)  # 返回沿着第0个维度，极小值及其位置

torch.return_types.min(
values=tensor([-1.1071, -0.0889, -0.8407, -1.5352]),
indices=tensor([2, 0, 1, 2]))

In [None]:
t.sort(-1)  # 沿着最后一个维度排序，返回排序后的张量和张量元素在该维度的原始位置

torch.return_types.sort(
values=tensor([[-0.5187, -0.2772, -0.0889,  0.9481],
        [-0.8407, -0.4270, -0.3956,  0.5304],
        [-1.5352, -1.1071,  0.3515,  0.8501]]),
indices=tensor([[3, 2, 1, 0],
        [2, 0, 3, 1],
        [3, 0, 2, 1]]))

### 2.3.4 矩阵的乘法

除了四则运算，最大和最小值运算，以及排序外。两个张量作为参数进行矩阵乘法(线性变换)也非常重要。有以下几种方法可以实现矩阵乘法运算。
- torch中的函数
- 张量内置的方法
- python中固定的运算符号

In [38]:
a = torch.randn(3, 4)
b = torch.randn(4,3)
print("a:\n", a)
print("b:\n", b)

a:
 tensor([[ 0.7416,  0.5422,  0.1718,  0.9976],
        [-0.5226, -1.1478,  0.2866,  0.4774],
        [ 0.4626,  0.0871, -0.1435, -0.7787]])
b:
 tensor([[ 1.3191, -0.2684,  0.3255],
        [ 0.2111, -1.3144,  0.6840],
        [-0.2207, -1.8773, -0.0635],
        [ 0.4617,  0.0399, -0.8543]])


In [40]:
torch.mm(a, b)  # 矩阵乘法，返回一个新的张量

tensor([[ 1.5153e+00, -1.1945e+00, -2.5085e-01],
        [-7.7448e-01,  1.1299e+00, -1.3812e+00],
        [ 3.0072e-01, -4.1564e-04,  8.8450e-01]])

In [39]:
a.mm(b)  # 矩阵乘法，返回一个新的张量

tensor([[ 1.5153e+00, -1.1945e+00, -2.5085e-01],
        [-7.7448e-01,  1.1299e+00, -1.3812e+00],
        [ 3.0072e-01, -4.1564e-04,  8.8450e-01]])

In [41]:
a@b  # 矩阵乘法，返回一个新的张量

tensor([[ 1.5153e+00, -1.1945e+00, -2.5085e-01],
        [-7.7448e-01,  1.1299e+00, -1.3812e+00],
        [ 3.0072e-01, -4.1564e-04,  8.8450e-01]])

在深度学习项目中，经常用到的三维张量的数据，一般来说，第一个维度是批次大小。因此，可以将三维张量看作是一个批次数量的矩阵叠加在一起。在这种情况下，如果两个张量做矩阵乘法，一般情况是沿着批次方向分别对每个矩阵做成发，最后将所有乘积的结果整合在一起。如果是大小$b\times m \times k$和$b\times k \times n$的张量相乘，那么结果应该是一个$b\times m \times n$的张量。也就是说两个张量的第一维是相等的，然后第一个张量的第三维和第二个张量的第二维度要求一样，对于剩下的则不做要求。

In [43]:
a = torch.randn(2, 3, 4)
b = torch.randn(2, 4, 3)
print("a:\n", a)
print("b:\n", b)

a:
 tensor([[[-0.5726,  0.3904, -1.3048,  1.2376],
         [-0.0350, -0.9203, -1.2111,  1.3856],
         [ 1.1742,  1.4521,  0.1331, -1.0468]],

        [[ 0.4609,  0.5092,  0.9264,  0.2154],
         [-1.0332,  0.2447, -2.3390,  0.2792],
         [-0.1505, -1.0384, -1.9209,  0.7610]]])
b:
 tensor([[[ 0.6359,  0.2232, -0.6263],
         [-0.7679, -0.5404, -1.4962],
         [-2.0298, -2.0135,  1.8570],
         [-0.4898, -0.2488, -0.9898]],

        [[-0.0143,  0.5537,  0.8624],
         [-0.5143,  0.0657, -2.4071],
         [-0.7975, -0.5584, -1.1611],
         [ 2.1338, -0.7168, -1.2403]]])


In [44]:
torch.bmm(a, b)  # 批量矩阵乘法，返回一个新的张量

tensor([[[ 1.3786,  1.9806, -3.8736],
         [ 2.4642,  2.5834, -2.2216],
         [-0.1258, -0.5301, -1.6248]],

        [[-0.5476, -0.3831, -2.1709],
         [ 2.3501,  0.5501,  0.8895],
         [ 3.6919,  0.3757,  3.6561]]])

In [45]:
a.bmm(b)  # 批量矩阵乘法，返回一个新的张量

tensor([[[ 1.3786,  1.9806, -3.8736],
         [ 2.4642,  2.5834, -2.2216],
         [-0.1258, -0.5301, -1.6248]],

        [[-0.5476, -0.3831, -2.1709],
         [ 2.3501,  0.5501,  0.8895],
         [ 3.6919,  0.3757,  3.6561]]])

In [46]:
a@b

tensor([[[ 1.3786,  1.9806, -3.8736],
         [ 2.4642,  2.5834, -2.2216],
         [-0.1258, -0.5301, -1.6248]],

        [[-0.5476, -0.3831, -2.1709],
         [ 2.3501,  0.5501,  0.8895],
         [ 3.6919,  0.3757,  3.6561]]])

对于更大维度的张量的乘积，往往要决定张量元素乘积的结果需要沿着哪些维度进行求和，这个过程称为缩并(Contraction)，这时候需要引入爱因斯坦求和约定(einsum)。