In [1]:
import torch
x = torch.arange(5)
x

tensor([0, 1, 2, 3, 4])

In [2]:
# 可以使用Python内置函数求tensor向量的长度
len(x)

5

In [3]:
# 形状（shape）是一个元组，列出了张量沿每个轴的长度（维数）。对于(只有一个轴的张量，形状只有一个元素。)
x.shape

torch.Size([5])

In [4]:
A = torch.arange(20).reshape(5, 4)
A

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

In [7]:
B = A.clone()
# 两个矩阵的按元素乘法称为 哈达玛积
A * B

tensor([[  0,   1,   4,   9],
        [ 16,  25,  36,  49],
        [ 64,  81, 100, 121],
        [144, 169, 196, 225],
        [256, 289, 324, 361]])

In [8]:
A

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

In [6]:
# 按轴进行累加
A_sum_axis_0 = A.sum(axis = 0)
A_sum_axis_1 = A.sum(axis = 1)
A_sum_axis_0, A_sum_axis_0.shape, A_sum_axis_1, A_sum_axis_1.shape

(tensor([40, 45, 50, 55]),
 torch.Size([4]),
 tensor([ 6, 22, 38, 54, 70]),
 torch.Size([5]))

In [15]:
C = torch.arange(20 * 3, dtype=torch.float32).reshape(3, 4, 5)
C

tensor([[[ 0.,  1.,  2.,  3.,  4.],
         [ 5.,  6.,  7.,  8.,  9.],
         [10., 11., 12., 13., 14.],
         [15., 16., 17., 18., 19.]],

        [[20., 21., 22., 23., 24.],
         [25., 26., 27., 28., 29.],
         [30., 31., 32., 33., 34.],
         [35., 36., 37., 38., 39.]],

        [[40., 41., 42., 43., 44.],
         [45., 46., 47., 48., 49.],
         [50., 51., 52., 53., 54.],
         [55., 56., 57., 58., 59.]]])

In [16]:
# axis 对应torch.Size()中的维度
C_sum_axis_1 = C.sum(axis = 1)
C_sum_axis_1, C_sum_axis_1.shape

(tensor([[ 30.,  34.,  38.,  42.,  46.],
         [110., 114., 118., 122., 126.],
         [190., 194., 198., 202., 206.]]),
 torch.Size([3, 5]))

In [17]:
# 由此推理按两个维度求和，剩余维数
C_sum_axis_0_1 = C.sum(axis = [0, 1])
C_sum_axis_0_1, C_sum_axis_0_1.shape

(tensor([330., 342., 354., 366., 378.]), torch.Size([5]))

In [18]:
# 求均值
C.mean(), C.sum() / C.numel()

(tensor(29.5000), tensor(29.5000))

In [20]:
C.mean(axis=0), C.sum(axis=0) / C.shape[0], C.shape[0]

(tensor([[20., 21., 22., 23., 24.],
         [25., 26., 27., 28., 29.],
         [30., 31., 32., 33., 34.],
         [35., 36., 37., 38., 39.]]),
 tensor([[20., 21., 22., 23., 24.],
         [25., 26., 27., 28., 29.],
         [30., 31., 32., 33., 34.],
         [35., 36., 37., 38., 39.]]),
 3)

In [23]:
# 计算总和或均值时保持轴数不变
A = torch.arange(12, dtype=torch.float32).reshape(3, 4)
sum_A_0 = A.sum(axis=0, keepdims=True)
sum_A_1 = A.sum(axis=1, keepdims=True)
A, sum_A_0, sum_A_1

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([[12., 15., 18., 21.]]),
 tensor([[ 6.],
         [22.],
         [38.]]))

In [24]:
# 使用广播
A / sum_A_1

tensor([[0.0000, 0.1667, 0.3333, 0.5000],
        [0.1818, 0.2273, 0.2727, 0.3182],
        [0.2105, 0.2368, 0.2632, 0.2895]])

In [28]:
# 点积dot
x, y = torch.arange(4, dtype=torch.float32), torch.ones(4, dtype=torch.float32)
x, y, torch.dot(x, y), torch.sum(x * y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.), tensor(6.))

In [29]:
# 矩阵向量积
# matrix vector
A.shape, x.shape, torch.mv(A,x)

(torch.Size([3, 4]), torch.Size([4]), tensor([14., 38., 62.]))

In [31]:
# 矩阵乘法 Matrix Matrix
B = torch.ones(4, 3)
A, B, torch.mm(A, B)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([[1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.]]),
 tensor([[ 6.,  6.,  6.],
         [22., 22., 22.],
         [38., 38., 38.]]))

线性代数中一些最有用的运算符是 *范数*（norms）。非正式地说，一个向量的*范数*告诉我们一个向量有多大。
这里考虑的 *大小*（size） 概念不涉及维度，而是分量的大小。

在线性代数中，向量范数是将向量映射到标量的函数 $f$。向量范数要满足一些属性。
给定任意向量 $\mathbf{x}$，第一个性质说，如果我们按常数因子 $\alpha$ 缩放向量的所有元素，其范数也会按相同常数因子的 *绝对值* 缩放：

$$f(\alpha \mathbf{x}) = |\alpha| f(\mathbf{x}).$$

第二个性质是我们熟悉的三角不等式:

$$f(\mathbf{x} + \mathbf{y}) \leq f(\mathbf{x}) + f(\mathbf{y}).$$

第三个性质简单地说范数必须是非负的:

$$f(\mathbf{x}) \geq 0.$$

这是有道理的，因为在大多数情况下，任何东西的最小的*大小*是0。最后一个性质要求最小范数，并且只有由所有零组成的向量才能达到最小范数。

$$\forall i, [\mathbf{x}]_i = 0 \Leftrightarrow f(\mathbf{x})=0.$$

你可能会注意到，范数听起来很像距离的度量。如果你还记得小学时的欧几里得距离(想想毕达哥拉斯定理)，那么非负性的概念和三角不等式可能会给你一些启发。
事实上，欧几里得距离是一个范数：具体而言，它是 $L_2$ 范数。假设$n$-维向量$\mathbf{x}$中的元素是$x_1, \ldots, x_n$ 的 [**$L_2$ *范数* 是向量元素平方和的平方根：**]

(**$$\|\mathbf{x}\|_2 = \sqrt{\sum_{i=1}^n x_i^2},$$**)

其中，在 $L_2$ 范数中常常省略下标 $2$，也就是说，$\|\mathbf{x}\|$ 等同于 $\|\mathbf{x}\|_2$。在代码中，我们可以按如下方式计算向量的 $L_2$ 范数。

In [32]:
u = torch.tensor([3.0, -4.0])
torch.norm(u)

tensor(5.)

在深度学习中，我们更经常地使用平方 $L_2$ 范数。你还会经常遇到 [**$L_1$ 范数，它表示为向量元素的绝对值之和：**]

(**$$\|\mathbf{x}\|_1 = \sum_{i=1}^n \left|x_i \right|.$$**)

与 $L_2$ 范数相比，$L_1$ 范数受异常值的影响较小。为了计算 $L_1$ 范数，我们将绝对值函数和按元素求和组合起来。


In [35]:
torch.abs(u).sum()

tensor(7.)

$$\|\mathbf{x}\|_p = \left(\sum_{i=1}^n \left|x_i \right|^p \right)^{1/p}.$$

类似于向量的$L_2$ 范数，[**矩阵**] $\mathbf{X} \in \mathbb{R}^{m \times n}$ (**的 *弗罗贝尼乌斯范数*（Frobenius norm） 是矩阵元素的平方和的平方根：**)

(**$$\|\mathbf{X}\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n x_{ij}^2}.$$**)

弗罗贝尼乌斯范数满足向量范数的所有性质。它的行为就好像它是矩阵形向量的 $L_2$ 范数。调用以下函数将计算矩阵的弗罗贝尼乌斯范数。


In [40]:
A, torch.norm(A)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor(22.4944))

In [42]:
import math
print(A * A)
print(torch.sum(A * A))
math.sqrt(torch.sum(A * A))

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.]])
tensor(506.)


22.494443758403985

In [45]:
D = torch.ones(2, 4)
D

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.]])

In [46]:
torch.norm(D)

tensor(2.8284)