[ 线性代数运算的在线附录 ](https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/geometry-linear-algebraic-ops.html)


## 标量

标量通常使用小写字母（例如x、y和z）表示，$\mathbb{R}$表示所有实数标量。

In [1]:
import torch

x = torch.tensor([3.0])
y = torch.tensor([2.0])

x + y, x * y, x / y, x ** y

(tensor([5.]), tensor([6.]), tensor([1.5000]), tensor([9.]))

## 向量

向量通常使用粗体、小写符号（例如$\mathbf{x}$、$\mathbf{y}$和$\mathbf{z}$）表示，$\mathbf{x} \in \mathbb{R}^n$。

$$\mathbf{x} =\begin{bmatrix}x_{1}  \\x_{2}  \\ \vdots  \\x_{n}\end{bmatrix}$$


In [2]:
x = torch.arange(4)
x

tensor([0, 1, 2, 3])

In [3]:
# 通过索引访问元素
x[3]

tensor(3)

In [4]:
# 长度
len(x)

4

In [5]:
# 形状
x.shape

torch.Size([4])

## 矩阵

矩阵通常使用粗体、大写字母（例如$\mathbf{X}$、$\mathbf{Y}$和$\mathbf{Z}$）表示。

矩阵$\mathbf{A} \in \mathbb{R}^{m \times n}$

$$\mathbf{A}=\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \\ \end{bmatrix}.$$

In [6]:
A = torch.arange(20).reshape(5, 4)
A

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

In [7]:
# 转置
A.T

tensor([[ 0,  4,  8, 12, 16],
        [ 1,  5,  9, 13, 17],
        [ 2,  6, 10, 14, 18],
        [ 3,  7, 11, 15, 19]])

## 张量

张量是描述任意n维数组的通用方法。例如向量是一阶张量，矩阵是二阶张量。

张量用特殊字体的大写字母（例如$\mathsf{X}$、$\mathsf{Y}$和$\mathsf{Z}$）表示。

矩阵按元素的乘法称为哈达玛积（Hadamard product）数学符号$\odot$。

$$
\mathbf{A} \odot \mathbf{B} =
\begin{bmatrix}
    a_{11}  b_{11} & a_{12}  b_{12} & \dots  & a_{1n}  b_{1n} \\
    a_{21}  b_{21} & a_{22}  b_{22} & \dots  & a_{2n}  b_{2n} \\
    \vdots & \vdots & \ddots & \vdots \\
    a_{m1}  b_{m1} & a_{m2}  b_{m2} & \dots  & a_{mn}  b_{mn}
\end{bmatrix}.
$$

In [8]:
X = torch.arange(24).reshape(2, 3, 4)
X

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

In [9]:
# 加法
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone()
A, A + B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))

In [10]:
# 矩阵按元素乘法
A * B

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

In [11]:
# 标量的加和乘
a = 2
X = torch.arange(24).reshape(2, 3, 4)
a + X, a * X

(tensor([[[ 2,  3,  4,  5],
          [ 6,  7,  8,  9],
          [10, 11, 12, 13]],
 
         [[14, 15, 16, 17],
          [18, 19, 20, 21],
          [22, 23, 24, 25]]]),
 tensor([[[ 0,  2,  4,  6],
          [ 8, 10, 12, 14],
          [16, 18, 20, 22]],
 
         [[24, 26, 28, 30],
          [32, 34, 36, 38],
          [40, 42, 44, 46]]]))

## 汇总

In [12]:
# 默认将所有元素汇总成一个标量
A.shape, A.sum()

(torch.Size([5, 4]), tensor(190.))

In [13]:
# 沿0轴汇总，0轴消失
A_sum_axis0 = A.sum(axis=0)
A_sum_axis0, A_sum_axis0.shape

(tensor([40., 45., 50., 55.]), torch.Size([4]))

In [14]:
# 沿1轴汇总，1轴消失
A_sum_axis1 = A.sum(axis=1)
A_sum_axis1, A_sum_axis1.shape

(tensor([ 6., 22., 38., 54., 70.]), torch.Size([5]))

In [15]:
A.sum(axis=[0, 1]) # Same as A.sum()

tensor(190.)

In [16]:
# 平均值
A.mean(), A.sum() / A.numel()

(tensor(9.5000), tensor(9.5000))

In [17]:
A.mean(axis=0), A.sum(axis=0) / A.shape[0]

(tensor([ 8.,  9., 10., 11.]), tensor([ 8.,  9., 10., 11.]))

### 非汇总求和

保持轴数不变。

In [18]:
sum_A = A.sum(axis=1, keepdims=True)
sum_A, sum_A.shape

(tensor([[ 6.],
         [22.],
         [38.],
         [54.],
         [70.]]),
 torch.Size([5, 1]))

In [19]:
# 通过广播进行除法
A / sum_A

tensor([[0.0000, 0.1667, 0.3333, 0.5000],
        [0.1818, 0.2273, 0.2727, 0.3182],
        [0.2105, 0.2368, 0.2632, 0.2895],
        [0.2222, 0.2407, 0.2593, 0.2778],
        [0.2286, 0.2429, 0.2571, 0.2714]])

In [20]:
# 累加
A.cumsum(axis=0)

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  6.,  8., 10.],
        [12., 15., 18., 21.],
        [24., 28., 32., 36.],
        [40., 45., 50., 55.]])

## 点积

In [21]:
x = torch.arange(4, dtype=torch.float32)
y = torch.ones(4, dtype=torch.float32)
x, y, torch.dot(x, y), torch.sum(x * y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.), tensor(6.))

## 矩阵-向量积

矩阵$\mathbf{A} \in \mathbb{R}^{m \times n}$和$\mathbf{x} \in \mathbb{R}^n$。

$\mathbf{A}\mathbf{x} \in \mathbb{R}^m$。

$$
\mathbf{A}\mathbf{x}
= \begin{bmatrix}
\mathbf{a}^\top_{1} \\
\mathbf{a}^\top_{2} \\
\vdots \\
\mathbf{a}^\top_m \\
\end{bmatrix}\mathbf{x}
= \begin{bmatrix}
 \mathbf{a}^\top_{1} \mathbf{x}  \\
 \mathbf{a}^\top_{2} \mathbf{x} \\
\vdots\\
 \mathbf{a}^\top_{m} \mathbf{x}\\
\end{bmatrix}.
$$

In [22]:
A.shape, x.shape, torch.mv(A, x)

(torch.Size([5, 4]), torch.Size([4]), tensor([ 14.,  38.,  62.,  86., 110.]))

## 矩阵-矩阵乘法

In [23]:
B = torch.ones(4, 3)
C = torch.mm(A, B)
A.shape, B.shape, C.shape, C

(torch.Size([5, 4]),
 torch.Size([4, 3]),
 torch.Size([5, 3]),
 tensor([[ 6.,  6.,  6.],
         [22., 22., 22.],
         [38., 38., 38.],
         [54., 54., 54.],
         [70., 70., 70.]]))

## 范数

在线性代数中，向量范数是将向量映射到标量的函数 $f$。向量范数要满足一些属性。
给定任意向量 $\mathbf{x}$，第一个性质说，如果我们按常数因子 $\alpha$ 缩放向量的所有元素，其范数也会按相同常数因子的 *绝对值* 缩放：

$$f(\alpha \mathbf{x}) = |\alpha| f(\mathbf{x}).$$

第二个性质是我们熟悉的三角不等式:

$$f(\mathbf{x} + \mathbf{y}) \leq f(\mathbf{x}) + f(\mathbf{y}).$$

第三个性质简单地说范数必须是非负的:

$$f(\mathbf{x}) \geq 0.$$

这是有道理的，因为在大多数情况下，任何东西的最小的*大小*是0。最后一个性质要求最小范数，并且只有由所有零组成的向量才能达到最小范数。

$$\forall i, [\mathbf{x}]_i = 0 \Leftrightarrow f(\mathbf{x})=0.$$

欧几里得距离是一个范数，它是 **$L_2$ 范数**，是向量元素平方和的平方根：

$$\|\mathbf{x}\|_2 = \sqrt{\sum_{i=1}^n x_i^2},$$


**$L_1$ 范数**，它表示为向量元素的绝对值之和：

$$\|\mathbf{x}\|_1 = \sum_{i=1}^n \left|x_i \right|.$$


$L_2$ 范数和 $L_1$ 范数都是更一般的**$L_p$范数**的特例：

$$\|\mathbf{x}\|_p = \left(\sum_{i=1}^n \left|x_i \right|^p \right)^{1/p}.$$

类似于向量的$L_2$ 范数，矩阵$\mathbf{X} \in \mathbb{R}^{m \times n}$ 的*弗罗贝尼乌斯范数*（Frobenius norm） 是矩阵元素的平方和的平方根:

$$\|\mathbf{X}\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n x_{ij}^2}.$$



In [24]:
# L2范数
u = torch.tensor([3.0, -4.0])
torch.norm(u)

tensor(5.)

In [25]:
# L1范数
torch.abs(u).sum()

tensor(7.)

In [26]:
# 弗罗贝尼乌斯范数
torch.norm(torch.ones((4, 9)))

tensor(6.)

## 练习
1. 证明一个矩阵  𝐀  的转置的转置是  𝐀 ： (𝐀⊤)⊤=𝐀 。
2. 给出两个矩阵  𝐀  和  𝐁 , 显示转置的和等于和的转置： 𝐀⊤+𝐁⊤=(𝐀+𝐁)⊤ .
3. 给定任意方矩阵 𝐀 ，  𝐀+𝐀⊤ 总是对称的吗?为什么?
4. 我们在本节中定义了形状（2, 3, 4）的张量 X。len(X)的输出结果是什么？
5. 对于任意形状的张量X, len(X)是否总是对应于X特定轴的长度?这个轴是什么?
6. 运行 A / A.sum(axis=1)，看看会发生什么。你能分析原因吗？
7. 当你在曼哈顿的两点之间旅行时，你需要在坐标上走多远，也就是说，就大街和街道而言？你能斜着走吗？
8. 考虑一个具有形状（2, 3, 4）的张量，在轴 0,1,2 上的求和输出是什么形状?
9. 向 linalg.norm 函数提供 3 个或更多轴的张量，并观察其输出。对于任意形状的张量这个函数计算得到什么?

In [27]:
A = torch.arange(20).reshape(5, 4)
B = torch.ones((5, 4))

In [28]:
# 1.
A.T.T == A

tensor([[True, True, True, True],
        [True, True, True, True],
        [True, True, True, True],
        [True, True, True, True],
        [True, True, True, True]])

In [29]:
# 2.
A.T + B.T == (A + B).T

tensor([[True, True, True, True, True],
        [True, True, True, True, True],
        [True, True, True, True, True],
        [True, True, True, True, True]])

In [30]:
# 3.
C = torch.randn((4, 4))
D = C + C.T
D == D.T

tensor([[True, True, True, True],
        [True, True, True, True],
        [True, True, True, True],
        [True, True, True, True]])

In [31]:
# 4.
C = torch.ones((2, 3, 4))
C.shape, len(C)

(torch.Size([2, 3, 4]), 2)

In [32]:
# 5.
C = torch.ones((4, 5, 6))
C.shape, len(C)

(torch.Size([4, 5, 6]), 4)

In [33]:
# 6.
A / A.sum(axis=1)
# A / A.sum(axis=1, keepdims=True)

RuntimeError: The size of tensor a (4) must match the size of tensor b (5) at non-singleton dimension 1

In [34]:
# 7.
pos_x = torch.tensor([2, 3])
pos_y = torch.tensor([5, 7])
torch.sum(pos_x - pos_y).abs()

tensor(7)

In [35]:
# 8.
C.shape, C.sum(axis=[0, 1, 2])

(torch.Size([4, 5, 6]), tensor(120.))

In [36]:
# 9.
torch.norm(C)

tensor(10.9545)