# 2.3 线性代数
- **目录**
  - 2.3.1 标量
  - 2.3.2 向量
  - 2.3.3 矩阵
  - 2.3.4 张量
  - 2.3.5 张量算法的基本性质
  - 2.3.6 降维
  - 2.3.7 点积
  - 2.3.8 矩阵-向量积
  - 2.3.9 矩阵-矩阵乘法
  - 2.3.10 范数

## 2.3.1 标量

- 定义：一个只有大小没有方向的数值称之为**标量（scalar）**，标量通常表示一个数值，可以是整数、小数、正数、负数或零。
  - 华氏度值转换为更常用的摄氏度公式：$c=\frac{5}{9}(f-32)$，将$f$赋为$52$。
  - 在此等式中，每一项（$5$、$9$和$32$）都是标量值。
  - 符号$c$和$f$称为**变量（variable）**，表示未知的标量值。
- 数学表示法
  - 标量变量由**小写字母**表示（例如，$x$、$y$和$z$）。
  - 用$\mathbb{R}$表示所有 **（连续）实数标量** 的空间。
  - 表达式$x\in\mathbb{R}$是表示$x$是一个实值标量的正式形式。
  - 符号$\in$称为“属于”，它表示“是集合中的成员”。
  - 用$x, y \in \{0,1\}$来表明$x$和$y$是值只能为$0$或$1$的数字。
- 在Pytorch中**标量由只有一个元素的张量表示**。

In [1]:
import torch

x = torch.tensor(3.0)
y = torch.tensor(2.0)

x + y, x * y, x / y, x**y

(tensor(5.), tensor(6.), tensor(1.5000), tensor(9.))

## 2.3.2 向量

- 定义：**标量值组成的列表**。
- 列表中的标量值称为向量的**元素（element）**或**分量（component）**。
- 比如：
  - 如果正在训练一个模型来预测贷款违约风险，会将每个申请人与一个向量相关联，
    其分量与其收入、工作年限、过往违约次数和其他因素相对应。
  - 正在研究医院患者可能面临的心脏病发作风险，会用一个向量来表示每个患者，
    其分量为最近的生命体征、胆固醇水平、每天运动时间等。
- 数学表示法中通常将向量记为**粗体、小写**的符号
 （例如，$\mathbf{x}$、$\mathbf{y}$和$\mathbf{z})$。
- 向量可以具有任意长度，取决于机器的内存限制。


In [2]:
x = torch.arange(4)
x

tensor([0, 1, 2, 3])

- 可以通过$x_i$来引用第$i$个元素。
- 文献认为列向量是向量的默认方向，比如向量$\mathbf{x}$可以写为：

$$\mathbf{x} =\begin{bmatrix}x_{1}  \\x_{2}  \\ \vdots  \\x_{n}\end{bmatrix},$$
   其中$x_1,\ldots,x_n$是向量的元素。


In [3]:
x[3]

tensor(3)

In [4]:
## 转换到GPU上保存和计算，也就是所谓CUDA内存张量
x.to(device='cuda:0')

tensor([0, 1, 2, 3], device='cuda:0')

### 2.3.2.1 长度、维度和形状
- 在数学表示法中，一个向量$\mathbf{x}$由$n$个实值标量组成，
  表示为$\mathbf{x}\in\mathbb{R}^n$，
  $\mathbb{R}$表示实数域，$n$表示维度。
- 向量的长度通常称为向量的**维度（dimension）**。
- 可调用Python的内置`len()`函数来访问张量的**长度**。


In [5]:
len(x)

4

- 可以通过`.shape`属性访问向量的长度。
  - 形状（shape）是一个元素组，列出了张量沿每个轴的长度（维数）。
  - 对于只有一个轴的张量，形状只有一个元素。


In [6]:
x.shape

torch.Size([4])

- **维度（dimension）** 在不同上下文时有不同涵义：
  - **向量**或**轴**的维度被用来表示**向量**或**轴**的长度，即向量或轴的**元素数量**。
  - 张量的维度用来表示**张量的轴数**。

## 2.3.3 矩阵

- 矩阵将向量从一阶**推广到二阶**，通常用**粗体大写字母**来表示矩阵
（例如，$\mathbf{X}$、$\mathbf{Y}$和$\mathbf{Z}$），
  在代码中表示为具有两个轴的张量。
- 数学表示法中使用$\mathbf{A} \in \mathbb{R}^{m \times n}$
来表示矩阵$\mathbf{A}$，其由$m$行和$n$列的实值标量组成。
- 可以将任意矩阵$\mathbf{A} \in \mathbb{R}^{m \times n}$视为一个表格，
其中每个元素$a_{ij}$属于第$i$行第$j$列：

$$\mathbf{A}=\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \\ \end{bmatrix}.$$

- 对于任意$\mathbf{A} \in \mathbb{R}^{m \times n}$，
$\mathbf{A}$的形状是（$m$,$n$）或$m \times n$。
- 当矩阵具有相同数量的行和列时，其形状将变为正方形，称为**方阵（square matrix）**。

- 示例：
  - 当调用函数来实例化张量时，可以**通过指定两个分量$m$和$n$来创建一个形状为$m \times n$的矩阵**。

In [7]:
A = torch.arange(20).reshape(5, 4)
A

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

In [8]:
# len函数取轴-0的大小
len(A)

5

- 可以通过行索引（$i$）和列索引（$j$）来访问矩阵中的标量元素$a_{ij}$，
例如$[\mathbf{A}]_{ij}$。
- 矩阵的**转置（transpose）**：交换矩阵的行和列。
- 用$\mathbf{a}^\top$来表示矩阵的转置，如果$\mathbf{B}=\mathbf{A}^\top$，则对于任意$i$和$j$，都有$b_{ij}=a_{ji}$。
因此，上述矩阵的转置是一个形状为$n \times m$的矩阵：

$$
\mathbf{A}^\top =
\begin{bmatrix}
    a_{11} & a_{21} & \dots  & a_{m1} \\
    a_{12} & a_{22} & \dots  & a_{m2} \\
    \vdots & \vdots & \ddots  & \vdots \\
    a_{1n} & a_{2n} & \dots  & a_{mn}
\end{bmatrix}.
$$

In [9]:
A.T

tensor([[ 0,  4,  8, 12, 16],
        [ 1,  5,  9, 13, 17],
        [ 2,  6, 10, 14, 18],
        [ 3,  7, 11, 15, 19]])

- **对称矩阵（symmetric matrix）**：$\mathbf{A}$等于其转置：$\mathbf{A} = \mathbf{A}^\top$。
- 示例：定义一个对称矩阵$\mathbf{B}$：


In [10]:
B = torch.tensor([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
B

tensor([[1, 2, 3],
        [2, 0, 4],
        [3, 4, 5]])

- 将`B`与它的转置进行比较。


In [11]:
B == B.T,type(A)

(tensor([[True, True, True],
         [True, True, True],
         [True, True, True]]),
 torch.Tensor)

## 2.3.4 张量
- **向量是标量的推广，矩阵是向量的推广，张量则是矩阵的推广**。
- 张量（本小节中的“张量”指代数对象）提供了描述具有任意数量轴的$n$维数组的通用方法。向量是一阶张量，矩阵是二阶张量。
- 张量用特殊字体的大写字母表示（例如，$\mathsf{X}$、$\mathsf{Y}$和$\mathsf{Z}$ ）。
- 张量的索引机制：$x_{ijk}$和$[\mathsf{X}]_{1,2i-1,3}$。
- 比如：图像数据以$n$维数组形式出现，其中3个轴对应于高度、宽度，以及一个**通道（channel）轴**，
用于表示颜色通道（红色、绿色和蓝色）。

In [12]:
X = torch.arange(24).reshape(2, 3, 4)
X

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

## 2.3.5 张量算法的基本性质

- 按元素运算：**给定具有相同形状的任意两个张量，任何按元素二元运算的结果都将是相同形状的张量**。



In [13]:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone()  # 通过分配新内存，将A的一个副本分配给B
# A + B是按元素求和
A + B,id(A),id(B)##A和B的确是两个不同对象

(tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]),
 2135965009104,
 2135981693872)

- 两个矩阵的按元素乘法称为**Hadamard积（Hadamard product）**（数学符号$\odot$）。
- 对于矩阵$\mathbf{B} \in \mathbb{R}^{m \times n}$，
其中第$i$行和第$j$列的元素是$b_{ij}$。
矩阵$\mathbf{A}$和$\mathbf{B}$的Hadamard积为：

$$
\mathbf{A} \odot \mathbf{B} =
\begin{bmatrix}
    a_{11}  b_{11} & a_{12}  b_{12} & \dots  & a_{1n}  b_{1n} \\
    a_{21}  b_{21} & a_{22}  b_{22} & \dots  & a_{2n}  b_{2n} \\
    \vdots & \vdots & \ddots & \vdots \\
    a_{m1}  b_{m1} & a_{m2}  b_{m2} & \dots  & a_{mn}  b_{mn}
\end{bmatrix}.
$$

- 比如：
$$
\begin{bmatrix}
1 & 2 \\
3 & 4
\end{bmatrix} \odot \begin{bmatrix}
5 & 6\\
7 & 8
\end{bmatrix} = \begin{bmatrix}
1 \times 5 & 2 \times 6\\
3 \times 7 & 4 \times 8
\end{bmatrix} = \begin{bmatrix}
5 & 12\\
21 & 32
\end{bmatrix}
$$
- Hadamard积求法在很多领域有应用，后文中将多次涉及，一定要区分Hadamard积与点积之间的区别。

In [14]:
# 表现形式与numpy一致
A * B

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

- 将张量乘以或加上一个标量不会改变张量的形状，其中张量的每个元素都将与标量相加或相乘。


In [15]:
a = 2
X = torch.arange(24).reshape(2, 3, 4)
a + X, (a * X).shape

(tensor([[[ 2,  3,  4,  5],
          [ 6,  7,  8,  9],
          [10, 11, 12, 13]],
 
         [[14, 15, 16, 17],
          [18, 19, 20, 21],
          [22, 23, 24, 25]]]),
 torch.Size([2, 3, 4]))

## 2.3.6 降维
- 可以对任意张量进行**计算其元素的和**操作 。
- 在数学表示法中，使用$\sum$符号表示求和。
- 为了表示长度为$d$的向量中元素的总和，可以记为$\sum_{i=1}^dx_i$。

In [16]:
x = torch.arange(4, dtype=torch.float32)
x, x.sum()

(tensor([0., 1., 2., 3.]), tensor(6.))

- 可以求**任意形状**张量的元素和。
例如，矩阵$\mathbf{A}$中元素的和可以记为$\sum_{i=1}^{m} \sum_{j=1}^{n} a_{ij}$。


In [17]:
A.shape, A.sum()

(torch.Size([5, 4]), tensor(190.))

- 默认情况下，调用求和函数会**沿所有的轴降低张量的维度**，使它变为一个标量。
- 可以**指定张量沿哪一个轴来通过求和降低维度**：
  - 比如：为了通过对所有行的元素求和来降维（轴0），可以在调用函数时指定`axis=0`。
  - 由于输入矩阵沿0轴降维以生成输出向量，因此输入轴0的维数**在输出形状中消失**。
  - `axis=0`沿垂直方向求和，`axis=1`沿着水平方向求和。

In [18]:
A_sum_axis0 = A.sum(axis=0)
A_sum_axis0, A_sum_axis0.shape

(tensor([40., 45., 50., 55.]), torch.Size([4]))

In [29]:
A

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.]])

In [19]:
A.sum(0),A.sum(1)

(tensor([40., 45., 50., 55.]), tensor([ 6., 22., 38., 54., 70.]))

- 指定`axis=1`将通过汇总所有列的元素降维（轴1）。因此，输入轴1的维数**在输出形状中消失**。


In [20]:
A_sum_axis1 = A.sum(axis=1)
A_sum_axis1, A_sum_axis1.shape

(tensor([ 6., 22., 38., 54., 70.]), torch.Size([5]))

- 沿着行和列对矩阵求和，等价于对矩阵的所有元素进行求和。


In [21]:
A.sum(axis=[0, 1])  # SameasA.sum()

tensor(190.)

- **一个与求和相关的量是*平均值*（mean或average）**：将总和除以元素总数来计算平均值。

In [22]:
A.mean(), A.sum() / A.numel()

(tensor(9.5000), tensor(9.5000))

In [34]:
A.numel(),A,A.shape,A.size()

(20,
 tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 torch.Size([5, 4]),
 torch.Size([5, 4]))

- 计算平均值的函数也可以**沿指定轴**降低张量的维度。


In [23]:
A.mean(axis=0), A.sum(axis=0) / A.shape[0],A.shape

(tensor([ 8.,  9., 10., 11.]),
 tensor([ 8.,  9., 10., 11.]),
 torch.Size([5, 4]))

-  **非降维求和**：计算总和或均值时**保持轴数不变**


In [24]:
sum_A = A.sum(axis=1, keepdims=True)
sum_A, sum_A.shape

(tensor([[ 6.],
         [22.],
         [38.],
         [54.],
         [70.]]),
 torch.Size([5, 1]))

- 示例：比如对数据进行归一化，由于`sum_A`在对每行进行求和后仍保持两个轴，可以通过**广播**将`A`除以`sum_A` 。


In [25]:
# sum_A行广播，从(5, 1)广播成(5, 4)，与A的形状一致
# 然后对A和sum_A按元素求商
A / sum_A

tensor([[0.0000, 0.1667, 0.3333, 0.5000],
        [0.1818, 0.2273, 0.2727, 0.3182],
        [0.2105, 0.2368, 0.2632, 0.2895],
        [0.2222, 0.2407, 0.2593, 0.2778],
        [0.2286, 0.2429, 0.2571, 0.2714]])

In [26]:
# 矩阵行归一化后，每行的和等于1
normal_A = A / sum_A
normal_A.sum(axis=1)

tensor([1., 1., 1., 1., 1.])

- 累积求和`cumsum`函数：沿**某个轴计算`A`元素的累积总和**，此函数不会沿任何轴降低输入张量的维度。


In [27]:
# cumsum函数很有用处，指cumulative sum
A.cumsum(axis=0),A

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  6.,  8., 10.],
         [12., 15., 18., 21.],
         [24., 28., 32., 36.],
         [40., 45., 50., 55.]]),
 tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]))

## 2.3.7 点积（Dot Product）
- 给定两个向量$\mathbf{x},\mathbf{y}\in\mathbb{R}^d$，
**点积（dot product）** $\mathbf{x}^\top\mathbf{y}$
（或$\langle\mathbf{x},\mathbf{y}\rangle$）
是相同位置的按元素乘积的和：$\mathbf{x}^\top \mathbf{y} = \sum_{i=1}^{d} x_i y_i$。


In [28]:
y = torch.ones(4, dtype = torch.float32)
x, y, torch.dot(x, y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.))

In [29]:
x@y #与numpy无差别

tensor(6.)

- 可以通过执行按元素乘法，然后进行求和来表示两个向量的点积


In [30]:
torch.sum(x * y)

tensor(6.)

In [31]:
x.numpy(),y.numpy().T#向量转置无效果

(array([0., 1., 2., 3.], dtype=float32),
 array([1., 1., 1., 1.], dtype=float32))

In [32]:
x@y # @符号一样可以用于向量求点积

tensor(6.)

- 点积在很多场合都很有用：
  - 例如，给定一组由向量$\mathbf{x} \in \mathbb{R}^d$表示的值，
和一组由$\mathbf{w} \in \mathbb{R}^d$表示的权重。
  - $\mathbf{x}$中的值根据权重$\mathbf{w}$的加权和，可以表示为点积$\mathbf{x}^\top \mathbf{w}$。
  - 当权重为非负数且和为1（即$\left(\sum_{i=1}^{d}{w_i}=1\right)$）时，点积表示**加权平均（weighted average）**。
  - 将两个向量规范化得到单位长度后，点积表示它们夹角的余弦。

## 2.3.8 矩阵-向量积（matrix-vector product）
前文定义的矩阵$\mathbf{A} \in \mathbb{R}^{m \times n}$和向量$\mathbf{x} \in \mathbb{R}^n$。
将矩阵$\mathbf{A}$用它的行向量表示：

$$\mathbf{A}=
\begin{bmatrix}
\mathbf{a}^\top_{1} \\
\mathbf{a}^\top_{2} \\
\vdots \\
\mathbf{a}^\top_m \\
\end{bmatrix},$$

其中每个$\mathbf{a}^\top_{i} \in \mathbb{R}^n$都是行向量，表示矩阵的第$i$行。

矩阵向量积$\mathbf{A}\mathbf{x}$是一个长度为$m$的列向量，
其第$i$个元素是点积$\mathbf{a}^\top_i \mathbf{x}$：

$$
\mathbf{A}\mathbf{x}
= \begin{bmatrix}
\mathbf{a}^\top_{1} \\
\mathbf{a}^\top_{2} \\
\vdots \\
\mathbf{a}^\top_m \\
\end{bmatrix}\mathbf{x}
= \begin{bmatrix}
 \mathbf{a}^\top_{1} \mathbf{x}  \\
 \mathbf{a}^\top_{2} \mathbf{x} \\
\vdots\\
 \mathbf{a}^\top_{m} \mathbf{x}\\
\end{bmatrix}.
$$

- $\mathbf{A}\mathbf{x}$求解过程：
  - $\mathbf{a}^\top_{1}...\mathbf{a}^\top_{m}$，表示矩阵$\mathbf{A}$的行向量。
  - $\mathbf{a}_1...\mathbf{a}_{m}$表示$m$个列向量，注意前文已经约定向量通常为列向量。
  - 然后通过$\mathbf{a}^\top_{m}$求转置转换成行向量，然后$m$个行向量组合成矩阵$\mathbf{A}$。
  - $\mathbf{A}\mathbf{x}$即是将$\mathbf{A}$的行向量与向量$\mathbf{x}$求点积。

- 在代码中使用张量表示矩阵-向量积，使用与点积相同的`mv`函数。
  - 为矩阵`A`和向量`x`调用`torch.mv(A, x)`时，会执行矩阵-向量积。
  - `A`的列维数（沿轴1的长度）必须与`x`的维数（其长度）相同。


In [33]:
A.shape, x.shape, torch.mv(A, x)

(torch.Size([5, 4]), torch.Size([4]), tensor([ 14.,  38.,  62.,  86., 110.]))

In [46]:
a=torch.tensor([[1,2,3],[4,5,6]])
b=torch.tensor([7,8,9])

#矩阵与向量之间的点积与按元素相乘
#按元素相乘进行了广播
torch.mv(a,b),a@b,a*b,(a@b).shape

(tensor([ 50, 122]),
 tensor([ 50, 122]),
 tensor([[ 7, 16, 27],
         [28, 40, 54]]),
 torch.Size([2]))

## 2.3.9 矩阵-矩阵乘法
现有两个矩阵$\mathbf{A} \in \mathbb{R}^{n \times k}$和$\mathbf{B} \in \mathbb{R}^{k \times m}$：

$$\mathbf{A}=\begin{bmatrix}
 a_{11} & a_{12} & \cdots & a_{1k} \\
 a_{21} & a_{22} & \cdots & a_{2k} \\
\vdots & \vdots & \ddots & \vdots \\
 a_{n1} & a_{n2} & \cdots & a_{nk} \\
\end{bmatrix},\quad
\mathbf{B}=\begin{bmatrix}
 b_{11} & b_{12} & \cdots & b_{1m} \\
 b_{21} & b_{22} & \cdots & b_{2m} \\
\vdots & \vdots & \ddots & \vdots \\
 b_{k1} & b_{k2} & \cdots & b_{km} \\
\end{bmatrix}.$$

用行向量$\mathbf{a}^\top_{i} \in \mathbb{R}^k$表示矩阵$\mathbf{A}$的第$i$行，并让列向量$\mathbf{b}_{j} \in \mathbb{R}^k$作为矩阵$\mathbf{B}$的第$j$列。要生成矩阵积$\mathbf{C} = \mathbf{A}\mathbf{B}$，最简单的方法是考虑$\mathbf{A}$的行向量和$\mathbf{B}$的列向量:

$$\mathbf{A}=
\begin{bmatrix}
\mathbf{a}^\top_{1} \\
\mathbf{a}^\top_{2} \\
\vdots \\
\mathbf{a}^\top_n \\
\end{bmatrix},
\quad \mathbf{B}=\begin{bmatrix}
 \mathbf{b}_{1} & \mathbf{b}_{2} & \cdots & \mathbf{b}_{m} \\
\end{bmatrix}.
$$

也可简单地将每个元素$c_{ij}$计算为点积$\mathbf{a}^\top_i \mathbf{b}_j$:

$$\mathbf{C} = \mathbf{AB} = \begin{bmatrix}
\mathbf{a}^\top_{1} \\
\mathbf{a}^\top_{2} \\
\vdots \\
\mathbf{a}^\top_n \\
\end{bmatrix}
\begin{bmatrix}
 \mathbf{b}_{1} & \mathbf{b}_{2} & \cdots & \mathbf{b}_{m} \\
\end{bmatrix}
= \begin{bmatrix}
\mathbf{a}^\top_{1} \mathbf{b}_1 & \mathbf{a}^\top_{1}\mathbf{b}_2& \cdots & \mathbf{a}^\top_{1} \mathbf{b}_m \\
 \mathbf{a}^\top_{2}\mathbf{b}_1 & \mathbf{a}^\top_{2} \mathbf{b}_2 & \cdots & \mathbf{a}^\top_{2} \mathbf{b}_m \\
 \vdots & \vdots & \ddots &\vdots\\
\mathbf{a}^\top_{n} \mathbf{b}_1 & \mathbf{a}^\top_{n}\mathbf{b}_2& \cdots& \mathbf{a}^\top_{n} \mathbf{b}_m
\end{bmatrix}.
$$

**可以将矩阵-矩阵乘法$\mathbf{AB}$看作是简单地执行$m$次矩阵-向量积，并将结果拼接在一起，形成一个$n \times m$矩阵**。

- 示例：
  - 下面代码在`A`和`B`上执行矩阵乘法。
  - `A`是一个5行4列的矩阵，`B`是一个4行3列的矩阵。
  - 两者相乘后得到了一个5行3列的矩阵。

In [47]:
B = torch.ones(4, 3)
torch.mm(A, B),A@B

(tensor([[ 6.,  6.,  6.],
         [22., 22., 22.],
         [38., 38., 38.],
         [54., 54., 54.],
         [70., 70., 70.]]),
 tensor([[ 6.,  6.,  6.],
         [22., 22., 22.],
         [38., 38., 38.],
         [54., 54., 54.],
         [70., 70., 70.]]))

In [35]:
# 三维张量乘法
C=torch.arange(1,25).reshape(2,3,4)
D=torch.arange(5,29).reshape(2,4,3)
C, D

(tensor([[[ 1,  2,  3,  4],
          [ 5,  6,  7,  8],
          [ 9, 10, 11, 12]],
 
         [[13, 14, 15, 16],
          [17, 18, 19, 20],
          [21, 22, 23, 24]]]),
 tensor([[[ 5,  6,  7],
          [ 8,  9, 10],
          [11, 12, 13],
          [14, 15, 16]],
 
         [[17, 18, 19],
          [20, 21, 22],
          [23, 24, 25],
          [26, 27, 28]]]))

- 三维张量乘法：
  - `C[0]`与`D[0]`，`C[1]`与`D[1]`分别求矩阵乘法。
  - 然后将上述矩阵乘法获得矩阵组合成三维张量。
  - 该三维张量里仍是包含两个矩阵。

In [36]:
# 三维张量的张量乘法，表现形式与numpy一致。计算机视觉中用的比较多
C@D,C[0]@D[0],C[1]@D[1]

(tensor([[[ 110,  120,  130],
          [ 262,  288,  314],
          [ 414,  456,  498]],
 
         [[1262, 1320, 1378],
          [1606, 1680, 1754],
          [1950, 2040, 2130]]]),
 tensor([[110, 120, 130],
         [262, 288, 314],
         [414, 456, 498]]),
 tensor([[1262, 1320, 1378],
         [1606, 1680, 1754],
         [1950, 2040, 2130]]))



## 2.3.10 范数
- 通俗讲，向量的**范数（norm）** 表示该向量有多大。
- 在线性代数中，向量范数是将向量映射到标量的函数$f$。
- 范数的功能：
  - 解决优化问题： 
    - 最大化分配给观测数据的概率。
    - 最小化预测和真实观测之间的距离。 
    - 用向量表示对象（比如词向量），以便最小化相似项目之间的距离，最大化不同项目之间的距离。 
  - 目标函数是深度学习算法重要的组成部分，该函数通常被表达为范数。
- 给定任意向量$\mathbf{x}$，向量范数要满足如下属性：
  - 第一个性质是：如果我们按常数因子$\alpha$缩放向量的所有元素，其范数也会按相同常数因子的**绝对值**缩放：
   $$f(\alpha \mathbf{x}) = |\alpha| f(\mathbf{x}).$$
  - 第二个性质是我们熟悉的三角不等式:
   $$f(\mathbf{x} + \mathbf{y}) \leq f(\mathbf{x}) + f(\mathbf{y}).$$
  - 第三个性质简单地说范数必须是非负的:
   $$f(\mathbf{x}) \geq 0.$$
  - 最后一个性质要求范数最小为0，当且仅当向量全由0组成。
   $$\forall i, [\mathbf{x}]_i = 0 \Leftrightarrow f(\mathbf{x})=0.$$
- 欧几里得距离是一个$L_2$范数：
假设$n$维向量$\mathbf{x}$中的元素是$x_1,\ldots,x_n$，其$L_2$范数是向量元素平方和的平方根：
$$\|\mathbf{x}\|_2 = \sqrt{\sum_{i=1}^n x_i^2},$$
- 注意：在$L_2$范数中常常省略下标$2$，也就是说$\|\mathbf{x}\|$等同于$\|\mathbf{x}\|_2$ 。

In [37]:
u = torch.tensor([3.0, -4.0])
torch.norm(u), torch.sum(u**2)**.5

(tensor(5.), tensor(5.))

- **$L_1$范数，它表示为向量元素的绝对值之和：**
$$\|\mathbf{x}\|_1 = \sum_{i=1}^n \left|x_i \right|.$$
  - 与$L_2$范数相比，$L_1$范数受异常值的影响较小。
  - 计算$L_1$范数即对矩阵元素求绝对值然后求和。


In [38]:
torch.abs(u).sum()

tensor(7.)

- $L_2$范数和$L_1$范数都是更一般的$L_p$范数的特例：

$$\|\mathbf{x}\|_p = \left(\sum_{i=1}^n \left|x_i \right|^p \right)^{1/p}.$$

- 矩阵$\mathbf{X} \in \mathbb{R}^{m \times n}$的 **Frobenius范数（Frobenius norm）** 是矩阵元素平方和的平方根：

$$\|\mathbf{X}\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n x_{ij}^2}.$$
- 举例：以前面的矩阵A为例，求其各种范式

In [41]:
A = torch.arange(0.,20.).reshape(5,4)
# 求L2范数，两种方式结果相同
torch.norm(A), torch.sum(A**2)**.5

(tensor(49.6991), tensor(49.6991))

In [42]:
# 谱范数，与l2范数有区别
sn = torch.linalg.norm(A, ord=2)
# 也可以通过矩阵奇异值分解求得谱范式，谱范式即矩阵奇异值的最大值
sn, torch.linalg.svd(A)[1][0]

(tensor(49.6337), tensor(49.6337))

-----------
- **说明：谱范数**
  - 谱范数可以用于评估矩阵变换的稳定性和收敛速度。
  - 矩阵的谱范数是由其特征值中的最大值决定的。
  - 当矩阵的谱范数较小时，说明矩阵的特征值分布比较集中，变换后的向量不会受到过大的拉伸或压缩；而当矩阵的谱范数较大时，则说明矩阵的特征值分布较为分散，变换后的向量可能会被强烈拉伸或压缩，这可能会导致数值不稳定的问题。
  - 在机器学习和深度学习中，矩阵的谱范数通常用于控制权重的大小，避免**过拟合**的问题。
    - 例如，在神经网络中，可以通过控制权重矩阵的谱范数来限制模型的复杂度，从而提高泛化性能。
  - Spectral Normalization（谱归一化），通过降低模型复杂度和减小权重矩阵对输入数据的拉伸程度来提高模型在新数据上的泛化性能。
  - 在Pytorch中有个spectral_norm()函数实现了谱归一化功能。


In [44]:
# 将矩阵除以其谱范式后的矩阵，其谱范式为1
# 此即谱归一化
torch.linalg.norm(A/sn, ord=2)

tensor(1.0000)

In [50]:
# 对于能够同时进行奇异值分解和特征值分解的矩阵，其最大特征值和最大奇异值是相同的
B = A@A.T
torch.linalg.svd(B)[1][0],torch.linalg.eig(B)[0][0]

(tensor(2463.5054), tensor(2463.5044+0.j))

------------

## 小结

* 标量、向量、矩阵和张量是线性代数中的基本数学对象。
* 向量泛化自标量，矩阵泛化自向量。
* 标量、向量、矩阵和张量分别具有零、一、二和任意数量的轴。
* 一个张量可以通过`sum`和`mean`沿指定的轴降低维度。
* 两个矩阵的按元素乘法被称为他们的Hadamard积。它与矩阵乘法不同。
* 在深度学习中，我们经常使用范数，如$L_1$范数、$L_2$范数和Frobenius范数。
