# 2.3 线性代数

In [1]:
import torch

## 2.3.1标量

In [2]:
torch.tensor(0.3)

tensor(0.3000)

## 2.3.2向量
$$
\mathbf{x}=\begin{bmatrix}x_1 \\x_2 \\ \vdots \\x_n \end{bmatrix}
$$
---
请注意，*维度*（dimension）这个词在不同上下文时往往会有不同的含义，这经常会使人感到困惑。
为了清楚起见，我们在此明确一下：
*向量*或*轴*的维度被用来表示*向量*或*轴*的长度，即向量或轴的元素数量。
然而，张量的维度用来表示张量具有的轴数。
在这个意义上，张量的某个轴的维数就是这个轴的长度。

In [6]:
x=torch.arange(20)
print(len(x))
print(x.shape)

20
torch.Size([20])


## 2.3.3矩阵


\cdots（Center Dots - 水平省略号）

\vdots（Vertical Dots - 竖直省略号）

\ddots（Diagonal Dots - 斜对角省略号）

$$\mathbf{A}=\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} 
\\ a_{21} & a_{22} & \cdots & a_{2n} 
\\ \vdots & \vdots & \ddots & \vdots 
\\ a_{m1} & a_{m2} & \cdots & a_{mn} 
\\ \end{bmatrix}.$$

In [10]:
A=torch.arange(20).reshape(4,5)
A

tensor([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]])

In [11]:
print(len(A))

4


In [12]:
A.T

tensor([[ 0,  5, 10, 15],
        [ 1,  6, 11, 16],
        [ 2,  7, 12, 17],
        [ 3,  8, 13, 18],
        [ 4,  9, 14, 19]])

In [13]:
A.reshape(-1)

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
        18, 19])

In [15]:
A.reshape(2,2,5)

tensor([[[ 0,  1,  2,  3,  4],
         [ 5,  6,  7,  8,  9]],

        [[10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19]]])

## 2.3.5 张量的基本性质

In [16]:
A=torch.arange(20,dtype=torch.float32).reshape(5,4)
B=A.clone()
print(f"A :\n{A}")
print(f"A[0] is:\n{A[0]}")

A :
tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.]])
A[0] is:
tensor([0., 1., 2., 3.])


In [20]:
A[0][0]=1
A

tensor([[ 1.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.]])

In [21]:
B

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.]])

In [23]:
A[0][0]=0
A

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.]])

可以看到B只是A的浅拷贝

**矩阵的点乘**

具体而言，[**两个矩阵的按元素乘法称为*Hadamard积*（Hadamard product）（数学符号$\odot$）**]。
对于矩阵$\mathbf{B} \in \mathbb{R}^{m \times n}$，
其中第$i$行和第$j$列的元素是$b_{ij}$。
矩阵$\mathbf{A}$和$\mathbf{B}$的Hadamard积为：
$$
\mathbf{A} \odot \mathbf{B} =
\begin{bmatrix}
    a_{11}  b_{11} & a_{12}  b_{12} & \dots  & a_{1n}  b_{1n} \\
    a_{21}  b_{21} & a_{22}  b_{22} & \dots  & a_{2n}  b_{2n} \\
    \vdots & \vdots & \ddots & \vdots \\
    a_{m1}  b_{m1} & a_{m2}  b_{m2} & \dots  & a_{mn}  b_{mn}
\end{bmatrix}.
$$

In [24]:
A*B

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

## 2.3.6 降维

A.sum()是所有元素的和

$$
\sum_{i=1}^{m} \sum_{j=1}^{n}a_{ij}
$$

In [25]:
A.shape,A.sum()

(torch.Size([5, 4]), tensor(190.))

In [26]:
A

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.]])

沿着某个维度求和

In [29]:
A.sum(dim=0),A.sum(dim=1)

(tensor([40., 45., 50., 55.]), tensor([ 6., 22., 38., 54., 70.]))

In [31]:
B=torch.arange(24).reshape(2,3,4)
B

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

我们来一步步解析 `B.sum(axis=[0,2])` 的计算逻辑。  

---

 **1. `B` 的形状**
```python
B = torch.arange(24).reshape(2, 3, 4)
```
`B` 的形状是 `(2, 3, 4)`，可以看作 **2 个 `3×4` 的矩阵**：
$$
    B = \begin{bmatrix}
    \begin{bmatrix} 0 & 1 & 2 & 3 \\ 4 & 5 & 6 & 7 \\ 8 & 9 & 10 & 11 \end{bmatrix},
    \begin{bmatrix} 12 & 13 & 14 & 15 \\ 16 & 17 & 18 & 19 \\ 20 & 21 & 22 & 23 \end{bmatrix}
    \end{bmatrix}
$$
维度索引：
- `B.shape[0] = 2` → **第 0 维**：包含 2 个 `3×4` 矩阵  
- `B.shape[1] = 3` → **第 1 维**：每个矩阵有 3 行  
- `B.shape[2] = 4` → **第 2 维**：每行有 4 列  

---

 **2. `B.sum(axis=[0,2])` 计算过程**
```python
B.sum(axis=[0, 2])
```
表示 **对第 0 维（矩阵）和第 2 维（列）求和**。

 **(1) 先对 `axis=0` 求和**
对 **第 0 维**（即 2 个矩阵）进行逐元素求和：
$$
    \begin{bmatrix}
    0+12 & 1+13 & 2+14 & 3+15 \\
    4+16 & 5+17 & 6+18 & 7+19 \\
    8+20 & 9+21 & 10+22 & 11+23
    \end{bmatrix}
    =
    \begin{bmatrix}
    12 & 14 & 16 & 18 \\
    20 & 22 & 24 & 26 \\
    28 & 30 & 32 & 34
    \end{bmatrix}
$$
这样 `B` 变成一个 `3×4` 的矩阵（形状 `(3,4)`）。

 **(2) 再对 `axis=2` 求和**
对 **第 2 维**（列）求和，相当于对每一行的 4 个元素求和：
$$
    \begin{aligned}
    12+14+16+18 &= 60, \\
    20+22+24+26 &= 92, \\
    28+30+32+34 &= 124.
    \end{aligned}
$$
最终结果：
```
tensor([ 60,  92, 124 ])
```
这个结果的形状是 **(3,)**，对应 **原矩阵的 3 行**。

---

 **3. 总结**
- `axis=0`：**对 2 个 `3×4` 矩阵相加**，得到一个 `3×4` 矩阵。
- `axis=2`：**对每行的 4 个元素求和**，最终得到 `3` 个数（对应 3 行）。

所以，最终输出是：
```
tensor([60, 92, 124])
```
对应 **每一行所有元素的总和（跨 2 个原始矩阵）**。

**你可以尝试不同的 `axis` 组合，看看它们的变化！🚀**



In [38]:
B.sum(axis=[0,2])
#B.sum(dim=[0,2])也是一样的
#B.sum(dim=0).sum(dim=1)也是一样的

tensor([ 60,  92, 124])

矩阵的平均值

In [34]:
A

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.]])

In [35]:
A.mean(),A.sum()/A.numel()

(tensor(9.5000), tensor(9.5000))

In [41]:
A.mean(dim=[0,1]),A.mean(dim=0).mean()

(tensor(9.5000), tensor(9.5000))

### 2.3.6.1. 非降维求和

In [42]:
sum_A = A.sum(axis=1, keepdims=True)
sum_A

tensor([[ 6.],
        [22.],
        [38.],
        [54.],
        [70.]])

In [43]:
A / sum_A

tensor([[0.0000, 0.1667, 0.3333, 0.5000],
        [0.1818, 0.2273, 0.2727, 0.3182],
        [0.2105, 0.2368, 0.2632, 0.2895],
        [0.2222, 0.2407, 0.2593, 0.2778],
        [0.2286, 0.2429, 0.2571, 0.2714]])

In [44]:
A.cumsum(axis=0)

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  6.,  8., 10.],
        [12., 15., 18., 21.],
        [24., 28., 32., 36.],
        [40., 45., 50., 55.]])

## 2.3.7 点积 dot product
向量点积

In [48]:
a=torch.arange(4,dtype=torch.float32)
b=torch.ones(4)
b=b.exp()

In [49]:
a,b

(tensor([0., 1., 2., 3.]), tensor([2.7183, 2.7183, 2.7183, 2.7183]))

*是逐个元素相乘

dot才是线性代数的点积，等价于逐个元素相乘然后求和

$a^Tb=\sum_{i=1}^{n} a_i*b_i$

In [50]:
a*b,torch.dot(a,b)

(tensor([0.0000, 2.7183, 5.4366, 8.1548]), tensor(16.3097))

In [52]:
torch.sum(a * b)

tensor(16.3097)

$\mathbf{A}\mathbf{x}$矩阵向量
torch.mv(A,x)

$\mathbf{A}\mathbf{B}$矩阵矩阵
torch.MM(A,B)

In [61]:
A=torch.arange(12).reshape(3,4)
x=torch.tensor([[1],[2],[1],[2]])
B=torch.arange(12).reshape(4,3)
A,x,B

(tensor([[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]]),
 tensor([[1],
         [2],
         [1],
         [2]]),
 tensor([[ 0,  1,  2],
         [ 3,  4,  5],
         [ 6,  7,  8],
         [ 9, 10, 11]]))

In [62]:
A.shape,x.shape,B.shape

(torch.Size([3, 4]), torch.Size([4, 1]), torch.Size([4, 3]))

In [63]:
print(f"Ax is:\n{torch.mv(A,x)}")
print(f"AB is:\n{torch.mm(A,B)}")

RuntimeError: vector + matrix @ vector expected, got 1, 2, 2

这里把向量当作特殊的矩阵了

In [64]:
print(f"Ax is:\n{torch.mm(A,x)}")
print(f"AB is:\n{torch.mm(A,B)}")

Ax is:
tensor([[10],
        [34],
        [58]])
AB is:
tensor([[ 42,  48,  54],
        [114, 136, 158],
        [186, 224, 262]])


In [65]:
x=x.reshape(-1)
x

tensor([1, 2, 1, 2])

In [66]:
print(f"Ax is:\n{torch.mv(A,x)}")
print(f"AB is:\n{torch.mm(A,B)}")

Ax is:
tensor([10, 34, 58])
AB is:
tensor([[ 42,  48,  54],
        [114, 136, 158],
        [186, 224, 262]])


## 2.3.8 范数

$L_2$范数和$L_1$范数都是更一般的$L_p$范数的特例：

$$\|\mathbf{x}\|_p = \left(\sum_{i=1}^n \left|x_i \right|^p \right)^{1/p}.$$

类似于向量的$L_2$范数，[**矩阵**]$\mathbf{X} \in \mathbb{R}^{m \times n}$(**的*Frobenius范数*（Frobenius norm）是矩阵元素平方和的平方根：**)

(**$$\|\mathbf{X}\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n x_{ij}^2}.$$**)

Frobenius范数满足向量范数的所有性质，它就像是矩阵形向量的$L_2$范数。
调用以下函数将计算矩阵的Frobenius范数。


In [73]:
a=torch.arange(6,dtype=torch.float32).reshape(2,3)
a

tensor([[0., 1., 2.],
        [3., 4., 5.]])

In [78]:
print(f"L-1范数 is:\n{torch.norm(a,p=1)}")
print(f"L-2范数 is:\n{torch.norm(a,p=2)}")
print(f"L-inf范数 is:\n{torch.norm(a,p=torch.inf)}")
print(f"max item of a is:\n{a.max()}")


L-1范数 is:
15.0
L-2范数 is:
7.416198253631592
L-inf范数 is:
5.0
max item of a is:
5.0


无穷范数就是max函数