# 线性代数及Python实现

## 1. 标量、向量、矩阵、张量
- 标量(scalar): 表⽰⼀个单独的数，通常⽤斜体⼩写字母表示
- 向量(vector): 表⽰一列数，这些数有序排列的，可以通过下标获取对应值，通常⽤粗体⼩写字母表⽰
- 矩阵(matrix): 表⽰⼀个二维数组，每个元素的下标由两个数字确定，通常⽤⼤写粗体字母表⽰
- 张量(Tensor): 超过二维的数组

In [1]:
import numpy as np

In [2]:
# 标量
s = 5
# 向量
v = np.array([1,2])
# 矩阵
m = np.array([[1,2], [3,4]])
# 张量
t = np.array([
    [[1,2,3],[4,5,6],[7,8,9]],
    [[11,12,13],[14,15,16],[17,18,19]],
    [[21,22,23],[24,25,26],[27,28,29]],
    ])
print("标量:\n" + str(s))
print("向量:\n" + str(v))
print("矩阵:\n" + str(m))
print("张量:\n" + str(t))

标量:
5
向量:
[1 2]
矩阵:
[[1 2]
 [3 4]]
张量:
[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[11 12 13]
  [14 15 16]
  [17 18 19]]

 [[21 22 23]
  [24 25 26]
  [27 28 29]]]


## 2. 矩阵转置

矩阵转置 (Transpose) 相当于沿着对角线翻转，定义如下：
$$
A_{i,j}^T=A_{j,i}
$$
矩阵转置的转置等于矩阵本⾝：
$$
(A^T)^T=A
$$

向量可以看成是只有一列的矩阵，为了⽅便，我们可以使⽤⾏向量加转置的操作，如：$x=[x_1,x_2,x_3]^T$

标量也可以看成是一行一列的矩阵，其转置等于它⾃⾝：$a^T=a$

In [3]:
A = np.array([[1.0,2.0],[1.0,0.0],[2.0,3.0]])
A_t = A.transpose()
print("A:\n", A)
print("A 的转置:\n", A_t)

A:
 [[1. 2.]
 [1. 0.]
 [2. 3.]]
A 的转置:
 [[1. 1. 2.]
 [2. 0. 3.]]


# 3. 矩阵加法
加法即对应元素相加，要求两个矩阵的形状⼀样:
$$
C=A+B, C_{i,j}=A_{i,j}+B_{i,j}
$$

数乘即一个标量与矩阵每个元素相乘:
$$
D=a\cdot B+c,D_{i,j}=a\cdot B_{i,j}+c
$$

有时我们允许矩阵和向量相加的，得到⼀个矩阵，把 b 加到了 A 的每⼀⾏上，本质上是构造了⼀个将 b 按⾏复制的⼀个新矩阵，这种机制叫做⼴播 (Broadcasting):
$$
C=A+b, C_{i,j}=A_{i,j}+b_j
$$

In [4]:
a = np.array([[1.0,2.0],[3.0,4.0]])
b = np.array([[6.0,7.0],[8.0,9.0]])
print("矩阵相加：", a + b)

矩阵相加： [[ 7.  9.]
 [11. 13.]]


In [5]:
a + np.array([[1], [2]])

array([[2., 3.],
       [5., 6.]])

In [6]:
a + 1

array([[2., 3.],
       [4., 5.]])

## 4. 矩阵乘法
两个矩阵相乘得到第三个矩阵，我们需要$A$的形状为$m\times n$，$B$的形状为$n\times p$，得到的矩阵$C$的形状为$m\times p$:
$$
C=AB
$$
具体定义为
$$
C_{i,j}=\sum_k A_{i,k}B_{k,j}
$$

如果有两个相同形状的矩阵$A,B$，它们可以执行Hadmard乘积，即为$A\odot B$，具体定义为
$$
C_{i,j} = A_{i,j}\times B_{ij}
$$

向量可以看作是列为 1 的矩阵，两个相同维数的向量 x 和 y 的点乘（Dot Product）或者内积，可以表⽰为 $x^Ty$。

可以将矩阵乘法理解为： $C_{i,j}$表示$A$的第i行与$B$的第j行的內积:
$$
C_{i,j}=A_{i,:}B_{:,j}
$$



In [7]:
m1 = np.array([[1.0, 3.0], [1.0, 0.0]])
m2 = np.array([[1.0, 2.0], [5.0, 0.0]])

print("按矩阵乘法规则：", np.dot(m1, m2))
print("按逐元素相乘：", np.multiply(m1, m2))
print("按逐元素相乘：", m1*m2)

v1 = np.array([1.0, 2.0])
v2 = np.array([4.0, 5.0])
print("向量内积：", np.dot(v1, v2))

按矩阵乘法规则： [[16.  2.]
 [ 1.  2.]]
按逐元素相乘： [[1. 6.]
 [5. 0.]]
按逐元素相乘： [[1. 6.]
 [5. 0.]]
向量内积： 14.0


## 5. 单位矩阵

为了引⼊矩阵的逆，我们需要先定义单位矩阵 (Identity Matrix)：单位矩阵乘以任意⼀个向量等于这个向量本⾝。记 $I_n$ 为保持 $n$ 维向量不变的单位矩阵，即
$$
I_n\in R^{n\times n}, \forall x\in R^n, I_nx=x
$$
单位矩阵的结构⼗分简单，所有的对⾓元素都为 1 ，其他元素都为 0, 例如
$$
I_3=\left[
\begin{array}{l}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1
\end{array}
\right]
$$

In [8]:
 np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## 6. 矩阵的逆

矩阵 A 的逆 (Inversion) 记作 $A^{−1}$, 满足
$$
A^{-1}A=I_n
$$
如果 $A^{−1}$ 存在，那么线性⽅程组 $Ax = b$ 的解为：
$$
A^{-1}AX=I_nx=x=A^{-1}b
$$

In [9]:
A = np.array([[1.0, 2.0],
              [3.0, 4.0]])

A_inv = np.linalg.inv(A)
print("A 的逆矩阵", A_inv)

A 的逆矩阵 [[-2.   1. ]
 [ 1.5 -0.5]]


## 7. 范数

矩阵的F范数
$$
||A||_F=\sqrt{\sum_{i,j}A_{i,j}^2}
$$

In [10]:
a = np.array([1.0,3.0])
print("向量 2 范数", np.linalg.norm(a, ord=2))
print("向量 1 范数", np.linalg.norm(a, ord=1))
print("向量无穷范数", np.linalg.norm(a, ord=np.inf))

向量 2 范数 3.1622776601683795
向量 1 范数 4.0
向量无穷范数 3.0


In [11]:
a = np.array([[1.0, 3.0],
              [2.0, 1.0]])
print("矩阵 F 范数", np.linalg.norm(a, ord="fro"))

矩阵 F 范数 3.872983346207417


## 8. 特征值分解
如果⼀个 $n\times n$ 矩阵 $A$ 有 $n$ 组线性⽆关的单位特征向量 ${v(1),...,v(n)}$，以及对应的特征值 $λ_1,...,λ_n$。将这些特征向量按列拼接成⼀个矩阵：
$V = [v(1),...,v(n)]$，并将对应的特征值拼接成⼀个向量：$λ = [λ_1,...,λ_n]$。

A的特征值分解(Eiendecomposition)为:
$$
A=V diag(\lambda) V^{-1}
$$

注意：
- 不是所有的矩阵都有特征值分解
- 在某些情况下，实矩阵的特征值分解可能会得到复矩阵

In [None]:
A = np.array([[1.0,2.0,3.0],
            [4.0,5.0,6.0],
            [7.0,8.0,9.0]])
# 计算特征值
print("特征值:", np.linalg.eigvals(A))
# 计算特征值和特征向量
eigvals, eigvectors = np.linalg.eig(A)
print("特征值:", eigvals)
print("特征向量:", eigvectors)

## 9. 奇异值分解
奇异值分解 (Singular Value Decomposition, SVD) 提供了另⼀种分解矩阵的⽅式，将其分解为奇异向量和奇异值。
与特征值分解相⽐，奇异值分解更加通⽤，所有的实矩阵都可以进⾏奇异值分解，⽽特征值分解只对某些⽅阵可以。
奇异值分解的形式为：
$$
A=U\Sigma V^T
$$

若 $A$ 是 $m × n$ 的，那么 $U$ 是 $m × m$ 的，其列向量称为左奇异向量，⽽ $V$ 是 $n × n$ 的，其列向量称为右奇异向量，⽽ $Σ$ 是$m × n$的⼀个对⾓矩
阵，其对⾓元素称为矩阵 $A$ 的奇异值。

事实上，左奇异向量是 $AA^T$ 的特征向量，⽽右奇异向量是 $A^TA$ 的特征向量，⾮ 0 奇异值的平⽅是 $A^TA$ 的⾮ 0 特征值。

In [12]:
A = np.array([[1.0,2.0,3.0],
                [4.0,5.0,6.0]])
U,D,V = np.linalg.svd(A)
print("U:", U)
print("D:", D)
print("V:", V)

U: [[-0.3863177  -0.92236578]
 [-0.92236578  0.3863177 ]]
D: [9.508032   0.77286964]
V: [[-0.42866713 -0.56630692 -0.7039467 ]
 [ 0.80596391  0.11238241 -0.58119908]
 [ 0.40824829 -0.81649658  0.40824829]]


## 10. 迹运算

一个方阵A的迹等于其对角线上元素之和
$$
trace(A)=\sum_i A_{i,i}
$$

In [13]:
import torch

In [14]:
A = torch.arange(25).reshape(5, 5)
B = torch.arange(25, 50).reshape(5, 5)

In [15]:
A, B

(tensor([[ 0,  1,  2,  3,  4],
         [ 5,  6,  7,  8,  9],
         [10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19],
         [20, 21, 22, 23, 24]]),
 tensor([[25, 26, 27, 28, 29],
         [30, 31, 32, 33, 34],
         [35, 36, 37, 38, 39],
         [40, 41, 42, 43, 44],
         [45, 46, 47, 48, 49]]))

$tr(A)=tr(A^T)$

In [16]:
torch.trace(A), torch.trace(A.t())

(tensor(60), tensor(60))

In [17]:
torch.trace(B), torch.trace(B.t())

(tensor(185), tensor(185))

$tr(AB)=tr(BA)$

In [18]:
torch.mm(A, B), torch.mm(B, A)

(tensor([[ 400,  410,  420,  430,  440],
         [1275, 1310, 1345, 1380, 1415],
         [2150, 2210, 2270, 2330, 2390],
         [3025, 3110, 3195, 3280, 3365],
         [3900, 4010, 4120, 4230, 4340]]),
 tensor([[1400, 1535, 1670, 1805, 1940],
         [1650, 1810, 1970, 2130, 2290],
         [1900, 2085, 2270, 2455, 2640],
         [2150, 2360, 2570, 2780, 2990],
         [2400, 2635, 2870, 3105, 3340]]))

In [19]:
torch.trace(torch.mm(A, B)), torch.trace(torch.mm(B, A))

(tensor(11600), tensor(11600))

$tr(A^TB)=\sum_i\sum_jA_{i,j}B_{i,j}$

In [20]:
A_t_B = torch.mm(A.t(), B)
A_t_B

tensor([[2000, 2050, 2100, 2150, 2200],
        [2175, 2230, 2285, 2340, 2395],
        [2350, 2410, 2470, 2530, 2590],
        [2525, 2590, 2655, 2720, 2785],
        [2700, 2770, 2840, 2910, 2980]])

In [21]:
torch.trace(A_t_B)

tensor(12400)

In [22]:
torch.sum(torch.IntTensor([A_t_B[i, i] for i in range(5)]))

tensor(12400)

一个矩阵$A_{m\times n}$的$F_2$范数等于
$$
trace(AA^T)=\sqrt{\sum_{i=1}^{i=m} A_{i,:}A_{:,i}}
$$

In [23]:
A

tensor([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19],
        [20, 21, 22, 23, 24]])

In [24]:
torch.mm(A, A.t())

tensor([[  30,   80,  130,  180,  230],
        [  80,  255,  430,  605,  780],
        [ 130,  430,  730, 1030, 1330],
        [ 180,  605, 1030, 1455, 1880],
        [ 230,  780, 1330, 1880, 2430]])

In [25]:
torch.trace(torch.mm(A, A.t()))

tensor(4900)

In [26]:
torch.sum(A**2)  # F范数的平方

tensor(4900)