> 关键词：线性代数 / 独立性 / 基础数学
>
> 再复杂的算法，也逃脱不了线性代数的掌心，AI 算法辞典帮你复习矩阵计算！

矩阵计算是世界上所有算法的祖宗，今天小编就来为读者们好好复习两个知识点：`特徵值` 与 `特徵向量`！特殊的矩阵特殊处理，往往可以通过很巧妙的方式避开非特殊情况下的各种麻烦，理解了矩阵的特殊性才有机会让我们在面对不同问题的时候看到捷径的可能，因此这些性质至关重要！

In [1]:
import numpy as np
import linalg as la

# 定义 Definition
令 $A$ 为方阵，$X$ 为行向量，若存在一常数 $\lambda$ 使得：$AX = \lambda X$，则称向量 $X$ 为 $A$ 的特征向量。换句话说，特征向量意在找寻一个向量 $X$ 经过矩阵 $A$ 的映射后，该向量的方向不变，只改变了长度。

## 1. 求解方法
整理特征向量的算式得：

$$\begin{align}
AX &= \lambda X
\\
(\lambda\mathbf{I} - A)X &= 0
\end{align}$$

因为 $X$ 为非 0 向量，所以：$|\lambda \mathbf{I} - A| = 0$，展开后使 $\lambda$ 为变数的方程式，又称之为 `特征多项式`，求解后即可求出特征向量 $X$。

$$
|\lambda \mathbf{I} - A| = \begin{vmatrix}
    \lambda - a_{11} & -a_{12} & -a_{13} & \cdots & -a_{1n} \\
    -a_{21} & \lambda - a_{22} & -a_{23} & \cdots & -a_{2n} \\
    -a_{31} & -a_{32} & \lambda - a_{33} & \cdots & -a_{3n} \\
    \cdots & \cdots & \cdots &  & \cdots \\
    -a_{n1} & -a_{n2} & -a_{33} & \cdots & \lambda - a_{nn}
\end{vmatrix} = 0
\\
\quad
\\
\rightarrow \lambda^n - C_{n-1}\lambda^{n-1} + C_{n-2}\lambda^{n-2} - C_{n-3}\lambda^{n-3} + \cdots + (-1)^nC_{n} = 0
$$

### 1-1 例题

In [2]:
A = np.array([[1, 2],
              [3, 2]])    # Eigenvalue? Eigenvector?

In [4]:
val, vec= np.linalg.eig(A)

In [5]:
val

array([-1.,  4.])

In [6]:
vec

array([[-0.70710678, -0.5547002 ],
       [ 0.70710678, -0.83205029]])

### 【Solution】
如果用手算，算法如下：

$$\begin{align}
|\lambda\mathbf{I} - A| &= \begin{vmatrix}
    \lambda - 1 & -2 \\
    -3 & \lambda - 2
\end{vmatrix} = \lambda^2 - (1 + 2)\lambda + \begin{vmatrix}
    1 & 2 \\
    3 & 2
\end{vmatrix}
\\
&= \lambda^2 - 3\lambda - 4 = (\lambda - 4)(
\lambda + 1) = 0
\end{align}
\\
\lambda = 4\quad or\quad \lambda = -1
$$

当 $\lambda = 4$ 时：

$$
(\lambda\mathbf{I} - A)X = \begin{bmatrix}
    3 & -2 \\
    -3 & 2
\end{bmatrix}\begin{bmatrix}
    x_1 \\
    x_2
\end{bmatrix} = \begin{bmatrix}
    0 \\
    0
\end{bmatrix} \rightarrow \begin{bmatrix}
    x_1 \\
    x_2
\end{bmatrix} = \begin{bmatrix}
    2 \\
    3
\end{bmatrix}
$$

当 $\lambda = -1$ 时：

$$
(\lambda\mathbf{I} - A)X = \begin{bmatrix}
    -2 & -2 \\
    -3 & -3
\end{bmatrix}\begin{bmatrix}
    x_1 \\
    x_2
\end{bmatrix} = \begin{bmatrix}
    0 \\
    0
\end{bmatrix} \rightarrow \begin{bmatrix}
    x_1 \\
    x_2
\end{bmatrix} = \begin{bmatrix}
    1 \\
    -1
\end{bmatrix}
$$

In [8]:
2 / np.sqrt(2**2 + 3**2)

0.5547001962252291

In [9]:
3 / np.sqrt(2**2 + 3**2)

0.8320502943378437

In [10]:
1 / np.sqrt(1**2 + 1**2)

0.7071067811865475

p.s. 在 numpy 的计算结果中，得出来的 $x_1, x_2$ 是一个归一化后的结果。

## 2. 重要性质

### 2-1
若求出的特征值中有一个值为 0，则 $det(A) = 0$，即 $A$ 为 `奇异矩阵` singular matrix。

证明：若 $\lambda = 0$，则 $|-A| = 0 \rightarrow |A| = 0$。

In [11]:
def singularIO(mat):
    val, vec = np.linalg.eig(mat)
    return np.sum(val == 0) > 0

In [12]:
singularIO(A)

False

In [13]:
B = np.array([[ 4, -4,  8],
              [-4,  4, -8],
              [ 8, -8, 16]])

In [14]:
singularIO(B)

True

In [15]:
np.linalg.matrix_rank(B)

1

### 2-2
$A^T$ 与 $A$ 具有相同的特征值，但是不同的特征向量。

证明：

$$
|B^T| = |B| \rightarrow |A - \lambda\mathbf{I}| = |(A - \lambda\mathbf{I})^T| = |A^T - \lambda\mathbf{I}|
$$

因此有相同特征值。

$$
(A - \lambda\mathbf{I})x_1 = 0\quad and\quad (A - \lambda\mathbf{I})x_2 = 0
$$

想要让 $x_1 = x_2$ 的话，需要 $A = A^T$，表示只有在实对称矩阵下的 $A$ 与 $A^T$ 才具有相同的特征向量。

In [16]:
val_A, vec_A = np.linalg.eig(A)

In [17]:
val_A

array([-1.,  4.])

In [18]:
vec_A

array([[-0.70710678, -0.5547002 ],
       [ 0.70710678, -0.83205029]])

In [19]:
val_AT, vec_AT = np.linalg.eig(A.T)

In [20]:
val_AT

array([-1.,  4.])

In [21]:
vec_AT

array([[-0.83205029, -0.70710678],
       [ 0.5547002 , -0.70710678]])

### 2-3
若 A 的特征值为 $\lambda_1, \lambda_2, \dots, \lambda_n$，且对应的特征向量为 $x_1, x_2, \dots, x_n$，则 $A^{-1}$ 的特征值为 $\lambda_1^{-1}, \lambda_2^{-1}, \dots, \lambda_n^{-1}$，特征向量仍然为 $x_1, x_2, \dots, x_n$。

证明：

$$
因\ Ax = \lambda x
\\
x = A^{-1}(\lambda x) = \lambda A^{-1}x
\\
\frac{x}{\lambda} = A^{-1}x
$$

故知 $A^{-1}$ 的特征值为 $\frac{1}{\lambda}$，而特征向量仍然为 $x$。

In [22]:
val_Ai, vec_Ai = np.linalg.eig(la.inverse(A))

In [23]:
val_Ai

array([-1.  ,  0.25])

In [24]:
vec_Ai

array([[-0.70710678, -0.5547002 ],
       [ 0.70710678, -0.83205029]])

### 2-4
若 A 的特征值为 $\lambda_1, \lambda_2, \dots, \lambda_n$，且对应的特征向量为 $x_1, x_2, \dots, x_n$，则 $A^{m}$ 的特征值为 $\lambda_1^{m}, \lambda_2^{m}, \dots, \lambda_n^{m}$，特征向量仍然为 $x_1, x_2, \dots, x_n$。

证明：因 $Ax = \lambda x\rightarrow A(Ax) = \lambda Ax$，所以 $A^2x = \lambda(\lambda x) = \lambda^2 x$。同理可以证明其他高阶的矩阵状态。

In [29]:
val2, vec2 = np.linalg.eig(np.dot(A, A))

In [30]:
val2

array([ 1., 16.])

In [31]:
vec2

array([[-0.70710678, -0.5547002 ],
       [ 0.70710678, -0.83205029]])

### 2-5
若 A 的特征值为 $\lambda_1, \lambda_2, \dots, \lambda_n$，且对应的特征向量为 $x_1, x_2, \dots, x_n$，则 $kA^{m}$ 的特征值为 $k\lambda_1^{m}, k\lambda_2^{m}, \dots, k\lambda_n^{m}$，特征向量仍然为 $x_1, x_2, \dots, x_n$，其中 k 为常数。

证明：因 $Ax = \lambda x\rightarrow A^mx = \lambda^mx$，所以 $kA^mx = k\lambda^mx = \lambda^2 x$，故得证。

In [33]:
valk, veck = np.linalg.eig(3 * np.dot(A, A).dot(A))

In [34]:
valk

array([ -3., 192.])

In [35]:
veck

array([[-0.70710678, -0.5547002 ],
       [ 0.70710678, -0.83205029]])

### 2-6
不同特征值必定对应不同的特征向量，且特征向量必定线性独立。

### 2-7
若特征值 $\lambda$ 为重根，且对应的特征向量为 $x_1, x_2, \dots, x_k$，则 $C_1x_1 + C_2x_2 + \cdots + C_kx_k$ 一样是对应于 $\lambda$ 的特征向量。

证明：

$$\begin{align}
Ax_1 = \lambda x_1 \quad &\rightarrow AC_1x_1 = \lambda C_1x_1
\\
Ax_1 = \lambda x_1 \quad &\rightarrow AC_1x_1 = \lambda C_1x_1
\\
\cdots &
\\
+)\quad Ax_1 = \lambda x_1 \quad &\rightarrow AC_1x_1 = \lambda C_1x_1
\\
&\Rightarrow A(C_1x_1 + C_2x_2 + \cdots + C_kx_k)
\\
&= \ \lambda(C_1x_1 + C_2x_2 + \cdots + C_kx_k)
\end{align}$$

故得证。

### 2-8
若 $|A|\neq 0, |B|\neq 0$，则 $AB$ 与 $BA$ 的特征值相同。

证明：

$$\begin{align}
|\lambda\mathbf{I} - (AB)| &= |\lambda AA^{-1} - AB| = |A(\lambda A^{-1} - B)|
\\
&= |A||\lambda A^{-1} - B| = |\lambda A^{-1} - B||A|
\\
&= |(\lambda A^{-1} - B)A| = |\lambda\mathbf{I} - BA|
\end{align}$$

故两者的特征值相同。

In [36]:
la.determinant(A)

-4.0

In [46]:
C = np.random.randint(0, 6, 4).reshape(2, 2)
la.determinant(C)

-5.000000000000002

In [48]:
vec_ab, _ = np.linalg.eig(np.dot(A, C))
vec_ab

array([27.26649916,  0.73350084])

In [49]:
vec_ba, _ = np.linalg.eig(np.dot(C, A))
vec_ba

array([27.26649916,  0.73350084])

### 2-9
1. 实对称矩阵的特征值必为实数
2. 是对称矩阵不同的特征值对应的不同特征向量必定正交，即 $x_i^T\cdot x_j = 0\quad where\dots i\neq j$。
3. 若 A 为实对称矩阵，且 $x_i, x_j$ 为不同特征值所对应的特征向量，则 $x_i^T\mathbf{A}x_j = 0\quad where\dots i\neq j$。

证明：

(1) 令 A 为正交矩阵，则 $A^T = A^{-1}$。

$$\begin{align}
Ax &= \lambda x
\\
(Ax)^T &= (\lambda x)^T
\\
x^TA^T &= \lambda x^T
\\
x^TA^{-1} &= \lambda x^T\quad \dots 乘 Ax
\\
x^TA^{-1}Ax &= \lambda x^TAx
\\
x^Tx &= \lambda x^T\lambda x = \lambda^2x^Tx
\\
故\ \lambda^2 &= 1 \rightarrow |\lambda| = 1
\end{align}$$

(2) 令特征值 $\lambda_i$ 所对应的特征向量为 $x_i$，而 $\lambda_j$ 对应 $x_j$，则：

$$\begin{align}
Ax_i &= \lambda_ix_i
\\
(Ax_i)^T &= (\lambda_ix_i)^T
\\
x_i^TA^T &= \lambda_ix_i^T
\end{align}$$

因为正交矩阵，上式又可以改写为 $X_i^TA^{-1} = \lambda_ix_i^T$，并同乘 $x_i^TA^{-1}$，则：

$$\begin{align}
x_i^TA^{-1}A^{-1}x_j &= x_i^TA^{-1}\lambda_jx_j^T
\\
x_i^Tx_j &= \lambda_ix_i^T\lambda_jx_j = \lambda_i\lambda_jx_i^Tx_j
\\
(1 - \lambda_i\lambda_j)x_i^Tx_j &= 0
\end{align}$$

因为 $1 - \lambda_i\lambda_j\neq 0$，所以 $x_i^Tx_j = 0$。

(c) 对算式 $Ax_j = \lambda_jx_j$ 两边同乘 $x_i^T$，则：

$$
x_i^TAx_j = \lambda_jx_i^Tx_j = 0
\\
故\ x_i^TAx_j = 0
$$