In [1]:
import numpy as np
import scipy as sp
import numpy.linalg
import matplotlib.pyplot as plt
import matplotlib as mpl
import sympy as sy

In [2]:
np.set_printoptions(precision=3)
np.set_printoptions(suppress=True)

In [3]:
def round_expr(expr, num_digits):
    return expr.xreplace({n : round(n, num_digits) for n in expr.atoms(sy.Number)})

# <font face="gotham" color="purple"> 对称矩阵的对角化</font>

对称矩阵的第一个定理：

如果$A$是对称的，即$A = A^T$，那么来自不同特征空间的任意两个特征向量是正交的。

$$\begin{aligned}
\lambda_{1} \mathbf{v}_{1} \cdot \mathbf{v}_{2} &=\left(\lambda_{1} \mathbf{v}_{1}\right)^{T} \mathbf{v}_{2}=\left(A \mathbf{v}_{1}\right)^{T} \mathbf{v}_{2} \\
&=\left(\mathbf{v}_{1}^{T} A^{T}\right) \mathbf{v}_{2}=\mathbf{v}_{1}^{T}\left(A \mathbf{v}_{2}\right) \\
&=\mathbf{v}_{1}^{T}\left(\lambda_{2} \mathbf{v}_{2}\right) \\
&=\lambda_{2} \mathbf{v}_{1}^{T} \mathbf{v}_{2}=\lambda_{2} \mathbf{v}_{1} \cdot \mathbf{v}_{2}
\end{aligned}$$

因为$\lambda_1 \neq \lambda_2$，所以使方程成立的唯一条件是

$$
 \mathbf{v}_{1} \cdot \mathbf{v}_{2}=0
$$

利用这个定理，我们可以得出结论，如果对称矩阵$A$具有不同的特征值，则其对应的特征向量必须是彼此正交的。

$A$的对角化形式为

$$
A = PDP^T = PDP^{-1}
$$

其中$P$是一个具有$A$的所有特征向量的正交矩阵。

对称矩阵的<font face="gotham" color="red">第二</font>定理：

<font face="gotham" color="red"> An $n \times n$ matrix $A$ is orthogonally diagonalizable if and only if $A$ is a symmetric matrix: $A^{T}=\left(P D P^{T}\right)^{T}=P^{T T} D^{T} P^{T}=P D P^{T}=A$.</font>

## <font face="gotham" color="purple"> 一个例子</font>

创建一个随机对称矩阵。

In [4]:
A = np.round(2*np.random.rand(3, 3)); A

array([[1., 1., 0.],
       [1., 2., 1.],
       [2., 1., 0.]])

In [5]:
B = A@A.T; B # generate a symmetric matrix

array([[2., 3., 3.],
       [3., 6., 4.],
       [3., 4., 5.]])

使用```np.linalg.eig()```进行对角化。

In [6]:
D, P = np.linalg.eig(B); P

array([[ 0.41 ,  0.9  ,  0.149],
       [ 0.677, -0.19 , -0.711],
       [ 0.612, -0.392,  0.687]])

In [7]:
D = np.diag(D); D

array([[11.433,  0.   ,  0.   ],
       [ 0.   ,  0.058,  0.   ],
       [ 0.   ,  0.   ,  1.509]])

检查所有特征向量的范数。

In [8]:
for i in [0, 1, 2]:
    print(np.linalg.norm(P[:,i]))

1.0
0.9999999999999999
1.0


检查特征向量的正交性，查看是否$PP^T=I$。

In [9]:
P@P.T

array([[ 1., -0.,  0.],
       [-0.,  1.,  0.],
       [ 0.,  0.,  1.]])

## <font face="gotham" color="purple"> 光谱定理</font>

一个$n \times n$对称矩阵$A$具有以下性质：
1. $A$有$n$个实特征值，包括重数。
2. 对于每个特征值$\lambda$，其特征空间的维度等于$\lambda$作为特征方程根的重数。
3. 特征空间是彼此正交的，即对应不同特征值的特征向量是正交的。
4. $A$是正交对角化的。

所有这些性质都是显而易见的，无需证明，就像上面的例子所示的那样。然而，定理的目的并不是重申上一节的内容，而是为<font face="gotham" color="red">光谱分解</font>铺平道路。

明确写出对角化，我们得到光谱分解的表示形式。

$$
\begin{aligned}
A &=P D P^{T}=\left[\begin{array}{lll}
\mathbf{u}_{1} & \cdots & \mathbf{u}_{n}
\end{array}\right]\left[\begin{array}{ccc}
\lambda_{1} & & 0 \\
& \ddots & \\
0 & & \lambda_{n}
\end{array}\right]\left[\begin{array}{c}
\mathbf{u}_{1}^{T} \\
\vdots \\
\mathbf{u}_{n}^{T}
\end{array}\right] \\
&=\left[\begin{array}{lll}
\lambda_{1} \mathbf{u}_{1} & \cdots & \lambda_{n} \mathbf{u}_{n}
\end{array}\right]\left[\begin{array}{c}
\mathbf{u}_{1}^{T} \\
\vdots \\
\mathbf{u}_{n}^{T}
\end{array}\right]\\
&= \lambda_{1} \mathbf{u}_{1} \mathbf{u}_{1}^{T}+\lambda_{2} \mathbf{u}_{2} \mathbf{u}_{2}^{T}+\cdots+\lambda_{n} \mathbf{u}_{n} \mathbf{u}_{n}^{T}
\end{aligned}
$$

$ \mathbf{u}_{i} \mathbf{u}_{i}^{T}$ 是秩为$1$的对称矩阵，因为$ \mathbf{u}_{i} \mathbf{u}_{i}^{T}$ 的所有行都是$\mathbf{u}_{i}^{T}$的倍数。

按照上面的例子，我们在SymPy中演示。

In [10]:
lamb0,lamb1,lamb2 = D[0,0], D[1,1], D[2,2]
u0,u1,u2 = P[:,0], P[:,1], P[:,2]

使用```np.linalg.matrix_rank()```检查$ \mathbf{u}_{i} \mathbf{u}_{i}^{T}$的秩。

In [11]:
np.linalg.matrix_rank(np.outer(u0,u0))

1

使用光谱定理恢复$A$：

In [12]:
specDecomp = lamb0 * np.outer(u0,u0) + lamb1 * np.outer(u1,u1) + lamb2 * np.outer(u2,u2)
specDecomp

array([[2., 3., 3.],
       [3., 6., 4.],
       [3., 4., 5.]])

# <font face="gotham" color="purple"> 二次型</font>

一个**二次型**是一个形式为$Q(\mathbf{x})=\mathbf{x}^TA\mathbf{x}$的函数，其中$A$是一个$n\times n$的对称矩阵，称为**二次型的矩阵**。


考虑一个二次型矩阵

$$
A = 
\left[
\begin{matrix}
3 & 2 & 0\\
2 & -1 & 4\\
0 & 4 & -2
\end{matrix}
\right]
$$

构造二次型$\mathbf{x}^TA\mathbf{x}$。

\begin{align}
\mathbf{x}^TA\mathbf{x}&=
\left[
\begin{matrix}
x_1 & x_2 & x_3
\end{matrix}
\right]
\left[
\begin{matrix}
3 & 2 & 0\\
2 & -1 & 4\\
0 & 4 & -2
\end{matrix}
\right]
\left[
\begin{matrix}
x_1 \\ x_2\\ x_3
\end{matrix}
\right]\\
& =\left[
\begin{matrix}
x_1 & x_2 & x_3
\end{matrix}
\right]
\left[
\begin{matrix}
3x_1+2x_2 \\ 2x_1-x_2+4x_3 \\ 4x_2-2x_3
\end{matrix}
\right]\\
& = 
x_1(3x_1+2x_2)+x_2(2x_1-x_2+4x_3)+x_3(4x_2-2x_3)\\
& = 3x_1^2+4x_1x_2-x_2^2+8x_2x_3-2x_3^2
\end{align}

幸运的是，有一种更简单的计算二次型的方法。

注意，$x_i^2$的系数位于主对角线上，而$x_ix_j$的系数被平均分配到$A$的$(i,j)$和$(j, i)$项上。

## <font face="gotham" color="purple"> 例子 </font>

考虑另一个例子，

$$
A = 
\left[
\begin{matrix}
3 & 2 & 0 & 5\\
2 & -1 & 4 & -3\\
0 & 4 & -2 & -4\\
5 & -3 & -4 & 7
\end{matrix}
\right]
$$


所有$x_i^2$的项为

$$
3x_1^2-x_2^2-2x_3^2+7x_4^2
$$

其中的系数来自于主对角线。

所有$x_ix_j$的项为

$$
4x_1x_2+0x_1x_3+10x_1x_4+8x_2x_3-6x_2x_4-8x_3x_4
$$

将它们加起来，得到二次型

$$
3x_1^2-x_2^2-2x_3^2+7x_4^2+4x_1x_2+0x_1x_3+10x_1x_4+8x_2x_3-6x_2x_4-8x_3x_4
$$

让我们在SymPy中进行验证。

In [13]:
x1, x2, x3, x4 = sy.symbols('x_1 x_2 x_3 x_4')
A = sy.Matrix([[3,2,0,5],[2,-1,4,-3],[0,4,-2,-4],[5,-3,-4,7]])
x = sy.Matrix([x1, x2, x3, x4])

In [14]:
sy.expand(x.T*A*x)

Matrix([[3*x_1**2 + 4*x_1*x_2 + 10*x_1*x_4 - x_2**2 + 8*x_2*x_3 - 6*x_2*x_4 - 2*x_3**2 - 8*x_3*x_4 + 7*x_4**2]])

结果与我们推导的完全相同。

## <font face="gotham" color="purple"> 二次型中的变量变换</font>

将二次型矩阵转换为对角矩阵可以避免一些麻烦，也就是说，没有交叉乘积项。

由于$A$是对称的，存在一个正交矩阵$P$，使得

$$
PDP^T = A \qquad \text{and}\qquad PP^T = I
$$

我们可以证明

$$
\mathbf{x}^TA\mathbf{x}=\mathbf{x}^TIAI\mathbf{x}=\mathbf{x}^TPP^TAPP^T\mathbf{x}=\mathbf{x}^TPDP^T\mathbf{x}=(P^T\mathbf{x})^TDP^T\mathbf{x}=\mathbf{y}^T D \mathbf{y}
$$

其中$P^T$定义了一个坐标变换，$\mathbf{y} = P^T\mathbf{x}$。

考虑到 $A$

$$
A = 
\left[
\begin{matrix}
3 & 2 & 0\\
2 & -1 & 4\\
0 & 4 & -2
\end{matrix}
\right]
$$

求特征值和特征向量。

In [15]:
A = np.array([[3,2,0],[2,-1,4],[0,4,-2]]); A

array([[ 3,  2,  0],
       [ 2, -1,  4],
       [ 0,  4, -2]])

In [16]:
D, P = np.linalg.eig(A)
D = np.diag(D); D

array([[ 4.388,  0.   ,  0.   ],
       [ 0.   ,  1.35 ,  0.   ],
       [ 0.   ,  0.   , -5.738]])

检查$P$是否被归一化。

In [59]:
P.T@P

array([[ 1., -0., -0.],
       [-0.,  1., -0.],
       [-0., -0.,  1.]])

我们可以计算$\mathbf{y}= P^T\mathbf{x}$

In [17]:
x1, x2, x3 = sy.symbols('x1 x2 x3')
x = sy.Matrix([[x1], [x2], [x3]])
x

Matrix([
[x1],
[x2],
[x3]])

In [18]:
P = round_expr(sy.Matrix(P), 4); P

Matrix([
[0.7738, -0.6143,  0.1544],
[0.5369,  0.5067, -0.6746],
[0.3362,  0.6049,  0.7219]])

所以$\mathbf{y} = P^T \mathbf{x}$ 是

$$
\left[\begin{matrix}0.7738 x_{1} + 0.5369 x_{2} + 0.3362 x_{3}\\- 0.6143 x_{1} + 0.5067 x_{2} + 0.6049 x_{3}\\0.1544 x_{1} - 0.6746 x_{2} + 0.7219 x_{3}\end{matrix}\right]
$$

变换后的二次型$\mathbf{y}^T D \mathbf{y}$ 是

In [19]:
D =  round_expr(sy.Matrix(D),4);D

Matrix([
[4.3876,      0,       0],
[     0, 1.3505,       0],
[     0,      0, -5.7381]])

In [20]:
y1, y2, y3 = sy.symbols('y1 y2 y3')
y = sy.Matrix([[y1], [y2], [y3]]);y

Matrix([
[y1],
[y2],
[y3]])

In [21]:
y.T*D*y

Matrix([[4.3876*y1**2 + 1.3505*y2**2 - 5.7381*y3**2]])

## <font face="gotham" color="purple"> 可视化二次型</font>

代码非常冗长，但直观。

In [22]:
%matplotlib notebook
k = 6
x = np.linspace(-k, k)
y = np.linspace(-k, k)
X, Y = np.meshgrid(x, y)

fig = plt.figure(figsize = (7, 7))

########################### xAx 1 ############################
Z = 3*X**2 + 7*Y**2
ax = fig.add_subplot(221, projection='3d')
ax.plot_wireframe(X, Y, Z, linewidth = 1.5, alpha = .3, color = 'r')
ax.set_title('$z = 3x^2+7y^2$')

xarrow = np.array([[-5, 0, 0, 10, 0, 0]])
X1, Y1, Z1, U1, V1, W1 = zip(*xarrow)
ax.quiver(X1, Y1, Z1, U1, V1, W1, length=1, normalize=False, color = 'black', 
          alpha = .6, arrow_length_ratio = .12, pivot = 'tail',
          linestyles = 'solid',linewidths = 2)

yarrow = np.array([[0, -5, 0, 0, 10, 0]])
X2, Y2, Z2, U2, V2, W2 = zip(*yarrow)
ax.quiver(X2, Y2, Z2, U2, V2, W2, length=1, normalize=False, color = 'black',
          alpha = .6, arrow_length_ratio = .12, pivot = 'tail',
          linestyles = 'solid',linewidths = 2)

zarrow = np.array([[0, 0, -3, 0, 0, 300]])
X3, Y3, Z3, U3, V3, W3 = zip(*zarrow)
ax.quiver(X3, Y3, Z3, U3, V3, W3, length=1, normalize=False, color = 'black', 
alpha = .6, arrow_length_ratio = .001, pivot = 'tail',
          linestyles = 'solid',linewidths = 2)

########################### xAx 2 ############################
Z = 3*X**2
ax = fig.add_subplot(222, projection='3d')
ax.plot_wireframe(X, Y, Z, linewidth = 1.5, alpha = .3, color = 'r')
ax.set_title('$z = 3x^2$')
xarrow = np.array([[-5, 0, 0, 10, 0, 0]])
X1, Y1, Z1, U1, V1, W1 = zip(*xarrow)
ax.quiver(X1, Y1, Z1, U1, V1, W1, length=1, normalize=False, color = 'black', 
          alpha = .6, arrow_length_ratio = .12, pivot = 'tail',
          linestyles = 'solid',linewidths = 2)

yarrow = np.array([[0, -5, 0, 0, 10, 0]])
X2, Y2, Z2, U2, V2, W2 = zip(*yarrow)
ax.quiver(X2, Y2, Z2, U2, V2, W2, length=1, normalize=False, color = 'black', 
          alpha = .6, arrow_length_ratio = .12, pivot = 'tail',
          linestyles = 'solid',linewidths = 2)

zarrow = np.array([[0, 0, -3, 0, 0, 800]])
X3, Y3, Z3, U3, V3, W3 = zip(*zarrow)
ax.quiver(X3, Y3, Z3, U3, V3, W3, length=1, normalize=False, color = 'black', 
          alpha = .6, arrow_length_ratio = .001, pivot = 'tail',
          linestyles = 'solid',linewidths = 2)

########################### xAx 3 ############################
Z = 3*X**2 - 7*Y**2
ax = fig.add_subplot(223, projection='3d')
ax.plot_wireframe(X, Y, Z, linewidth = 1.5, alpha = .3, color = 'r')
ax.set_title('$z = 3x^2-7y^2$')
xarrow = np.array([[-5, 0, 0, 10, 0, 0]])
X1, Y1, Z1, U1, V1, W1 = zip(*xarrow)
ax.quiver(X1, Y1, Z1, U1, V1, W1, length=1, normalize=False, color = 'black', 
          alpha = .6, arrow_length_ratio = .12, pivot = 'tail',
          linestyles = 'solid',linewidths = 2)

yarrow = np.array([[0, -5, 0, 0, 10, 0]])
X2, Y2, Z2, U2, V2, W2 = zip(*yarrow)
ax.quiver(X2, Y2, Z2, U2, V2, W2, length=1, normalize=False, color = 'black', 
          alpha = .6, arrow_length_ratio = .12, pivot = 'tail',
          linestyles = 'solid',linewidths = 2)

zarrow = np.array([[0, 0, -150, 0, 0, 300]])
X3, Y3, Z3, U3, V3, W3 = zip(*zarrow)
ax.quiver(X3, Y3, Z3, U3, V3, W3, length=1, normalize=False, color = 'black', 
          alpha = .6, arrow_length_ratio = .001, pivot = 'tail',
          linestyles = 'solid',linewidths = 2)

########################### xAx 4 ############################
Z = -3*X**2 - 7*Y**2
ax = fig.add_subplot(224, projection='3d')
ax.plot_wireframe(X, Y, Z, linewidth = 1.5, alpha = .3, color = 'r')
ax.set_title('$z = -3x^2-7y^2$')
xarrow = np.array([[-5, 0, 0, 10, 0, 0]])
X1, Y1, Z1, U1, V1, W1 = zip(*xarrow)
ax.quiver(X1, Y1, Z1, U1, V1, W1, length=1, normalize=False, color = 'black', 
          alpha = .6, arrow_length_ratio = .12, pivot = 'tail',
          linestyles = 'solid',linewidths = 2)

yarrow = np.array([[0, -5, 0, 0, 10, 0]])
X2, Y2, Z2, U2, V2, W2 = zip(*yarrow)
ax.quiver(X2, Y2, Z2, U2, V2, W2, length=1, normalize=False, color = 'black', 
          alpha = .6, arrow_length_ratio = .12, pivot = 'tail',
          linestyles = 'solid',linewidths = 2)

zarrow = np.array([[0, 0, -300, 0, 0, 330]])
X3, Y3, Z3, U3, V3, W3 = zip(*zarrow)
ax.quiver(X3, Y3, Z3, U3, V3, W3, length=1, normalize=False, color = 'black', 
          alpha = .6, arrow_length_ratio = .001, pivot = 'tail',
          linestyles = 'solid',linewidths = 2)
plt.show()

<IPython.core.display.Javascript object>

现在需要定义一些术语，一个二次型$Q$是：
1. 当对所有$\mathbf{x} \neq \mathbf{0}$，$Q(\mathbf{x})>0$时，称为正定的。
2. 当对所有$\mathbf{x} \neq \mathbf{0}$，$Q(\mathbf{x})<0$时，称为负定的。
3. 当对所有$\mathbf{x} \neq \mathbf{0}$，$Q(\mathbf{x})\geq0$时，称为半正定的。
4. 当对所有$\mathbf{x} \neq \mathbf{0}$，$Q(\mathbf{x})\leq0$时，称为半负定的。
5. 当$Q(\mathbf{x})$既取正值又取负值时，称为不定的。

我们有一个关于二次型和特征值的定理：

设$A$是一个$n \times n$的对称矩阵。那么二次型$\mathbf{x}^{T} A \mathbf{x}$满足：

1. 当且仅当$A$的所有特征值都是正的时，它是正定的。
2. 当且仅当$A$的所有特征值都是负的时，它是负定的。
3. 当且仅当$A$既有正的特征值又有负的特征值时，它是不定的。

在计算特征值后，借助这个定理，我们可以立即判断一个二次型是否具有最大值、最小值或鞍点。

## <font face="gotham" color="purple"> 正定矩阵</font>

对称矩阵是线性代数中最重要的矩阵形式之一，我们将展示它们总是正定的。

设${A}$是一个对称矩阵，将${A}\mathbf{x}=\lambda \mathbf{x}$左乘$\mathbf{x}^T$：

$$
\mathbf{x}^T{A}\mathbf{x} = \lambda \mathbf{x}^T\mathbf{x} = \lambda \|\mathbf{x}\|^2
$$

由于我们定义了$\mathbf{x}^T{A}\mathbf{x}$必须是正的，所以$\lambda$必须大于$0$。

反过来问：如果所有特征值都是正的，那么$A_{n\times n}$是否正定？是的。

这里有一个使用正交变量改变$\mathbf{x}=P\mathbf{y}$的<font face="gotham" color="red">主轴定理</font>：

$$
Q(\mathbf{x})=\mathbf{x}^{T} A \mathbf{x}=\mathbf{y}^{T} D \mathbf{y}=\lambda_{1} y_{1}^{2}+\lambda_{2} y_{2}^{2}+\cdots+\lambda_{n} y_{n}^{2}
$$

如果所有的$\lambda$都是正的，$\mathbf{x}^{T} A \mathbf{x}$也是正的。

## <font face="gotham" color="purple"> Cholesky分解</font>

Cholesky分解是对LU分解的修改。它比LU算法更高效。

如果$A$是正定矩阵，即$\mathbf{x}^{T} A \mathbf{x}>0$或每个特征值都严格为正。那么正定矩阵可以分解为一个下三角矩阵和它的转置矩阵的乘积。

$$\begin{aligned}
{A}={L} {L}^{T} &=\left[\begin{array}{ccc}
l_{11} & 0 & 0 \\
l_{21} & l_{22} & 0 \\
l_{31} & l_{32} & l_{33}
\end{array}\right]\left[\begin{array}{ccc}
l_{11} & l_{21} & l_{31} \\
0 & l_{22} & l_{32} \\
0 & 0 & l_{33}
\end{array}\right] \\
\left[\begin{array}{ccc}
a_{11} & a_{21} & a_{31} \\
a_{21} & a_{22} & a_{32} \\
a_{31} & a_{32} & a_{33}
\end{array}\right] 
&=\left[\begin{array}{ccc}
l_{11}^{2} &l_{21} l_{11} & l_{31} l_{11} \\
l_{21} l_{11} & l_{21}^{2}+l_{22}^{2} & l_{31} l_{21}+l_{32} l_{22} \\
l_{31} l_{11} & l_{31} l_{21}+l_{32} l_{22} & l_{31}^{2}+l_{32}^{2}+l_{33}^{2}
\end{array}\right]
\end{aligned}$$

我们将使用NumPy来展示这一点。

In [23]:
A = np.array([[16, -8, -4], [-8, 29, 12], [-4, 12, 41]]); A

array([[16, -8, -4],
       [-8, 29, 12],
       [-4, 12, 41]])

In [24]:
L = sp.linalg.cholesky(A, lower = True); L

array([[ 4.,  0.,  0.],
       [-2.,  5.,  0.],
       [-1.,  2.,  6.]])

检查是否$LL^T=A$。

In [25]:
L@L.T

array([[16., -8., -4.],
       [-8., 29., 12.],
       [-4., 12., 41.]])

# <font face="gotham" color="purple"> 对称矩阵的一些事实</font>

## <font face="gotham" color="purple">秩和正定性</font>

如果对称矩阵$A$的秩不满，则意味着必然存在一个非平凡向量$\mathbf{v}$满足

$$
A\mathbf{v} = \mathbf{0}
$$

这也意味着二次型等于零$\mathbf{v}^TA\mathbf{v} = \mathbf{0}$。因此，如果矩阵$A$的秩不满，则它不能是一个正定矩阵。

相反地，一个正定矩阵必须具有满秩。