# 线性方程组的数值解

## 简介

大型方程组往往需要通过数值方法求解。本文介绍了线性方程组的直接解法与迭代法。

## 直接解法

含n个未知数，n个方程组成的线性方程组可以表示为：
$$
\begin{cases}
a_{11}x_1 + a_{12}x_2 + \cdots + a_{1n}x_n = b_1 \\
a_{21}x_1 + a_{22}x_2 + \cdots + a_{2n}x_n = b_2 \\
\cdots \\
a_{n1}x_1 + a_{n2}x_2 + \cdots + a_{nn}x_n = b_n
\end{cases}
$$
若记矩阵$A = [a_{ij}]_{n \times n}$，向量$x = [x_i]_n$，向量$b = [b_i]_n$，则上述方程组可以表示为$Ax = b$。其中，$A$称为系数矩阵，$b$称为常数向量。
求解线性方程组的方法一般有直接解法和迭代法两种。
- 直接法： 经有限次运算，直接得到方程组的解。（或者判定解不存在）
- 迭代法： 从一个初始值出发，通过迭代逼近方程组的解。主要包括
  - 雅可比迭代法
  - 高斯-赛德尔迭代法

### 高斯消元法 (Gaussian elimination)

消元法由消元过程和回代过程组成。消元过程将系数矩阵化为上三角矩阵，回代过程求解未知数。  
对于一般的线性方程组$Ax = b$，共n-1步的消元过程相当于一次左乘一系列单位下三角矩阵$M_k$，将系数矩阵化为上三角矩阵。回代过程则是从最后一行开始，逐步求解未知数。由于$M_k$是单位下三角矩阵，所以它们的乘积$M=\prod M_k$也是单位下三角矩阵，
$$
MA = U
$$
其中$U$是上三角矩阵。所以，$Ax=b$的解可以表示为
$$
Ux = Mb 
$$

#### 消元的前提与列主元消去法
消元法的前提是主元不为0。如果主元为0，可以通过行交换将主元换为非0值。如果主元所在的列全为0，说明方程组有无穷多解，可以通过高斯消元法求出一组特解，然后再找到通解。实际上，即使主元不等于0，但是当主元的绝对值很小的时候，用它做除数会导致很大的数值误差，所以在实际计算中，总是在后续行中选择当前列的绝对值最大的元素作为主元（列主元）。

### LU分解

#### 矩阵LU分解

- 矩阵LU分解
- 经交换阵变换的LU分解
- 对称正定矩阵的Cholesky分解
- 三角矩阵的LU分解

### 解的误差分析

#### 病态方程组和病态矩阵

一般地，若线性方程组系数矩阵或右端项的微小扰动(或称摄动)引起解的很大变化，就称为病态线性方程组，系数矩阵称为病态矩阵。反之，称为良态线性方程组和良态矩阵。  
病态矩阵常常是由于它们近于奇异（行向量之间接近线性相关）引起的。

#### 向量范数和矩阵范数

为了衡量矩阵的性质，首先要有度量矩阵“大小”的指标。即范数。  
- 向量的p-范数
  一般地，对于n维向量$x = (x_1, x_2, \cdots, x_n)$，定义p-范数为
  $$
  \|x\|_p = \left( \sum_{i=1}^n |x_i|^p \right)^{1/p}
  $$
  其中，$p \geq 1$。当$p=2$时，称为欧几里得范数。当$p=1$时，称为1-范数。当$p=\infty$时，称为无穷范数。
  - 无穷范数
  $$
  \|x\|_\infty = \max_{1 \leq i \leq n} |x_i|
  $$
- 矩阵的范数
  - 矩阵的1-范数.又称列范数，即矩阵的各列向量的1-范数的最大值。
  $$
  \|A\|_1 = \max_{1 \leq j \leq n} \sum_{i=1}^n |a_{ij}|
  $$
  - 矩阵的无穷范数，又称行范数，即矩阵的各行向量的1-范数的最大值。
  $$
  \|A\|_\infty = \max_{1 \leq i \leq n} \sum_{j=1}^n |a_{ij}|
  $$
  - 矩阵的2-范数
  $$
  \|A\|_2 = \sqrt{\lambda_{max}(A^TA)}
  $$
  其中，$\lambda_{max}(A^TA)$是矩阵$A^TA$的最大特征值。
- 矩阵范数与向量范数的相容性条件
  对于任意矩阵$A$和向量$x$，有
  $$
  \|Ax\|_p \leq \|A\|_p \cdot \|x\|_p, \quad p = 1, 2, \infty
  $$

#### 矩阵的条件数

- A的条件数
  对于非奇异矩阵$A$，定义矩阵的条件数为
  $$
  cond(A) = \|A\| \cdot \|A^{-1}\|
  $$
  其中，$\|A\|$是矩阵$A$的范数。
- 矩阵的条件数与误差的关系
  对于线性方程组$Ax=b$，若$A$是非奇异矩阵，$b$是右端项的扰动，$x$是解的扰动，则有
  $$
  \frac{\|x - \hat{x}\|}{\|x\|} \leq cond(A) \cdot \frac{\|b - \hat{b}\|}{\|b\|}
  $$
  其中，$\hat{x}$是近似解，$\hat{b}$是右端项的近似值。上市说明，条件数$cond(A)$可以作为误差的上界。
  - cond(A)越大,即cond(A)越相对1大，说明矩阵A越病态。

#### Hilbert矩阵
$$
H_{ij} = \frac{1}{i+j-1}
$$
Hilbert矩阵是一个病态矩阵。Hilbert矩阵的条件数随着阶数的增加而迅速增大。

## 迭代法

直接法一般适用于中小型的线性方程组($n<10^4$),迭代法适用于大型稀疏矩阵。迭代法的基本思想是从一个初始值出发，通过迭代逼近方程组的解。迭代法的收敛性与矩阵的性质有关。

### 雅可比迭代法
举n=3的情况为例，线性方程组$Ax=b$总可以表示为
$$
\begin{cases}
x_1 = \frac{1}{a_{11}}(b_1 - a_{12}x_2 - a_{13}x_3) \\
x_2 = \frac{1}{a_{22}}(b_2 - a_{21}x_1 - a_{23}x_3) \\
x_3 = \frac{1}{a_{33}}(b_3 - a_{31}x_1 - a_{32}x_2)
\end{cases}
$$
利用上述线性方程组可以进行如下形式的迭代，其中$x^{(k)}$是第k次迭代的解。
$$
\begin{cases}
x_1^{(k+1)} = \frac{1}{a_{11}}(b_1 - a_{12}x_2^{(k)} - a_{13}x_3^{(k)}) \\
x_2^{(k+1)} = \frac{1}{a_{22}}(b_2 - a_{21}x_1^{(k)} - a_{23}x_3^{(k)}) \\
x_3^{(k+1)} = \frac{1}{a_{33}}(b_3 - a_{31}x_1^{(k)} - a_{32}x_2^{(k)})
\end{cases}
$$
这就是雅可比迭代法。

### 高斯-赛德尔迭代法
从雅可比迭代法可以看出，每次迭代时，都是用上一次迭代的值来更新下一次迭代的值。高斯-赛德尔迭代法则是每次迭代时，都用最新的值来更新下一次迭代的值。即当计算$x_2^{(k+1)}$时，用$x_1^{(k+1)}$来代替$x_1^{(k)}$，用$x_3^{(k)}$来代替$x_3^{(k)}$。这样，迭代公式变为
$$
\begin{cases}
x_1^{(k+1)} = \frac{1}{a_{11}}(b_1 - a_{12}x_2^{(k)} - a_{13}x_3^{(k)}) \\
x_2^{(k+1)} = \frac{1}{a_{22}}(b_2 - a_{21}x_1^{(k+1)} - a_{23}x_3^{(k)}) \\
x_3^{(k+1)} = \frac{1}{a_{33}}(b_3 - a_{31}x_1^{(k+1)} - a_{32}x_2^{(k+1)})
\end{cases}
$$

形式上的迭代公式可以用矩阵形式表示。设$D$是$A$的对角线元素组成的对角矩阵，$L$是$A$的下三角矩阵，$U$是$A$的上三角矩阵。则有
$$
A = D - L - U
$$
具体的公式见课本。

雅各比迭代适合并行计算，高斯-赛德尔迭代法的收敛速度比雅各比迭代法快，但是它是串行的。

### 迭代法的收敛性

上面两种用迭代法求解线性方程组$Ax=b$时，先将其转化为等价形式$x = Bx + f$，其中$B$是迭代矩阵，$f$是迭代向量。迭代法的收敛性与迭代矩阵的谱半径有关。迭代法收敛的充要条件是迭代矩阵的谱半径小于1。
- 迭代法的收敛性判定
  x收敛等价于$B^k \to 0$，即矩阵$B$的k次幂趋于0,这又等价于B的所有特征值的模小于1。定义矩阵的谱半径为
  $$
  \rho(B) = \max |\lambda_i|
  $$
  其中，$\lambda_i$是矩阵$B$的特征值。迭代法收敛的充要条件是$\rho(B) < 1$。
- 另一种判定方法
  若存在向量范数$\| \cdot \|$，使得
  $$
  \|B\| < 1
  $$
  则迭代法收敛。由于实际上可以证明谱半径不超过任意向量范数，所以这是一个充分条件。
- 直接根据系数矩阵A判定
  - 对于对称正定矩阵，高斯-赛德尔迭代法收敛。
  > 对称正定矩阵定义
  > 若A对称正定，则存在对角元素为正的下三角矩阵L，使得$A = LL^T$。
  - 对于严格对角占优矩阵，雅各比迭代法收敛。
  > 严格对角占优矩阵定义
  > 若矩阵A的对角线元素绝对值大于其余元素绝对值之和，则称A为严格对角占优矩阵。简单地讲，就是对角线元素绝对值大于其余元素绝对值之和。


In [44]:
import numpy as np

def jacobi_iteration(A, b, x0, tol=1e-6, max_iter=10000):
    n = len(b)
    x = x0.copy()
    x_new = np.zeros_like(x)
    converged = False
    for k in range(max_iter):
        for i in range(n):
            sigma = sum(A[i, j] * x[j] for j in range(n) if j != i)
            x_new[i] = (b[i] - sigma) / A[i, i]
        if np.linalg.norm(x_new - x) < tol:
            converged = True
            break
        x = x_new.copy()
    return x_new, k + 1, converged


def gauss_seidel_iteration(A, b, x0, tol=1e-6, max_iter=10000):
    n = len(b)
    x = x0.copy()
    x_last = x0.copy()
    converged = False
    for k in range(max_iter):
        for i in range(n):
            sigma = sum(A[i, j] * x[j] for j in range(n) if j != i)
            x[i] = (b[i] - sigma) / A[i, i]
        if np.linalg.norm(x - x_last) < tol:
            converged = True
            break
        x_last = x.copy()
    return x, k + 1, converged

# Example usage
A = np.array([[10, 2, 1], [1, 5, 1], [2, 3, 10]])
b = np.array([7, -8, 6])
x0 = np.zeros_like(b)
x, iterations,converged = jacobi_iteration(A, b, x0)
if converged:
    print("Jacobi iteration:")
    print("x =", x)
    print("iterations =", iterations)
else:
    print("Jacobi iteration did not converge")

x, iterations,converged = gauss_seidel_iteration(A, b, x0)

if converged:
    print("Gauss-Seidel iteration:")
    print("x =", x)
    print("iterations =", iterations)
else:
    print("Gauss-Seidel iteration did not converge")
    print("x =", x)
    print("iterations =", iterations)

Jacobi iteration:
x = [ 0 -1  0]
iterations = 2
Gauss-Seidel iteration:
x = [ 0 -1  0]
iterations = 2



### SOR迭代法

超松弛迭代法（Successive Over Relaxation, SOR）是在高斯-赛德尔迭代法的基础上引入松弛因子$\omega$，得到的一种迭代法。可以看作是带参数的高斯-赛德尔迭代法。
- \omega = 1时，即为高斯-赛德尔迭代法。
- \omega > 1时，称为超松弛迭代法。
- \omega < 1时，称为欠松弛迭代法。

其收敛性与松弛因子有关，一般情况下，$\omega$的取值范围为(0, 2)。$\omega$的最优取值可以通过试验得到。

##线性方程组数值解法的python实现

- 求解方程组$Ax=b$的解
- 矩阵LU分解
- 矩阵的范数、条件数、秩、特征值等
- 提取对角阵
- 提取上下三角矩阵
- 特殊矩阵
  - Hilbert矩阵
  - Pascal矩阵
- 稀疏矩阵输入

```python
import numpy as np
import scipy.linalg as la
import scipy.sparse as sp
```

- 求解方程组 Ax=b 的解：`np.linalg.solve(A, b)`
- 矩阵LU分解：`la.lu(A)`
- 矩阵的范数：`la.norm(A)`
- 矩阵的条件数：`np.linalg.cond(A)`
- 矩阵的秩：`np.linalg.matrix_rank(A)`
- 矩阵的特征值：`np.linalg.eigvals(A)`
- 提取对角阵：`np.diag(np.diag(A))`
- 提取上下三角矩阵：`np.tril(A)`, `np.triu(A)`
- Hilbert矩阵：自定义函数 `hilbert_matrix(n)`
- Pascal矩阵：`sp.pascal(n)`
- 稀疏矩阵输入：`sp.csr_matrix((data, (rows, cols)))`



In [45]:
import numpy as np
import scipy.linalg as la
import scipy.sparse as sp

# 求解方程组 Ax=b 的解
def solve_linear_system(A, b):
    return np.linalg.solve(A, b)
# 矩阵的条件数
def matrix_condition_number(A, p=None):
    return np.linalg.cond(A,p=p)

# 矩阵求逆
def matrix_inverse(A):
    return la.inv(A)

# 矩阵LU分解
def lu_decomposition(A, permute_l=False):
    return la.lu(A, permute_l=permute_l)

# 矩阵的范数
def matrix_norm(A):
    return la.norm(A)


# 矩阵的秩
def matrix_rank(A):
    return np.linalg.matrix_rank(A)

# 矩阵的特征值
def matrix_eigenvalues(A):
    return np.linalg.eigvals(A)

# 提取对角阵
def extract_diagonal_matrix(A):
    return np.diag(np.diag(A))

# 提取上下三角矩阵
def extract_triangular_matrices(A):
    return np.tril(A), np.triu(A)

# Hilbert矩阵
def hilbert_matrix(n):
    return np.array([[1 / (i + j + 1) for j in range(n)] for i in range(n)])


# Pascal矩阵
def pascal_matrix(n):
    data = []
    rows = []
    cols = []
    for i in range(n):
        for j in range(i + 1):
            data.append(1)
            rows.append(i)
            cols.append(j)
    return sp.csr_matrix((data, (rows, cols)))


# 稀疏矩阵输入
def sparse_matrix_input(rows, cols, data):
    return sp.csr_matrix((data, (rows, cols)))

np.set_printoptions(precision=4, suppress=True)

# 示例
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 10]])
b = np.array([3, 6, 10])

print("A:\n", A)

second_column = A[:, 1]
print("Second column of A:", second_column)
second_row = A[1, :]
print("Second row of A:", second_row)

print("b:\n", b)

# 求解方程组 Ax=b 的解
print("Solution to Ax=b:", solve_linear_system(A, b))

# 矩阵LU分解
P, L, U = lu_decomposition(A, permute_l=False)
print("P:\n", P)
print("L:\n", L)
print("U:\n", U)

L, U = lu_decomposition(A, permute_l=True)
print("L:\n", L)
print("U:\n", U)

# 矩阵的范数
print("Matrix norm:", matrix_norm(A))

# 矩阵的条件数
print("Matrix condition number:", matrix_condition_number(A))

# 矩阵的秩
print("Matrix rank:", matrix_rank(A))

# 矩阵的特征值
print("Matrix eigenvalues:", matrix_eigenvalues(A))

# 提取对角阵
print("Diagonal matrix:", extract_diagonal_matrix(A))

# 提取上下三角矩阵
L_triangular, U_triangular = extract_triangular_matrices(A)
print("Lower triangular matrix:", L_triangular)
print("Upper triangular matrix:", U_triangular)

# Hilbert矩阵
print("Hilbert matrix:")
print(hilbert_matrix(3))

# Pascal矩阵
print("Pascal matrix:")
print(pascal_matrix(3))

# 稀疏矩阵输入

# 创建类对角矩阵
A = sp.diags([1, 2, 3], [-1,0,1], shape=(6, 6))
print("diagonal matrix:\n", A.toarray())

# 创建稀疏矩阵
rows = [0, 1, 2, 3, 4, 5,5]
cols = [0, 1, 2, 3, 4, 5,3]
data = [1, 2, 3, 4, 5, 6,9]
A = sp.csr_matrix((data, (rows, cols)), shape=(6, 6))
print("sparse matrix:\n", A.toarray())

A:
 [[ 1  2  3]
 [ 4  5  6]
 [ 7  8 10]]
Second column of A: [2 5 8]
Second row of A: [4 5 6]
b:
 [ 3  6 10]
Solution to Ax=b: [0. 0. 1.]
P:
 [[0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]]
L:
 [[1.     0.     0.    ]
 [0.1429 1.     0.    ]
 [0.5714 0.5    1.    ]]
U:
 [[ 7.      8.     10.    ]
 [ 0.      0.8571  1.5714]
 [ 0.      0.     -0.5   ]]
L:
 [[0.1429 1.     0.    ]
 [0.5714 0.5    1.    ]
 [1.     0.     0.    ]]
U:
 [[ 7.      8.     10.    ]
 [ 0.      0.8571  1.5714]
 [ 0.      0.     -0.5   ]]
Matrix norm: 17.435595774162696
Matrix condition number: 88.44827992069874
Matrix rank: 3
Matrix eigenvalues: [16.7075 -0.9057  0.1982]
Diagonal matrix: [[ 1  0  0]
 [ 0  5  0]
 [ 0  0 10]]
Lower triangular matrix: [[ 1  0  0]
 [ 4  5  0]
 [ 7  8 10]]
Upper triangular matrix: [[ 1  2  3]
 [ 0  5  6]
 [ 0  0 10]]
Hilbert matrix:
[[1.     0.5    0.3333]
 [0.5    0.3333 0.25  ]
 [0.3333 0.25   0.2   ]]
Pascal matrix:
  (0, 0)	1
  (1, 0)	1
  (1, 1)	1
  (2, 0)	1
  (2, 1)	1
  (2, 2)	1
diagonal ma