# 2. 线性代数（基于Python）
各位同学大家好，欢迎大家来到《线性代数》的世界，上一章《高等数学》我们讨论了许多研究函数的工具，说到底，函数相对是一个连续的世界. 然而事实上，现实世界有很多事情不是连续的，例如当我们拍了一张照片，如果把我们看着是连续变化的图像在电脑上不断放大，你会发现其实是有一个个非常小的像素格组成的，这就是我们在计算中经常使用的一种近似方法，将连续的事物离散化，方便计算机计算.所以在这门课中，我们会讲述离散世界的研究工具，向量、矩阵、二次型等等，那我们就开始我们今天的课程吧！

本章的主要内容如下：\
1. 理论知识：
- 线性方程组与向量
- 向量空间、矩阵、行列式以及范数
- 对角化、矩阵的特征值与特征向量、正交化
- 二次型、正定负定的概念与判定

2. 实战案例：
- Ginger的智慧农场——基于PCA的图像特征提取




### 2.1 线性方程组与向量
<div class="alert alert-info" role="alert">
❓ GitModel 公司的实习生Ginger自己在家中后院组建了一个智慧农场，养了几只公鸡和兔子，由于刚来实习，还不会很深的模型，采用的摄像头对动物计数时候，只能统计有多少个头，有多少只脚.现在摄像头采集到的数据是一共有10个头，28只脚，请问鸡兔各有几只？
</div>
我们可以列出一个二元一次方程，假设鸡有$x$只，兔子有$y$只那么可以得到

$$
\left\{\begin{array}{l}
x+y=10 \\
2x+4y=28
\end{array}\right.\label{eq1}
$$

#### 2.1.1 线性方程组
$(\ref{eq1})$在中学阶段叫做二元一次方程组，当然解这个方程组很简单，答案是：$\left\{\begin{array}{l}x=6 \\ y=4\end{array}\right.$.
现在我们忘记中学阶段解二元一次方程组的高斯消元法，把二元一次方程组的本质抽象出来，探讨一种解决二元一次方程组的方法。通过观察，我们发现：二元一次方程组的未知数的阶数都是一次，式子两边都是用等式相连，因此我们给这个方程组起另一个名字：**线性方程组**。在前面的线性方程组中，事实上可以看成是一张表格，

| $x$的系数 | $y$的系数 | 结果 |
|:---------:|:---------:|:----:|
|     1     |     1     |  10  |
|     2     |     4     |  28  |

我们把同一个未知数的系数放在一起，并且每个变量的系数都用一个**向量**表示，如把$x$的系数放在一起，就是$\left[\begin{array}{l}1\\2\end{array}\right]$,类似的，我们把$y$的系数也放在一起，得到$\left[\begin{array}{l}1\\4\end{array}\right]$。最后，如果我们把所有数值都移到等式的左边，使得方程组中每个等式右边都为零，那么结果事实上可以看成是$1$的系数，称为常数项，如果我们也放在一起，得到$\left[\begin{array}{l}10\\28\end{array}\right]$.最终，我们的方程组$(\ref{eq1})$可以用向量形式表示成

$$
\left\{\begin{array}{l}
x+y=10\\
2x+4y=28
\end{array}\right.
\Rightarrow
\begin{bmatrix}
{1}\\
{2}\\
\end{bmatrix}
x+\begin{bmatrix}
{1}\\
{4}\\
\end{bmatrix}
y = \begin{bmatrix}
{10}\\
{28}\\
\end{bmatrix}\label{eq*}
$$

如果我们将前面包含未知数的两个向量拼接在一起，可以得到一个二维的数表
$$\begin{bmatrix}
{1\quad1}\\
{2\quad4}\\
\end{bmatrix}$$
像这样的数表我们以后将其称为**矩阵**，由于在方程组中，这个矩阵表示的是未知数的系数，故称为系数矩阵，常用$\mathbf{A}$表示.结果向量也称为常数向量，通常记作$b$.

下面我们尝试使用python解线性方程组，```Numpy```中已经封装了求解线性方程组的函数，我们仅需要传入对应的系数矩阵$\mathbf{A}$以及常数向量$b$，程序就会算出相应的结果.

In [3]:
import numpy as np 
A = np.array([[1, 1],
              [2, 4]])     # 将系数所有向量拼在一起
b = np.array([10,
              28])  # 常数向量
x = np.linalg.solve(A,b)   # 解线性方程组
print("线性方程组的解为：\n",x)

线性方程组的解为：
 [6. 4.]


## 2.2 向量空间、矩阵、行列式以及范数

<div class="alert alert-info" role="alert">
❓ 然而，Ginger希望多养几种动物，近日他又引入了几只公鸡和几只鸭子，现在采集到的数据是一共有14个头，40只脚，请问鸡兔鸭各有几只？
</div>

假设鸭子的数目是$z$只，我们直接列出方程组
$$
\left\{\begin{array}{l}
x + y + z = 14 \\
2x+4y + 2z = 40
\end{array}\right.\label{eq2}
$$

我们直接采用Python求解：

In [4]:
A = np.array([[1, 1, 1],
              [2, 4, 2]])     # 将系数所有向量拼在一起
b = np.array([14,
              40])  # 常数向量
x = np.linalg.solve(A,b)   # 解线性方程组
print("线性方程组的解为：\n",x)

LinAlgError: Last 2 dimensions of the array must be square

<div class="alert alert-danger" role="alert">
这个代码一定会报错！它的报错原因说，一定要求系数矩阵是个方阵，这是因为要确定的求解一个多元方程组，有多少个未知数，就需要有多少个方程！所以系数矩阵一定是个方阵.
</div>


那么，如果我们加入动物眼睛的统计数据，方程组可以为：

$$
\left\{\begin{array}{l}
x + y + z = 14 \\
2x+4y + 2z = 40 \\
2x + 2y + 2z = 28
\end{array}\right.\label{eq5}
$$
我们现在再去看每个变量的系数向量，实际上被推广到了三阶，当实际生活中动物越来越多时，我们需要引入的变量也越来越多，所以我们需要引入更高维度的向量来表达我们的问题.一般地，我们研究的问题，变量的个数都是有限的，所以我们一般研究的向量都是有限维的向量，一般称为**n维向量**.

继续使用python求解$\eqref{eq5}$的问题

In [5]:
A = np.array([[1, 1, 1],
              [2, 4, 2],
              [2, 2, 2]])     # 将系数所有向量拼在一起
b = np.array([14,
              40,
              28])  # 常数向量
x = np.linalg.solve(A,b)   # 解线性方程组
print("线性方程组的解为：\n",x)

LinAlgError: Singular matrix

发现事实上还是报错，只不过这次报错的原因是```Singular matrix```，意思是系数矩阵是**奇异的**，或者说是**退化的**.如果观察方程组$\eqref{eq3}$，你会发现其实第三个式子是第一个式子的2倍导出的，如果我们采用高斯消元法求解方程，那么将式子1的-2倍加到第3个式子，第三个式子就为0了.这说明我们新增的这个式子对于解方程实际上起不到任何作用的，因为它的信息已经被囊括在第一个式子中了.

于是现在我们需要解决的问题有两个：
1. 当求解n个未知数时，方程组要满足什么条件，才是有解的？
2. 当我们将向量推广到高维之后，向量之间的计算是满足的吗？

### 2.2.1 向量的运算法则
从上面的方程组改写成向量的表达形式时，大家心中也许会想问一个问题：这两种写法是等价的吗？我们看$\eqref{eq*}$的计算过程：
$$
\begin{bmatrix}
{1}\\
{2}\\
\end{bmatrix}
x+\begin{bmatrix}
{1}\\
{4}\\
\end{bmatrix}
y = \begin{bmatrix}
{10}\\
{28}\\
\end{bmatrix}
\Rightarrow
\begin{bmatrix}
{x}\\
{2x}\\
\end{bmatrix}
+\begin{bmatrix}
{y}\\
{4y}\\
\end{bmatrix}
 = \begin{bmatrix}
{10}\\
{28}\\
\end{bmatrix}
$$
由于要保证对应的分量相等，所以自然我们就可以恢复出方程$\eqref{eq1}$.
上面这个过程，向量的计算有两种：
- 一个数乘一个向量；
- 一个向量加一个向量；
显然，当变量个数变多之后，也会满足上面这两种运算法则，因此我们接下来正式引入向量的基本运算法则：

给定$n$维向量
$$
x= \begin{bmatrix}
{x_1}\\
{x_2}\\
{\vdots}\\
{x_n}
\end{bmatrix},
y= \begin{bmatrix}
{y_1}\\
{y_2}\\
{\vdots}\\
{y_n}
\end{bmatrix}
$$
- 向量的加法定义为：
$$
x+y = \begin{bmatrix}
{x_1 + y_1}\\
{x_2 + y_2}\\
{\vdots}\\
{x_n + y_n}
\end{bmatrix},
$$
即两个向量对应的分量相加.

- 向量的数乘定义为：
对于$k \in \mathbf{R}$,
$$
kx = \begin{bmatrix}
{kx_1 }\\
{kx_2}\\
{\vdots}\\
{kx_n}
\end{bmatrix},
$$
即每个分量都乘上$k$.

关于向量与向量的乘法，在后续的学习中，我们再进一步介绍.我们约定一个使用习惯，我们默认所有的向量都采用列向量的形式，如上面所示.当我们在文中书写时，为了排版优美，通常将向量由列向量转成行向量进行书写，向量的行列交换的称为向量的**转置**，记做$x^T = (x_1, x_2, \cdots, x_n)$.我们使用```Numpy```实现向量之间的基本计算.

In [15]:
import numpy as np
# 生成向量
x = np.array([1, 2, 3]) # array默认如果只有一列，就是一个向量
y = np.array([4, 5, 6])
print("x={},y={}".format(x, y))
print("x的维度为{}".format(x.shape)) # shape函数用于显示向量的维度，如果是向量默认只有一维，维度显示为(dim,)

# 向量加法
print("x+y = {}".format(x + y))

# 向量数乘
k = 3
print("kx = {}".format(k*x))

print("3x+2y ={} ".format(3*x + 2*y))

x=[1 2 3],y=[4 5 6]
x的维度为(3,)
x+y = [5 7 9]
kx = [3 6 9]
3x+2y =[11 16 21] 


我们从几何角度来看这个事情，看看向量的加法与数乘在做什么：
![](./figures/2-1.png)

做好前面的铺垫后，现在我们可以把空间的概念引进来。在二维空间中，更准确的说在几何空间中，空间存在无数个类似于$[x_1,y_1],[x_2,y_2]$的几何向量，同时空间中还存在控制几何向量之间的相互关系的运算：加法与数乘。举个不太恰当的例子：人类社会中，除了有存在空间中的人以外，还存在着约束每个人的道德与法律.那么n维空间也是一样的，里面存在着无数个n维向量$(x_1,x_2,...,x_n)^T,(y_1,y_2,...,y_n)^T$，同时存在约束着这些向量运算规则的加法和数乘.

至此我们已经回答了第(2)个问题，高维的向量只要是有限维的都是满足我们上面加法与数乘的运算法则的.下面我们想来讨论，对于多个未知数的方程组，什么样的方程组才是有解的？

### 2.2.2 向量的线性相关与线性无关

首先我们需要介绍几个研究向量的工具，我们先来看方程组$\eqref{eq5}$为什么没有解，主要的原因是：从式子化简的结果来说，第一个式子跟第三个式子表达的是一个意思.看另外一个例子
$$
\left\{\begin{array}{l}
x + y + z = 14 \\
2x+4y + 2z = 40 \\
3x + 5y + 3z = 54
\end{array}\right.\label{eq10}
$$

这个方程组，如果你尝试求解的话也会显示```Singular matrix```，仔细观察就会发现第三个式子是由，第一个式子和第二个式子相加得到的，所以第三个式子的信息已经包含在上面两个式子中了，那么我们如何才能一眼看出“式子是有效的”呢？我们拿出一件工具——**向量的线性相关与线性无关**.
给定一组向量$(\alpha_1, \alpha_2, \cdots, \alpha_k)$（注意，这个地方之所以没有转置符号，是因为这是一个向量组，每个$\alpha$都是一个列向量，需要与向量的写法做区分），对于向量$\beta$，如果能被存在一组不全为0的常数$m_1, m_2, \cdots, m_k$，使得
$$\beta = m_1\alpha_1 + m_2\alpha_2 + \cdots + m_k\alpha_k$$
则称向量$\beta$与向量组$(\alpha_1, \alpha_2, \cdots, \alpha_k)$是线性相关的，或称$\beta$可以被向量组$(\alpha_1, \alpha_2, \cdots, \alpha_k)$线性表出.一旦向量是线性相关的，也就说明“$\beta$是一个多余的向量，因为它可以由其他的向量去表示”.

对于方程组$\eqref{eq10}$,如果我们把第$i$个方程当成是一个向量$\alpha_i$（这是不严谨的说法），则$\alpha_3 = \alpha_1 + \alpha_2$，因此第三个方程是多余的.

反之，如果$$m_0\beta + m_1\alpha_1 + m_2\alpha_2 + \cdots + m_k\alpha_k = 0$$当且仅当$m_0, m_1, m_2, \cdots, m_k$全都为0，则称$\beta, \alpha_1, \alpha_2, \cdots, \alpha_k$是线性无关的.

到目前为止，判断一个方程组有唯一解我们有两条法则：
- $n$个未知数要有$n$个方程
- 可以使用线性无关去判断“有效的方程”

然而，如果当一个方程组未知数的量很大之后，你需要去判断哪些方程是“有效的”也是一件非常花时间的工作，有没有一个更好的方法呢，答案是有的，我们先介绍**行列式的概念**.在2.1.1中我们已经介绍了矩阵就是一种数表，而对于我们现在的问题而言，系数矩阵$A$总是行数、列数相等的，因为它的方程个数等于未知数的个数，像这样行数等于列数的矩阵我们称为**方阵**.对于方阵而言，我们可以计算它的行列式$|A|$，用```Numpy```实现如下：

In [27]:
A = np.array([[1, 1, 1],
              [2, 4, 2],
              [2, 2, 2]])

np.linalg.det(A) # 计算方阵A的行列式
print("A的行列式的值为：",np.linalg.det(A))

B = np.array([[1,1,1,1],
              [1,2,0,0],
              [1,0,3,0],
              [1,0,0,4]])
B_det = np.linalg.det(B)
print("B的行列式的值为：",B_det)

# B = np.array([[1,1,1,1],
#               [1,2,0,0],
#               [1,0,0,4]])# 你可以尝试用非方阵计算行列式，压根没法算！

A的行列式的值为： 0.0
B的行列式的值为： -2.0


<div class="alert alert-danger" role="alert">
注意：一定要是方阵才能求行列式！
</div>

有了行列式之后，以后只要我们判断了一个方程组：
1. 未知数个数等于方程的个数
2. 系数行列式$|A| \neq 0$
则这个方程组是有唯一解的.

上面这个判断的法则就是著名的**克莱姆法则(Cramer's Rule)**，更重要的是，克莱姆法则提出了一种解的结构：

设线性方程组的表达式为：$\left\{\begin{array}{c}a_{11} x_{1}+a_{12} x_{2}+\cdots+a_{1 n} x_{n}=b_{1} \\ a_{21} x_{1}+a_{22} x_{2}+\cdots+a_{2 n} x_{n}=b_{2} \\ \cdots \cdots \\ a_{n 1} x_{1}+a_{n 2} x_{2}+\cdots+a_{n n} x_{n}=b_{n}\end{array}\right.$
，系数行列式为：$D = \left|\begin{array}{cccc}a_{11} & a_{12} & \cdots & a_{1 n} \\ a_{21} & a_{22} & \cdots & a_{2 n} \\ \cdots & \cdots & \cdots & \cdots \\ a_{n 1} & a_{n 2} & \cdots & a_{m n}\end{array}\right| \neq 0$，则该线性方程组有且仅有唯一解:

$$
x_{1}=\frac{D_{1}}{D}, x_{2}=\frac{D_{2}}{D}, \cdots, x_{n}=\frac{D_{n}}{D}
$$

其中，$D_{j}=\left|\begin{array}{ccccccc}a_{11} & \cdots & a_{1, j-1} & b_{1} & a_{1, j+1} & \cdots & a_{1 n} \\ a_{21} & \cdots & a_{2, j-1} & b_{2} & a_{2, j+1} & \cdots & a_{2 n} \\ \cdots & \cdots & \cdots & \cdots & \cdots & \cdots & \cdots \\ a_{n 1} & \cdots & a_{n, j-1} & b_{n} & a_{n, j+1} & \cdots & a_{n n}\end{array}\right|$

<div class="alert alert-info" role="alert">
🌰举个例子：
解线性方程组 $\left\{\begin{array}{l}2 x_{1}+x_{2}-5 x_{3}+x_{4}=8 \\ x_{1}-3 x_{2}-6 x_{4}=9 \\ 2 x_{2}-x_{3}+2 x_{4}=-5 \\ x_{1}+4 x_{2}-7 x_{3}+6 x_{4}=0\end{array}\right.$
</div>

**解：**方程组的系数行列式
$$
D=\left|\begin{array}{cccc}
2 & 1 & -5 & 1 \\
1 & -3 & 0 & -6 \\
0 & 2 & -1 & 2 \\
1 & 4 & -7 & 6
\end{array}\right|=27 \neq 0
$$
由克莱姆法则知：方程组有唯一解。

$D_{1}=\left|\begin{array}{cccc}8 & 1 & -5 & 1 \\ 9 & -3 & 0 & -6 \\ -5 & 2 & -1 & 2 \\ 0 & 4 & -7 & 6\end{array}\right|=81 \Rightarrow x_{1}=\frac{D_{1}}{D}=\frac{81}{27} = 3$，
$D_{2}=\left|\begin{array}{cccc}2 & 8 & -5 & 1 \\ 1 & 9 & 0 & -6 \\ 0 & -5 & -1 & 2 \\ 1 & 0 & -7 & 6\end{array}\right|=-108 \Rightarrow x_{2}=\frac{D_{2}}{D} =\frac{-108}{27}= 4$，$D_{3}=\left|\begin{array}{cccc}2 & 1 & 8 & 1 \\ 1 & -3 & 9 & -6 \\ 0 & 2 & -5 & 2 \\ 1 & 4 & 0 & 6\end{array}\right|=-27 \Rightarrow x_{3}=\frac{D_{3}}{D} = =\frac{-27}{27}=-1$，$D_{4}=\left|\begin{array}{cccc}2 & 1 & -5 & 8 \\ 1 & -3 & 0 & 9 \\ 0 & 2 & -1 & -5 \\ 1 & 4 & -7 & 0\end{array}\right|=27 \Rightarrow x_{4}=\frac{D_{4}}{D} = \frac{27}{27} = 1$

In [26]:
# 使用python实现克拉默法则：
D = np.array([[2.,1,-5,1],[1,-3,0,-6],[0,2,-1,2],[1,4,-7,6]])
D_det = np.linalg.det(D)

D1 = np.array([[8.,1,-5,1],[9,-3,0,-6],[-5,2,-1,2],[0,4,-7,6]])
D1_det = np.linalg.det(D1)

D2 = np.array([[2.,8,-5,1],[1,9,0,-6],[0,-5,-1,2],[1,0,-7,6]])
D2_det = np.linalg.det(D2)

D3 = np.array([[2.,1,8,1],[1,-3,9,-6],[0,2,-5,2],[1,4,0,6]])
D3_det = np.linalg.det(D3)

D4 = np.array([[2.,1,-5,8],[1,-3,0,9],[0,2,-1,-5],[1,4,-7,0]])
D4_det = np.linalg.det(D4)

x1 = D1_det / D_det
x2 = D2_det / D_det
x3 = D3_det / D_det
x4 = D4_det / D_det
print("克拉默法则解线性方程组的解为：\n x1={:.2f},\n x2={:.2f},\n x3={:.2f},\n x4={:.2f}".format(x1,x2,x3,x4))

克拉默法则解线性方程组的解为：
 x1=3.00,
 x2=-4.00,
 x3=-1.00,
 x4=1.00


事实上从用得角度上说，这事到这里就结束了，但是你会发现我们还没说行列式是什么:)

下面我们详细介绍行列式的概念.[如果你看到数学就头晕目眩，可以直接跳到2.2.3]

先看一个式子: $D_{2}=\left|\begin{array}{ll}a_{11} & a_{12} \\ a_{21} & a_{22}\end{array}\right|$. 我们称其为 2 阶行列式,其中 $a_{i j}$ 的第一个下标 $i$ 表示此元素所在的行数,第二个下标 $j$ 表示此元素所在的列数, $i=1,2, j=1,2$,于是此行列式中有四个元素,并且 $\left|\begin{array}{ll}a_{11} & a_{12} \\ a_{21} & a_{22}\end{array}\right|=$ $a_{11} a_{22}-a_{12} a_{21} .$ 这是一个什么样的计算规则 $?$ 它背后有什么样的意义?

将此行列式的第 1 行的两个元素 $a_{11}, a_{12}$ 看成一个 2 维向量$\left[a_{11}, a_{12}\right]{:=} \boldsymbol{\alpha}_{1}$，第二行的两个元素 $a_{21}, a_{22}$ 看成另一个 2 维向量 $\left[a_{21}, a_{22}\right]{:=} \boldsymbol{\alpha}_{2}$。不妨设 $\boldsymbol{\alpha}_{1}$ 的长度(模)为 $l, \boldsymbol{\alpha}_{2}$ 的长度(模)为 $m, \boldsymbol{\alpha}_{1}$ 与 $x$ 轴正向的夹角为 $\alpha, \boldsymbol{\alpha}_{2}$ 与 $x$ 轴正向的夹角为 $\beta$, 于是,如图所示：

![jupyter](./figures/2-2.png)

则：
$$
\begin{aligned}
S_{\square O A B C} &=l \cdot m \cdot \sin (\beta-\alpha) \\
&=l \cdot m(\sin \beta \cos \alpha-\cos \beta \sin \alpha) \\
&=l \cos \alpha \cdot m \sin \beta-l \sin \alpha \cdot m \cos \beta \\
&=a_{11} a_{22}-a_{12} a_{21}
\end{aligned}
$$
因此：
$$
\left|\begin{array}{ll}
a_{11} & a_{12} \\
a_{21} & a_{22}
\end{array}\right|=a_{11} a_{22}-a_{12} a_{21}=S_{\square O A B C}
$$
我们看到了一个极其直观有趣的结论: 2 阶行列式是由两个 2 维向量组成的,其(运算规则的)结果为 以这两个向量为邻边的平行四边形的面积。 这不仅得出了 2 阶行列式的计算规则，也能够清楚地看到其几何意义。


### 2.2.3 矩阵

回想一下中学阶段在解方程组的场景：每次将方程组抄一遍，消掉一个未知数，又抄一遍，又消掉一个未知数，又抄一遍······这个过程一直持续，非常麻烦，直到最后一个方程可以被解出来，我们希望有一些更简便的记录方法，下面我们介绍另一个非常强大的工具——**矩阵**，但大家学习矩阵前一定要在心里默念十遍：矩阵不仅仅只是用来解方程！它又非常强大的功能，在后面的章节中，我们将一步一步介绍，在这里我们先介绍一些矩阵的基本运算以及在解方程中的应用.

<div class="alert alert-success" role="alert">
  <h4 class="alert-heading">Well done!</h4>
  <p>Aww yeah, you successfully read this important alert message. This example text is going to run a bit longer so that you can see how spacing within an alert works with this kind of content.</p>
  <hr>
  <p class="mb-0">Whenever you need to, be sure to use margin utilities to keep things nice and tidy.</p>
</div>