# 线性代数 Linear  Algebra

In [21]:
import numpy as np

## 矩阵Matrix的创建
* 矩阵和数组虽然在形式上很像，但矩阵是数学上的概念，而数组只是一一种数据存储方式，二者还是有本质区别的。例如，矩阵只能包含数字，而数组可以包含任意类型的数据;矩阵必须是二维的，数组可以是任意维的;乘法、幂运算等很多运算的规则在矩阵与数组中也不一样。numpy中提供了matrix()函数可以用来把列表、元组、range等对象转换为矩阵。

In [22]:
X = np.matrix([[1, 2, 3],
               [4, 5, 6]])
Y = np.matrix([[1, 2, 3, 4, 5, 6]])

In [23]:
# 矩阵元素的访问：实际上是第二行第二列
X[1, 1]

5

## 矩阵的转置

In [24]:
X.T

matrix([[1, 4],
        [2, 5],
        [3, 6]])

In [25]:
Y.T

matrix([[1],
        [2],
        [3],
        [4],
        [5],
        [6]])

## 矩阵的相关特征
* 这里的矩阵特征主要指矩阵的最大值、最小值、元素求和、平均值等，扩展库numpy中的矩阵提供了相应的max()、min()、mean()、sum()等方法。在大部分的矩阵方法中，都支持用参数axis来指定计算方向，axis=1 表示横向计算，axis=0表示纵向计算。若不指定axis的值，默认将矩阵铺平后，对所有元素进行相应的函数操作。

In [27]:
print("矩阵x所有元素的平均数：", X.mean())
print("矩阵x各行的元素的平均数：", X.mean(axis=0))
print("矩阵x各列的元素的平均数：", X.mean(axis=1), sep='\n')
print("矩阵x所有元素的和：", X.sum())
print("矩阵x各列的元素最大值的下标：", X.argmax(axis=1), sep='\n')
print("矩阵x各行的元素的最小值：", X.min(axis=0))
print("矩阵x对角线元素：", X.diagonal())
print("矩阵x非零元素下标：", X.nonzero())

矩阵x所有元素的平均数： 3.5
矩阵x各行的元素的平均数： [[2.5 3.5 4.5]]
矩阵x各列的元素的平均数：
[[2.]
 [5.]]
矩阵x所有元素的和： 21
矩阵x各列的元素最大值的下标：
[[2]
 [2]]
矩阵x各行的元素的最小值： [[1 2 3]]
矩阵x对角线元素： [[1 5]]
矩阵x非零元素下标： (array([0, 0, 0, 1, 1, 1]), array([0, 1, 2, 0, 1, 2]))


## 矩阵乘法
* 对于一个$m \times p$的矩阵$X=(x_{ij})_{i,j=1}^{m, p}$，和一个$p \times n$的矩阵$Y=(y_{ij})_{i,j=1}^{p, n}$，它们的乘积是一个$m \times n$的矩阵$Z=(z_{ij})_{i,j=1}^{m, n}$，计算公式：
$$
z_{ij}=\sum_{k=1}^p x_{ik}y{kj}
$$

* Python中matrix属性的变量X， Y可以直接使用*进行矩阵乘法的运算

In [28]:
Y = np.matrix([[1, 2], [2, 1], [1, 1]])
print("X=", X)
print("Y=", Y)
X * Y

X= [[1 2 3]
 [4 5 6]]
Y= [[1 2]
 [2 1]
 [1 1]]


matrix([[ 8,  7],
        [20, 19]])

## 计算特征值与特征向量
* 对于$n \times n$的方阵A，如果存在标量$\lambda$和$n$维非零向量$\vec x$，使得$A\vec x =\lambda \vec x$，成立，那么称$\lambda$是方阵$A$的一个特征值，$\vec x$为对应于$\lambda$的特征向量。

* 从几何意义上来看，矩阵乘以一个向量，是对这个向量进行了一个变换，从一个坐标系换到另一个坐标系。 在变换过程中，向量主要进行旋转和缩放这两种变化。如果矩阵乘以一个向量之后，向量只发生了缩放变化而没有进行旋转，那么这个向量本身就是该矩阵的一个特征向量，缩放的比例就是特征值。或者说，特征向量是对向量进行旋转之后理想的坐标轴之一，而特征值则是原向量在该坐标轴上的投影或者该坐标轴对原向量的贡献。特征值越大，表示这个坐标轴对原向量的表达越重要，原向量在这个坐标轴上的投影越大。一个矩阵的所有特征向量组成了该矩阵的一组基，也就是新坐标系中的轴。有了特征值和特征向量之后， 向量就可以在另一个坐标系中进行表示。

* 扩展库numpy的线性代数子模块linalg中提供了用来计算特征值与特征向量的eig()函数，参数可以是Python列表、扩展库numpy中的数组或扩展库numpy中的矩阵。

In [12]:
A = np.array([[1, -3, 3],
              [3, -5, 3],
              [6, -6, 4]])
eigenvalues, eigenvectors = np.linalg.eig(A)
# 特征值
eigenvalues

array([ 4., -2., -2.])

In [13]:
# 特征向量
eigenvectors

array([[-0.40824829, -0.40824829, -0.1846118 ],
       [-0.40824829,  0.40824829, -0.78110113],
       [-0.81649658,  0.81649658, -0.59648932]])

In [14]:
# 验证一下
np.dot(A, eigenvectors)

array([[-1.63299316,  0.81649658,  0.36922361],
       [-1.63299316, -0.81649658,  1.56220225],
       [-3.26598632, -1.63299316,  1.19297865]])

In [15]:
# 每一列对应相乘
eigenvalues * eigenvectors

array([[-1.63299316,  0.81649658,  0.36922361],
       [-1.63299316, -0.81649658,  1.56220225],
       [-3.26598632, -1.63299316,  1.19297865]])

## 逆矩阵的计算
* 对于一个$n \times n$的方阵
$$A=(a_{ij})_{i,j=1}^{n, n}$$
如果存在另一个$n \times n$的方阵
$$B=(b_{ij})_{i,j=1}^{n, n}$$<br />
使得二者的乘积为单位矩阵，即：$A \cdot B = B \cdot A = I$。那么责称方阵$A$是可逆矩阵或者非奇异矩阵，称方阵$B$是方阵$A$的逆矩阵，记为：$B = A^{-1}$。可逆矩阵的行列式不为0。


* 扩展库numpy的线性代数子模块linalg中提供了用来计算方阵的逆inv()函数，参数可以是Python列表、扩展库numpy中的数组或扩展库numpy中的矩阵。

In [11]:
C = np.matrix([[1, 2, 3],
               [4, 5, 6],
               [7, 8, 0]])
C_inv = np.linalg.inv(C)
C_inv

matrix([[-1.77777778,  0.88888889, -0.11111111],
        [ 1.55555556, -0.77777778,  0.22222222],
        [-0.11111111,  0.22222222, -0.11111111]])

In [16]:
C_inv * C

matrix([[ 1.00000000e+00, -1.11022302e-16,  0.00000000e+00],
        [ 8.32667268e-17,  1.00000000e+00,  2.22044605e-16],
        [ 6.93889390e-17,  0.00000000e+00,  1.00000000e+00]])

In [17]:
C * C_inv

matrix([[ 1.00000000e+00,  5.55111512e-17,  1.38777878e-17],
        [ 5.55111512e-17,  1.00000000e+00,  2.77555756e-17],
        [ 1.77635684e-15, -8.88178420e-16,  1.00000000e+00]])

In [20]:
np.where(np.abs(C * C_inv) < 1e-10, 0, 1)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]])

## 求解线性方程组
* 线性方程组
$$
\begin{cases}
a_{11}x_1 + a_{12}x_2+\cdots + a_{1n}x_n = b_1\\
a_{21}x_1 + a_{22}x_2+\cdots + a_{2n}x_n = b_2\\
\quad\quad\quad\quad\quad\quad\vdots\\
a_{n1}x_1 + a_{n2}x_2+\cdots + a_{nn}x_n = b_n\\
\end{cases}
$$<br />
可以写作矩阵相乘的形式：$Ax=b$，$A$是$n \times n$的矩阵，$x$和$b$是$n \times 1$的列向量。<br />
那么，若$A$可逆，则方程的解可以表示为：$\vec x=A^{-1}b$


* 在线性方程的求解或是数据曲线拟合中，利用**最小二乘法**求得的解则被称为**最小二乘解**。**最小二乘法**（又称最小平方法）是一种数学优化技术，它通过最小化误差的平方和寻找数据的最佳函数匹配。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。


* 一般$A$的**行数大于列数**，方程组**无解**的时候可以使用最小二乘法进行求解，简单来说就是，找到一组最优解$\vec x_{ls} = \{x_1, x_2, \cdots, x_n\}$，使得优化问题 $min ||Ax-b||_2^2$成立。


* 一般$A$的**列数大于行数**，方程组有**无穷多解**的时候可以添加正则化（惩罚）项（用于描述模型的复杂度）进行求解，简单来说就是，找到一组最优解$\vec x_{rg} = \{x_1, x_2, \cdots, x_n\}$，使得优化问题 $min ||Ax-b||_2^2 + \frac{\lambda}{2}||x||_2^2$成立，其中$\lambda \in [0, +\infty]$称为惩罚系数，可以自己适当调整惩罚系数$\lambda$。


* 若$A$可逆，则方程$Ax=b$的最小二乘解和直接用逆矩阵求解得到的解相等。


* 扩展库numpy的线性代数子模块linalg中提供了用来计算线性方程组的solve()函数和求解线性方程组最小二乘解的lstsq()函数，参数可以是Python列表、扩展库numpy中的数组或扩展库numpy中的矩阵。

In [44]:
A = np.array([[3, 1],
             [1, 2]])
b = np.array([[9], [8]])
x = np.linalg.solve(A, b)

In [45]:
x

array([[2.],
       [3.]])

In [55]:
x_ls = np.linalg.lstsq(A, b, rcond=None) # rcond与处理奇异矩阵相关的，默认参数None

In [60]:
# 返回的参数依次是：最小二乘解、余项、A的秩、A的奇异值
print('最小二乘解：', x_ls[0])
print('余项：', x_ls[1])
print('A的秩：', x_ls[2])
print('A的奇异值：', x_ls[3])
x_ls

最小二乘解： [2. 3.]
余项： []
A的秩： 2
A的奇异值： [3.61803399 1.38196601]


(array([2., 3.]), array([], dtype=float64), 2, array([3.61803399, 1.38196601]))

## 向量范数 & 矩阵范数
### 向量范数
* **范数**：在赋范线性空间中，并满足一定的条件，即①**非负性**②**齐次性**③**三角不等式**。
* 它常常被用来度量某个向量空间（或矩阵）中的每个向量的长度或大小。
* 向量$\vec x=(x_1, x_2, \cdots, x_n)$的$p$范数的计算公式：$$||\vec x||_p = (\sum_{i=1}^{n}|x_i|^p)^{\frac{1}{p}}$$<br />
* 常用的向量范数：1-范数， 2-范数， $\infty$-范数计算公式依次如下：
$$
||\vec x||_1=\sum_{i=1}^n |x_i|，||\vec x||_2=\sqrt {\sum_{i=1}^n |x_i|^2}，||x||_{\infty}=\max_i |x_i|
$$

*注：*向量的2-范数经常用于衡量向量的大小，但在优化问题中我们往往采用它的平凡形式$||\vec x||_2^2$，因为这样在求导等计算时更加方便。因为它在原点附近时曾长过于缓慢，此时我们往往采用1-范数进行替代。

### 矩阵范数
* 一般来讲矩阵范数除了正定性，齐次性和三角不等式之外，还规定其必须满足相容性：$||AB||\leq||A||\cdot||B||$。所以矩阵范数通常也称为相容范数。
* $A_{i,j}^{m,n}$常用的向矩阵范数：2-范数，$\infty$-范数，Frobenius-范数计算公式依次如下：
$$
||A||_2=\sqrt {\lambda_{A^H A}}，||A||_{\infty}=\max_{1\leq i \leq m} \sum_{j=1}^n A_{ij}，||A||_F=\sqrt {\sum_{i,j}A^2_{i,j}}
$$其中$A^{H}$表示$A$的共轭转置。


* 扩展库numpy的线性代数子模块linalg中提供了用来计算范数的norm()函数：<br />
<center>
    norm(x, ord=None, axis=None, keepdims=False)
</center>
第一个参数x可以是Python列表、扩展库numpy中的数组或扩展库numpy中的矩阵，第二个参数用来指定范数的类型，向量默认是2-范数，矩阵默认是F-范数。

In [65]:
x = np.matrix([[1, 2],
               [3, -4]])
print("x的2范数：", np.linalg.norm(x, 2))
print("x的∞范数：", np.linalg.norm(x, np.inf))
print("x的F范数：", np.linalg.norm(x, 'fro'))

x的2范数： 5.116672736016927
x的∞范数： 7.0
x的F范数： 5.477225575051661


In [66]:
v = np.array([1, 2, -3, -6, 7, -19])
print("v的2-范数：", np.linalg.norm(v))
print("v的1-范数：", np.linalg.norm(v, 19))
print("x的∞-范数：", np.linalg.norm(v, np.inf))

v的2-范数： 21.447610589527216
v的1-范数： 19.000000006069616
x的∞-范数： 19.0


## 奇异值分解
前半部分的内容中我们探讨了如何将矩阵分解成特征向量和特征值。还有另一种分解矩阵的方法，称为**奇异值分解(singular valuevector)**，简称**SVD**。SVD能将矩阵分解成奇异矩阵(singular matrix)和奇异值(singular value)。通过SVD，我们会得到一些与特征分解相同类型的信息。然而，奇异值分解有更广泛的应用。每个实数矩阵都有一个奇异值分解，但不一定都有特征分解。例如，非方阵的矩阵没有特征分解，这时我们只能使用奇异值分解。

* 设$A$是一个$m \times n$的矩阵，通过SVD可以将其分解为：
$$
A=UDV^T=U
\left[
\begin{matrix}
\Sigma&0\\
0     &0\\
\end{matrix}
\right]V^T
$$<br />
其中，$U$是一个$m \times m$的**正交矩阵**，$D$是一个$m \times n$的矩阵（其中$\Sigma_{max(m,n)}$对角线元素为$A$的奇异值），$V$是一个$n \times n$的**正交矩阵**。

* 矩阵$U$的列向量称为**左奇异向量**，矩阵$V$的列向量称为**右奇异向量**。$A$的左奇异向量是$AA^T$的特征向量，$A$的右奇异向量是$A^TA$的特征向量。$A$的非零奇异值是$A^TA$或者$AA^T$特征值的平方根。


* 扩展库numpy的线性代数子模块linalg中提供了用来计算矩阵SVD的svd()函数，参数可以是Python列表、扩展库numpy中的数组或扩展库numpy中的矩阵。其返回值为$U$、$D$中的$\Sigma$对角线上的元素（即：$A$的奇异值）、$V^T$

In [111]:
A = np.matrix([[1, 2, 3],
               [4, 5, 6],
               [7, 8, 9]])
U, S, V_T = np.linalg.svd(A)

In [112]:
# 左奇异矩阵
U

matrix([[-0.21483724,  0.88723069,  0.40824829],
        [-0.52058739,  0.24964395, -0.81649658],
        [-0.82633754, -0.38794278,  0.40824829]])

In [113]:
# 右奇异矩阵
V_T

matrix([[-0.47967118, -0.57236779, -0.66506441],
        [-0.77669099, -0.07568647,  0.62531805],
        [-0.40824829,  0.81649658, -0.40824829]])

In [114]:
# 奇异值
S

array([1.68481034e+01, 1.06836951e+00, 3.33475287e-16])

In [117]:
# 验证分解
U * np.diag(S) * V_T

matrix([[ 1.19367596,  2.73956824,  2.25164463],
        [ 4.05449545,  6.7921004 ,  3.7984785 ],
        [ 6.91531493, 10.84463255,  5.34531236]])

## Moore-Penrose伪逆
对于非方矩阵$A_{m \times n}$，其逆矩阵没有定义，因此为了求解非方矩阵的线性方程组$Ax=b$，我们引入了**Moore-Penrose伪逆**，其定义如下：

$$
A^{+}=\lim_{\alpha \to 0} (A^TA+\alpha I)^{-1}A^T
$$<br />
上述定义多用于理论证明中，实际计算过程之中，我们一般不采用定义的方法进行计算 ，而是使用下面的公式：

$$
A^{+}=VD^{+}U^T
$$<br />其中，$U$、$D$、$V$是矩阵$A$经过奇异值分解得到的三个矩阵：$A_{m \times n}=U_{m \times m}D_{m \times n}V_{n\times n}$，且$D^{+}$是$D$的伪逆，即$D$非零元素取倒数之后再转置得到的。


* 一般$A$的**行数大于列数**，方程组**无解**的时候可以使用伪逆$x=A^{+}b$得到其最小二乘解。


* 一般$A$的**列数大于行数**，方程组有**无穷多解**的时候使用伪逆$x=A^{+}b$得到其所有可行解中2-范数$||x||_2$最小的一个。


* 扩展库numpy的线性代数子模块linalg中提供了用来计算矩阵伪逆的pinv()函数，参数可以是Python列表、扩展库numpy中的数组或扩展库numpy中的矩阵。

In [118]:
A = np.matrix([[1, 2],
               [3, 3],
               [1, 1]])
# 计算伪逆
np.linalg.pinv(A)

matrix([[-1. ,  0.6,  0.2],
        [ 1. , -0.3, -0.1]])

In [119]:
# 验证伪逆
# 对A进行奇异值分解
U, S, V_T = np.linalg.svd(A)
# 为了验证公式(10)，需要将D计算出来，由于U，V都是正交矩阵，因此可以用转置和A相乘得到D
D = U.T * A * V_T.T

In [151]:
# np.piecewise是分段函数，第二个参数是判断条件，第三个参数是满足对应判断条件时，元素取值的改变，但只能对ndarray类型使用。
D = np.array(D)
D_pinv = np.matrix(np.piecewise(D, [np.abs(D) < 1e-5, np.abs(D) >= 1e-5], [0, lambda x: 1 / x])).T
# 上一条语句是对所有非零元素去倒数，并且转置，等价于取伪逆D，相当于：
# D_pinv = np.linalg.pinv(D)

In [153]:
A_pinv = V_T.T * D_pinv * U.T
A_pinv
# 验证成功

matrix([[-1. ,  0.6,  0.2],
        [ 1. , -0.3, -0.1]])

## 迹运算
**迹运算**返回的是矩阵对角线元素的和：
$$
Tr(A)=\sum_i A_{i,i}
$$

### 迹运算的性质
* $Tr(A)=Tr(A^T)$


* 多个矩阵相乘的迹，和将这些矩阵中的最后一个调到第一个之后相乘的迹是相同的:<br />

$$
Tr(ABC)=Tr(CAB)=Tr(BCA)
$$

* 更一般地，
$$
Tr(\prod_{i=1}^n F^{(i)})=Tr(F^{(n)} \prod_{i=1}^{n-1} F^{(i)}))
$$


* 设$A \in \mathbb R^{m \times n}$，$B \in \mathbb R^{n \times m}$，则：
$$
Tr(AB)=Tr(BA)
$$


* 迹运算提供了另一种描述矩阵Frobenius范数的方式：
$$
||A||_F=\sqrt {Tr(AA^T)}
$$


* 标量$a$的迹还是$a$，即$$Tr(a)=a$$

* 扩展库numpy中提供了用来计算矩阵迹的trace()函数，参数可以是Python列表、扩展库numpy中的数组或扩展库numpy中的矩阵。

In [162]:
A = np.matrix([[1, 2, 3],
               [4, 1, 7],
               [5, 8, 1]])
np.trace(A)

3

In [163]:
# 非方阵也能计算迹
B = np.matrix([[1, 2],
               [3, 3],
               [3, 1]])
np.trace(B)

4

In [164]:
# 验证公式(15)
np.linalg.norm(A, ord='fro')

13.038404810405298

In [165]:
np.sqrt(np.trace(A * A.T))

13.038404810405298

## 行列式
* **行列式**，记作det($A$)，是一个将方阵$A$映射到实数的函数。行列式等于矩阵所有特征值的乘积。


* **几何意义**：行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。如果行列式为0，那么空间至少沿着某一维度完全收缩了，使其失去了所有体积。

In [166]:
np.linalg.det(A)

88.00000000000003

In [167]:
e, v = np.linalg.eig(A)
e

array([10.79525314, -1.24437161, -6.55088153])

In [169]:
# 验证行列式等于矩阵所有特征值的乘积。
e[0] * e[1] * e[2]

88.0