# 线性代数基础

## 向量

### 向量内积

向量的点积（又叫点乘）定义如下：
$$ \vec{\mathbf{a}}\cdot \vec{\mathbf{b}} = \begin{bmatrix} a_1 \\ a_2 \\ \ldots \\ a_n\end{bmatrix} \cdot \begin{bmatrix} b_1 \\ b_2 \\ \ldots \\ b_n \end{bmatrix} = a_{1}b_{1} + a_{2}b_{2} + \ldots + a_{n}b_{n}$$
点积满足乘法交换律、分配律和结合律

In [1]:
import numpy as np
import scipy as sp

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [3]:
a = np.array([3,5,2])
b = np.array([1,4,7])
np.dot(a,b)

37

点积还有一个非常重要的性质，称为 柯西不等式 
* 对两个非 0 向量 $\vec{\mathbf{x}}, \vec{\mathbf{y}} \in \mathbb{R}^{n}$,$|\vec{\mathbf{x}} \cdot \vec{\mathbf{y}}| \le \left\|\vec{\mathbf{x}}\right\|\left\|\vec{\mathbf{y}}\right\|$。
* 当且仅当 $\vec{\mathbf{x}} = c\vec{\mathbf{y}}$ 时，等式成立。

从几何的角度来说，向量的点积与向量间夹角$\theta$的余弦有关：
$$\vec{\mathbf{a}}\cdot\vec{\mathbf{b}} = \left\|\vec{\mathbf{a}}\right\|\left\|\vec{\mathbf{b}}\right\|cos\theta $$

向量的点积其实反映了向量$\vec{\mathbf{a}}$在向量$\vec{\mathbf{b}}$上的 投影 ，即两个向量在同个方向上的相同程度。当两向量正交时，$cos\theta$ 的值为0，点积的值为0，投影最小。当两向量平行时，$cos\theta$ 的值为1，点积值最大，投影也最大

### 向量外积

外积的一个重要作用是可以得到一个和 $\vec{\mathbf{a}}$  、$\vec{\mathbf{b}}$  两个原向量正交的新向量 $\vec{\mathbf{c}}$，且可以通过右手法则来确定新向量的方向（一个简单的确定满足“右手定则”的结果向量的方向的方法是这样的：若坐标系是满足右手定则的，当右手的四指从 $\vec{\mathbf{a}}$ 以不超过180度的转角转向 $\vec{\mathbf{b}}$ 时，竖起的大拇指指向是 $\vec{\mathbf{c}}$ 的方向）

向量的（又叫叉乘、向量积、叉积）只在 $\mathbb{R}^{2}$和$\mathbb{R}^{3}$中定义：

$\mathbb{R}^{2}$的向量外积:
$$\begin{bmatrix}a_1\\a_2\end{bmatrix}\times \begin{bmatrix} b_1\\ b_2 \end{bmatrix} = \begin{bmatrix} a_1 \cdot b_2 - a_2 \cdot b_1 \end{bmatrix}$$


$\mathbb{R}^{3}$的向量外积:

$$\begin{bmatrix} a_1 \\ a_2 \\ a_3\end{bmatrix} \times \begin{bmatrix} b_ 1\\ b_2 \\ b_3 \end{bmatrix} = \begin{bmatrix} a_2 \cdot b_3 - a_3 \cdot b_2 \\ a_3 \cdot b_1 - a_1 \cdot b_3 \\ a_1 \cdot b_2 - a_2 \cdot b_1\end{bmatrix}$$
例如：
$$\begin{bmatrix} 3 \\ 5 \\ 2 \end{bmatrix} \times \begin{bmatrix} 1 \\ 4 \\ 7 \end{bmatrix} = \begin{bmatrix} 5 \cdot 7 - 2 \cdot 4 \\ 2 \cdot 1 - 3 \cdot 7 \\ 3 \cdot 4 - 5 \cdot 1\end{bmatrix} = \begin{bmatrix} 27 \\ -19 \\ 7\end{bmatrix}$$

In [4]:
a = np.array([3,5,2])
b = np.array([1,4,7])
np.cross(a,b)

array([ 27, -19,   7])

从几何的角度来说，向量的外积与向量间夹角 θ 的正弦有关：

$$\left\|\vec{\mathbf{a}}\times\vec{\mathbf{b}}\right\| = \left\|\vec{\mathbf{a}}\right\|\left\|\vec{\mathbf{b}}\right\|sin\theta$$

这意味着向量的外积反映了向量 $\vec{\mathbf{a}}$与向量 $\vec{\mathbf{b}}$ 的正交程度。当两向量平行时，$sin\theta$的值为0，外积的值为0，正交程度最小。当两向量正交时，$sin\theta$的值为1，外积值最大，正交程度最大。

## 矩阵

### 建立矩阵

In [5]:
#一维数组
a1 = np.array([1,2,3],dtype = int)
#二维数组
a2 = np.array([[1,2,3],[2,3,4]])
a1
a2

array([1, 2, 3])

array([[1, 2, 3],
       [2, 3, 4]])

#### 通过np.matrix()建立矩阵

In [6]:
a = np.matrix('5 2 7;1 3 4');a
b = np.matrix('5 2 7 6;1 3 4 2;8 2 -2 3');b


matrix([[5, 2, 7],
        [1, 3, 4]])

matrix([[ 5,  2,  7,  6],
        [ 1,  3,  4,  2],
        [ 8,  2, -2,  3]])

In [7]:
c = a.getA();c;type(c);type(a)
c = np.asmatrix(c);type(c)
c.I #求逆矩阵
c.T #矩阵的转置

array([[5, 2, 7],
       [1, 3, 4]])

numpy.ndarray

numpy.matrix

numpy.matrix

matrix([[ 0.17948718, -0.23076923],
        [-0.12820513,  0.30769231],
        [ 0.05128205,  0.07692308]])

matrix([[5, 1],
        [2, 3],
        [7, 4]])

numpy中还提供了几个like函数，即按照某一个已知的数组的规模（几行几列）建立同样规模的特殊数组。这样的函数有zeros_like()、empty_like()、ones_like()，它们的参数均为如此形式：zeros_like(a,dtype=)，其中，a是一个已知的数组。

In [8]:
# 全0
b1 = np.zeros((2,3),dtype=float)
# 全1
b2 = np.ones((2,3))
# 空矩阵,使用内存中的随机值填充
b3 = np.empty((3,3))
b1
b2
b3

array([[0., 0., 0.],
       [0., 0., 0.]])

array([[1., 1., 1.],
       [1., 1., 1.]])

array([[0.00000000e+000, 0.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 0.00000000e+000, 4.99994434e-321],
       [1.42410838e-306, 7.56597769e-307, 2.44032786e-312]])

In [9]:
#建立3*3的单位矩阵，方阵
c1 = np.identity(3)
#建立对角线为1，其余值为0，用K指定对角线位置，M默认None
c2 = np.eye(N=3,M=None,k=1)
c1
c2

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

array([[0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 0.]])

In [10]:
d1 = np.arange(2,3,0.1);d1
d2 = np.linspace(1,4,10);d2
d3 = np.random.rand(3,2);d3

array([2. , 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9])

array([1.        , 1.33333333, 1.66666667, 2.        , 2.33333333,
       2.66666667, 3.        , 3.33333333, 3.66666667, 4.        ])

array([[0.52371779, 0.43094525],
       [0.95547844, 0.88187918],
       [0.01078213, 0.7271624 ]])

In [11]:
# 上三角与下三角
e = np.array([[1,2,3,4],[2,3,4,5],[3,4,5,6]])
e1 = np.copy(e);e1
e2 = np.tril(e1);e2
e3 = np.triu(e1);e3

array([[1, 2, 3, 4],
       [2, 3, 4, 5],
       [3, 4, 5, 6]])

array([[1, 0, 0, 0],
       [2, 3, 0, 0],
       [3, 4, 5, 0]])

array([[1, 2, 3, 4],
       [0, 3, 4, 5],
       [0, 0, 5, 6]])

### 矩阵的转置

向量的转置有一个性质：一个向量$\vec{\mathbf{V}}$点乘另一个向量$\vec{\mathbf{W}}$ ，其结果和向量 $\vec{\mathbf{V}}$ 转置后和向量$\vec{\mathbf{W}}$ 做矩阵乘法相同。即 $\vec{\mathbf{V}} \cdot \vec{\mathbf{W}} = \vec{\mathbf{V}}^{T} \vec{\mathbf{W}}$

In [12]:
A = np.array([[1,2,3],[3,4,5],[6,7,8]]);A
A.T;A.T.T

array([[1, 2, 3],
       [3, 4, 5],
       [6, 7, 8]])

array([[1, 3, 6],
       [2, 4, 7],
       [3, 5, 8]])

array([[1, 2, 3],
       [3, 4, 5],
       [6, 7, 8]])

In [13]:
#验证转置性质(A±B)'=A'±B'
B = np.array([[5,4,2],[1,7,9],[0,4,5]])
(A+B).T;A.T+B.T

array([[ 6,  4,  6],
       [ 6, 11, 11],
       [ 5, 14, 13]])

array([[ 6,  4,  6],
       [ 6, 11, 11],
       [ 5, 14, 13]])

In [14]:
#验证矩阵转置的性质：(KA)'=KA'
10*(A.T);(10*A).T

array([[10, 30, 60],
       [20, 40, 70],
       [30, 50, 80]])

array([[10, 30, 60],
       [20, 40, 70],
       [30, 50, 80]])

In [15]:
# 验证矩阵转置的性质：(A×B)'= B'×A'
np.dot(A,B).T
np.dot(B.T,A.T)

array([[  7,  19,  37],
       [ 30,  60, 105],
       [ 35,  67, 115]])

array([[  7,  19,  37],
       [ 30,  60, 105],
       [ 35,  67, 115]])

### 方阵的迹
方阵的迹就是主对角元素之和，使用trace()函数获得方阵的迹

In [16]:
A;B
#A的迹等于A.T的迹
np.trace(A)    
np.trace(A.T)
 #和的迹等于迹的和
np.trace(A+B) 
np.trace(A)+np.trace(B)

array([[1, 2, 3],
       [3, 4, 5],
       [6, 7, 8]])

array([[5, 4, 2],
       [1, 7, 9],
       [0, 4, 5]])

13

13

30

30

### 计算行列式

In [17]:
C = np.array([[1,2],[1,3]]);C
np.linalg.det(C)

array([[1, 2],
       [1, 3]])

1.0

### 逆矩阵、伴随矩阵

若A存在逆矩阵(满足det(A) != 0，或者A满秩)，使用linalg.inv求得方阵A的逆矩阵

In [18]:
A = np.array([[1,-2,1],[0,2,-1],[1,1,-2]]);A

array([[ 1, -2,  1],
       [ 0,  2, -1],
       [ 1,  1, -2]])

In [19]:
# 求A的行列式，不为零则存在逆矩阵
A_det = np.linalg.det(A);A_det
# 求A的逆矩阵
A_inverse = np.linalg.inv(A);A_inverse
#A与其逆矩阵的乘积为单位阵
np.dot(A,A_inverse)
# 求A的伴随矩阵
A_companion = A_inverse*A_det;A_companion

-3.0000000000000004

array([[ 1.        ,  1.        ,  0.        ],
       [ 0.33333333,  1.        , -0.33333333],
       [ 0.66666667,  1.        , -0.66666667]])

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

array([[-3., -3., -0.],
       [-1., -3.,  1.],
       [-2., -3.,  2.]])

In [20]:
#使用np.allclose()检测两个矩阵是否相同
x=2;x
A;B
np.allclose(np.dot(A,x),B)

2

array([[ 1, -2,  1],
       [ 0,  2, -1],
       [ 1,  1, -2]])

array([[5, 4, 2],
       [1, 7, 9],
       [0, 4, 5]])

False

### 计算矩阵距离

矩阵的距离，这里指欧几里得距离，如何计算两个形状相同矩阵之间的距离？

In [21]:
A = np.array([[0,1],[1,0]]); B = np.array([[1,1,],[1,1]]);A;B
C = A-B;C
#距离矩阵的平方
D = np.dot(C,C);D
#计算矩阵D的迹
E = np.trace(D);E
#对E开平方得到距离
E**0.5

array([[0, 1],
       [1, 0]])

array([[1, 1],
       [1, 1]])

array([[-1,  0],
       [ 0, -1]])

array([[1, 0],
       [0, 1]])

2

1.4142135623730951

### 矩阵的秩

numpy包中的linalg.matrix_rank方法计算矩阵的秩：

In [22]:
I = np.eye(3);I#创建单位矩阵
#秩
np.linalg.matrix_rank(I)
#将元素换成0
I[1,1] = 0;I
np.linalg.matrix_rank(I)#此时秩变为2


array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

3

array([[1., 0., 0.],
       [0., 0., 0.],
       [0., 0., 1.]])

2

### 求方阵的特征值、特征向量

In [23]:
x = np.diag((1,2,3));x #对角矩阵
a,b = np.linalg.eig(x)
#特征值
a
#特征向量
b

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

array([1., 2., 3.])

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

根据公式 Ax = λx 检验特征值与特征向量是否正确：

In [24]:
# method 1
for i in range(3):
    if np.allclose(np.dot(a[i], b[:, i]), x[:, i]):
        print("right")  
    else:
        print("Error")
        
# method 2
for i in range(3):
    if(np.dot(a[i],b[:,i])==x[:,i]).all():
        print("right")
    else:
        print("Error")

right
right
right
right
right
right


注意，如果写成 if np.dot(a[i], b[:, i]) == x[:,i]: 是错误的：(矩阵包含有多个值，应该使用a.any()或者a.all()判断)

 ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

### 判断正定矩阵

设M是n阶方阵，如果对任何非零向量z，都有z'Mz> 0，其中z' 表示z的转置，就称M正定矩阵。

判定定理1：对称阵A为正定的充分必要条件是：A的特征值全为正。

判定定理2：对称阵A为正定的充分必要条件是：A的各阶顺序主子式都为正。

判定定理3：任意阵A为正定的充分必要条件是：A合同于单位阵。

下面用定理1判断对称阵是否为正定阵

In [25]:
A = np.arange(16).reshape(4,4);A
#将方阵转换成对称阵
A = A +A.T;A
#求B的特征值，注意：eig()是求特征值特征向量
B = np.linalg.eigvals(A);B
#判断是不是所有的特征值都大于0，用到了all函数，显然对称阵A不是正定的
if np.all(B>0):
    print('Yes')
else:
    print("No")

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

array([[ 0,  5, 10, 15],
       [ 5, 10, 15, 20],
       [10, 15, 20, 25],
       [15, 20, 25, 30]])

array([ 6.74165739e+01+0.00000000e+00j, -7.41657387e+00+0.00000000e+00j,
       -8.88285420e-17+1.82759332e-15j, -8.88285420e-17-1.82759332e-15j])

No


创建一个对角元素都为正的对角阵，它一定是正定的

In [26]:
A = np.diag((1,2,3))#对角阵，其特征值都为正
B = np.linalg.eigvals(A) ;B#特征值
#判断特征值是否都大于0
if np.all(B>0):
    print("yes")
else:
    print("No")

array([1., 2., 3.])

yes


更简便的方法是对对称阵进行cholesky分解，如果像这样没有提示出错，就说明它是正定的。
如果提示出错，就说明它不是正定矩阵，你可以使用try函数捕获错误值：

In [27]:
A = np.arange(16).reshape(4,4);A
A = A+A.T;A
try:
    B = np.linalg.cholesky(A)
except:
    print('不是正定矩阵，不能进行cholesky分解.')

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

array([[ 0,  5, 10, 15],
       [ 5, 10, 15, 20],
       [10, 15, 20, 25],
       [15, 20, 25, 30]])

不是正定矩阵，不能进行cholesky分解.


### 矩阵向量积

当矩阵$\mathbf{A}$ 的列数与向量 $\vec{\mathbf{x}}$ 的分量数相同时，矩阵和向量的积有定义：

$$\underset{m\times n}{A}\vec{\mathbf{x}}=\begin{bmatrix}a_{11} & a_{12} & \ldots & a_{1n} \\ a_{21} & a_{22} & \ldots & a_{2n} \\ \ldots \\ a_{m1} & a_{m2} & \ldots & a_{mn}\end{bmatrix} \begin{bmatrix}x_1 \\ x_2 \\ \ldots \\ x_n \end{bmatrix} = \begin{bmatrix}a_{11}x_1 + a_{12}x_2 + \ldots + a_{1n}x_n \\ a_{21}x_1 + a_{22}x_2 + \ldots + a_{2n}x_n \\ \ldots \\ a_{m1}x_1 + a_{m2}x_2 + \ldots + a_{mn}x_n \\ \end{bmatrix}$$

例如矩阵$\mathbf{A} = \begin{bmatrix}4 & 3 & 1 \\ 1 & 2 & 5\end{bmatrix}$乘以向量 $\vec{\mathbf{x}} = \begin{bmatrix}5 \\ 2 \\ 7\end{bmatrix}$的结果为:
$$\begin{bmatrix}4\cdot 5 + 3\cdot 2 + 1\cdot 7 \\ 1 \cdot 5 + 2 \cdot 2 + 5 \cdot 7\end{bmatrix} = \begin{bmatrix}33 \\ 44\end{bmatrix} $$

In [28]:
a = np.matrix('4 3 1;1 2 5');a
b = np.matrix('5;2;7');b
a*b

matrix([[4, 3, 1],
        [1, 2, 5]])

matrix([[5],
        [2],
        [7]])

matrix([[33],
        [44]])

矩阵的向量积可以当成是矩阵的所有列向量的线性组合：
$$\underset { m\times n }{ \mathbf{A} } \vec { \mathbf{x} } =\begin{bmatrix} \underbrace { \begin{bmatrix} a_{ 11 } \\ a_{ 21 } \\ \ldots \\ a_{ m1 } \end{bmatrix} }_{ \vec { \mathbf{ V }_{ 1 } }  }  & \underbrace { \begin{bmatrix} a_{ 12 } \\ a_{ 22 } \\\ldots  \\ a_{ m2 } \end{bmatrix} }_{ \vec { \mathbf{ V_{ 2 } } }  } & \ldots & \underbrace { \begin{bmatrix} a_{ 1n } \\ a_{ 2n } \\ \ldots \\ a_{ mn } \end{bmatrix} }_{ \vec { \mathbf{ V_{ n } } }  }  \end{bmatrix}\begin{bmatrix} x_{ 1 } \\ x_{ 2 } \\ \ldots \\ x_{ n } \end{bmatrix}=x_1\vec{\mathbf{V}_1}+x_2\vec{\mathbf{V}_2}+\ldots+x_n\vec{\mathbf{V}_n}
$$
而向量 $\vec{\mathbf{x}}$  的每一个分量可以看成是 $\mathbf{A}$的每个列向量的加权。

* 一个矩阵其实就是一个线性变换。一个矩阵乘以一个向量后得到的向量，其实就相当于将这个向量进行了线性变换

### 求解方程组

$$\left\{ \begin{eqnarray} 3x+2y & = & 7 \\ -x+y & = & 1 \end{eqnarray} \right.$$


可以使用矩阵表示为：$$ \begin{bmatrix}3 & 2 \\-1 & 1\end{bmatrix}\begin{bmatrix}x \\y\end{bmatrix}=\begin{bmatrix}7\\1\end{bmatrix} $$

In [29]:
a = np.matrix('3 2;-1 1')
b = np.matrix('7;1')
np.linalg.solve(a,b)

matrix([[1.],
        [2.]])

### 线性无关

### 张成空间

一组向量的张成空间说白了就是指这些向量随便线性组合后能够表示多少个向量。记为 $span(\vec{\mathbf{a}}, \vec{\mathbf{b}})$

例如，对于 $\mathbb{R}^{2}$空间中两个不平行的非0向量 $\vec{\mathbf{a}} = \begin{bmatrix} 2 \\ 1\end{bmatrix}$ 和向量 $\vec{\mathbf{b}} = \begin{bmatrix} 0 \\ 3\end{bmatrix}$，不难发现这两个向量能够表示二维空间中任一其他向量，即$span(\vec{\mathbf{a}}, \vec{\mathbf{b}}) = \mathbb{R}^{2}$ 。证明如下：

对于 $\mathbb{R}^{2}$中任一向量$\begin{bmatrix} x \\ y\end{bmatrix}$，假设可以由$\vec{\mathbf{a}}$和$\vec{\mathbf{b}}$线性组合而成，那么有：
$$ c_1 \begin{bmatrix}2 \\ 1\end{bmatrix} + c_2 \begin{bmatrix} 0 \\ 3 \end{bmatrix} = \begin{bmatrix} x \\ y \end{bmatrix}$$
即：
$$
\left\{
\begin{align}
c_1 \cdot 2 & + c_2 \cdot 0 &= x\\\
c_1 \cdot 1 & + c_2 \cdot 3 &= y
\end{align}
\right.
$$
求解该方程得：
$$
\left\{
\begin{align}
c_1 &= \frac{x}{2}\\
c_2 &= \frac{y}{3} - \frac{x}{6}
\end{align}
\right.
$$
由于 $x$、$y$ 的值已确定，所以 $c_1$、$c_2$ 的值也必然唯一。

### 线性相关和线性无关

当一个向量集合里的每个向量都对张成的空间有贡献时，称这个向量集合线性无关。反之称为线性相关。能够表示一个空间的最少向量组合称为空间的基。

其实就是非常简单的道理：假如一个向量集合中存在某个向量能由集合里的其他向量线性组合而成，那这个集合对于张成空间而言就存在多余的向量。此时就是线性相关；反之，假如集合里每一个元素都没法由其他元素组合而成，那么这个集合每个元素都对张成空间有贡献，这个集合就是线性无关的。

例如，对于上述的例子，如果再增加一个向量 $\vec{\mathbf{c}} = \begin{bmatrix} 5 \\ 2\end{bmatrix}$，由于 $\vec{\mathbf{c}}$  可以由$\vec{\mathbf{a}}$和$\vec{\mathbf{b}}$线性组合而成，由 $a$ 、$b$ 和 $c$ 共同张成的空间并没有变化，仍然是 $\mathbb{R}^{a}$，因此称集合$\left\{\vec{\mathbf{a}},\vec{\mathbf{v}},\vec{\mathbf{c}}\right\}$ 线性相关。

### 判断是否线性相关

一个向量集合$s = {v_1, v_2, \ldots, v_n}$线性相关的充分必要条件是存在一部分非0系数使得$c_1 v_1 + c_2 v_2 + \ldots + c_n v_n = \mathbf{0} = \begin{bmatrix} 0 \\ 0 \\ \ldots \\ 0\end{bmatrix}$

例如有向量 $\begin{bmatrix}2 \\ 1\end{bmatrix}$ 和 $\begin{bmatrix}3 \\ 2\end{bmatrix}$，则可以先写出如下的等式：
$$ c_1 \begin{bmatrix}2 \\ 1\end{bmatrix} + c_2 \begin{bmatrix}3 \\ 2\end{bmatrix} = \begin{bmatrix}0 \\ 0\end{bmatrix}$$
容易求解得 $\begin{bmatrix}c_1 \\ c_2\end{bmatrix} = \begin{bmatrix}0 \\ 0\end{bmatrix}$,**说明两个向量线性无关。也说明这两个向量可以张成$\mathbb{R}^{2}$**

对于三个$\mathbb{R}^{3}$ 中的向量 $\begin{bmatrix}2 \\ 0 \\ 0\end{bmatrix}$、$\begin{bmatrix}0 \\ 1 \\ 0\end{bmatrix}$ 和 $\begin{bmatrix}0 \\ 0 \\ 7\end{bmatrix}$，不难判断这三个向量是线性无关的，他们共同张成了$\mathbb{R}^{3}$ 空间。

而对于向量集合 $\left\{\begin{bmatrix}2 \\ 1\end{bmatrix}, \begin{bmatrix}3 \\ 2\end{bmatrix}, \begin{bmatrix}1 \\ 2 \end{bmatrix}\right\}$ ，不难算出存在非 0 的系数 $\begin{bmatrix}c_1 \\ c_2 \\ c_3\end{bmatrix} = \begin{bmatrix}-4 \\ 3 \\ -1\end{bmatrix}$使得 $c1 \begin{bmatrix}2 \\ 1\end{bmatrix} + c_2 \begin{bmatrix}3 \\ 2\end{bmatrix} + c_3 \begin{bmatrix}1 \\ 2 \end{bmatrix} = \begin{bmatrix}0 \\ 0\end{bmatrix}$。因此集合 $\left\{\begin{bmatrix}2 \\ 1\end{bmatrix}, \begin{bmatrix}3 \\ 2\end{bmatrix}, \begin{bmatrix}1 \\ 2 \end{bmatrix}\right\}$线性相关。

* $\mathbb{R}^n$:表示 n 个有序实数二元组构成的空间.$\mathbb{R}^n = \left\{ (x_1, \ldots, x_n) | x_1, \ldots, x_n \in \mathbb{R} \right\}$

如果一个向量集合线性无关，且集合里的每个向量长度都为 1 ，那么就称这个集合为 标准正交集合 （Othonormal Set），称这个集合的基为 标准正交基 

**基可以理解为坐标系的轴。我们平常用到的大多是直角坐标系，在线形代数中可以把这个坐标系扭曲、拉伸、旋转，称为基的变换。我们可以按我们的需求去设定基，但是基的轴之间必须是线形无关的。**

## 张量

张量（tensor）可以看作是向量、矩阵的自然推广，我们用张量来表示广泛的数据类型。
* 规模最小的张量是0阶张量，即标量，也就是一个数。
* 当我们把一些数有序的排列起来，就形成了1阶张量，也就是一个向量。
* 如果我们继续把一组向量有序的排列起来，就形成了2阶张量，也就是一个矩阵。
* 把矩阵摞起来，就是3阶张量，我们可以称为一个立方体，具有3个颜色通道的彩色图片就是一个这样的立方体

张量的阶数有时候也称为维度（dimension），或者轴（axis）。

In [30]:
a = np.array([[1,2],[3,4]])
ax0 = np.sum(a,axis=0)#0轴
ax1 = np.sum(a,axis=1)#1轴
a;ax0;ax1

array([[1, 2],
       [3, 4]])

array([4, 6])

array([3, 7])

# 线性代数进阶

线性代数基础中主要介绍了线性代数中两个最基本的数据表达方式：矩阵和向量。接下来我们可以再进一步，讨论下面一些内容：
1. 如何求解线性空间的基？
2. 向量的子空间、零空间、列空间、行空间、左零空间都是什么东西？怎么求解？
3. 如何用线性代数的知识来拟合数据？
4. 机器学习、图像处理中常见的“特征向量”究竟是什么东西？它和变换矩阵有什么联系

### 阶梯形矩阵

阶梯形矩阵是一类非常实用的工具，可以帮助我们求解出线性空间的基，这就能用在诸如计算解不唯一的方程组之类的问题上

若矩阵 $\mathbf{A}$满足两条件：
1. 若有零行（元素全为0的行），则零行应在最下方；
2. 非零首元（即非零行的第一个不为零的元素）的列标号随行标号的增加而严格递增。

则称此矩阵 $\mathbf{A}$为阶梯形矩阵。
例如：
$$\begin{bmatrix}
2 & 0 & 2 & 1 \\
0 & 5 & 2 & -2 \\
0 & 0 & 3 & 2 \\
0 & 0 & 0 & 0
\end{bmatrix}$$

#### 行简化阶梯形矩阵

若矩阵 $\mathbf{A}$ 满足两条件：
1. 它是阶梯形矩阵；
2. 非零首元所在的列除了非零首元外，其余元素全为0。

则称此矩阵$\mathbf{A}$为行简化阶梯形矩阵。

#### 行最简形矩阵

若矩阵 $\mathbf{A}$ 满足两条件：

1. 它是行简化阶梯形矩阵；
2. 非零首元都为1

则称此矩阵 $\mathbf{A}$为行最简形矩阵。

### 线性子空间

我们需要从一个空间 $\mathbf{K}$ 里头挑出一些向量张成一个新的空间 $\mathbf{W}$ ，这个空间 $\mathbf{W}$就是原来的向量 $\mathbf{K}$的子空间。

**定理**：设 $\mathbf{V}$是在域$\mathbf{K}$上的向量空间，并设$\mathbf{W}$ 是 $\mathbf{V}$的子集。则 $\mathbf{W}$ 是个子空间，当且仅当它满足下列三个条件:
1. 零向量 0 在 $\mathbf{W}$ 中。
2. 加法封闭：如果$\vec{\mathbf{u}}$ 和$\vec{\mathbf{v}}$是 $\mathbf{W}$的元素，则向量和$\vec{\mathbf{u}} + \vec{\mathbf{v}}$  是$\mathbf{W}$ 的元素。
3. 标量乘法封闭：如果$\vec{\mathbf{u}}$ 是 $\mathbf{W}$ 的元素而$c$是标量，则标量积 $c\vec{\mathbf{v}}$是 $\mathbf{W}$的元素

#### 零空间

矩阵$\mathbf{A}$的零空间 $N(\mathbf{A})$ 就是由满足 $\mathbf{A}\vec{\mathbf{x}}=0$的所有向量 $\vec{\mathbf{x}}$的集合。

要求解一个矩阵的零空间，可以先将其化简成行最简形。例如矩阵$\mathbf{A} = \begin{bmatrix} 1 & 1 & 1 & 1 \\ 1 & 2 & 3 & 4 \\ 4 & 3 & 2 & 1 \end{bmatrix}$。 为了计算零空间，可以写出如下的等式:
$$\begin{bmatrix} 1 & 1 & 1 & 1 \\ 1 & 2 & 3 & 4 \\ 4 & 3 & 2 & 1 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \\ x_4 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ 0 \end{bmatrix}$$

展开得到方程组：
$$\left\{ 
\begin{eqnarray} 
x_1 + x_2 + x_3 + x_4 &=& 0 \\\
x_1 + 2x_2 + 3x_3 + 4x_4 &=& 0 \\\
4x_1 + 3x_2 + 2x_4 + x_4 &=& 0
\end{eqnarray}
\right.$$

把上面的方程组表示成增广矩阵:
$$\begin{bmatrix} 1 & 1 & 1 & 1 & 0 \\ 1 & 2 & 3 & 4 & 0 \\ 4 & 3 & 2 & 1 & 0 \end{bmatrix}$$

将其转换成行最简形:
$$\begin{bmatrix} 1 & 0 & -1 & -2 & 0 \\ 0 & 1 & 2 & 3 & 0 \\ 0 & 0 & 0 & 0 & 0 \end{bmatrix}$$

最终求解得到：
$$\begin{bmatrix} x_{ 1 } \\ x_{ 2 } \\ x_{ 3 } \\ x_{ 4 } \end{bmatrix}=x_{ 3 }\underbrace { \begin{bmatrix} 1 \\ -2 \\ 1 \\ 0 \end{bmatrix} }_{ \vec{\mathbf{a}} } +x_{ 4 }\underbrace{\begin{bmatrix} 2 \\ -3 \\ 0 \\ 1 \end{bmatrix}}_{\vec{\mathbf{b}}}$$

因此矩阵 $\mathbf{A}$ 的零空间就是由上式中的 $\vec{\mathbf{a}}$向量和 $\vec{\mathbf{b}}$向量张成的空间。即
$$N(\mathbf{A}) = span\left(\begin{bmatrix} 1 \\ -2 \\ 1 \\ 0 \end{bmatrix} \begin{bmatrix} 2 \\ -3 \\ 0 \\ 1 \end{bmatrix}\right)$$

另外，上面得到的这个行最简形有两个自由变量，就称矩阵 $\mathbf{A}$ 的**零度**为 2。零度等于$\mathbf{A}\vec{\mathbf{x}} = 0$化成行最简形后自由变量的个数。

**零空间其实和线性无关其实有很大的联系。一个矩阵的零空间为 $\vec{\mathbf{O}}$的充分必要条件是这个矩阵的所有列线性无关。**

#### 列空间

矩阵的列空间就是由每一列的向量张成的空间。对于矩阵$\underset { m\times n }{ \mathbf{A} } =\begin{bmatrix} \underbrace { \begin{bmatrix} a_{ 11 } \\ a_{ 21 } \\ \ldots \\ a_{ m1 } \end{bmatrix} }_{ \vec { \mathbf{ V }_{ 1 } }  }  & \underbrace { \begin{bmatrix} a_{ 12 } \\ a_{ 22 } \\\ldots  \\ a_{ m2 } \end{bmatrix} }_{ \vec { \mathbf{ V_{ 2 } } }  } & \ldots & \underbrace { \begin{bmatrix} a_{ 1n } \\ a_{ 2n } \\ \ldots \\ a_{ mn } \end{bmatrix} }_{ \vec { \mathbf{ V_{ n } } }  }  \end{bmatrix}$,那么矩阵$\mathbf{A}$的列空间就是：
$$C(\mathbf{A}) = span(\vec{v_1}, \vec{v_2}, \ldots, \vec{v_n})$$

把一个矩阵化成行最简形后，这个矩阵的不相关主列（基底）的个数就称为矩阵的秩（Rank），或者叫维数。

**矩阵的秩有一个特性：矩阵$\mathbf{A}$的秩等于矩阵$\mathbf{A}$的转置的秩。即 $Rank(\mathbf{A}) = Rank(\mathbf{A^T})$**

注意 在 Numpy 中的秩和线性代数里的秩是不同的概念。在NumPy中维度（dimensions）叫做轴（axes），轴的个数叫做秩。

In [31]:
a = np.matrix('1 1 1 1;1 2 3 4; 0 0 1 0');a
a.ndim#维度
np.linalg.matrix_rank(a)#秩

matrix([[1, 1, 1, 1],
        [1, 2, 3, 4],
        [0, 0, 1, 0]])

2

3

#### 行空间

有了列空间的定义，行空间顾名思义就是矩阵的每一行转置得到的向量张成的子空间，也就是矩阵的转置的列空间，记为$R(\mathbf{A}) = C(\mathbf{A}^T)$
例如，$\mathbf{A} = \begin{bmatrix}1 & 1 & 1 & 1 \\ 1 & 2 & 3 & 4 \\4 & 3 & 2 & 1\end{bmatrix}$的行空间是$R(\mathbf{A}) = C(\mathbf{A}^T) = span\left(\begin{bmatrix}1 \\ 1 \\ 1 \\ 1\end{bmatrix}\begin{bmatrix}1 \\ 2 \\ 3 \\ 4\end{bmatrix}\begin{bmatrix}4 \\ 3 \\ 2 \\ 1\end{bmatrix}\right)$.

#### 左零空间

矩阵 $\mathbf{A}$ 的左零空间是  $\mathbf{A}$ 的转置的零空间。即：
$$N(\mathbf{A}^T) = \left\{ \vec{\mathbf{x}} | \mathbf{A}^{T} \vec{\mathbf{x}} = \vec{\mathbf{0}} \right\} = \left\{ \vec{\mathbf{x}} | \vec{\mathbf{x}}^{T} \mathbf{A} = \vec{\mathbf{0}}^{T} \right\}$$
如$\mathbf{B} = \begin{bmatrix}1 & 1 & 4 \\ 1 & 2 & 3 \\1 & 4 & 2\\ 1 & 3 & 1\end{bmatrix}$转置矩阵为$\mathbf{A} = \mathbf{A} = \begin{bmatrix}1 & 1 & 1 & 1 \\ 1 & 2 & 3 & 4 \\4 & 3 & 2 & 1\end{bmatrix}$
因此左零空间是
$N(\mathbf{B^T}) = N(\mathbf{A}) = span\left(\begin{bmatrix} 1 \\ -2 \\ 1 \\ 0 \end{bmatrix} \begin{bmatrix} 2 \\ -3 \\ 0 \\ 1 \end{bmatrix}\right)$
由于转置是对称的，所以矩阵 A 的转置的左零空间也是矩阵 A 的零空间。

#### 子空间的正交补

假设 $\mathbf{V}$是 $\mathbb{R}^{n}$的一个子空间，那么  $\mathbf{V}$的正交补 $\mathbf{V}^{\bot}$ 也是一个子空间，定义为 $\left\{\vec{\mathbf{x}} | \vec{\mathbf{x}} \vec{\mathbf{v}}=0\right\}$，也即是$\mathbb{R}^{n}$ 中所有正交于  $\mathbf{V}$的向量所组成的子空间。

由于正交是对称的，所以正交补也是对称的。一个子空间的正交补的正交补依然等于这个子空间。

矩阵的零空间是行空间的正交补，即$ N(\mathbf{A}) = R(\mathbf{A})^{\bot}$。反过来，矩阵的左零空间是列空间的正交补，即 $N(\mathbf{B}^T) = C(\mathbf{B})^{\bot}$。

#### 最小二乘逼近

在 Python 中，可以使用 numpy.linalg.lstsq 方法来求解最小二乘逼近。

#### 求解方程

问题：求解如下方程组
$\left\{ 
\begin{eqnarray} 
x + y &=& 3 \\\
x - y &=& -2 \\\
y &=& 1
\end{eqnarray}
\right.$

详细推理过程见：https://www.hahack.com/wiki/math-linear-algebra.html

In [32]:
a = np.array([[1,1],[1,-1],[0,1]]);a
b = np.array([3,-2,1]);b
x =np.linalg.lstsq(a,b);x

array([[ 1,  1],
       [ 1, -1],
       [ 0,  1]])

array([ 3, -2,  1])

  This is separate from the ipykernel package so we can avoid doing imports until


(array([0.5, 2. ]), array([1.5]), 2, array([1.73205081, 1.41421356]))

numpy.linalg.lstsq 的返回包括四个部分：
1. 最小二乘逼近解。如果 b 是二维的，那么这个逼近的结果有多个列，每一列是一个逼近解。对于上例，逼近解就是 $\begin{bmatrix}0.5 \\  2 \end{bmatrix}$ 。
2. 残差。即每一个 b - a*x 的长度的和。对于上例，残差是 1.5 。
3. 矩阵 a 的秩。对于上例，矩阵 a 的秩为 2 。
4. 矩阵 a 的奇异值。对于上例，矩阵 a 的奇异值为 $\begin{bmatrix}1.73205081 \\  1.41421356\end{bmatrix}$

#### 线性回归

问题：给定4个坐标点 (−1,0), (0,1), (1,2), (2,1) ，求一条经过这些点的直线 y=mx+b。
显然这样的直线并不存在。然而我们能够使用最小二乘逼近，找到一条尽可能接近这些点的直线。将四个点表示成方程组的形式：
$$\left\{
\begin{eqnarray}
f(-1) &= -m + b = 0\\\
f(0) &= 0 + b  = 1\\\
f(1) &= m + b = 2\\\
f(2) &= 2m + b = 1
\end{eqnarray}
\right.$$

将方程组表示成矩阵和向量的形式：
$$\underbrace{\begin{bmatrix}-1 & 1 \\0 & 1 \\1 & 1 \\2 & 1\end{bmatrix}}_{\mathbf{A}}\underbrace{\begin{bmatrix}m\\b\end{bmatrix}}_{\vec{\mathbf{x}}}=\underbrace{
\begin{bmatrix}0\\1\\2\\1\end{bmatrix}}_{\vec{\mathbf{b}}}$$

这个等式的最小二乘逼近就是：
$$\begin{align}
\begin{bmatrix}
-1 & 0 & 1 & 2 \\
1 & 1 & 1 & 1
\end{bmatrix}
\begin{bmatrix}
-1 & 1 \\
0 & 1 \\
1 & 1 \\
2 & 1
\end{bmatrix}
\begin{bmatrix}
m^*\\
b^*
\end{bmatrix}
&=
\begin{bmatrix}
-1 & 0 & 1 & 2 \\
1 & 1 & 1 & 1
\end{bmatrix}
\begin{bmatrix}
0\\
1\\
2\\
1
\end{bmatrix}\\\
\begin{bmatrix}
6 & 2 \\
2 & 4
\end{bmatrix}
\begin{bmatrix}
m^*\\
b^*
\end{bmatrix}
&=
\begin{bmatrix}
4\\
4
\end{bmatrix}
\end{align}$$
容易求得 $\begin{bmatrix}6 & 2\\2 & 4\end{bmatrix}$ 的逆为$\frac{1}{20}\begin{bmatrix}4 & -2\\-2 & 6\end{bmatrix}$，因此
$$\begin{bmatrix}m^*\\b^*\end{bmatrix} = \frac{1}{20}\begin{bmatrix}4 & -2\\-2 & 6\end{bmatrix}\begin{bmatrix}4 \\ 4\end{bmatrix} = \frac{1}{20}\begin{bmatrix}8 \\ 16\end{bmatrix} = \begin{bmatrix}\frac{2}{5} \\ \frac{4}{5}\end{bmatrix}$$

$y = \frac{2}{5}x + \frac{4}{5}$这就是所求的直线的近似解

In [33]:
a = np.matrix('-1 1;0 1;1 1;2 1');a
b = np.array([0,1,2,1]);b
x = np.linalg.lstsq(a,b);x

matrix([[-1,  1],
        [ 0,  1],
        [ 1,  1],
        [ 2,  1]])

array([0, 1, 2, 1])

  This is separate from the ipykernel package so we can avoid doing imports until


(array([0.4, 0.8]), array([1.2]), 2, array([2.68999405, 1.66250775]))

### 特征向量

如果矩阵对某一个向量或某些向量只发生伸缩（尺度）变换，而没有产生旋转的效果（也就意味着张成的子空间没有发生改变），这样的向量就认为是特征向量。
$$\mathbf{T}(\vec{\mathbf{v}}) = \underbrace{\mathbf{A}}_{n\times n}\vec{\mathbf{v}} = \underbrace{\lambda}_{特征值} \overbrace{\vec{\mathbf{v}}}^{特征向量}$$

其中， $\mathbf{T}$是一种线性变换，我们知道线性变换可以用矩阵向量积来表示，因此可以表示成$\mathbf{A}\vec{\mathbf{v}}$  。$\mathbf{A}$ 是一个$n \times n$的方阵。$\vec{\mathbf{v}}$ 就是特征向量（Eigen Vector），也就是能被伸缩的向量（要求是非 0 向量），而 $\lambda$是特征向量$\vec{\mathbf{v}}$  所对应的特征值，也就是伸缩了多少。如果特征值是负数，那说明了矩阵不但把向量拉长（缩短）了，而且让向量指向了相反的方向。

**简而言之，特征向量就是在线性变化当中不变的向量**

#### 求解特征值

非 0 向量$\vec{\mathbf{v}}$ 是线性变化矩阵$\mathbf{A}$的特征向量，需要满足如下条件:
    $$det(\lambda \mathbf{I}_n - \underbrace{\mathbf{A}}_{n\times n}) = 0$$
其中，$det$ 表示矩阵行列式，$\lambda$ 是特征值，$I$ 是单位矩阵。

如矩阵$\mathbf{A} = \begin{bmatrix}1 & 2 \\ 4 & 3\end{bmatrix}$带入上式得：
$$ \begin{align} det\left( \lambda \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}-\begin{bmatrix} 1 & 2 \\ 4 & 3 \end{bmatrix} \right)  &=0 \\ det\left( \begin{bmatrix} \lambda  & 0 \\ 0 & \lambda  \end{bmatrix}-\begin{bmatrix} 1 & 2 \\ 4 & 3 \end{bmatrix} \right)  &=0 \\ det\left( \begin{bmatrix} \lambda -1 & -2 \\ -4 & \lambda -3 \end{bmatrix} \right)  &=0 \end{align}$$

即有：
$$\begin{align} (\lambda -1)(\lambda -3)-8 & =0 \\ \lambda ^{ 2 }-4\lambda -5 &=0 \\ (\lambda - 5)(\lambda +1) &= 0\end{align}$$
因此 $\lambda$的值为 5 或者 -1 。

使用 numpy.linalg.eigvals 方法求解一个**方阵**($n \times n$)的特征值：

In [34]:
a = np.matrix('1 2; 4 3');a
np.linalg.eigvals(a)

matrix([[1, 2],
        [4, 3]])

array([-1.,  5.])

#### 求解特征向量

变换矩阵$\mathbf{A}$的特征空间（特征向量张成的空间）可以用下面的等式来求解：$$\mathbf{E}_{\lambda}=N(\lambda I_n - \mathbf{A})$$
例如矩阵$\mathbf{A} = \begin{bmatrix}1 & 2 \\ 4 & 3\end{bmatrix}$带入上式：
$${ E }_{ \lambda  }=N\left( \lambda I_{ n }-\begin{bmatrix} 1 & 2 \\ 4 & 3 \end{bmatrix} \right) =N\left( \lambda \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}-\begin{bmatrix} 1 & 2 \\ 4 & 3 \end{bmatrix} \right) =N\left( \begin{bmatrix} \lambda -1 & -2 \\ -4 & \lambda -3 \end{bmatrix} \right)$$

当$\lambda = 5$时，有${ E }_{ 5  }=N\left( \begin{bmatrix} 4 & -2 \\ -4 & 2 \end{bmatrix} \right)$

利用前面所学的 *零空间的求解方法* ，得
$${ E }_{ 5  }= span\left(\begin{bmatrix}\frac{1}{2} \\ 1 \end{bmatrix}\right)$$

同样地，当 $\lambda = -1$时:
$${ E }_{ -1  }= span\left(\begin{bmatrix}1 \\ -1 \end{bmatrix}\right)$$

使用 numpy.linalg.eig 方法来求解方阵的特征值和特征向量：

In [35]:
a = np.matrix('1 2; 3 4');a
np.linalg.eig(a)

matrix([[1, 2],
        [3, 4]])

(array([-0.37228132,  5.37228132]),
 matrix([[-0.82456484, -0.41597356],
         [ 0.56576746, -0.90937671]]))

第一部分是特征值，和前面使用 numpy.linalg.eigvals 得到的结果完全一样；第二部分是特征向量，乍一看好像和我们上面求解的结果不一样，但如果我们这么写就完全一样了$\begin{bmatrix}-0.70710678\begin{bmatrix}1 \\ -1\end{bmatrix} & -0.89442719\begin{bmatrix}\frac{1}{2} \\ 1\end{bmatrix} \end{bmatrix}$

变换矩阵线性无关的特征向量特别适合作为空间的基，因为在这些方向上变换矩阵可以拉伸向量而不必扭曲和旋转它，使得计算大为简单。我们把这种基称为 **特征基** 。