# 序1  矩阵


## TL;DR

机器学习如火如荼，要学习机器学习，数学基础少不了。**Linear Algebra (线性代数)** 和 **Statistics (统计学) ** 在机器学习中的地位非常重要并且缺一不可，这代表了机器学习中最主流的两大类方法的基础。

1. 一种是**以研究函数和变换为重点的代数方法**，比如降维（Dimension reduction），特征提取（feature extraction），核化（Kernel）等；

2. 一种是**以研究统计模型和样本分布为重点的统计方法**，比如图形模型（Graphical model）, 信息论模型（Information theoretical models）等。

它们侧重点虽有不同，但是常常是共同使用的，对于线性代数方法，往往需要统计上的解释，而对于统计模型，其具体计算则需要线性代数的帮助。

本系列内容将从线性代数讲起，没讲的开始会有一个**TL;DR的介绍性的案例**，引出具体的数学问题，并开始学习。

本文将针对线性代数中的两个基础知识点**矩阵**和**向量**进行简单的介绍，并对其的基础用法进行学习。

## 使用环境

由于本文针对的对象是程序员，因此会使用一些代码来完成数学意义的展示，在开始前，需要准备一些软件环境，本文的软件环境有：

* [Python](https://www.python.org/) - 编程实践所使用的语言；
* [Numpy](https://pypi.python.org/pypi/numpy) - Python的数值计算库。

> 以上软件的版本，可根据自己的喜好来安装，文中的代码部分基本上不会有什么大的变动。


## 认识矩阵

矩阵（Matrix）是一种人为约定的数据表达方法，在图像处理、人工智能等等领域，使用矩阵来表示和处理数据非常常见。例如如下的表达式，就是一个简单的矩阵：

$\mathbf{A}_{2 \times 3} = \begin{bmatrix}5&2&7\\1&3&4\end{bmatrix}$

该矩阵**A**中，**A**的下标 *2x3* 表示矩阵**A**是一个2行3列的矩阵。类似地，另一个例子：

$\mathbf{B}_{4 \times 4} = \begin{bmatrix}5&2&7&6\\1&3&4&2\\7&-1&9&0\\8&2&-2&3\end{bmatrix}$

矩阵**B**是一个4行3列的矩阵。

我们再回到矩阵**A**，如果要表示第2行的第2个元素3，可以使用**A[2,2]**或者$a_{2,2}$。

## Python 实现

Python中的 Numpy 库提供了 ndarray 类以用来存储高维度数组以及普通数组的运算，另外还提供了 matrix 类用来支持矩阵运算，例如：

In [1]:
import numpy as np
a = np.matrix('5 2 7;1 3 4')
a 

matrix([[5, 2, 7],
        [1, 3, 4]])

In [2]:
b = np.matrix('5 2 7 6;1 3 4 2;8 2 -2 3')
b

matrix([[ 5,  2,  7,  6],
        [ 1,  3,  4,  2],
        [ 8,  2, -2,  3]])

你也可以使用另一种方式构建，如下：

In [3]:
import numpy as np
a = np.matrix([[5, 2, 7], [1, 3, 4]])
a

matrix([[5, 2, 7],
        [1, 3, 4]])

In [4]:
b = np.matrix([[5, 2, 7, 6], [1, 3, 4, 2], [8, 2, -2, 3]])
b

matrix([[ 5,  2,  7,  6],
        [ 1,  3,  4,  2],
        [ 8,  2, -2,  3]])

以上两种书写形式完全等效。但是第一种更加的直观，不易犯错。因此推荐！

要把一个matrix对象转换为ndarray对象，可以直接使用numpy中提供的 **getA()**方法，而把 ndarray 对象转成 matrix 对象可以用 **asmatrix()** 方法。如下：

In [5]:
print (type(a))
b = a.getA()
print (b)
print (type(b))

<class 'numpy.matrixlib.defmatrix.matrix'>
[[5 2 7]
 [1 3 4]]
<class 'numpy.ndarray'>


In [6]:
c = np.asmatrix(b)
c

matrix([[5, 2, 7],
        [1, 3, 4]])

要取出矩阵中的某个值，可以使用类似数组的小标运算符。但是要注意的是，计算机是以 **0** 开始计数的。例如，要取出矩阵**A**中第二行第二列的数值，应该使用：

In [7]:
print (a[1,1])

3


## 基本运算

### 加法

矩阵的加法定义非常符合人类的直觉。假设有矩阵$\mathbf{A}_{3 \times 3} = \begin{bmatrix}1&0&1\\1&2&1\\2&1&1\end{bmatrix}$，$\mathbf{B}_{3 \times 3} = \begin{bmatrix}2&1&-1\\0&-1&2\\2&-1&0\end{bmatrix}$，则加法运算如下：

$\mathbf{A} + \mathbf{B} =\begin{bmatrix}1&0&1\\1&2&1\\2&1&1\end{bmatrix} + \begin{bmatrix}2&1&-1\\0&-1&2\\2&-1&0\end{bmatrix}
= \begin{bmatrix}{1 + 2}&{0 + 1}&{1 + (-1)}\\{1 + 0}&{2 + (-1)}&{1 + 2}\\{2 + 2}&{1 + (-1)}&{1 + 0}\end{bmatrix} = \begin{bmatrix}3&1&0\\1&1&3\\4&0&1\end{bmatrix}$

在加法运算中，要主要两个矩阵的行数和列数必须相同，否则加法无定义。

使用Python代码实现加法如下示例：

In [8]:
a = np.matrix('1 0 1; 1 2 1; 2 1 1')
b = np.matrix('2 1 -1; 0 -1 2; 2 -1 0')
c = a + b
c

matrix([[3, 1, 0],
        [1, 1, 3],
        [4, 0, 1]])

矩阵的加法满足交换律和结合律，即 **A + B = B + A, (A + B) + C = A + (B + C)**。

### 减法

矩阵的减法也和加法一样简单。对于上面给出的矩阵**A**和**B**，有：

$\mathbf{A} - \mathbf{B} =\begin{bmatrix}1&0&1\\1&2&1\\2&1&1\end{bmatrix} - \begin{bmatrix}2&1&-1\\0&-1&2\\2&-1&0\end{bmatrix}
= \begin{bmatrix}{1 - 2}&{0 - 1}&{1 - (-1)}\\{1 - 0}&{2 - (-1)}&{1 - 2}\\{2 - 2}&{1 - (-1)}&{1 - 0}\end{bmatrix} = \begin{bmatrix}-1&-1&2\\1&3&-1\\0&2&1\end{bmatrix}$

同样的，相减的两个矩阵行数和列数也必须相同，否则无定义。

Python示例如下：

In [9]:
c = a - b
c

matrix([[-1, -1,  2],
        [ 1,  3, -1],
        [ 0,  2,  1]])

### 乘法

矩阵的乘法定义是$\mathbf{A}_{i \times j}$矩阵的每一行的元素分别与$\mathbf{B}_{j \times k}$矩阵的每一列的元素两两相乘并相加，从而得到一个新的矩阵$\mathbf{C}_{i \times k}$。两个矩阵能相乘的充要条件是第一个矩阵的列数与第二个矩阵的行数相等，否则无定义。例如，对于上面给出的矩阵**A**和**B**，相乘如下：

$\mathbf{A} \times \mathbf{B} =\begin{bmatrix}1&0&1\\1&2&1\\2&1&1\end{bmatrix} \times \begin{bmatrix}2&1&-1\\0&-1&2\\2&-1&0\end{bmatrix}
= \begin{bmatrix}{1 \times 2} + {0 \times 0} + {1 \times 2}&{1 \times 1} + {0 \times (-1)} + {1 \times (-1)}&{1 \times (-1)} + {0 \times 2} + {1 \times 0}\\{1 \times 2} + {2 \times 0} + {1 \times 2}&{1 \times 1} + {2 \times (-1)} + {1 \times (-1)}&{1 \times (-1)} + {2 \times 2} + {1 \times 0}\\{2 \times 2} + {1 \times 0} + {1 \times 2}&{2 \times 1} + {1 \times (-1)} + {1 \times (-1)}&{2 \times (-1)} + {1 \times 2} + {1 \times 0}\end{bmatrix} 
= \begin{bmatrix}4&0&-1\\4&-2&3\\6&0&0\end{bmatrix}$


再举一个行列数不同的例子，假设有$\mathbf{C}_{2 \times 3} = \begin{bmatrix}5&7&2\\4&3&1\end{bmatrix}$ 和 $\mathbf{D}_{3 \times 1} = \begin{bmatrix}1\\5\\3\end{bmatrix}$，则可以得出：


$$\mathbf{C} \times \mathbf{D} = \begin{bmatrix}5&7&2\\4&3&1\end{bmatrix} \times \begin{bmatrix}1\\5\\3\end{bmatrix} = \begin{bmatrix}{5 \times 1} + {7 \times 5} + {2 \times 6}\\{4 \times 1} + {3 \times 5} + {1 \times 6}\end{bmatrix} = \begin{bmatrix}52\\25\end{bmatrix}$$


与初等代数的乘法不同的是，矩阵的乘法并不满足交换律，即 $\mathbf{A} \times \mathbf{B} \neq \mathbf{B} \times \mathbf{A}$。但是满足分配律，即$(\mathbf{A} \times \mathbf{B}) \times \mathbf{C} = \mathbf{A} \times (\mathbf{B} \times \mathbf{C})$。

另外在矩阵的世界里，有两个较为特殊的矩阵：

1. 单元矩阵$\mathbf{I}$： 它的特点是行数和列数相等，并且对角线上的值为1，其他地方的值为0。它的一个特性是与其他矩阵相乘都等于那个矩阵的本身。例如下面所示的 $ 3 \times 3$ 的单元矩阵：

$$\mathbf{I}_{3 \times 3} = \begin{bmatrix}1&0&0\\0&1&0\\0&0&1\end{bmatrix}$$

2. 零矩阵：顾名思义就是全部元素都是0的矩阵。零矩阵乘以任何矩阵都是零矩阵，与任何矩阵相加都等于那个矩阵。

下面我们使用Python来实现矩阵的乘法部分内容：

In [10]:
a = np.matrix('1 0 1;1 2 1;2 1 1')
a

matrix([[1, 0, 1],
        [1, 2, 1],
        [2, 1, 1]])

In [11]:
b = np.matrix('2 1 -1;0 -1 2;2 -1 0')
b

matrix([[ 2,  1, -1],
        [ 0, -1,  2],
        [ 2, -1,  0]])

In [12]:
a * b

matrix([[ 4,  0, -1],
        [ 4, -2,  3],
        [ 6,  0,  0]])

In [13]:
b * a

matrix([[ 1,  1,  2],
        [ 3,  0,  1],
        [ 1, -2,  1]])

In [14]:
c = np.matrix('5 7 2;4 3 1')
c

matrix([[5, 7, 2],
        [4, 3, 1]])

In [15]:
d = np.matrix('1;5;6')
d

matrix([[1],
        [5],
        [6]])

In [16]:
 c * d

matrix([[52],
        [25]])

In [17]:
 a * b * d

matrix([[-2],
        [12],
        [ 6]])

In [18]:
a * (b * d)

matrix([[-2],
        [12],
        [ 6]])

In [19]:
I = np.eye(3)
I

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

In [20]:
a * I

matrix([[ 1.,  0.,  1.],
        [ 1.,  2.,  1.],
        [ 2.,  1.,  1.]])

In [21]:
I * a

matrix([[ 1.,  0.,  1.],
        [ 1.,  2.,  1.],
        [ 2.,  1.,  1.]])

In [22]:
z = np.matrix('0 0 0;0 0 0;0 0 0')
z

matrix([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])

In [23]:
a * z

matrix([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])

In [24]:
b * z

matrix([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])

In [25]:
c * z

matrix([[0, 0, 0],
        [0, 0, 0]])

In [26]:
I * z

matrix([[ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.]])

上面我们创建单元矩阵的时候，使用了**eye()**函数，是一种内置的函数，专用于构建单元矩阵，当然也可以这么写：

In [27]:
I = np.matrix('1 0 0;0 1 0;0 0 1')
I

matrix([[1, 0, 0],
        [0, 1, 0],
        [0, 0, 1]])

## 除（求逆）

矩阵本身并没有叫做除法的操作，但是又与除法相似的运算，叫做**求逆**运算。

矩阵$\mathbf{A}$ 的逆 $\mathbf{A}^{-1}$ 被定义为一个与$\mathbf{A}$相乘后能得到一个单元矩阵的矩阵。即 $\mathbf{A} \times \mathbf{A}^{-1} = \mathbf{I}$。矩阵求逆的过程本身也是可逆的，一个矩阵的逆的逆也就是矩阵本身。因此$\mathbf{A}^{-1} \times \mathbf{A} = \mathbf{I}$。根据这个特点我们可以推断出能求逆的矩阵，其行数和列数也必然相同。

为什么说这个求逆操作很像除等代数的除法呢？因为矩阵的逆很像数的倒数，一个数乘以它的倒数等于 1。而拿倒数与其他数相乘，就相当于被其他数除。

矩阵的求逆有很多种方法。常见的有**伴随阵法**、**初等变换法**、**分块矩阵求逆法**等。

> 由于所有方法全部讲完，时间过长，因此这里只对**伴随阵法**进行一个讲解，其中设计到的部分概念请自行查询资料。


### 伴随阵法

> **定理：** $n$ 阶矩阵$\mathbf{A} = \left[a_{ij}\right]$
  为可逆的充分必要条件是 $\mathbf{A}$ 非奇异。且
  
> $$\mathbf{A}^{-1} = \frac1{|{\mathbf{A}}|}\begin{bmatrix}{A_{11}}&{A_{21}}&{\cdots}&{A_{n1}}\\
{A_{12}}&{A_{22}}&{\cdots}&{A_{n2}}\\
{\vdots}&{\vdots}&{\ddots}&{\vdots}\\
{A_{1n}}&{A_{2n}}&{\cdots}&{A_{nn}}\\\end{bmatrix}$$

> 其中${\mathbf{A}}_{ij}$ 是 $|{\mathbf{A}}|$ 中元素$a_{ij}$的代数余子式。

定理中，矩阵$\frac1{|{\mathbf{A}}|}\begin{bmatrix}{A_{11}}&{A_{21}}&{\cdots}&{A_{n1}}\\
{A_{12}}&{A_{22}}&{\cdots}&{A_{n2}}\\
{\vdots}&{\vdots}&{\ddots}&{\vdots}\\
{A_{1n}}&{A_{2n}}&{\cdots}&{A_{nn}}\\\end{bmatrix}$ 称为矩阵$\mathbf{A}$的伴随矩阵，记作$\mathbf{A}^*$，于是有$\mathbf{A}^{-1} = \frac1{|{\mathbf{A}}|}\mathbf{A}^*$。

对于二阶矩阵，使用伴随阵法比较简单。


假定一个矩阵$\mathbf{M} = \begin{bmatrix}a&b\\c&d\end{bmatrix}$，则$\mathbf{M}^{-1} = \frac1{|{\mathbf{M}}|}\begin{bmatrix}d&-b\\-c&a\end{bmatrix}$，其中$\frac1{|{\mathbf{M}}|}$称为矩阵$\mathbf{M}$的行列式：

$$|{\mathbf{M}}| = ad - bc$$

， 而$\begin{bmatrix}d&-b\\-c&a\end{bmatrix}$就是矩阵$\mathbf{M}$的伴随矩阵。

**例子：**  矩阵$\mathbf{A} = \begin{bmatrix}5&7\\3&2\end{bmatrix}$，那么有：

$$|\mathbf{A}| = 5 \times 2 - 7 \times 3 = -11$$

, 则$\mathbf{A}^{-1} = \frac1{|{-11}|}\begin{bmatrix}2&-7\\-3&5\end{bmatrix} = \begin{bmatrix}-\frac2{11}&\frac7{11}\\\frac3{11}&-\frac5{11}\end{bmatrix}$。最后我们验证一下$\mathbf{A} \times \mathbf{A}^{-1}$的值是否等于$\mathbf{I}$，则有：

$$\mathbf{A} \times \mathbf{A}^{-1} = \begin{bmatrix}5&7\\3&2\end{bmatrix} \times \begin{bmatrix}-\frac2{11}&\frac7{11}\\\frac3{11}&-\frac5{11}\end{bmatrix} = \begin{bmatrix}5 \times (-\frac2{11}) + 7 \times \frac3{11}&5 \times \frac7{11} + (-7 \times \frac5{11})\\3 \times (-\frac2{11}) + 2 \times \frac3{11}&3 \times \frac7{11} + 2 \times (-\frac5{11})\end{bmatrix} = \begin{bmatrix}1&0\\0&1\end{bmatrix}$$

矩阵的求逆这里值演示了二维矩阵的情况，更高维的将会更加复杂，这里给出两个链接供参考：

* [如何求3X3矩阵的逆矩阵](https://zh.wikihow.com/%E6%B1%823X3%E7%9F%A9%E9%98%B5%E7%9A%84%E9%80%86%E7%9F%A9%E9%98%B5)

* [伴随矩阵及其与逆矩阵的关系](http://szjc.sciyard.com/book/ebookdetail.aspx?cateid=1&&sectionid=6475&&headstyle=1)

### 奇异矩阵

要注意的是，并不是所有的矩阵都是可逆的，从定义来看，只有矩阵的行列式的值不为0，矩阵就是可逆的。对于行列式为0的矩阵，称之为**奇异矩阵**。

例如矩阵$\begin{bmatrix}0&0\\0&1\end{bmatrix}$，其行列式的值为 $0 \times 1 - 0 \times 0 = 0$，因此是不能求逆的。

### Python求解矩阵的逆示例

In [28]:
a = np.matrix('1 0 1; 1 2 1; 2 1 1')
a

matrix([[1, 0, 1],
        [1, 2, 1],
        [2, 1, 1]])

In [29]:
I = np.eye(3)
I

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

In [30]:
a.I

matrix([[-0.5, -0.5,  1. ],
        [-0.5,  0.5,  0. ],
        [ 1.5,  0.5, -1. ]])

In [31]:
a * a.I

matrix([[ 1.,  0.,  0.],
        [ 0.,  1.,  0.],
        [ 0.,  0.,  1.]])

In [32]:
a.I * a

matrix([[ 1.,  0.,  0.],
        [ 0.,  1.,  0.],
        [ 0.,  0.,  1.]])

In [33]:
f = np.matrix('0 1; 0 0')
f

matrix([[0, 1],
        [0, 0]])

In [34]:
f.I

LinAlgError: Singular matrix

## 矩阵的应用 --- 求解方程组

矩阵是一种非常通用的数据表示方法，只要能用矩阵来表示数据，就能够使用矩阵的运算解决问题，例如求解方程组。

假如有一个二元方程组

$$\begin{cases}
3x + 2y = 7\\
-x + y = 1\\ 
\end{cases}$$

上面方程组可用矩阵表示为：

$$\begin{bmatrix}3&2\\-1&1\end{bmatrix} \begin{bmatrix}x\\y\end{bmatrix} = \begin{bmatrix}7\\1\end{bmatrix}$$

设上述公式中的$\begin{bmatrix}3&2\\-1&1\end{bmatrix}$为矩阵$\mathbf{A}$，将等式两边分别乘以一个$\mathbf{A}$的逆，得到：

$$\mathbf{A}^{-1} \mathbf{A}\begin{bmatrix}x\\y\end{bmatrix} = \mathbf{A}^{-1} \begin{bmatrix}7\\1\end{bmatrix} = \frac1{|\mathbf{A}|} \begin{bmatrix}1&-2\\1&3\end{bmatrix}\begin{bmatrix}7\\1\end{bmatrix} = \frac15 \begin{bmatrix}1&-2\\1&3\end{bmatrix}\begin{bmatrix}7\\1\end{bmatrix} = \frac15\begin{bmatrix}5\\10\end{bmatrix}$$

因此：$\begin{bmatrix}x\\y\end{bmatrix} = \begin{bmatrix}1\\2\end{bmatrix}$

虽然这个例子给出的方法用于二元一次矩阵求解还不如直接用初中就学到的消元法，但矩阵的好处在于对于更高维的数据，比如有成百上千个未知数，这个解法依然有效。

使用Python求解方程组示例：

In [None]:
a = np.matrix('3 2; -1 1')
b = np.matrix('7; 1')
np.linalg.solve(a, b)

## 总结

关于矩阵的基本知识就介绍这里，其中有很多关于矩阵的定义和运算都没有设计到，对于对此部分感兴趣的，可以在课后需要查找资料，并进行详细学习、理解。