# 2. 矩阵运算基础，矩阵求导与最小二乘法

在Lesson1中，我们介绍了关于机器学习的一般建模流程，并且在基本没有数学公式和代码的情况下，简单介绍了关于线性回归的一般实现形式。不过这只是在初学阶段，为了不增加基础概念理解难度所采取的方法，但所有的技术最终都是为了解决实际问题的，因此，接下来，我们就在之前的基础上更进一步，从一个更加严谨的理论体系出发，来尝试进行一种更加贴合实际应用所采用的一般方法的建模方法的学习。

## 2.1 Numpy矩阵运算基础

在进入到本节正式内容之前，我们需要补充一些矩阵相关基础概念，以及矩阵运算的基本方法。

在机器学习基础阶段，需要掌握的矩阵以及线性代数基本理论包括：

* 矩阵的形变以及特殊矩阵的构造方法：包括矩阵的转置，对角矩阵的创建，单位矩阵的创建，上/下三角矩阵的创建等；

* 矩阵的基本运算：包括矩阵乘法，向量内积，矩阵和向量的乘法等；

* 矩阵的线性代数运算：包括矩阵的迹，矩阵的秩，逆矩阵的求解，伴随矩阵和广义矩阵等；

* 矩阵的分解运算：特征分解，奇异值分解和SVD分解等。

本节将先介绍前三部分的内容，矩阵分解部分内容将在后续补充。

### 2.1.1 Numpy中矩阵的表示

在Numpy中，二维数组(array)和matrix类型对象都可以表示矩阵，并且也都具备矩阵的代数学方法。

* 利用数组创建矩阵

In [2]:
import numpy as np
A = np.array([[1, 2, 3], [4, 5, 6]])
A

array([[1, 2, 3],
       [4, 5, 6]])

In [3]:
type(A)

numpy.ndarray

* 利用mat创建矩阵

In [4]:
AM = np.matrix(A)
AM

matrix([[1, 2, 3],
        [4, 5, 6]])

In [5]:
type(AM)

numpy.matrix

关于两种对象类型的选取，此处进行简单说明：

* Numpy中的matrix类型对象和MATLAB中的matrix类型等价，和Numpy中数组类型对象底层基本结构不同；

* 在Numpy中，针对大规模数据，数组类型对象的计算速度要快于矩阵类型对象；

* 矩阵类型对象可以通过运算符直接进行矩阵乘法，而二维数组要进行矩阵乘法（及其它矩阵运算），则必须要使用包括linalg（线性代数运算）模块在内的相关函数。

In [6]:
AM * AM.T

matrix([[14, 32],
        [32, 77]])

为了执行更高效的计算，以及确保代码整体基本对象类型统一，课程如无说明，将统一使用二维数组表示矩阵。

### 2.1.2 Numpy中特殊矩阵构造方法

在实际线性代数运算过程中，经常涉及一些特殊矩阵，如单位矩阵，对角矩阵，相关创建方法如下：

![Alt text](image.png)

In [7]:
# 创建一个2*3的矩阵
a1 = np.arange(1, 7).reshape(2, 3)
a1

array([[1, 2, 3],
       [4, 5, 6]])

In [8]:
# 转置
a1.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [9]:
# 创建对角矩阵
a2 = np.diag([1, 2, 3])
a2

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

In [10]:
a1 = np.arange(9).reshape(3, 3)
a1

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [11]:
# 取上三角
np.triu(a1)

array([[0, 1, 2],
       [0, 4, 5],
       [0, 0, 8]])

In [12]:
# 取下三角
np.tril(a1)

array([[0, 0, 0],
       [3, 4, 0],
       [6, 7, 8]])

### 2.1.3 Numpy中矩阵基本运算

由于Numpy中我们使用二维数组来表述矩阵，因此二维数组也就具备了数组和矩阵的两重属性。其中数组属性决定的基本运算相对简单，基础运算（如加减乘除）就是对应位置元素进行逐元素计算，而矩阵属性决定的运算则稍显复杂，当然矩阵的相关线性代数运算将在下一节讨论，在基础运算上，矩阵和数组核心的区别在于乘法运算。

当然，从另一个角度考虑，其实对于向量和矩阵这种具备一定结构的对象，有很多容易混淆的计算规则。对于常用的计算规则，我们通过将其划分成三类以帮助大家理解：

![Alt text](image-1.png)

* 逐个元素相乘

In [13]:
a = np.arange(4)
a 

array([0, 1, 2, 3])

In [14]:
a * a

array([0, 1, 4, 9])

In [15]:
A = a.reshape(2, 2)
A

array([[0, 1],
       [2, 3]])

In [16]:
A * A

array([[0, 1],
       [4, 9]])

* 向量点积

所谓点积（也被称为内积），指的是向量或矩阵对应位置元素相乘后相加。向量点积有三种实现方法，分别时dot,vdot和ineer。

In [17]:
np.dot(a, a)

14

In [18]:
np.vdot(a, a)

14

In [19]:
np.inner(a, a)

14

* 矩阵点积

值得注意的时，矩阵内积只有vodt一种方式实现。

In [20]:
A

array([[0, 1],
       [2, 3]])

In [21]:
np.vdot(A, A)

14

* 矩阵乘法

Numpy中，我们可以使用诸多方法来实现矩阵乘法，包括dot，@，matmul等。

In [22]:
a1 = np.arange(1, 7).reshape(2, 3)
a1

array([[1, 2, 3],
       [4, 5, 6]])

In [23]:
a2 = np.arange(1, 10).reshape(3, 3)
a2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [24]:
# 矩阵乘法
a1.dot(a2)

array([[30, 36, 42],
       [66, 81, 96]])

此处也简单回顾矩阵乘法运算，上述相乘过程如下所示：

![Alt text](image-2.png)

> 值得注意的是，矩阵相乘要求左乘矩阵列数和右乘矩阵行数相同，而内积计算过程则严格要求两个向量/矩阵形状完全一致。

### 2.1.4 Numpy中矩阵代数运算

如果说矩阵的基本运算是矩阵基本性质，那么矩阵的线性代数运算，则是我们利用矩阵数据类型在求解实际问题过程中经常涉及道德线性代数方法，具体相关函数如下：

![Alt text](image-14.png)

同时，由于线性代数所涉及的数学基础知识较多，从实际应用的角度出发，我们将所有侧重的介绍实际应用过程中需要掌握的相关内容，并通过本节末尾的实际案例，来加深线性代数相关内容的理解。

> NumPy中的linalg是linear algebra（线性代数）的简写，也是NumPy中保存线性代数相关计算函数的模块。

* 矩阵的迹(trace)

矩阵的迹的运算相对简单，就是矩阵对角线元素之和，在NumPy中，可以使用trace函数进行计算。

In [25]:
A = np.array([[1, 2], [3, 4]])
A

array([[1, 2],
       [3, 4]])

In [26]:
np.trace(A)

5

当然，对于矩阵的迹来说，计算过程不需要是方阵

In [27]:
B = np.arange(1, 7).reshape(2, 3)
B

array([[1, 2, 3],
       [4, 5, 6]])

In [28]:
np.trace(B)

6

* 矩阵的秩（rank）

矩阵的秩（rank），是指矩阵中行或列的极大线性无关组的个数，且矩阵中行/列极大无关数总是相同的，任何矩阵的秩都是唯一值，满秩指的是方阵（行数和列数相同的矩阵）中行数，列数和秩相同，满秩矩阵有线性唯一解等重要特性，而其他矩阵也能通过求解秩来降维，同时，秩也是奇异值分解等运算中涉及到的重要概念。

1. matrix_rank计算矩阵的秩

In [29]:
A = np.array([[1, 3, 4], [2, 1, 3], [1, 1, 2]])
A

array([[1, 3, 4],
       [2, 1, 3],
       [1, 1, 2]])

In [35]:
np.linalg.matrix_rank(A)

2

对于矩阵A来说，第三列明显可以由第一列和第二列相加得到，因此极大线性无关组只有两列。

* 矩阵的行列式(det)

所谓行列式，我们可以简单将其理解为矩阵的一个基本性质或者属性，通过行列式的计算，我们能够知道矩阵是否可逆，从而可以进一步求解矩阵所对应的线性方程。当然，更加专业的解释，行列式作为一个基本数学工具，实际上就是矩阵进行线性变换的伸缩因子。

对于任何一个n维的方阵，行列式计算过程如下：

![Alt text](image-15.png)

In [36]:
np.linalg.det(A)

0.0

### 2.1.5 矩阵方程与向量求导方法

在铺垫了基本矩阵和线性代数相关知识后，接下来，我们尝试Lesson 1中的方程组表示形式转化为矩阵表示形式，并借助矩阵方法进行相关方程求解。并且，在Lesson1中，我们已经剪刀拿讨论了最小二乘法这一优化算法的基本思路，最小二乘法是一个最基础的优化算法，无论是其背后的数学推导还是实际应用，都值得继续深究。因此，本节开始，我们就从矩阵方程入手，先进行矩阵运算的相关方法的回顾，以及进行矩阵求导方法的讲解，再从一个更加严谨的数学角度出发，讨论最小二乘法的基本原理。

* 方程组求解与矩阵方程求解

在Lesson 1中，我们曾经利用损失函数的偏导函数方程组进行简单线性回归模型参数的求解：

![Alt text](image-16.png)

尽管方程组求解由很多种方法，类似Lesson 1中所采用的，先通过方程变量相消法反解出一个变量（w= 1），再将其带入任意一个式子求解出另一个变量（b=1），确实能够顺利求出方程组的解。但在如果想借助编程工具求解方程组，则需要将原先的方程组求解问题转化为矩阵方程的求解问题。例如：上述求解过程方程组为：

$$
20w + 8b - 28 = 0
$$
$$
8w +4b - 12 = 0
$$

我们令：

![Alt text](image-17.png)

其中 $X^{T}$ 为参数向量。借助矩阵运算相关知识，上述方程组可以等价表示为：

$$
AX = B
$$

至此我们就将方程组转化为了矩阵方程，并且，借助矩阵运算，我们可以直接在矩阵方程中对参数向量X进行求解。首先我们利用NumPy基础知识，通过创建二维张量去表述上述矩阵方程中的A和B

In [37]:
A = np.array([[20, 8], [8, 4]])
A

array([[20,  8],
       [ 8,  4]])

In [39]:
B = np.array([[20, 12]]).T
B

array([[20],
       [12]])

注，此时B是二维张量，可以使用矩阵乘法。

In [40]:
B.ndim

2

然后通过行列式计算结果，简单验证A是否满秩：

In [41]:
np.linalg.matrix_rank(A)

2

当然，也可以通过观察A的行列式计算结果是否为0,来判断A是否满秩

In [42]:
np.linalg.det(A)

15.999999999999991

对于满秩矩阵，我们可以求其逆矩阵

In [43]:
np.linalg.inv(A)

array([[ 0.25, -0.5 ],
       [-0.5 ,  1.25]])

然后在矩阵方程左右两端同时左乘其逆矩阵，即可解出X的取值

![Alt text](image-18.png)

In [44]:
np.matmul(np.linalg.inv(A), B)

array([[-1.],
       [ 5.]])

即

![Alt text](image-19.png)

* 向量求导运算

由于在编程实践层面上更倾向于使用矩阵/向量而不是方程组的形式进行计算，因此包括最小二乘法在内的一系列优化方法和算法的理论讲解，我们也将采用矩阵/向量作为基本数据结构进行概念讲解和数学公式推导。在正式讲解最小二乘法原理之前，我们需要先补充一些关于向量求导的相关知识。

1. 向量求导基本方法

首先，我们先来看相对简单的向量求导方法，并借此探究对于具有一定结构化的变量进行求导运算的本质。

假设现有一个二元函数如下：

$$ f(x_{1}, x_{2}) = 2x_{1} + x_{2} $$

并且，我们可以分别对该函数中的两个变量 $x_{1}$，$x_{2}$依次求偏导，可得：

![Alt text](image-20.png)

现在我们考虑将上述求偏导的函数组改写为矩阵形式。则根据前述内容介绍，我们可以将函数中的两个变量依次排列，组成一个向量变元，即一个由多个变量所组成的向量，即

![Alt text](image-21.png)

此时，如果我们按照向量变元内部的变量排列顺序，依次在每个变量位置上填上该变量对应的偏导函数，则就构成了对于函数f进行向量变元x的向量求导的结果，即：

![Alt text](image-22.png)

其中，x为向量变元。

至此，我们就完成了向量求导的基本过程。核心点在于，我们是根据向量变元中的变量排列顺序，依次填写了对应变量的偏导函数计算结果。不过，更进一步的来看，既然方程组需要改写成向量/矩阵形式，那么原始函数方程其实也同样需要改写成向量/矩阵形式。因此，原方程我们可以改写成：

![Alt text](image-23.png)

其中，

![Alt text](image-24.png)

原方程为

![Alt text](image-25.png)

结合函数求导结果，我们不难发现：

![Alt text](image-26.png)

其中x是向量变元，A是列向量。当然，该结论也能推导至一般的情况，相关证明会在下一小节给出。此处给出向量变元的函数求导计算公式：

> 很多时候我们并不区分所谓向量方程和矩阵方程，一般所有自变量为向量或矩阵的方程，我们会统一称其为矩阵方程。包含向量或者矩阵的表达式，我们也会统一称其为矩阵表达式。

* 向量求导的定义法

设$f(x)$是一个关于$x$的函数，其中$x$是向量变元，并且：

![Alt text](image-27.png)

则

![Alt text](image-28.png)

而该表达式也被称为向量求导的梯度向量形式。

![Alt text](image-29.png)

通过求得函数的梯度向量求解向量导数的方法，也被称为定义法求解。

> 值得注意的是，多元函数是一定能够求得梯度向量的，但梯度向量或者说向量求导结果，能否由一些已经定义的向量解决表示，如A就是$f(x)$的向量求导结果，则不一定。

* 常见向量求导公式

在前期学习中，数学理论推导涉及到的求导以向量变元求导居多，因此，除了掌握基本的向量求导方法以外，我们还需要推导及各常用的向量求导公式，在这些公式中，向量求导结果都能通过一些已经定义的向量简洁表示。同样，此处我们假设x为包含n个向量的列向量，$ x = [x_{1}, x_{2}, ... , x_{n}]^{T} $。

![Alt text](image-30.png)

此时A为拥有n个分量的常数向量，设$A = [a_{1}, a_{2}, ... , a_{n}]^{T}$，则有

![Alt text](image-31.png)

![Alt text](image-32.png)

![Alt text](image-33.png)

![Alt text](image-34.png)

最后，还需要简单进行一个概念辨析，那就是关于矩阵函数和矩阵方程二者概念的区别：

* 矩阵方程：值变量为矩阵的方程；

* 矩阵函数：同函数矩阵，是指自变量和因变量都是n阶矩阵的函数，也可以简单理解成由函数构成的矩阵，并且每个函数的变量都是矩阵。

## 3. 最小二乘法的推导过程及使用方法

有了上述内容铺垫之后，接下来，我们从数学角度讨论最小二乘法的基本理论，并尝试简单实现最小二乘法求解损失函数的一般过程。

### 3.1 模型及方程组的矩阵形式改写

首先，我们尝试对模型进行矩阵形式改写。

* 模型改写成矩阵表达式

首先，假设多元线性方程有如下形式：

$$
f(x) = w_{1}x_{1} + w_{2}x_{2} + ... + w_{d}x_{d} + b
$$

令 $ w = [w_{1}, w_{2}, ... , w_{d}]^{T} $, $ x = [x_{1}, x_{2}, ... , x_{d}]^{T} $, 则上式可以写为：

$$
f(x) = w^{T}x + b
$$

> 在机器学习领域，我们将 线性回归自变量系数命名为w，其实是weight的简写，意为自变量的权重。

### 3.2 构造损失函数

在方程组的矩阵表示基础上，我们可以以SSE作为损失函数基本计算流程构建关于W的损失函数：

![Alt text](image-3.png)

需要补充两点基础知识：

* 向量的2范数计算公式

![Alt text](image-4.png)

### 3.3 最小二乘法求解损失函数的一般过程

在确定损失函数的矩阵表示形式之后，接下来即可利用最小二乘法进行求解。其基本求解思路仍然和Lesson0中介绍的一样，先求导函数，再令导函数取值为0,进而求解出参数取值，只不过此时求解的是矩阵方程。

在此之前，需要补充两点矩阵转置的运算规则：

![Alt text](image-5.png)

接下来，对$ SSELosss（w）$求导并令其等于0：

![Alt text](image-6.png)

即：

![Alt text](image-7.png)

要使得此式有解，等价于 $ X^{T}X$（也被称为矩阵的交叉乘积crossprod存在逆矩阵，若存在，则可以解出）

![Alt text](image-8.png)

### 3.4 最小二乘法的简单实现

接下来，我们回到最初的例子，简单尝试利用上述推导公式求解简单线性回归参数。原始数据如下：

![Alt text](image-9.png)

因此利用矩阵表达式，可进行如下形式的改写：

特征矩阵：

![Alt text](image-10.png)

标签数组：

![Alt text](image-11.png)

参数向量：

![Alt text](image-12.png)

求解公式为：

![Alt text](image-13.png)

代码实现过程：

In [30]:
import torch
import torch.nn as nn

In [31]:
X = np.array(([1, 1], [3, 1]))
X

array([[1, 1],
       [3, 1]])

In [32]:
y = np.array([2, 4]).reshape(2, 1)
y

array([[2],
       [4]])

In [33]:
np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)

array([[1.],
       [1.]])

即解得 w = 1， b = 1，即模型方程为 y = x+ 1。至此，我们即完成了最小二乘法的推导以及简单的实现。其中，相比于记忆最终最小二乘法求解损失函数的计算公式，更加重要的是理解并掌握表示方程组的方法以及矩阵求导计算方法。

* 最小二乘法计算函数

当然，除了借助Numpy中矩阵运算的函数进行最小二乘法计算外，NumPy中也有独立的用于计算最小二乘法的函数：np.linalg.lstsq。通过该方法，我们能够直接出入特征矩阵和标签数组的情况下进行最小二乘法的计算，并在得出最小二乘法计算结果的同时，也得到一系列相应的统计指标结果。

In [34]:
np.linalg.lstsq(X, y, rcond= -1)

(array([[1.],
        [1.]]),
 array([], dtype=float64),
 2,
 array([3.41421356, 0.58578644]))

其中，返回的元组中第一个元素是最小二乘法计算结果，第二个元素是SSE的计算结果，第三个元素是矩阵X的秩，最后一个结果是矩阵X的奇异值。