# Linear algebra and numerical analysis

# 线性代数与数值分析 

<img src = "../imgs/cnn.jpg", style = "height:300px;width:700px">



In [1]:
import numpy as np
import scipy as sp
import pandas as pd

from sympy import init_printing, Matrix, symbols, sqrt
from warnings import filterwarnings

init_printing(use_latex = 'mathjax')
#filterwarnings('ignore')

## 线性代数：基础定义

### 回顾关于线性代数的一些基础知识

- ** 标量（scalar） ：一个实数，只有大小，没有方向  ** 
$$
s\in \mathbb{R}
$$
<br>     

- ** 向量（vector）： 一维数组，可以把向量看做空间中的点  **
$$
\boldsymbol{x}=\left[ \begin{array}{c}
	x_1\\
	x_2\\
	\vdots\\
	x_n\\
\end{array} \right] 
$$
<br>
- ** 矩阵（matrix）  ：二维数组  **

$$
\text{如果A的维度是} m \times n: A\in \mathbb{R}^{m\times n}
\\
A=\left[ \begin{matrix}
	x_{11}&		x_{12}&		x_{13}\\
	x_{21}&		x_{22}&		x_{23}\\
\end{matrix} \right] \,\,
$$
<br>
- ** 张量（tensor） ：多维数组  **

$$
A\in \mathbb{R}^{m\times n\times l}
\\
\text{张量坐标为}\left( i,j,k \right) \text{的元素为}A_{ijk}
$$

<br>
- ** 矩阵中的列向量与行向量 **：
$$
A=\left[ \begin{matrix}
	a_{11}&		a_{12}&		\cdots&		a_{1n}\\
	a_{21}&		a_{22}&		\cdots&		a_{2n}\\
	\vdots&		\vdots&		\ddots&		\vdots\\
	a_{m1}&		a_{m2}&		\cdots&		a_{mn}\\
\end{matrix} \right] 
$$

<br>
 - ** 矩阵中的第j列为$a_j$ **  
$$
A=\left[ \begin{matrix}
	|&		|&		\cdots&		|\\
	a_1&		a_2&		\cdots&		a_n\\
	|&		|&		\cdots&		|\\
\end{matrix} \right] 
$$

<br>
 - ** 矩阵中的第i行为$a_i^T$ **  
$$
A=\left[ \begin{matrix}
	—&		a_{1}^{T}&		—\\
	—&		a_{2}^{T}&		—\\
	\cdots&		\cdots&		\cdots\\
	—&		a_{m}^{T}&		—\\
\end{matrix} \right] 
$$


## 线性代数: 矩阵乘积和转置

- **矩阵的乘积：** 
$$
A\in \mathbb{R}^{m\times n},\,B\in \mathbb{R}^{n\times p}\Rightarrow C=AB\in \mathbb{R}^{m\times p}
\\
C_{ij}=\sum_{k=1}^n{A_{ik}B_{kj}}
$$

<img src = "../imgs/matrix_multi.png" >

<br>
- ** 向量的内积（inner product or dot product）：** 

$$
x^Ty\,\,\in \,\,\mathbb{R}=\left[ x_1\,\,x_2\,\,\cdots \,\,x_n \right] \left[ \begin{array}{c}
	y_1\\
	y_2\\
	\vdots\\
	y_n\\
\end{array} \right] =\sum_{i=1}^n{x_iy_i}
$$

<br>
- ** 向量的外积（outer product）：** 
$$
xy^T\in \,\,\mathbb{R}=\left[ \begin{array}{c}
	x_1\\
	x_2\\
	\vdots\\
	x_m\\
\end{array} \right] \left[ y_1\,\,y_2\,\,\cdots \,\,y_n \right] ==\left[ \begin{matrix}
	x_1y_1&		x_2y_2&		\cdots&		x_1y_n\\
	x_1y_1&		x_2y_2&		\cdots&		x_2y_n\\
	\vdots&		\vdots&		\ddots&		\vdots\\
	x_my_1&		x_my_2&		\cdots&		x_my_n\\
\end{matrix} \right] 
$$
  
<br>   
- ** 矩阵乘积分配律和结合律，但没有交换律！**
$$
A\left( B+C \right) =AB+AC
\\
A\left( BC \right) =\left( AB \right) C
$$
<br>  
    
- ** 矩阵的转置：**
$$
\left( A^T \right) _{i,j}=A_{ji}
\\
A=\left[ \begin{matrix}
	x_{11}&		x_{12}\\
	x_{21}&		x_{22}\\
	x_{31}&		x_{32}\\
\end{matrix} \right] \Rightarrow A^T=\left[ \begin{matrix}
	x_{11}&		x_{21}&		x_{31}\\
	x_{12}&		x_{22}&		x_{32}\\
\end{matrix} \right] 
\\
\left( AB \right) ^T=B^TA^T
\\
\left( A+B \right) ^T=A^T+B^T
$$

<br>


## 线性代数: 矩阵性质

- **单位矩阵（Identity matrix）：** 
$$
I_{ij}=\begin{cases}
	1 \  if\; i=j\\
	0 \  if\; i \ne j\\
\end{cases}
\\
AI=IA=A
$$
<br>

- ** 对角矩阵（diagonal matrix）：** 
$$
D_{ij}=\begin{cases}
	d_i\ \ \ if\  i=j\\
	0\ \ \ if\  i\ne j\\
\end{cases}
\\
I=diag\left( \text{1,1,...,}1 \right) 
$$
<br>

- **逆矩阵（Inverse matrix）: ** 
$$
A^{-1}A=AA^{-1}=I
\\
A^{-1}\text{是}A\text{的逆矩阵}
$$
<br>

- **那么解线性问题时： ** 
$$
Ax=b
\\
A^{-1}Ax=A^{-1}b
\\
x=A^{-1}b\\
$$
$
\text{$A^{-1}$ 不一定存在}\\
\text{只有当A为满秩的方阵即行列式不为0时，才有可逆矩阵}
$
<br>


## 线性代数: 矩阵行列式

- **2 x 2 矩阵的行列式： ** 
$$
det\left( \left[ \begin{matrix}
	a_{11}&		a_{12}\\
	a_{21}&		a_{22}\\
\end{matrix} \right] \right) =\left| \begin{matrix}
	a_{11}&		a_{12}\\
	a_{21}&		a_{22}\\
\end{matrix} \right|=a_{11}a_{22}-a_{12}a_{21}
$$
<br>

- **3 x 3 矩阵的行列式： ** 
    <img src = "../imgs/3x3matrix.png" style = "width:500px;height:380px;">
<br>

- **矩阵行列式一般表达形式： ** 
\begin{align}
& det\left( A \right) =|A|=\sum_{i=1}^n{\left( -1 \right) ^{i+j}a_{ij}|A_{\backslash i\backslash j}|} \\
& \text{其中}\left( -1 \right) ^{i+j}|A_{\backslash i\backslash j}|\text{为第i行j列的代数余子式} \\
& \text{那么}A\text{的伴随矩阵:}\ \ \ \left( adj\left( A \right) \right) _{ji}=\left( -1 \right) ^{i+j}|A_{\backslash i\backslash j}| \\
& A^{-1}=\ \frac{1}{|A|}\ adj\left( A \right)
\end{align}
<br>

- ** 矩阵的行列式性质：** 
\begin{align}
& det\left( A \right) =det\left( A^T \right)  \\
& det\left( AB \right) =det\left( A \right) det\left( B \right)  \\
& det\left( A \right) =0\Rightarrow A\text{奇异的，A不可逆} \\ 
& det\left( A^{-1} \right) =\frac{1}{det\left( A \right)}\\
& A\in \mathbb{R}^{n\times n},\,det\left( mA \right) =m^ndet\left( A \right)  \\
& det\left( A \right) =\prod_{i=1}^n{\lambda _i},\,\{\lambda _i\}=eig\left( A \right)  \text{为A的特征值}\\
\end{align}
<br>

## 线性代数：矩阵的迹和秩


- **矩阵的迹（trace）：  **
\begin{align}
& A \in \mathbb{R}^{n\times n}\,\,\,\,tr\left( A \right) =\sum_{i=1}^n{A_{ii}}
\end{align}
<br>

- ** 矩阵迹（trace）: **  

\begin{align}
& 1.\ A\in \mathbb{R}^{n\times n},trA = trA^T \\
& 2.\ A,B\in \mathbb{R}^{n\times n},tr\left( A+B \right) = trA+trB \\
& 3.tr\left( mA \right) =mtr\left( A \right) \\
& 4.tr\left( AB \right) =tr\left( BA \right) \\
& 5.trABC=trBCA=trCAB
\end{align}
<br>

- ** 矩阵秩（rank）: **

对于一组向量 $\{x_1,x_2,...,x_n\}$  
如果
$$x_n=\sum_{i=1}^{n-1}{\alpha _ix_i}$$
那么这组向量线性相关  
反之，如果一组向量中的任意一个向量都不能表示成其他向量的线性组合，那么这组向量被称之为线性无关
<br>
矩阵的列秩（column rank）: 矩阵列向量线性无关的最大数目<br>
矩阵的行秩（row rank）: 矩阵行向量线性无关的最大数目<br>
矩阵的秩（rank）= 列秩 = 行秩: 最大非零子行列式方阵的大小
<br>
- ** 矩阵秩（rank）的性质: **
\begin{align}
& 1.\ A\in \mathbb{R}^{m\times n},rank\left( A \right) \le \min \left( m,n \right) 
\\
& 2.\ rank\left( A \right) =\min \left( m,n \right) ,A\text{为满秩}\left( fullrank \right) 
\\
& 3.\ rank\left( A \right) =rank\left( A^T \right) 
\\
& 4.\ rank\left( AB \right) \le min\left( rank\left( A \right) ,rank\left( B \right) \right) 
\\
& 5.\ rank\left( A+B \right) \le rank\left( A \right) +rank\left( B \right) 
\end{align}


## 范数

** 范数（norm）： 是向量空间内的所有向量赋予非零的正长度或大小 **

** 范数是满足以下条件的函数 $f:\ \mathbb{R}^n \Rightarrow \mathbb{R}$ :**

\begin{align}
& 1.\ 对于 x \in \mathbb{R}^n, f(x) \ge 0 \ （非负性） \\
& 2.\ $f(x) = 0 当且仅当 x = 0\ （同一性） \\
& 3.\ 对于$x  \in \mathbb{R}^n, t\in \mathbb{R}, f(tx) = |t|f(x) \ （绝对一次齐次性）\\
& 4.\ 对于 $x,y \in \mathbb{R}^n, f(x+y) \le f(x)+f(y)（三角不等）
\end{align}

**  几种常见的范数: **
\begin{align}
& L_p范数(Minkowski\ distance):\ \ \ 
\lVert x \rVert_p =\left( \sum_{i=1}^n{\lvert x_i \rvert_p} \right) ^{\frac{1}{p}} \\
& L_1范数(Manhattan\ distance)):\ \ \ 
\lVert x \rVert_1 =\sum_{i=1}^n{\lvert x_i \rvert} \\
& L_2范数(Euclidean\ distance):\ \ \ 
\lVert x \rVert_2 =\sqrt{\sum_{i=1}^n{x_i^2}} \\
& L_\infty范数:\ \ \ 
\lVert x \rVert_{\infty} =\max_i{\lvert x_i \rvert}\\
& Frobenius 范数:\ \ \ 
\lVert A \rVert _F=\sqrt{\sum_{i=1}^m{\sum_{j=1}^n{A_{ij}^{2}}}}=\sqrt{tr\left( A^TA \right)}\\
\end{align}




## 矩阵的特征值和特征向量

- ** 特征值（eigenvalues）和特征向量（eigenvectors）:** 

    对于给定的方阵 $A \in \mathbb{R}^{n \times n}$，如果：
$$
Ax = \lambda x, \ \ x \ne 0
$$

    那么 $\lambda$ 是 $A$ 的特征值，$x$ 是 $A$ 的特征向量，通常 $x$ 都归一化，长度为 1  
<br>

- ** 求解一个矩阵的特征值和特征向量：**
\begin{align}
& (\lambda I-A)x=0, x \ne 0 \\
\iff & \lvert \lambda I-A \rvert = 0
\end{align}
<br>

- ** 一个矩阵的迹等于所有的特征值之和： **
$$
tr(A) = \sum_{i=1}^n{\lambda_i}
$$
<br>

- ** 一个矩阵的行列式等于所有的特征值之积（特征值分解） :**
$$
det(A) = \prod_{i=1}^n{\lambda_i}
$$
<br>

- ** 一个矩阵的秩等于它的非零特征值的个数**  
<br>

- ** 如果矩阵 $A$ 是非奇异的，它的特征值的倒数是其逆矩阵的特征值，特征向量相同 :**
$$
A^{-1}x = \frac 1 \lambda x
$$
<br>

- ** 对角矩阵的特征值就是对角元素**  
<br>

- ** 如果一个矩阵的所有特征向量互异，那么这个矩阵可以被对角化 :**
$$
AX = X\Lambda \\
A = X\Lambda X^{-1}
$$  



##  特殊类型的矩阵和向量:  正交矩阵


- **单位向量（unit vector）：具有单位范数的向量 **
$$
\lVert x \rVert_2 = 1
$$
如果 $x^Ty = 0$, 那么$x$ 和$y$正交（orthogonal）  
如果 x和y正交并且是单位向量，那么它们是标准正交（orthonormal）
<br>


- ** 正交矩阵（orthonormal matrix） 是指行向量是标准正交的，列向量是标准正交的方阵： **
<br>

\begin{align}
& A^TA = AA^T = I \\
& A^{-1} = A^T
\end{align}
<br>

- **正交矩阵的几个很好的性质是：** ：
<br>

\begin{align}
& 1.\ \lvert A \rvert = 1 \ \text{或者} {-1} \\
& 2.\ A^T \text{也是正交矩阵} \\
& 3.\ \text{如果 P，Q都是正交矩阵，那么 PQ 也是正交矩阵}
\end{align}
<br>


##  特殊类型的矩阵和向量:  实对称矩阵和正定矩阵

- **对称矩阵（symmetric matrix）： ** 
$$
A=A^T
$$
<br>

- **实对称矩阵的两个重要性质： **   
    - 所有的特征值都是实数 
    - 所有的特征向量都是标准正交的  
    - ** 实对称矩阵一定可以被对角化 （谱分解） ** $S = QΛQ^T$, $S$ 对称矩阵，$Q$ 正交矩阵，$Λ$ 对角矩阵

$$
S = QΛQ^{-1} = QΛQ^T
$$
    

- ** 证明：实对称矩阵所有的特征值都是实数 **
\begin{align}
& x^H\text{: 为其复共轭（complex conjugate）} \\
& 对于实对称矩阵： A^H = A \\
& x^HAx = x^H \lambda x = \lambda x^Hx\\
& x^HAx = x^HA^Tx = x^HA^Hx = {Ax}^Hx = {\lambda}^Hx^Hx \\
& \lambda = \lambda^H \ \text{只有实数等于它本身的共轭}
\end{align}
<br>


- ** 二次型与正定矩阵： **

    如果矩阵 $A \in \mathbb{R}^{n \times n}$， 向量 $x \in \mathbb{R}^n$，那么具有如下形式的函数是二次型
$$
f(x) = x^TAx
$$
    其中：
\begin{align}
& x^TAx = \sum_{i=1}^n{x_i(Ax)_i} = \sum_{i=1}^n{x_i \left(\sum_{i=1}^n{A_{ij}x_j} \right)} = \sum_{i=1}^n{\sum_{i=1}^n{A_{ij}x_ix_j}}
\end{align}
    因为 $x^TAx$ 是标量，它的转置等于它本身
\begin{align}
x^TAx = (x^TAx)^T = x^TA^Tx = x^T \left(\frac 1 2 A + \frac 1 2 A^T \right)x
\end{align}
    其中 $\frac 1 2 A + \frac 1 2 A^T$ 是一个实对称矩阵
    
    那么有如下的定义：对于实对称矩阵 $A \in \mathbb{S}^n$，如果所有的非零向量 $x \in \mathbb{R}^n$  
    
    1) 如果 $x^TAx > 0$，那么 $A$ 为正定矩阵  
    2) 如果 $x^TAx \ge 0$，那么 $A$ 为半正定矩阵  
    3) 如果 $x^TAx < 0$，那么 $A$ 为负定矩阵  
    4) 如果 $x^TAx \le 0$，那么 $A$ 为半负定矩阵  


- ** 实对称矩阵对正定矩阵的判定： ** 

  一个n×n的实对称矩阵 $A$ 是正定的，当且仅当对于所有的非零实系数向量 $z$，都有 $z^TAz >0$ , 其中 $z^T$ 表示 $z$ 的转置

  通过谱分解，$A = QΛQ^T$, 那么 $x^TAx = x^TQΛQ^Tx = y^TΛy = \sum_{i=1}^n{\lambda _i y_i^2}$  其中 $y = Q^Tx$
  
  所以当 $A$ 的所有特征值都大于0时，$A$ 是正定矩阵  
  当 $A$ 的所有特征值都大于等于0时，$A$ 是半正定矩阵  
  当 $A$ 的所有特征值都小于0，则为负定矩阵
  
<br>

- ** 在二次型函数优化问题上的应用： 主成分分析（降维）等等有很大的作用** 

    例如最大化有约束的二次型函数问题： $$\max_{x\in \mathbb{R}^n} \ x^TAx, \ \ s.t. {\lVert x \rVert}^2 = 1 $$

    假设 $A = A^T \Rightarrow A = QΛQ^T$，特征值按降序排序为 $\lambda_1 \ge \lambda_2 \cdots \ge \lambda_n$
    那么：
    
\begin{align}
x^TAx & = x^TQΛQ^Tx \\
& = (Q^Tx)^TΛ(Q^Tx) \\
& = \sum_{i=1}^n{\lambda_i \left(q_i^Tx \right)^2} \\
& \le \lambda_1 \sum_{i=1}^n{\left(q_i^Tx \right)^2} \\
& = \lambda_1 {\lVert x \rVert}^2 \\
& = \lambda_1
\end{align}

    同理，最小化二次型函数:
\begin{align}
& \min_{x\in \mathbb{R}^n} \ x^TAx, \ \ s.t. {\lVert x \rVert}^2 = 1 \\
& x^TAx \ge \lambda_n{\lVert x \rVert}^2 = \lambda_n
\end{align}







  

## 矩阵分解


- **正交矩阵对一些重要的矩阵分解有关键性的作用：** ：

    1. ** QR分解：$M = QR$,  $Q$ 正交矩阵，$R$ 上三角矩阵**  
    2. ** 奇异值分解(SVD)：$M = UΣV^T$, $U$ 和 $V$正交矩阵，$Σ$ 非负对角矩阵 **   
    3. ** 特征分解（谱分解）：$S = QΛQ^T$, $S$ 对称矩阵，$Q$ 正交矩阵，$Λ$ 对角矩阵 **  
<br>


### 奇异值分解 （singular value decomposition 或者 SVD）

- 非常强大的一个分解方法，适用于任意的一种矩阵分解

- 对于矩阵 $A\in \mathbb{R}^{m \times n}$：
\begin{align}
A = U\Sigma V^T
\end{align}

    其中 $U \in \mathbb{R}^{m \times m}$ 的正交矩阵， $\Sigma \in \mathbb{R}^{m \times n}$ 的对角矩阵，$V \in \mathbb{R}^{n \times n}$ 的正交矩阵
    
  <img src = "imgs/Svd.png">
  
  $$ A\begin{bmatrix} \vdots  & \vdots  & \vdots  & \vdots  \\ { v }_{ 1 } & { v }_{ 2 } & \cdots  & { v }_{ r } \\ \vdots  & \vdots  & \vdots  & \vdots  \end{bmatrix}=\begin{bmatrix} \vdots  & \vdots  & \vdots  & \vdots  \\ { u }_{ 1 } & u_{ 2 } & \cdots  & { u }_{ r } \\ \vdots  & \vdots  & \vdots  & \vdots  \end{bmatrix}\begin{bmatrix} { \sigma  }_{ 1 } & \quad  & \quad  & \quad  & \quad  \\ \quad  & { \sigma  }_{ 2 } & \quad  & \quad  & \quad  \\ \quad  & \quad  & \quad \ddots  & \quad  & \quad  \\ \quad  & \quad  & \quad  & { \sigma  }_{ r }\quad  & \quad  \\ \quad  & \quad  & \quad  & \quad  & \left( 0 \right)  \end{bmatrix} \\ {A}{V}={U}{\Sigma}$$
<br>

    U和V分别是 $A^TA$ 和$AA^T$的特征向量
\begin{align}
& A=U\Sigma { V }^{ T }\\
& { A }^{ T }A=V{ \Sigma  }^{ T }{ U }^{ T }U\Sigma { V }^{ T }\\
& \because \quad { U }^{ T }U=I\\
& \because \quad { \Sigma  }^{ T }\Sigma =\dots { \sigma  }_{ i }^{ 2 }\dots \\
& { A }^{ T }A=V{ \Sigma  }^{ T }\Sigma { V }^{ T }
\end{align}

    ** $A^TA$的特征值是奇异值$\sigma_i$的平方 **
    ** 在矩阵中将奇异值按照降序排序，通常情况下，前10%的奇异值之和就占了全部奇异值之和的99%以上，那么就可以利用前 $r$ 大的奇异值来描述矩阵：**

$$ A_{m \times n} \thickapprox U_{m\times r} \Sigma _{r \times r} V^T_{r \times n}
$$
  <img src = "imgs/Svd2.png">

   #### 这对降维（主成分分析），matrix factorization 以及推荐系统中的协同过滤（collaborative filtering）都有极大的作用
    
<br>

   ** 主成分分析的过程：**
   1. 对所有样本进行中心化： $x_i = \frac 1 m \sum_{i=1}^m{x_i}$
   2. 计算样本的协方差矩阵: $XX^T$
   3. 对协方差矩阵作SVD： $XX^T = U\Sigma V^T$其中新的坐标轴就是 $Y = U^TX$
   4. 取最大的前 $r$ 维的特征向量，得到新的样本矩阵
   
  <img src = "../imgs/pca.png", style = "height:250px;width:500px">
  <img src = "../imgs/PCA.gif">

    

In [None]:
#temp = (visualizeVecs - np.mean(visualizeVecs, axis=0))
# covariance = 1.0 / len(visualizeIdx) * temp.T.dot(temp)
# U,S,V = np.linalg.svd(covariance)
# coord = temp.dot(U[:,0:2])

## 矩阵微积分


### 矩阵乘积

1. 矩阵 $A\in \mathbb{R}^{m \times n}$, 向量 $x\in \mathbb{R}^{n \times 1}$：
\begin{align}
& z= Ax \ ,\ z \in \mathbb{R}^{m \times 1} \\
\Rightarrow \ & z_i = \sum_{k=1}^n{a_{ik}x_k}
\end{align}
<br>

2. 矩阵 $A\in \mathbb{R}^{m \times n}$, 向量 $y\in \mathbb{R}^{n \times 1}$：
\begin{align}
& z^T=y^TA \ ,\ z \in \mathbb{R}^{m \times 1} \\
\Rightarrow \ & z_i = \sum_{k=1}^n{a_{ki}y_k}
\end{align}
<br>

3. 那么标量 $\beta = y^TAx$
\begin{align}
\beta = \sum_{k=1}^{n}{\sum_{j=1}^{m}{a_{jk}y_jx_k}}
\end{align}
<br>

### 矩阵微分

#### Jacobian 矩阵：是欧式空间从m维空间映射到n维空间的一阶导数矩阵
$y\in \mathbb{R}^{m \times 1}$，$x\in \mathbb{R}^{n \times 1}$， 如果 $y = \Phi (x)$
<br>

\begin{align}
\frac{\partial y}{\partial x}=\left[ \begin{matrix}
	\frac{\partial y_1}{\partial x_1}&		\frac{\partial y_1}{\partial x_2}&		\cdots&		\frac{\partial y_1}{\partial x_n}\\
	\frac{\partial y_2}{\partial x_1}&		\frac{\partial y_2}{\partial x_2}&		\cdots&		\frac{\partial y_2}{\partial x_n}\\
	\vdots&		\vdots&		\ddots&		\vdots\\
	\frac{\partial y_m}{\partial x_1}&		\frac{\partial y_m}{\partial x_2}&		\cdots&		\frac{\partial y_m}{\partial x_n}\\
\end{matrix} \right] 
\end{align}
<br>

#### Gradient 梯度：是自变量为向量的实值标量函数的一阶偏导数
$f: \mathbb{R}^{n} \to \mathbb{R}$，$x\in \mathbb{R}^{n}$
$$
\nabla _xf\left( x \right) \,\,\in \,\,\mathbb{R}^{n\times n}=\left[ \begin{array}{c}
	\frac{\partial f\left( x \right)}{\partial x_1}\\
	\frac{\partial f\left( x \right)}{\partial x_2}\\
	\vdots\\
	\frac{\partial f\left( x \right)}{\partial x_n}\\
\end{array} \right]
$$

#### Hessian 矩阵：是自变量为向量的实值标量函数的二阶偏导数组成的方块矩阵
$f: \mathbb{R}^{n} \to \mathbb{R}$，$x\in \mathbb{R}^{n}$
<br>

\begin{align}
\nabla _x^2f\left( x \right) \ \in \ \mathbb{R}^{n\times n}=\left[ \begin{matrix}
	\frac{\partial ^2f\left( x \right)}{\partial x_1^2}&		\frac{\partial ^2f\left( x \right)}{\partial x_1\partial x_2}&		\cdots&		\frac{\partial ^2f\left( x \right)}{\partial x_1\partial x_n}\\
	\frac{\partial ^2f\left( x \right)}{\partial x_2\partial x_1}&		\frac{\partial ^2f\left( x \right)}{\partial x_2^2}&		\cdots&		\frac{\partial ^2f\left( x \right)}{\partial x_2\partial x_n}\\
	\vdots&		\vdots&		\ddots&		\vdots\\
	\frac{\partial ^2f\left( x \right)}{\partial x_n\partial x_1}&		\frac{\partial ^2f\left( x \right)}{\partial x_n\partial x_2}&		\cdots&		\frac{\partial ^2f\left( x \right)}{\partial x_n^2}\\
\end{matrix} \right] 
\end{align}

** Hessian 矩阵总是对称的 **
<br>


## 矩阵微积分II: 机器学习中常见的微分

1. 矩阵 $A\in \mathbb{R}^{m \times n}$, 向量 $x\in \mathbb{R}^{n \times 1}$， 向量 $y\in \mathbb{R}^{m \times 1}$：
\begin{align}
& y = Ax \Rightarrow \ \ \frac {\partial y}{\partial x} = A \\
Proof:\ \ 
& y_i = \sum_{k=1}^{n}{a_{ik}x_k} \\
& \frac{\partial y_i}{\partial x_j} = a_{ij} \\
\Rightarrow \ \ & \frac {\partial y}{\partial x} = A 
\end{align}
<br>

2. 向量 $b\in \mathbb{R}^{n \times 1}$， 向量 $x\in \mathbb{R}^{n \times 1}$：
\begin{align}
& f(x) = b^Tx \Rightarrow \ \ \frac {\partial f(x)}{\partial x} = b \\
Proof:\ \ 
& f(x) = \sum_{k=1}^{n}{b_kx_k} \\
& \frac{\partial f(x)}{\partial x_j} = b_j \\
\Rightarrow \ \ & \frac {\partial f(x)}{\partial x} = b \\
\end{align}
<br>

3.  如果矩阵 $A\in \mathbb{R}^{m \times n}$, 向量 $x\in \mathbb{R}^{n \times 1}$， 向量 $y\in \mathbb{R}^{m \times 1}$：
\begin{align}
& \beta = y^TAx \\
\Rightarrow \ \ & \frac{\partial \beta}{\partial x} = A^Ty \cdots (1)\\
\Rightarrow \ \ & \frac{\partial \beta}{\partial y} = Ax \cdots (2)
\end{align}
<br>

  Proof：第一个显而易见，第二个证明过程如下：
\begin{align}
& \beta = \beta^T = x^TA^Ty = (Ax)^Ty
& \Rightarrow \ \ & \frac{\partial \beta}{\partial y} = Ax
\end{align}
<br>

4. 那么对于特殊情况， $y = x$ :
\begin{align}
\beta = x^TAx \ \ \Rightarrow \ \ \frac{\partial \beta}{\partial x} & = (A + A^T)x\\
如果A 是对称矩阵：&  \frac{\partial \beta}{\partial x} = 2Ax
\end{align}
<br>

5. ** 总结： **
\begin{align}
& \bullet \nabla_x(b^Tx) = b \\
& \bullet \nabla_x(x^TAx) = (A+A^T)x \\
& \bullet \nabla_x(x^TAx) = 2Ax （如果A是对称矩阵）\\
& \bullet \nabla_x^2{(x^TAx)} = 2A （如果A是对称矩阵）
\end{align}

## 矩阵微积分III：应用

#### 最小二乘法：最小化所有样本的误差平法和

- 假设有m个样本，n个特征的样本空间，样本 $X \in \mathbb{R}^{m \times n}$, 权重 $\Theta \in \mathbb{R}^{n \times 1}$，标签$y \in \mathbb{R}^{m \times 1} $

- 最小化目标函数： $min_\Theta {\lVert X\Theta - y \rVert ^2}$

- 那么权重的解析解表达形式为：
\begin{align}
\because \ \lVert X\Theta \ -\ y \rVert ^2\ &  =\ \left( X\Theta \ -\ y \right) ^T\left( X\Theta \ -\ y \right) 
\\
& =\ \Theta ^TX^TX\Theta -y^TX\Theta -\Theta ^TX^Ty+y^Ty
\\
\because y^TX\Theta & =\Theta ^TX^Ty
\\
\therefore \lVert X\Theta \ -\ y \rVert ^2 & =\Theta ^TX^TX\Theta -2y^TX\Theta +y^Ty
\\
\nabla _x\lVert X\Theta \ -\ y \rVert ^2 & =2X^TX\Theta -2X^Ty=0
\\
\Theta & =\left( X^TX \right) ^{-1}X^Ty
\end{align}

#### 优化有约束的二次型问题

- 例如： 
$$\max _{x\in \mathbb{R}^n}\ x^TAx\ \ \ s.t.\ \lVert x \rVert ^2\ =\ 1$$
<br>

- 可以构造拉格朗日函数：
$$
\mathbb{L}\left( x,\ \lambda \right) =x^TAx-\lambda x^Tx
\\
\nabla _x\mathbb{L}\left( x,\ \lambda \right) =2Ax-2\lambda x=0
\\
Ax=\lambda x
$$

    **只有特征向量才有可能最大化或者最小化 $x^TAx$，那么最后的结果显而易见**