In [1]:
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(12345)
plt.rc('figure', figsize=(10, 10))
np.set_printoptions(precision=4, threshold=15,suppress=True)

# 单位矩阵
称**主对角线**上的元素都为1,其余元素为0的方阵为单位矩阵,记为**I**或**E**

In [2]:
eye = np.eye(4)
eye

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

# 对角矩阵
称**主对角线**以外的元素外,其余皆为0的方阵为对角矩阵.

In [3]:
eye = np.eye(4)
a1 = eye * np.array([1, 2, 3, 4])
a1

array([[1., 0., 0., 0.],
       [0., 2., 0., 0.],
       [0., 0., 3., 0.],
       [0., 0., 0., 4.]])

In [4]:
a = np.diag([1, 2, 3])
a

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

对角方阵的逆矩阵存在, 当且仅当对角元素都是非零值:
$$diag(v)^{-1} = diag([1/v_1, \cdots, 1/v_n]^T)$$

In [5]:
np.linalg.inv(a)

array([[1.    , 0.    , 0.    ],
       [0.    , 0.5   , 0.    ],
       [0.    , 0.    , 0.3333]])

In [6]:
b = np.zeros([3, 2])
c = np.concatenate([a, b], axis=1)
c

array([[1., 0., 0., 0., 0.],
       [0., 2., 0., 0., 0.],
       [0., 0., 3., 0., 0.]])

In [7]:
x = np.ones([5, 1])
c @ x

array([[1.],
       [2.],
       [3.]])

# 矩阵乘法
设矩阵$A = (a_{ij})_{m \times k}$, $B = (b_{ij})_{k \times n}$, 记
$$c_{ij} = a_{i1}b_{1j} + a_{i2}b_{2j} + \cdots +　a_{ik}b_{kj} = \sum_{i=1}^{k}a_{ik}b_{kj}$$
称矩阵$(c_{ij})_{m \times n}$为矩阵A与B的积, 记作**AB**
- (AB)C = A(BC)
- A(B+C) = AB + AC, B(A+C) = BA + BC
- k(AB) = (kA)B = A(kB)
- IA = A, AI = A

In [8]:
a = np.arange(6).reshape(2, 3)
b = np.arange(9).reshape(3, 3)
print(np.dot(a, b))
print(a @ b)

[[15 18 21]
 [42 54 66]]
[[15 18 21]
 [42 54 66]]


## 矩阵乘法性质
- 结合率: **(AB)C = A(BC)**
- 分配率: **A(B+C) = AB + AC, (B+C)A = BA +BA**
- 数乘结合率: **k(AB) = (kA)B = A(kB)**
- **I**为单位矩阵,若乘积有意义: **IA = A, AI = A**

In [9]:
a = np.asmatrix(np.arange(6).reshape(2, 3))
b = np.asmatrix(np.arange(6).reshape(3, 2))
c = np.asmatrix(np.arange(4).reshape(2, 2))

In [10]:
(a*b)*c

matrix([[ 26,  49],
        [ 80, 148]])

In [11]:
a*(b*c)

matrix([[ 26,  49],
        [ 80, 148]])

In [12]:
np.eye(2)*a

matrix([[0., 1., 2.],
        [3., 4., 5.]])

In [13]:
a*np.eye(3)

matrix([[0., 1., 2.],
        [3., 4., 5.]])

# 矩阵的转置 transpose
将$m \times n$的矩阵A的第i行摆成第i列,得到$n \times m$的矩阵,称其为A的转置矩阵,记为$A^T$

In [None]:
a = np.arange(12).reshape(3, 4)
a

In [None]:
a.T

## 矩阵的转置运算定律
- $(A^T)^T = A$
- $(kA)^T = kA^T$, k为数
- $(A+B)^T = A^T + B^T$
- $(AB)^T = B^TA^T$


In [14]:
a = np.arange(9).reshape(3, 3)
b = np.arange(12).reshape(3, 4)
c = np.arange(8, -1, -1).reshape(3, 3)
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [15]:
a.T.T

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [16]:
(a+c).T

array([[8, 8, 8],
       [8, 8, 8],
       [8, 8, 8]])

In [17]:
a.T + c.T

array([[8, 8, 8],
       [8, 8, 8],
       [8, 8, 8]])

In [18]:
np.dot(a, b).T

array([[ 20,  56,  92],
       [ 23,  68, 113],
       [ 26,  80, 134],
       [ 29,  92, 155]])

In [19]:
np.dot(b.T, a.T)

array([[ 20,  56,  92],
       [ 23,  68, 113],
       [ 26,  80, 134],
       [ 29,  92, 155]])

In [20]:
np.dot(a, a.T)

array([[  5,  14,  23],
       [ 14,  50,  86],
       [ 23,  86, 149]])

In [21]:
np.dot(a.T, a)

array([[45, 54, 63],
       [54, 66, 78],
       [63, 78, 93]])

## 对称矩阵
称$A = A^T$的矩阵为对称矩阵, 即关于主对角线对称的元素相等$a_{ij} = a_{ji}$
- 若矩阵A对称, 则它的转置矩阵,伴随矩阵都是对称矩阵, A可逆时其逆矩阵也是对称矩阵.
- 设A, B为n阶对称矩阵,a,b为实数,则aA+bB是对称矩阵.且若AB=BA, 则AB也是对称矩阵.
- 

In [22]:
a = np.array([[1, -1, 2],[-1, 2, 0],[2, 0, -3]])
a.T == a

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

## 反对称矩阵
称满足$A = -A^T$的方阵为反对称矩阵, $a_{ij} = -a_{ji}$
- 反对称矩阵的平方是对称矩阵
- 反对称矩阵的特征值为零或纯虚数
- A为反对称矩阵, 实数 $a \ne 0$, 则I+aA可逆
- 奇阶数反对称矩阵不可逆

In [2]:
a = np.array([[0, 1, -2],[-1, 0, 3],[2, -3, 0]])
a.T == -a

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [3]:
a ** 2

array([[0, 1, 4],
       [1, 0, 9],
       [4, 9, 0]])

# 矩阵的迹(trace)
对于n阶方阵A, 它的迹是主对角线上的元素之和, $tr(A) = \sum_{i=1}^{n}A_{ii}$
- $tr(A^T) = tr(A)$
- $tr(A+B) = tr(A)+tr(B)$
- $tr(AB) = tr(BA)$
- $tr(ABC) = tr(BCA) = tr(CAB)$

In [23]:
a = np.arange(9).reshape(3, 3)
np.trace(a)

12

In [24]:
np.asmatrix(a).trace()

matrix([[12]])

In [25]:
b = np.mat([[1, 2, 3], [3, 2, 1], [1, 0, 1]]).astype(int)
(a * b).trace() == (b * a).trace()

matrix([[ True]])

# 矩阵的行列式 determinant
n阶方阵A的行列式定义为:
$$det(A) = \sum_{\sigma \in S_n}par(\sigma)a_{1\sigma_1}a_{2\sigma_2}\dots a_{n\sigma_n}$$
$S_n$为所有n阶排列的集合(共$\frac {n(n-1)} {2}$),$par(\sigma)$为-1或+1,取决于$\sigma=(\sigma_1,\sigma_1,\dots, \sigma_n)$
为奇排列或偶排列, 即其中出现**降序的次数**为奇数或偶数, 如(1, 3, 2)降序次数为1, (1, 4, 3, 2)中降序次数为3
- $det(cA) = c^ndet(A)$
- $det(A^T) = det(A)$
- $det(AB) = det(A)det(B)$
- $det(A^{-1}) = \frac 1 {det(A)}$
- $det(A^n) = det(A)^n$

## 余子式, 代数余子式
划去$a_{ij}$所在的第i行和第j列的元素, 剩余元素按原相对位置构成一个n-1阶行列式, 记为$M_{ij}$, 称$M_{ij}$为$A_{ij}$的**余子式**, $A_{ij} = (-1)^{i+j}M_{ij}$为$a_{ij}$的代数余子式

In [26]:
a = np.mat([[1, 4, 3], [2, 2, 1], [1, 4, 1]]).astype(int)
b = np.mat([[1, 2, 3], [3, 2, 1], [1, 0, 1]]).astype(int)
np.linalg.det(2*b)

-63.99999999999998

In [27]:
2**3 * np.linalg.det(b)

-64.00000000000001

In [28]:
np.linalg.det(a*b)

-95.99999999999999

In [29]:
np.linalg.det(a) * np.linalg.det(b)

-96.00000000000003

In [30]:
np.linalg.det(np.linalg.inv(a))

0.08333333333333329

In [31]:
1 / np.linalg.det(a)

0.08333333333333333

# 伴随矩阵
将n阶方阵A的每个元素换成其对应元素的代数余子式, 然后转置得到, 记为$A^*$
- $AA^* = A^*A = |A|I$  -> $A^*AA^{-1}=|A|IA^{-1}$ -> $A^*I = |A|A^{-1}I$
- $(A^T)^* = (A^*)^T$


In [32]:
a = np.mat([[1, 2], [3, 4]])
np.linalg.inv(a) * np.linalg.det(a)

matrix([[ 4., -2.],
        [-3.,  1.]])

# 逆矩阵
设A为n阶矩阵, 若存在n阶**方阵**B使得**AB = BA = I**, 则称B为A的逆矩阵记作$A^{-1}$  
想要矩阵可逆, 需要保证矩阵是一个**方阵**(square), 且所有列向量**线性无关**的.
n阶方阵A可逆的充要条件: $|A| \ne 0$
- 若A可逆, 则其逆矩阵唯一
- $(A^{-1})^{-1} = A$
- $A^T$可逆, 且$(A^T)^{-1} = (A^{-1})^T$
- $|A^{-1}| = \frac {1}{|A|}$
- A,B为n阶可逆矩阵, 则AB可逆, 且$(AB)^{-1} = B^{-1}A^{-1}$

In [33]:
a = np.array([[1, 2, 4], [0, 1, 2], [3, 6, 9]]).astype(int)
b = np.linalg.inv(a)
np.dot(a, b), np.dot(b, a)

(array([[1., 0., 0.],
        [0., 1., 0.],
        [0., 0., 1.]]),
 array([[ 1.,  0.,  0.],
        [-0.,  1., -0.],
        [ 0.,  0.,  1.]]))

In [34]:
np.linalg.inv(a.T) == b.T

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [35]:
np.linalg.det(np.linalg.inv(a))

-0.3333333333333332

In [36]:
1 / np.linalg.det(a)

-0.33333333333333326

In [37]:
c = np.array([[1, 6 ,3], [3, 2, 1], [1, 1, 1]]).astype(int)
np.linalg.inv(np.dot(a, c)) # == np.dot(np.linalg.inv(c), np.linalg.inv(a))

array([[-0.875 ,  0.625 ,  0.25  ],
       [-1.25  , -0.25  ,  0.5   ],
       [ 3.125 , -0.375 , -1.0833]])

In [38]:
np.dot(np.linalg.inv(c), np.linalg.inv(a))

array([[-0.875 ,  0.625 ,  0.25  ],
       [-1.25  , -0.25  ,  0.5   ],
       [ 3.125 , -0.375 , -1.0833]])

# 伪逆矩阵（广义逆矩阵）

https://www.jianshu.com/p/609fa0cce409



In [2]:
np.linalg.pinv?

[0;31mSignature:[0m [0mnp[0m[0;34m.[0m[0mlinalg[0m[0;34m.[0m[0mpinv[0m[0;34m([0m[0ma[0m[0;34m,[0m [0mrcond[0m[0;34m=[0m[0;36m1e-15[0m[0;34m,[0m [0mhermitian[0m[0;34m=[0m[0;32mFalse[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Compute the (Moore-Penrose) pseudo-inverse of a matrix.

Calculate the generalized inverse of a matrix using its
singular-value decomposition (SVD) and including all
*large* singular values.

.. versionchanged:: 1.14
   Can now operate on stacks of matrices

Parameters
----------
a : (..., M, N) array_like
    Matrix or stack of matrices to be pseudo-inverted.
rcond : (...) array_like of float
    Cutoff for small singular values.
    Singular values less than or equal to
    ``rcond * largest_singular_value`` are set to zero.
    Broadcasts against the stack of matrices.
hermitian : bool, optional
    If True, `a` is assumed to be Hermitian (symmetric if real-valued),
    enabling a more efficient method for findi

In [39]:
a = np.random.rand(3, 4)
a

array([[0.9296, 0.3164, 0.1839, 0.2046],
       [0.5677, 0.5955, 0.9645, 0.6532],
       [0.7489, 0.6536, 0.7477, 0.9613]])

In [40]:
np.linalg.matrix_rank(a)

3

In [41]:
a_pinv = np.linalg.pinv(a)
a_pinv

array([[ 1.3045, -0.1074, -0.256 ],
       [-0.0037,  0.1656,  0.1214],
       [-0.167 ,  2.1496, -1.4958],
       [-0.8839, -1.701 ,  2.3206]])

In [17]:
# 右逆
a @ a_pinv

array([[ 1., -0.,  0.],
       [-0.,  1.,  0.],
       [-0., -0.,  1.]])

# 矩阵子式
在矩阵A中任选k行k列, 由位于这些行列交叉处的元素依据其原来相对位置构成的一个k阶行列式, 称其为矩阵A的**k阶主子式**

**顺序主子式**: 由 1—i 行和 1—i 列所确定的子式即为“n 阶行列式的i 阶顺序主子式”, 如:  
1阶时：取第1行，第1列  
2阶时：取第1、2行，第1、2列  
3阶时：取第1、2、3行，第1、2、3列  
4阶时：取第1、2、3、4行，第1、2、3、4列  

In [4]:
a = np.arange(1, 17).reshape(4, 4)
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [5]:
a[0:2, 0:2]  # 2阶顺序主子式

array([[1, 2],
       [5, 6]])

In [6]:
a[[0, 2], :][:, [0, 2]]  # 2阶主子式  0, 2

array([[ 1,  3],
       [ 9, 11]])


# 矩阵的秩
矩阵A的秩是矩阵A中不等于零的子式的最高阶数, 记为r(A). 零矩阵的秩规定为0.
若n阶矩阵A的秩r(A) = n, 则称A为**满秩矩阵**. 
若矩阵秩等于行数，称为行满秩；若矩阵秩等于列数，称为列满秩。 既是行满秩又是列满秩则为n阶矩阵即n阶方阵。

# 相似矩阵
对n阶的方阵A和B, 若有可逆矩阵P, 使:
$$P^{-1}AP=B, $$
则称A和B相似, 矩阵P为相似变换矩阵.
性质: 
- 相似关系具有(a)自反性; (b)对称性; (c)传递性
- 相似关系的保持性. 若A相似于B, 则$A^T, A^{-1}, A^{*}, kA, A^m, h(A)$分别相似于$B^T, B^{-1}, B^{*}, kB, B^m, h(B)$
- 相似矩阵的共性: 两个相似矩阵具有相同的秩和特征多项式, 进而它们的特征值相同, 行列式相同, 迹相同

# 正交矩阵
如果n阶矩阵$A$满足:
$$A^TA = I\quad(即A^{-1}=A^T)$$
那么称$A$为正交矩阵,简称正交阵

# 合同矩阵
两个矩阵A和B是合同的，当且仅当存在一个可逆矩阵C，使得$C^TAC=B$，则称方阵A合同于矩阵B, 记作$A \simeq B$
合同关系是一个等价关系，也就是说满足：
- 反身性：任意矩阵都与其自身合同；
- 对称性：A合同于B，则可以推出B合同于A；
- 传递性：A合同于B，B合同于C，则可以推出A合同于C；
- 合同矩阵的秩相同。

# Hermite矩阵
设$A \in C^{m \times n}$, 若$A^H = A$, 则称A为Hermite矩阵. 若$A^H = -A$, 则称A为反Hermite矩阵.
**H**符号代表求矩阵的**复共轭转置**: $A^H = \bar{(A)}^T$

Hermite阵是**对称阵**概念的推广，对称阵针对实矩阵（矩阵元素均为实数），Hermite阵针对复矩阵


# 酉矩阵Unitary Matrix
若n阶矩阵A满足$$A^HA=AA^H=I$$ 
则称A是酉矩阵, 记为$A \in U^{m \times n}$, 酉矩阵是**正交阵**概念的推广


# 奇异矩阵 Singular matrix
矩阵的行列式|A|是否等于0，若等于0，称矩阵A为奇异矩阵

In [None]:
a = np.arange(9).reshape(3, 3)
np.linalg.det(a)

# 矩阵特征值eigenvalues和特征向量eigenvectors
A为n阶的矩阵.若数$\lambda$和n维**非0**列向量x满足$Ax = \lambda x$,那么数$\lambda$称为A的**特征值**, x称为A的对应于特征值$\lambda$的**特征向量**. 式$Ax = \lambda x$也可写成$(A-\lambda I)x=0$，并且$|\lambda I - A|$叫做A 的**特征多项式**。当特征多项式等于$|\lambda I - A|=0$的时候，称为A的**特征方程**，特征方程是一个齐次线性方程组，求解特征值的过程其实就是求解特征方程的解.
$$Ax = \lambda x \Rightarrow Ax = \lambda Ix \Rightarrow (A-\lambda I)x=0$$

## 特征值分解
$\lambda$为特征向量$\vec{x}$对应的特征值。特征值分解是将一个矩阵分解为如下形式： 
    
$$
A=Q\sum Q^{-1}
$$
其中，$Q$是这个矩阵$A$的特征向量组成的矩阵，$\sum$是一个**对角矩阵**，每一个**对角线元素**就是一个特征值，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化方向（从主要的变化到次要的变化排列）。也就是说矩阵$A$的信息可以由其特征值和特征向量表示。

In [42]:
a = np.mat([[4, 2, -5], [6, 4, -9], [5, 3, -7]])
# 计算a的特征值和右特征向量
# 解特征方程 |𝜆𝐼−𝐴| = 0 
w, v = np.linalg.eig(a)  # 
v*np.diag(w)*np.linalg.inv(v)  # 特征值分解

matrix([[ 4.,  2., -5.],
        [ 6.,  4., -9.],
        [ 5.,  3., -7.]])

In [43]:
v

matrix([[ 0.5774, -0.2673,  0.2673],
        [ 0.5774, -0.8018,  0.8018],
        [ 0.5774, -0.5345,  0.5345]])

In [44]:
np.diag(w)

array([[ 1.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0., -0.]])

# 奇异值分解Singular Value Decomposition, SVD
任意实矩阵$A \in \mathbb{R}^{m \times n}$都可分解为:$$A=U\Sigma V^T$$
其中, $U \in \mathbb{R}^{m \times m}$是满足$U^TU=I$的m阶酉矩阵, $V \in \mathbb{R}^{n \times n}$是满足$V^TV=I$的n阶酉矩阵;$\Sigma \in \mathbb{R}^{m \times n}$是$m \times n$的矩阵, 其中$(\Sigma)_{ii}=\sigma_i$, 且其它位置均为0, $\sigma_i$为非负实数且满足$\sigma_1 \geq \sigma_2 \geq \cdots \geq 0$(将其降序排列)

$U$的列向量$u_i \in \mathbb{R}^{m}$称为$A$的**左奇异向量**(left-singular vector), 是$AA^T$的特征向量; $V$的列向量$v_i \in \mathbb{R}^{n}$称为$A$的**右奇异向量**(right-singular vector), 是$A^TA$的特征向量;$\sigma_i$称为**奇异值**(singular value),非零奇异值是$A^TA$或$AA^T$特征值的平方根. 矩阵$A$的秩就等于非零奇异值的个数

In [50]:
u, s, vt = np.linalg.svd(a)  # 奇异值分解, 最后一个返回的是V的转置
u * np.diag(s) * vt

matrix([[ 4.,  2., -5.],
        [ 6.,  4., -9.],
        [ 5.,  3., -7.]])

In [46]:
vt  # V.T

matrix([[-0.5428, -0.3331,  0.771 ],
        [ 0.7962, -0.4962,  0.3462],
        [ 0.2673,  0.8018,  0.5345]])

In [47]:
np.diag(s)

array([[16.1455,  0.    ,  0.    ],
       [ 0.    ,  0.5677,  0.    ],
       [ 0.    ,  0.    ,  0.    ]])

In [48]:
u

matrix([[-0.4145,  0.8133, -0.4082],
        [-0.714 , -0.5688, -0.4082],
        [-0.5643,  0.1223,  0.8165]])

In [49]:
u.T @ u

matrix([[ 1., -0.,  0.],
        [-0.,  1.,  0.],
        [ 0.,  0.,  1.]])

In [52]:
vt@vt.T

matrix([[ 1., -0.,  0.],
        [-0.,  1.,  0.],
        [ 0.,  0.,  1.]])

# 奇异值与特征值的关系
奇异值分解: $A=U\Sigma V^T$, 特征值分解:$A=Q\sum Q^{-1}$, 对对$A^TA$求特征值，则有下面的形式：
$$(A^TA)V = \lambda V$$
这里$V$就是上面的右奇异向量，另外还有：
$$\sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}A\mu_i$$
这里的$\sigma$就是奇异值，$u$就是上面说的左奇异向量。  

$A^TA = V\Sigma^TU^TU\Sigma V^T = V\Sigma^T\Sigma V^T = V\Sigma^2V^T$ 

​奇异值$\sigma​$跟特征值类似，在矩阵$\sum​$中也是从大到小排列，而且$\sigma​$的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前$r​$（$r​$远小于$m、n​$）个的奇异值来近似描述矩阵，即部分奇异值分解：
$$
A_{m\times n}\approx U_{m \times r}\sum_{r\times r}V_{r \times n}^T
$$

# 范数
## 向量的范数
`范数 norm`:用来衡量向量的大小的函数.形式上, $L^p$范数定义如下:
    $$||z||_p = \left(\sum_{i=1}^{n}|z_i|^p\right)^{\frac 1 p} $$

- 当p=2时.$L^2$范数(向量的2范数)成为**欧几里得范数(Euclidean norm)**,它表示从原点出发到向量z的欧几里得距离,经常忽略下标,直接写成||z||.平方$L^2$范数也经常被用来衡量向量大小, 可以通过简单的点积$z^T\cdot z$求得.例如,向量z=\[3, 4\], 其长度为$\sqrt {3^2+4^2}
= 5$  
- $L^1$范数也叫**曼哈顿距离(Manhattan distance)** 向量z的L1范数为3+4=7
- 向量的负无穷范数：向量的所有元素的绝对值中最小的：。  
  
$$
\Vert\vec{z}\Vert_{-\infty}=\min{|{z_i}|}
$$
- 向量的正无穷范数：向量的所有元素的绝对值中最大的：。 
  
$$
\Vert\vec{z}\Vert_{+\infty}=\max{|{z_i}|}
$$

## 矩阵的范数
定义一个矩阵$$A=\begin{pmatrix}-1 & 2 & -3 \\ 4 & -6 & 6 \end{pmatrix}$$ 任意矩阵定义为：$A_{m\times n}$，其元素为 $a_{ij}$。
矩阵的范数定义为

$$
\Vert{A}\Vert_p :=\sup_{x\neq 0}\frac{\Vert{Ax}\Vert_p}{\Vert{x}\Vert_p}
$$

当向量取不同范数时, 相应得到了不同的矩阵范数。
- **矩阵的1范数（列范数）**：矩阵的每一列上的元素绝对值先求和，再从中取个最大的,（**列和最大**），上述矩阵$A$的1范数先得到$[5,8,9]$，再取最大的最终结果就是：9。
$$\Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}|$$
- **矩阵的2范数**：矩阵$A^TA$的最大特征值开平方根，上述矩阵$A$的2范数得到的最终结果是：10.0623。   
$$\Vert A\Vert_2=\sqrt{\lambda_{max}(A^T A)}$$
其中， $\lambda_{max}(A^T A)$ 为 $A^T A$ 的特征值绝对值的最大值。
- **矩阵的无穷范数（行范数）**：矩阵的每一行上的元素绝对值先求和，再从中取个最大的，（**行和最大**），上述矩阵$A$的行范数先得到$[6；16]$，再取最大的最终结果就是：16。 $$\Vert A\Vert_{\infty}=\max_{1\le i \le m}\sum_{j=1}^n |{a_{ij}}|$$

- **矩阵的核范数**：矩阵的奇异值（将矩阵svd分解）之和，这个范数可以用来低秩表示（因为最小化核范数，相当于最小化矩阵的秩——低秩），上述矩阵A最终结果就是：10.9287。  

- **矩阵的L0范数**：矩阵的非0元素的个数，通常用它来表示稀疏，L0范数越小0元素越多，也就越稀疏，上述矩阵$A$最终结果就是：6。
- **矩阵的L1范数**：矩阵中的每个元素绝对值之和，它是L0范数的最优凸近似，因此它也可以表示稀疏，上述矩阵$A$最终结果就是：22。  
- **矩阵的F(Frobenius)范数**:矩阵$A \in \mathbb{R}^{m \times n}$的Frobenius范数定义为:
$$||A||_F = (tr(A^TA))^{1/2} = \left( \sum_{i=1}^{m}\sum_{j=1}^{n}a_{ij}^2\right)^{1/2}$$
就是将矩阵张成向量后的$L_2$范数, 它的优点在于它是一个**凸函数**, 上述矩阵A最终结果就是：10.0995。

- **矩阵的L21范数**：矩阵先以每一列为单位，求每一**列**的F范数（也可认为是向量的2范数），然后再将得到的结果求L1范数（也可认为是向量的1范数），很容易看出它是介于L1和L2之间的一种范数，上述矩阵$A$最终结果就是：17.1559。 
- **矩阵的 p范数** 
  
$$
\Vert A\Vert_p=\sqrt[p]{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^p)}
$$

In [53]:
a = np.array([[-1, 2, -3], [4, -6, 6]])
np.trace(np.dot(a, a.T))

102

**求矩阵的F范数**

In [54]:
a = np.arange(9).reshape(3, 3)
f = np.linalg.norm(a)
f

14.2828568570857

In [55]:
np.sqrt(np.square(a).sum())

14.2828568570857

In [56]:
np.sqrt(np.trace(np.dot(a, a.T)))

14.2828568570857

# 正定矩阵 (Positive Definite Matrix) 
A 是n阶方阵，如果对任何非零向量x，都有$x^TAx>0$, 就称A正定矩阵. 单位矩阵是正定矩阵.
性质:
- 正定矩阵的行列式恒为正；
- 实对称矩阵A正定当且仅当A与单位矩阵合同；
- 两个正定矩阵的和是正定矩阵；
- 正实数与正定矩阵的乘积是正定矩阵。

等价命题: 
对于n阶实对称矩阵A，下列条件是等价的：

- A是正定矩阵；
- A的一切顺序主子式均为正；
- A的一切主子式均为正；
- A的特征值均为正；
- 存在实可逆矩阵C，使$A=C^{T}C$；
- 存在秩为n的m×n实矩阵B，使$A=B^TB$；
- 存在主对角线元素全为正的实三角矩阵R，使$A=R^TR$

判别对称矩阵A的正定性有两种方法：
- 求出A的所有特征值。若A的特征值均为正数，则A是正定的；若A的特征值均为负数，则A为负定的。

- 计算A的各阶顺序主子式。若A的各阶顺序主子式均大于零，则A是正定的；若A的各阶顺序主子式中，奇数阶主子式为负，偶数阶为正，则A为负定的。

# 半正定矩阵 Positive Semi-definite Matrix
设A是**实对称矩阵**。如果对任意的实非零列向量x有$x^TAx \geq 0$，就称A为半正定矩阵。
对于半正定矩阵来说，相应的条件应改为所有的主子式**非负**。顺序主子式非负并不能推出矩阵是半正定的。  
性质:
- 半正定矩阵的行列式是非负的；
- 两个半正定矩阵的和是半正定的；
- 非负实数与半正定矩阵的数乘矩阵是半正定的。

等价条件:
- $A$是半正定的；
- $A$的所有主子式均为非负的；
- $A$的特征值均为非负的；
- 存在n阶实矩阵$C$，使$A=C^TC$；
- 存在秩为r的r×n实矩阵$B$，使$A=B^TB$。

# 正定 半正定矩阵 的直观理解
对于半正定矩阵$X^TMX \geq 0$, 其中$X$是向量，$M$是变换矩阵, $MX$代表对向量$X$进行变化. 

令$Y = MX$, 则有$X^TY \geq 0$ 代表他们的内积大于等于0.根据
$$cos(\theta) = \frac {X^T}{||X|| * ||Y||}$$
||X||, ||Y||代表向量 X,Y的长度, $\theta$代表2个向量的夹角.  
正定、半正定矩阵的直觉代表一个向量经过它的变化后的向量与其本身的夹角小于等于90度。

In [None]:
a = np.array([1, 2, 3, 4]).reshape(4, 1)
a.T * a
np.inner(a, a)

# 格拉姆矩阵 Gram Matrix
定义: n维欧式空间中任意k个向量$\alpha_1, \alpha_2, \cdots, \alpha_k$的内积所组成的矩阵
$$
\Delta(\alpha_1, \alpha_2, \cdots, \alpha_k) = 
\begin{pmatrix} (\alpha_1, \alpha_1) & (\alpha_1, \alpha_2) & \cdots & (\alpha_1, \alpha_k) \\
(\alpha_2, \alpha_1) & (\alpha_2, \alpha_2) & \cdots & (\alpha_2, \alpha_k) \\
\cdots & \cdots & \cdots & \cdot \\
(\alpha_k, \alpha_1) & (\alpha_k, \alpha_2) & \cdots & (\alpha_k, \alpha_k) \\
\end{pmatrix}
$$
$A_{ij} = \alpha_{i}^T\alpha_j $

例如: $x_1 = (3, 3)^T, \quad x_2=(4, 3)^T \quad x_3=(1, 1)^T$则Gram矩阵:
$$Gram = \begin{pmatrix} 18 & 21 & 6 \\
21 & 25 & 7 \\
6 & 7 & 2 \\
\end{pmatrix}
$$

一个重要的应用是计算线性无关：一族向量线性无关当且仅当格拉姆行列式（格拉姆矩阵的行列式）不等于零

In [57]:
x1 = np.array([3, 3])
x2 = np.array([4, 3])
x3 = np.array([1, 1])
g = np.inner((x1, x2, x3), (x1, x2, x3))
# More generally, if `ndim(a) = r > 0` and `ndim(b) = s > 0`::

#     np.inner(a, b) = np.tensordot(a, b, axes=(-1,-1))  张量点积
g

array([[18, 21,  6],
       [21, 25,  7],
       [ 6,  7,  2]])

In [58]:
np.linalg.det(g)

0.0

# 导数
向量$\alpha$对标量x的导数(derivative), 以及x相对于$\alpha$的导数都是向量, 其第i个分量为:
$$\left(\frac {\partial \alpha}{\partial x}\right)_i = \frac {\partial \alpha_i}{\partial x}$$
$$\left(\frac {\partial x}{\partial \alpha}\right)_i = \frac {\partial x} {\partial \alpha_i}$$
矩阵A对标量x的导数, 以及x对A的导数都是矩阵, 第i行第j列上的元素为
$$\left(\frac {\partial A}{\partial x}\right)_{ij} = \frac {\partial A_{ij}}{\partial x}$$
$$\left(\frac {\partial x}{\partial A}\right)_{ij} = \frac {\partial x} {\partial A_{ij}}$$
若函数f(x)对向量x可导,则f(x)关于x的一阶导数一个向量:
$$(\nabla f(x))_i = \frac {\partial f(x)}{\partial x_i}$$
f(x)对于x的二阶导数是称为**海森矩阵(Hessian matrix)** 的一个**方阵** :
$$(\nabla^2 f(x))_{ij} = \frac {\partial^2 f(x)}{\partial x_i \partial x_j}$$
向量和矩阵的导数满足乘法法则(a相对x为常向量):
$$\frac {\partial x^T a}{\partial x} = \frac {\partial a^T x}{\partial x} = a$$
$$\frac {\partial AB}{\partial x} = \frac {\partial A}{\partial x}B +
A \frac {\partial B}{\partial x}$$
逆矩阵($A^{-1}A = I$)的导数:
$$\frac {\partial A^{-1}}{\partial x} = -A^{-1}\frac {\partial A}{\partial x}A^{-1} $$


若求导的标量是矩阵A的元素,则有:
$$\frac {\partial tr(AB)}{\partial A_{ij}} = B_{ij},\quad
\frac {\partial tr(AB)}{\partial A} = B^T
$$
进而有:
$$\frac {\partial tr(A^TB)}{\partial A} = B,\quad
\frac {\partial tr(A)}{\partial A} = I,\quad
\frac {\partial tr(ABA^T)}{\partial A} = A(B+B^T)
$$
Frobenius范数求导
$$\frac {\partial||A||_F^2}{\partial A} = \frac {\partial tr(AA^T)}{\partial A} =
\frac {\partial tr(AIA^T)}{\partial A} = A(I+I^T) = 
2A$$
求导的链式法则(chain rule) $f(x) = g(h(x))$:
$$\frac {\partial f(x)}{\partial x} = \frac {\partial g(h(x))}{\partial h(x)} \cdot 
\frac {\partial h(x)}{\partial x}$$


# 欧几里得空间 希尔伯特空间
---
## 向量空间 
设$V$是数域$F$上$n$维向量构成的非空集合, 称$V$为向量空间. 
- 若$\alpha, \beta \in V$, 则 $\alpha + \beta \in V$; 
- 若$\alpha \in V, k \in F$, 则$k\alpha \in V$.

## 内积 欧几里得空间
**向量的内积**  
两个$n$维实向量$\alpha = (a_1, a_2, \cdots, a_n)^T, \beta = (b_1, b_2, \cdots, b_n)^T$的内积定义如下
$$a_1b_1 + a_2b_2 +\cdots + a_nb_n$$
记作$(\alpha, \beta)$或依据矩阵乘法写作$\alpha^T\beta$  
**欧几里得空间 Euclidean Space**

称定义了以上内积的实向量空间为欧几里得空间, 简称欧氏空间, 记作$R^n$
范数向量空间/赋范向量空间(normed vector space)
定义了向量长度的向量空间，这样我们就可以衡量向量间的长度了。

**度量空间(metric space)**

定义了两个点的距离的集合（这里不必须是向量空间）。范数向量空间是度量空间，但是度量空间不一定是范数向量空间。

**希尔伯特空间(Hilbert Space)**

希尔伯特空间即完备的内积空间，也就是说一个带有内积的完备向量空间。当一个内积空间满足通过内积空间可推导出范数空间(赋范空间)，并且是完备的，那么这个内积空间就是希尔伯特空间。对于常见的RnRn,满足内积运算，能够推导出l2l2范数，且是完备的，所以是希尔伯特空间。
> 完备性的意思就是空间中的极限运算不能跑出该空间

简单来说，基本的线性空间只包括加法和数乘操作，在此基础上我们引入内积操作，这样就把空间升级为内积空间。根据内积我们可以定义一个范数：$||x||=<x,x>$于是我们就得到了一个赋范向量空间。有了范数之后我们就可以引入一个度量：$d(x1,x2)=||x1−x2||$用于计算向量$x1$和$x2$之间的距离。于是我们就得到一个度量空间。如果这样的空间在这个度量下是完备的，那么这个空间叫做希尔伯特空间。

总结一下希尔伯特空间定义的流程是：
线性空间（向量空间）–> 内积空间 –> 赋范向量空间 –> 度量空间 –完备的–> 希尔伯特空间
另外，希尔伯特空间是一个函数空间，即空间中每个元素都是一个函数.

[参考1](https://blog.csdn.net/asd136912/article/details/79163368)

[参考2](https://www.cnblogs.com/huiAlex/p/8955223.html)