In [1517]:
import numpy as np
np.__version__

'1.22.3'

文档阅读说明：

- 🐧 表示 Tip
- ⚠️ 表示注意事项

## 数组乘法

不要关注它们是什么，看看它们做了什么。

### 点积/内积/数量积/标量积

**点积**

`np.dot`:

- 如果 a 和 b 是一维的，就是内积 `np.inner`
- 如果 a 和 b 是二维的，是矩阵乘法 `np.matmul or a @ b`
- 如果 a 或 b 任意一个是常量 `np.maltiply or a * b`
- 如果 a 是 N 维，b 是一维 `sump roduct`
- 如果 a 是 N 维，b 是 M 维 `dot(a, b)[i,j,k,m] = sum(a[i,j,:] * b[k,:,m])`

`np.vdot`: 多维输入会被flatten后计算点积。另外在计算复数时与`np.dot`有所不同。



**内积**

`np.inner`: 一维数组向量的普通内积（无复数共轭），在更高维度上，是最后一个轴上的sum product。

- 对一维数组，就是元素乘积之和 `sum(a * b)
- 如果有一个是标量，那就是直接相乘
- 对多维数组，等于 `np.tensordot(a, b, axes=(-1, -1))`，对于某个具体的索引，就是相乘后在最后一个维度上求和 `inner(a, b)[i0,...,ir-2,j0,...,js-2] = sum(a[i0,...,ir-2,:]*b[j0,...,js-2,:])`

[数量积 - 维基百科，自由的百科全书](https://zh.wikipedia.org/wiki/%E7%82%B9%E7%A7%AF)

a和b都是一维：

In [912]:
a = np.array([1, 2, 4])
b = np.array([4, 5, 6])

In [913]:
np.dot(a, b), 1*4 + 2*5 + 4*6, np.inner(a, b), sum(a * b)

(38, 38, 38, 38)

In [914]:
np.vdot(a,b)

38

a和b都是二维：

In [915]:
rng = np.random.default_rng(42)
a = rng.integers(0, 10, (3, 4))
b = rng.integers(0, 10, (3, 4))

In [916]:
np.inner(a, b)

array([[119,  71,  63],
       [126,  52,  98],
       [112,  86,  96]])

In [917]:
np.tensordot(a, b, axes=(-1, -1))

array([[119,  71,  63],
       [126,  52,  98],
       [112,  86,  96]])

In [918]:
a @ b.T

array([[119,  71,  63],
       [126,  52,  98],
       [112,  86,  96]])

In [919]:
np.matmul(a, b.T)

array([[119,  71,  63],
       [126,  52,  98],
       [112,  86,  96]])

In [921]:
np.vdot(a, b), np.dot(a.flatten(), b.flatten())

(267, 267)

a或b是常量：

In [458]:
a * 2

array([[ 0, 14, 12,  8],
       [ 8, 16,  0, 12],
       [ 4,  0, 10, 18]])

In [461]:
np.dot(a, 2)

array([[ 0, 14, 12,  8],
       [ 8, 16,  0, 12],
       [ 4,  0, 10, 18]])

In [459]:
np.multiply(a, 2)

array([[ 0, 14, 12,  8],
       [ 8, 16,  0, 12],
       [ 4,  0, 10, 18]])

In [460]:
np.inner(a, 2)

array([[ 0, 14, 12,  8],
       [ 8, 16,  0, 12],
       [ 4,  0, 10, 18]])

a是多维b是一维：

In [462]:
rng = np.random.default_rng(42)
a = rng.integers(0, 10, (2, 3, 4))
b = np.array([1, 2, 3, 4])

In [463]:
np.dot(a, b)

array([[48, 44, 53],
       [70, 47, 50]])

In [464]:
# 最后一个维度乘积和
np.inner(a, b)

array([[48, 44, 53],
       [70, 47, 50]])

In [465]:
np.tensordot(a, b, axes=(-1, -1))

array([[48, 44, 53],
       [70, 47, 50]])

In [466]:
np.sum(a*b, axis=-1)

array([[48, 44, 53],
       [70, 47, 50]])

In [467]:
a @ b

array([[48, 44, 53],
       [70, 47, 50]])

a是m维b是n维：

In [720]:
rng = np.random.default_rng(42)
a = rng.integers(0, 10, (2, 4, 3))
b = rng.integers(0, 10, (2, 3, 3))

In [721]:
# a 和 b 最后一个维度可以不一样，也就是最后一个维度是自由的
dab = np.dot(a, b)
dab.shape

(2, 4, 2, 3)

In [487]:
# dot(a, b)[i,j,k,m] = sum(a[i,j,:] * b[k,:,m])
dab[1,2,1,0], sum(a[1,2,:] * b[1,:,0])

(102, 102)

In [483]:
# a 和 b 最后一个维度必须一样
iab = np.inner(a, b)
iab.shape

(2, 4, 2, 3)

In [489]:
# inner(a, b)[i0,...,ir-2,j0,...,js-2] = sum(a[i0,...,ir-2,:]*b[j0,...,js-2,:])
iab[1,2,1,0], sum(a[1,2,:] * b[1,0,:])

(72, 72)

In [442]:
np.alltrue(iab == np.tensordot(a, b, axes=(-1, -1)))

True

In [449]:
np.alltrue(iab == dab), np.any(iab == dab)

(False, False)

### 叉积/外积/向量积


\begin{aligned}\mathbf {u\times v} &={\begin{vmatrix}u_{2}&u_{3}\\v_{2}&v_{3}\end{vmatrix}}\mathbf {i} -{\begin{vmatrix}u_{1}&u_{3}\\v_{1}&v_{3}\end{vmatrix}}\mathbf {j} +{\begin{vmatrix}u_{1}&u_{2}\\v_{1}&v_{2}\end{vmatrix}}\mathbf {k} \\&=(u_{2}v_{3}-u_{3}v_{2})\mathbf {i} -(u_{1}v_{3}-u_{3}v_{1})\mathbf {j} +(u_{1}v_{2}-u_{2}v_{1})\mathbf {k} \end{aligned}

只支持二维或三维，表示与u和v都垂直的向量。

[叉积 - 维基百科，自由的百科全书](https://zh.wikipedia.org/wiki/%E5%8F%89%E7%A7%AF)

In [546]:
# 二维
a = [1, 1]
b = [-1, 1]

In [551]:
# 向量积在二维中不起作用，因为返回的向量在二维之外
# 长度就是面积（根号2×根号2）
np.cross(a, b)

array(2)

In [566]:
# 行变多并不等于维度变多
rng = np.random.default_rng(42)
a = rng.integers(0, 10, (2, 2))
b = rng.integers(0, 10, (2, 2))
a, b

(array([[0, 7],
        [6, 4]]),
 array([[4, 8],
        [0, 6]]))

In [567]:
np.cross(a, b)

array([-28,  36])

In [568]:
np.cross([0,7], [4,8]), np.cross([6, 4], [0, 6])

(array(-28), array(36))

In [589]:
# 三维
a = [1, 2, 4]
b = [4, 5, 6]

In [590]:
2*6-4*5, -(1*6-4*4), 1*5-2*4

(-8, 10, -3)

In [591]:
# 与a和b都垂直的向量
np.cross(a, b)

array([-8, 10, -3])

还有几个关于维度的三参数，用于改变数组的定义（有点类似C和F Style）。

In [596]:
# 行变多并不等于维度变多
rng = np.random.default_rng(42)
a = rng.integers(0, 10, (2, 3))
b = rng.integers(0, 10, (2, 3))
a, b

(array([[0, 7, 6],
        [4, 4, 8]]),
 array([[0, 6, 2],
        [0, 5, 9]]))

In [600]:
np.cross(a, b)

array([[-22,   0,   0],
       [ -4, -36,  20]])

In [611]:
np.cross([0,7,6], [0,6,2]), np.cross([4,4,8], [0,5,9])

(array([-22,   0,   0]), array([ -4, -36,  20]))

In [627]:
np.cross(a, b, axisc=0)

array([[-22,  -4],
       [  0, -36],
       [  0,  20]])

In [628]:
a.T,b.T

(array([[0, 4],
        [7, 4],
        [6, 8]]),
 array([[0, 0],
        [6, 5],
        [2, 9]]))

In [630]:
np.cross(a.T, b.T)

array([ 0, 11, 38])

In [631]:
np.cross(a, b, axisa=0, axisb=0)

array([ 0, 11, 38])

In [633]:
np.cross([0,4], [0,0]), np.cross([7,4],[6,5]), np.cross([6,8], [2,9])

(array(0), array(11), array(38))

In [641]:
# 这个是实际计算时沿着的维度，和上面的不一样
np.cross(a, b, axis=0)

array([ 0, 11, 38])

### 张量积/外积

- [张量积 - 维基百科，自由的百科全书](https://zh.wikipedia.org/wiki/%E5%BC%A0%E9%87%8F%E7%A7%AF)
- [外积 - 维基百科，自由的百科全书](https://zh.wikipedia.org/wiki/%E5%A4%96%E7%A7%AF)

In [522]:
a = [1, 2, 4]
b = [4, 5, 6]

In [523]:
np.outer(a, b)

array([[ 4,  5,  6],
       [ 8, 10, 12],
       [16, 20, 24]])

In [524]:
rng = np.random.default_rng(42)
a = rng.integers(0, 10, (2, 3, 4))
b = rng.integers(0, 10, (2, 3, 4))

In [525]:
np.alltrue(
    np.outer(a,b) == a.ravel().reshape(24, 1) @ b.ravel().reshape(1, 24)
)

True

In [526]:
np.alltrue(np.outer(a, b) == np.tensordot(a.ravel(), b.ravel(), axes=((), ())))

True

### 矩阵乘法

`np.dot`上面已经提过了，其实还有个`np.matmul`和它很类似，但二者是有一些区别的。

- `dot`不是通函数，而`matmul`是通函数，也就意味这有通函数的一些通用参数
- `matmul`不支持向量和数字相乘
- `matmul`矩阵（好像元素一样）堆叠在一起广播

关于`np.matmul`：

- 如果都是二维，就是常规的矩阵乘法
- 如果任意个是多维（>2），则把它当成驻留在最后两个索引中的矩阵堆栈，并相应地广播
- 如果第一个是一维，则通过在其维度前面加上 1 来将其提升为矩阵，矩阵乘法后删除前面附加的 1
- 如果第二个是一维，则在维度上append 1，矩阵乘法后再删除后面附加的 1

二维的情况：

In [652]:
rng = np.random.default_rng(42)
a = rng.integers(0, 10, (2, 3))
b = rng.integers(0, 10, (3, 2))
a, b

(array([[0, 7, 6],
        [4, 4, 8]]),
 array([[0, 6],
        [2, 0],
        [5, 9]]))

In [653]:
np.matmul(a, b)

array([[44, 54],
       [48, 96]])

其中一个是一维的情况：

In [655]:
rng = np.random.default_rng(42)
a = rng.integers(0, 10, (2, 3))
b = rng.integers(0, 10, (3,))
a, b

(array([[0, 7, 6],
        [4, 4, 8]]),
 array([0, 6, 2]))

In [680]:
np.matmul(a, b), (a @ np.stack((b, [1, 1, 1]), axis=1))[:,0]

(array([54, 40]), array([54, 40]))

In [690]:
np.matmul(b, a.T), (np.stack(([1, 1, 1], b), axis=0) @ a.T)[1,:]

(array([54, 40]), array([54, 40]))

任意一个是多维：

In [723]:
rng = np.random.default_rng(42)
a = rng.integers(0, 10, (2, 3, 4, 5))
b = rng.integers(0, 10, (2, 3, 5, 9))

In [712]:
np.matmul(a, b).shape

(2, 3, 4, 9)

In [725]:
(a @ b).shape

(2, 3, 4, 9)

In [713]:
np.dot(a, b).shape

(2, 3, 4, 2, 3, 9)

In [702]:
np.alltrue(np.dot(a, b) == np.matmul(a, b))

True

看个简单点的例子：

In [728]:
rng = np.random.default_rng(42)
a = rng.integers(0, 10, (2, 3, 2))
b = rng.integers(0, 10, (2, 2, 2))

In [767]:
# 2x3x2
np.matmul(a, b)

array([[[49, 49],
        [70, 70],
        [84, 84]],

       [[48, 24],
        [10,  2],
        [97, 41]]])

In [739]:
a[0,:,:] @ b[0,:,:]

array([[49, 49],
       [70, 70],
       [84, 84]])

In [745]:
a[1,:,:] @ b[1,:,:]

array([[48, 24],
       [10,  2],
       [97, 41]])

In [761]:
# 2x3x2
np.matmul(a[0,:,:], b)

array([[[49, 49],
        [70, 70],
        [84, 84]],

       [[56, 28],
        [62, 22],
        [84, 36]]])

In [763]:
# 2x3x2
np.matmul(a[1,:,:], b)

array([[[42, 42],
        [14, 14],
        [98, 98]],

       [[48, 24],
        [10,  2],
        [97, 41]]])

看看dot是咋样表现的：

In [756]:
# 2x3x2x2
np.dot(a,b)

array([[[[49, 49],
         [56, 28]],

        [[70, 70],
         [62, 22]],

        [[84, 84],
         [84, 36]]],


       [[[42, 42],
         [48, 24]],

        [[14, 14],
         [10,  2]],

        [[98, 98],
         [97, 41]]]])

In [758]:
# 3x2x2
np.dot(a[0,:,:], b[:,:,:])

array([[[49, 49],
        [56, 28]],

       [[70, 70],
        [62, 22]],

       [[84, 84],
        [84, 36]]])

In [765]:
# 3x2x2
np.dot(a[1,:,:], b[:,:,:])

array([[[42, 42],
        [48, 24]],

       [[14, 14],
        [10,  2]],

       [[98, 98],
        [97, 41]]])

### 克罗内克积

>维基百科：是两个任意大小的矩阵间的运算，表示为⊗。克罗内克积是外积从向量到矩阵的推广，也是张量积在标准基下的矩阵表示。

[克罗内克积 - 维基百科，自由的百科全书](https://zh.m.wikipedia.org/zh-hans/%E5%85%8B%E7%BD%97%E5%86%85%E5%85%8B%E7%A7%AF)

$$
A\otimes B={\begin{bmatrix}a_{{11}}B&\cdots &a_{{1n}}B\\\vdots &\ddots &\vdots \\a_{{m1}}B&\cdots &a_{{mn}}B\end{bmatrix}}.
$$

$$
{\begin{bmatrix}1&2\\3&1\\\end{bmatrix}}\otimes {\begin{bmatrix}0&3\\2&1\\\end{bmatrix}}={\begin{bmatrix}1\cdot 0&1\cdot 3&2\cdot 0&2\cdot 3\\1\cdot 2&1\cdot 1&2\cdot 2&2\cdot 1\\3\cdot 0&3\cdot 3&1\cdot 0&1\cdot 3\\3\cdot 2&3\cdot 1&1\cdot 2&1\cdot 1\\\end{bmatrix}}={\begin{bmatrix}0&3&0&6\\2&1&4&2\\0&9&0&3\\6&3&2&1\end{bmatrix}}.
$$

In [932]:
np.kron([1,2,3], [1, 10, 100])

array([  1,  10, 100,   2,  20, 200,   3,  30, 300])

In [933]:
np.kron([1, 10, 100], [1,2,3])

array([  1,   2,   3,  10,  20,  30, 100, 200, 300])

In [934]:
a = np.array([[1,2],[3,1]])
b = np.array([[0,3],[2,1]])

In [935]:
np.kron(a,b)

array([[0, 3, 0, 6],
       [2, 1, 4, 2],
       [0, 9, 0, 3],
       [6, 3, 2, 1]])

In [949]:
a = np.ones((2,5,2,5))
b = np.ones((2,3,4))
np.kron(a,b).shape

(2, 10, 6, 20)

### 多矩阵乘法

`linalg.multi_dot`链式调用`np.dot`，自动选择最快的顺序。

- 如果第一个数组是一维，则被当做行向量
- 如果最后一个数组是一维，则被当做列向量
- 如果输入的向量超过两个，则其他向量必须是二维

In [962]:
a = np.ones((2, 4))
b = np.ones((4, 3))
c = np.ones((3, 5))

In [963]:
np.linalg.multi_dot((a,b,c)).shape

(2, 5)

不同的顺序性能不同，比如：

`A_{10x100}, B_{100x5}, C_{5x50}`


`cost((AB)C) = 10*100*5 + 10*5*50   = 5000 + 2500   = 7500`
`cost(A(BC)) = 10*100*50 + 100*5*50 = 50000 + 25000 = 75000`

In [964]:
rng = np.random.default_rng(42)
a = rng.integers(0, 10, (10, 100))
b = rng.integers(0, 10, (100, 5))
c = rng.integers(0, 10, (5, 50))

In [970]:
%timeit a.dot(b).dot(c).shape

8.74 µs ± 745 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [971]:
%timeit a.dot(b.dot(c)).shape

66 µs ± 4.96 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [973]:
%timeit np.linalg.multi_dot((a, b, c)).shape

13.6 µs ± 335 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


如果首尾是一维：

In [983]:
a = np.ones((3))
b = np.ones((3, 5))
c = np.ones((5, 8))
d = np.ones(8)

In [984]:
a.dot(b).dot(c).shape

(8,)

In [989]:
# a=1x3
np.linalg.multi_dot((a, b, c)).shape

(8,)

In [995]:
# d=8x1
np.linalg.multi_dot((b, c, d)).shape

(3,)

In [997]:
b.dot(c).dot(d).shape

(3,)

## 线性代数

介绍线性代数几个常用的API，不涉及数学知识。

In [1076]:
from numpy import linalg as LA

### 范数

共包括：

```
=====  ============================  ==========================
ord    norm for matrices             norm for vectors
=====  ============================  ==========================
None   Frobenius norm                2-norm
'fro'  Frobenius norm                --
'nuc'  nuclear norm                  --
inf    max(sum(abs(x), axis=1))      max(abs(x))
-inf   min(sum(abs(x), axis=1))      min(abs(x))
0      --                            sum(x != 0)
1      max(sum(abs(x), axis=0))      as below
-1     min(sum(abs(x), axis=0))      as below
2      2-norm (largest sing. value)  as below
-2     smallest singular value       as below
other  --                            sum(abs(x)**ord)**(1./ord)
=====  ============================  ==========================
```

- [Matrix norm - Wikipedia](https://en.wikipedia.org/wiki/Matrix_norm)

In [1078]:
a = np.arange(6).reshape(2, 3)
a

array([[0, 1, 2],
       [3, 4, 5]])

In [1080]:
LA.norm(a)

7.416198487095663

In [1093]:
# F范数
LA.norm(a, "fro"), np.sqrt(np.sum(a**2))

(7.416198487095663, 7.416198487095663)

In [1094]:
# 核范数
LA.norm(a, "nuc"), np.sum(LA.svd(a)[1])

(8.348469228349535, 8.348469228349535)

In [1105]:
# inf
LA.norm(a, np.inf), np.max(np.sum(abs(a), axis=1))

(12.0, 12)

In [1106]:
# -inf
LA.norm(a, -np.inf), np.min(np.sum(abs(a), axis=1))

(3.0, 3)

In [1110]:
# 1
LA.norm(a, 1), np.max(np.sum(abs(a), axis=0))

(7.0, 7)

In [1111]:
# -1
LA.norm(a, -1), np.min(np.sum(abs(a), axis=0))

(3.0, 3)

In [1129]:
# 2
LA.norm(a, 2), np.max(LA.svd(a)[1])

(7.3484692283495345, 7.3484692283495345)

In [1130]:
# -2
LA.norm(a, -2), np.min(LA.svd(a)[1])

(0.9999999999999998, 0.9999999999999998)

### 行列式、迹

In [1195]:
a = np.array(([1,5],[3,4]))
a

array([[1, 5],
       [3, 4]])

In [1196]:
LA.det(a), 1*4-5*3

(-11.000000000000002, -11)

In [1199]:
a[0,0] + a[1,1]

5

In [1166]:
# 二维
np.trace(a)

5

In [1189]:
a = np.arange(8).reshape((2,2,2))
a

array([[[0, 1],
        [2, 3]],

       [[4, 5],
        [6, 7]]])

In [1193]:
a[0,0] + a[1,1]

array([6, 8])

In [1194]:
np.trace(a)

array([6, 8])

### 特征值

`eig`计算一个方阵的特征值和右特征向量，`eigvals`与之的区别是不返回特征向量。

In [1060]:
a = np.diag([1,2,3])
w, v = LA.eig(a)

In [1061]:
w

array([1., 2., 3.])

In [1062]:
v

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [1063]:
LA.eigvals(a)

array([1., 2., 3.])

In [1064]:
a @ v == w * v

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [1065]:
rng = np.random.default_rng(42)
a = rng.integers(0, 10, (3, 3))
a

array([[0, 7, 6],
       [4, 4, 8],
       [0, 6, 2]])

In [1066]:
w, v = LA.eig(a)

In [1067]:
np.allclose(a @ v, w * v)

True

In [1069]:
LA.eigvals(a) == w

array([ True,  True,  True])

`eigh`计算埃尔米特矩阵或实对称矩阵的特征值和特征向量，`eigvalsh`与之的区别是后者不返回特征向量。


- [埃尔米特矩阵 - 维基百科，自由的百科全书](https://zh.wikipedia.org/wiki/%E5%9F%83%E5%B0%94%E7%B1%B3%E7%89%B9%E7%9F%A9%E9%98%B5)
- [對稱矩陣 - 维基百科，自由的百科全书](https://zh.wikipedia.org/zh/%E5%B0%8D%E7%A8%B1%E7%9F%A9%E9%99%A3)


以实对称矩阵为例。

In [1071]:
a = np.array([
    [1, 2, 3],
    [2, 4, -5],
    [3, -5, 6]
])

In [1072]:
LA.eigh(a)

(array([-3.07730361,  3.84139016, 10.23591345]),
 array([[-0.65271955,  0.74655097,  0.12891408],
        [ 0.55145509,  0.58486128, -0.59483995],
        [ 0.5194752 ,  0.31717334,  0.79343972]]))

In [1073]:
LA.eigvalsh(a)

array([-3.07730361,  3.84139016, 10.23591345])

In [1052]:
LA.eig(a)

(array([-3.07730361,  3.84139016, 10.23591345]),
 array([[-0.65271955,  0.74655097,  0.12891408],
        [ 0.55145509,  0.58486128, -0.59483995],
        [ 0.5194752 ,  0.31717334,  0.79343972]]))

### 矩阵求解

`solve`可直接求解：

In [1346]:
x = np.array([[1, 2], [3, 5]])
y = np.array([1, 2])
w = LA.solve(x, y)

In [1252]:
np.allclose(x.dot(w), y)

True

`tensorsolve`更加通用一些：

In [1253]:
LA.tensorsolve(x, y)

array([-1.,  1.])

In [1254]:
rng = np.random.default_rng(42)
x = rng.integers(0, 10, (6, 4, 2, 3, 4))
y = rng.integers(0, 10, (6, 4))

In [1255]:
LA.tensorsolve(x, y).shape

(2, 3, 4)

In [1256]:
LA.solve(x,y)

LinAlgError: Last 2 dimensions of the array must be square

可以使用最小二乘法近似求解：

In [1267]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [1264]:
data = load_iris()

In [1265]:
x = data["data"]
y = data["target"]

In [1279]:
x_train, x_test, y_train, y_test = \
train_test_split(x, y, test_size=0.2)

In [1317]:
w = LA.lstsq(x_train, y_train, rcond=None)[0]

In [1326]:
# 精准率
np.sum(
    np.abs(x_test.dot(w)).round()==y_test
)/len(y_test)

1.0

### 逆矩阵

`inv`可用于求矩阵逆：

In [1339]:
a = np.arange(1, 5).reshape(2, 2)
a

array([[1, 2],
       [3, 4]])

In [1340]:
inva = LA.inv(a)

In [1341]:
np.allclose(inva.dot(a), np.eye(2))

True

使用奇异值分解计算矩阵伪逆。

In [1353]:
rng = np.random.default_rng(42)
a = rng.integers(0, 10, (2, 3))
a

array([[0, 7, 6],
       [4, 4, 8]])

In [1354]:
inva = LA.pinv(a)
inva

array([[-0.12751678,  0.14261745],
       [ 0.15436242, -0.08053691],
       [-0.01342282,  0.09395973]])

In [1364]:
np.allclose(a.dot(inva), np.eye(2))

True

In [1367]:
np.allclose(a.dot(inva).dot(a), a)

True

In [1378]:
np.allclose(a.dot(inva.dot(a)), a)

True

In [1363]:
np.allclose(inva.dot(a.dot(inva)), inva)

True

`tensorinv`适用于高维数组求逆：

In [1404]:
rng = np.random.default_rng(42)
a = rng.integers(0, 10, (4, 6, 8, 3))

In [1405]:
ainv = np.linalg.tensorinv(a, ind=2)

In [1408]:
np.tensordot(a, ainv).shape

(4, 6, 4, 6)

In [1409]:
eye = np.eye(4*6)
eye.shape = (4, 6, 4, 6)

In [1410]:
np.allclose(np.tensordot(a, ainv), eye)

True

### 矩阵分解

`cholesky`分解是把一个对称正定的矩阵表示成一个下三角矩阵L和其转置的乘积的分解。要求所有的特征值必须大于零。


[科列斯基分解 - 维基百科，自由的百科全书](https://zh.wikipedia.org/zh-sg/%E7%A7%91%E5%88%97%E6%96%AF%E5%9F%BA%E5%88%86%E8%A7%A3)

In [1511]:
a = np.array([
    [4, 12, -16],
    [12, 37, -43],
    [-16, -43, 98]
])

In [1513]:
ca = LA.cholesky(a)
ca

array([[ 2.,  0.,  0.],
       [ 6.,  1.,  0.],
       [-8.,  5.,  3.]])

In [1515]:
np.array_equal(ca.dot(ca.T), a)

True

`qr`分解将矩阵分解成一个正交矩阵和一个上三角矩阵的积。


[QR 分解 - 维基百科，自由的百科全书](https://zh.wikipedia.org/zh-hans/QR%E5%88%86%E8%A7%A3)

In [1412]:
rng = np.random.default_rng(42)
a = rng.integers(0, 10, (4, 5))
a

array([[0, 7, 6, 4, 4],
       [8, 0, 6, 2, 0],
       [5, 9, 7, 7, 7],
       [7, 5, 1, 8, 4]])

In [1417]:
# q是正交矩阵，r是上三角矩阵
q, r = LA.qr(a)

In [1425]:
q.shape, r.shape

((4, 4), (4, 5))

In [1418]:
np.allclose(q.dot(r), a)

True

In [1422]:
# 转置=逆
np.allclose(LA.inv(q), q.T)

True

`svd`分解将矩阵分解为一个酉矩阵`U`、一个非负实对角矩阵`Σ`和一个共轭转置矩阵`V*`的乘积。Σ对角线上的元素为奇异值。

`M = UΣV*`


[奇异值分解 - 维基百科，自由的百科全书](https://zh.wikipedia.org/zh-hans/%E5%A5%87%E5%BC%82%E5%80%BC%E5%88%86%E8%A7%A3)

In [1488]:
a

array([[0, 7, 6, 4, 4],
       [8, 0, 6, 2, 0],
       [5, 9, 7, 7, 7],
       [7, 5, 1, 8, 4]])

In [1489]:
u, s, vh = LA.svd(a)

In [1490]:
u.shape, s.shape, vh.shape

((4, 4), (4,), (5, 5))

In [1503]:
xgm = np.insert(np.diag(s), s.shape[0], 0, axis=1)
xgm.shape

(4, 5)

In [1505]:
np.allclose(u.dot(xgm).dot(vh), a)

True

## Einsum

使用`einsum`可以让很多常见的数组运算以简洁的方式表示。

下标字符串是一个逗号分隔的下标标签列表，每个标签指的是相应操作的一个维度。标签重复时会被求和（`np.einsum("i,i", a, b)`），重复下标标签取对角线（`np.einsum("ii", a)`）

In [1535]:
a = np.arange(5)
np.einsum("i,i", a,a)

30

In [1536]:
np.einsum("ii", np.arange(9).reshape(3, 3))

12

## Padding

Padding操作，参数如下：

- 数组
- pad_width：序列、整数或数组，每个轴边缘扩展的数量。
- 模式：默认constant。还包括：edge, linear_ramp, maximum, mean, median, minimum, reflect, symmetric, wrap, empty。
- stat_length：序列、整数或数组，模式是`maximum`, `minimum`, `mean`, `median`\时，用来计算每个轴边缘的值，默认None。
- constant_values：序列或标量，padding的值，默认0。
- end_values：虚列或标量，模式是`linear_ramp`时使用，用于结束值，经形成填充数组的边缘，默认0。
- reflect_type：模式是`reflect`和`symmetric`时使用，默认使用`even`风格，边缘值周围不改变反射，`odd`模式，数组的拓展部分是通过从边缘值的两倍中减去反射值来创建的。

首先看pad_width参数：

In [798]:
# tuple
np.pad(
    [1,2,3,4,5], 
    (2,3),  # 等于((2,3),), ((2,3))
    "constant", 
    constant_values=(4, 6)
)

array([4, 4, 1, 2, 3, 4, 5, 6, 6, 6])

In [805]:
np.pad(
    [1,2,3,4,5], 
    2, # 等于(2), (2, )
    "constant", 
    constant_values=(4, 6)
)

array([4, 4, 1, 2, 3, 4, 5, 6, 6])

In [809]:
# 分别左上，右下
np.pad(
    [[1,2,3],[4,5,6]],
    (1, 2)
)

array([[0, 0, 0, 0, 0, 0],
       [0, 1, 2, 3, 0, 0],
       [0, 4, 5, 6, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0]])

In [813]:
# 行（1,2）
# 列（2,1）
np.pad(
    [[1,2,3],[4,5,6]],
    ((1, 2), (2, 1))
)

array([[0, 0, 0, 0, 0, 0],
       [0, 0, 1, 2, 3, 0],
       [0, 0, 4, 5, 6, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0]])

In [815]:
np.pad(
    [[1,2,3],[4,5,6]],
    1
)

array([[0, 0, 0, 0, 0],
       [0, 1, 2, 3, 0],
       [0, 4, 5, 6, 0],
       [0, 0, 0, 0, 0]])

接下来看下不同模式，顺带了解不同模式对应的额外参数。简单起见，`pad_width`我们统一使用整数。

In [816]:
a = np.arange(1, 7).reshape(3, 2)
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [817]:
# edge
np.pad(a, 1, "edge")

array([[1, 1, 2, 2],
       [1, 1, 2, 2],
       [3, 3, 4, 4],
       [5, 5, 6, 6],
       [5, 5, 6, 6]])

In [821]:
# linear_ramp
# 需要额外参数：end_values，默认0
np.pad(a, 1, "linear_ramp")

array([[0, 0, 0, 0],
       [0, 1, 2, 0],
       [0, 3, 4, 0],
       [0, 5, 6, 0],
       [0, 0, 0, 0]])

In [824]:
np.pad(a, 1, "linear_ramp", end_values=(1, ))

array([[1, 1, 1, 1],
       [1, 1, 2, 1],
       [1, 3, 4, 1],
       [1, 5, 6, 1],
       [1, 1, 1, 1]])

In [825]:
np.pad(a, 1, "linear_ramp", end_values=(1, 2), )

array([[1, 1, 1, 2],
       [1, 1, 2, 2],
       [1, 3, 4, 2],
       [1, 5, 6, 2],
       [1, 2, 2, 2]])

In [827]:
# 行（1,2）
# 列（3,4）
np.pad(a, 1, "linear_ramp", end_values=((1, 2), (3, 4)))

array([[3, 1, 1, 4],
       [3, 1, 2, 4],
       [3, 3, 4, 4],
       [3, 5, 6, 4],
       [3, 2, 2, 4]])

In [829]:
# 和这个等价
np.pad(
    a,
    1,
    "constant", 
    constant_values=((1, 2), (3,4))
)

array([[3, 1, 1, 4],
       [3, 1, 2, 4],
       [3, 3, 4, 4],
       [3, 5, 6, 4],
       [3, 2, 2, 4]])

In [832]:
# maximum, minmum, mean, median
# 需要额外参数stat_length，默认None，使用该轴所有值
np.pad(a, 1, "maximum")

array([[6, 5, 6, 6],
       [2, 1, 2, 2],
       [4, 3, 4, 4],
       [6, 5, 6, 6],
       [6, 5, 6, 6]])

In [837]:
# 只取2个
np.pad(a, 1, "maximum", stat_length=2)

array([[4, 3, 4, 4],
       [2, 1, 2, 2],
       [4, 3, 4, 4],
       [6, 5, 6, 6],
       [6, 5, 6, 6]])

In [844]:
# 分别取，左上2，右下1
np.pad(a, 1, "maximum", stat_length=((2, 1), ))

array([[4, 3, 4, 4],
       [2, 1, 2, 2],
       [4, 3, 4, 4],
       [6, 5, 6, 6],
       [6, 5, 6, 6]])

In [850]:
# 各自分别指定
# 行（2,1）
# 列（1,2）
np.pad(a, 1, "maximum", stat_length=((2, 1), (1, 2)))

array([[3, 3, 4, 4],
       [1, 1, 2, 2],
       [3, 3, 4, 4],
       [5, 5, 6, 6],
       [5, 5, 6, 6]])

In [858]:
b = a.astype(np.float16)

In [860]:
# mean和median类似
# 行（2,1）
# 列（1,2）
np.pad(b, 1, "mean", stat_length=((2, 1), (1, 2)))

array([[2. , 2. , 3. , 2.5],
       [1. , 1. , 2. , 1.5],
       [3. , 3. , 4. , 3.5],
       [5. , 5. , 6. , 5.5],
       [5. , 5. , 6. , 5.5]], dtype=float16)

In [870]:
a = [1,2,3,4,5]

In [883]:
# reflect, symmetric
# 需要额外参数reflect_type，默认even
# 首末是对称轴
np.pad(a, 3, "reflect")

array([4, 3, 2, 1, 2, 3, 4, 5, 4, 3, 2])

In [884]:
# 首末是对称轴
np.pad(a, 3, "reflect", reflect_type="odd")

array([-2, -1,  0,  1,  2,  3,  4,  5,  6,  7,  8])

In [885]:
# 边缘是对称轴
np.pad(a, 3, "symmetric")

array([3, 2, 1, 1, 2, 3, 4, 5, 5, 4, 3])

In [886]:
# 边缘是对称轴
np.pad(a, 3, "symmetric", reflect_type="odd")

array([-1,  0,  1,  1,  2,  3,  4,  5,  5,  6,  7])

In [889]:
# wrap
# 首尾互换
np.pad(a, 2, "wrap")

array([4, 5, 1, 2, 3, 4, 5, 1, 2])

In [900]:
# empty
# 未定义值扩展
np.pad(a, 1, "empty")

array([              0,               1,               2,               3,
                     4,               5, 123145302310976])

## 卷积

卷积函数（一维）遵循以下规则：

$$
(a * v)[n] = \sum_{m = -\infty}^{\infty} a[m] v[n - m]
$$

In [782]:
np.convolve([1, 2, 3], [0, 1, 0.5], "valid"), 0.5*1+1*2+0*3

(array([2.5]), 2.5)

In [783]:
np.convolve([1, 2, 3], [0, 1, 0.5], "same")

array([1. , 2.5, 4. ])

In [784]:
np.convolve([0, 1, 2, 3, 0], [0, 1, 0.5], "valid") 

array([1. , 2.5, 4. ])

In [785]:
# 默认 full
np.convolve([1, 2, 3], [0, 1, 0.5])

array([0. , 1. , 2.5, 4. , 1.5])

In [786]:
np.convolve([0, 0, 1, 2, 3, 0, 0], [0, 1, 0.5], "valid")

array([0. , 1. , 2.5, 4. , 1.5])

## 掩码运算