In [1]:
import numpy as np
import matplotlib.pyplot as plt
import sys

## II. 数学运算
numpy中针对ndarray的运算基本都是用universal functions来执行的。这些universal function的特点是：
1. operate element-wise on arrays。比如$A*2$是将A中每个元素都*2
2. 支持broadcasting
3. 支持type casting
- <font color=norange>本质上，ufunc是一般function的一个wrapper，把一般function运算改造成了适用于矩阵的运算。</font>

### II.1 数学运算的基本规则

1. 数学运算符在numpy中基本都已经处理成了universal function。所以一般数学运算在numpy array上都是elementwise的。

In [60]:
# elementwise
a = np.array([20, 30, 40, 50])
a < 35

array([ True,  True, False, False])

In [61]:
b = np.arange(4)
b ** 2

array([0, 1, 4, 9])

In [62]:
a - b

array([20, 29, 38, 47])

2. 正常执行数学expression之后，会生成新的numpy array。但如果用的是+=,-=等operator，那么不会生成新的array，等号左边的变量的变化是in place的。\
   <font color=deeppink>**要注意数据类型变化**：
   - 如果两个operant的dtype不一样，会自动做数据类型变换，规则是upcasting，resulting array的类型是更general or precise的那种
   - 如果是+=,-=等operator，发生的是in place赋值，那么要注意左边operant的数据类型无法自动upcast。</font>

In [63]:
# dtype
b = np.random.randn(6)
a, c = np.ones(6, dtype=np.int16), np.ones(6, dtype=np.int16)
print(a.dtype, b.dtype, c.dtype)
b += a
print(b.dtype)

int16 float64 int16
float64


In [64]:
# c += b # 报错，UFuncTypeError: Cannot cast ufunc 'add' output from dtype('float64') to dtype('int16') 

3. 二元运算的时候，两个operator array的shape要一样。如果不一样，那么要遵守broadcast规则的要求 \
   <font color=norange>**broadcast的两个规则**：
   - 如果两个矩阵的ndims不同，运算的时候自动将它的最左边缺的维度上的size扩展为1，使两个矩阵的ndims相同。比如：一个shape是(n,)的array A与另一个二维array B做运算，会先扩展为(1, n)
   - 两个ndims相同的array做运算，如果它们的shape不同，那么不同的维度上至少其中一个的size必须为1，在size=1的维度上copy，直到两个array的size相同。如果前面例子中array B的shape是(3, n)，那么A会在第一个维度上自我复制，扩展为形状是(3, n)后再跟B做elementwise的运算。</font>

### II.2 常见ufun运算

1. 一般数学运算：+, -, *, /, //, %, **

In [65]:
A = np.array([[2, 0],
              [3, 4]])
print(A // 2)
print(A % 2)

[[1 0]
 [1 2]]
[[0 0]
 [1 0]]


2. 三角运算：sin, cos, tan, arcsin, arccos, arctan, sinh, cosh, tanh ...
3. 比较运算：>, >=, <, <=, ==, !=
4. 位运算和逻辑运算：&(and), |(or), ^(xor)和~(not)
   - 如果operant是int类型，上述operator会执行位运算
   - 如果operant是boolean类型，上述operator会执行逻辑运算。
   - <font color=norange>逻辑运算经常用来做mask</font>

In [66]:
B = np.array([1, 2, 3, 4])
b = np.array([True, False, True, False])
print(~B, ~b)

[-2 -3 -4 -5] [False  True False  True]


In [67]:
c = np.array([9, 12, 3, 4, 5])
mask = (c > 3) & (c < 10)
print(c[mask], c[~mask])

[9 4 5] [12  3]


4. 统计摘要: \
   (1) 返回value：sum, min, max, std, var, mean, median, percentile\
   (2) 返回value index：argmin, argmax\
   (3) any, all：范围boolean scalar\
   (4) prod：返回所有元素相乘的结果scalar \
   (5) unique: 去重

In [68]:
a = np.random.randn(2, 3)
a

array([[ 0.410696  ,  2.43154337, -0.09841513],
       [-0.23911424, -1.6777795 , -0.42242518]])

In [69]:
# 常用统计函数
a.sum(), a.max()

(0.40450531535672407, 2.4315433670732034)

In [70]:
# 指定axia：规则被指定的dim会被reduce掉
a.sum(axis=0)

array([ 0.17158176,  0.75376386, -0.52084031])

In [71]:
# any，all
np.any(a>0), np.all(a>0)

(True, False)

In [72]:
b = np.arange(10)
c = np.random.choice(b, size=5, replace=True)
c

array([9, 2, 3, 2, 2])

In [73]:
# 返回index
c.argmax(), c.argmin(), np.percentile(c, 4)

(0, 1, 2.0)

In [74]:
# 提取唯一值：unique
a = np.array([11, 11, 12, 13, 14, 12, 13, 11]).reshape(2, -1)
a, np.unique(a)

(array([[11, 11, 12, 13],
        [14, 12, 13, 11]]),
 array([11, 12, 13, 14]))

In [75]:
# 如果要返回index，给unique函数设置参数
uni_value, uni_ind = np.unique(a, return_index=True) # 返回的index是unique value首次出现的位置
uni_value, uni_ind
# 当原始array是多维矩阵时，可以提取唯一的row，col等，可以设置axis=0，axis=1参数

(array([11, 12, 13, 14]), array([0, 2, 3, 4]))

5. 2种规则不同的矩阵inner product \
   (1) matmul, 也就是@ \
   (2) dot
- 在两个二维矩阵求内积的时候他们效果一样，两者的差异是：
  - matmul不能用scalar做乘法。 比如不能用：A @ 2
  - matmul中，Stacks of matrices are broadcast together as if the matrices were elements, respecting the signature (n,k),(k,m)->(n,m)

In [76]:
x = np.ones([2, 4])
y = np.ones([4, 3])
z = x @ y
w = np.dot(x, y)
z==w, z.shape

(array([[ True,  True,  True],
        [ True,  True,  True]]),
 (2, 3))

In [77]:
a = np.ones([6, 5, 2, 4])
b = np.ones([6, 5, 4, 3])
c = a @ b # 在最后两个维度上做(2, 4),(4, 3)的inner product，前面的维度视为stack
c.shape

(6, 5, 2, 3)

In [78]:
d = np.dot(a, b)
d.shape

(6, 5, 2, 6, 5, 3)

5. ufunc提供的一些功能性method \
   (1) reduce：在指定维度上执行ufunc运算，同时将该维度reduce掉 \
   (2) accumulate：在指定维度上执行ufunc运算，该维度上保留运算执行到每个elements时候的中间值 \
   (3) outer：外积运算   

In [79]:
a = np.array([2,3,5])
np.add.reduce(a), np.multiply.reduce(a)

(10, 30)

In [80]:
b = np.array([[2,3,5],
              [4, 6, 10]])
np.add.reduce(b, axis=0), np.multiply.reduce(b, axis=1)

(array([ 6,  9, 15]), array([ 30, 240]))

In [81]:
a = np.array([2,3,5])
np.add.accumulate(a), np.multiply.accumulate(a)

(array([ 2,  5, 10]), array([ 2,  6, 30]))