# numpy高级主题
----------
## 通用函数

In [1]:
import numpy as np
a = np.arange(0, 9, dtype=np.int32).reshape((3,3))
print(a)
print(a+10)
print(a-2)
print(a*3)
print(a/4)
print(a//4)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[10 11 12]
 [13 14 15]
 [16 17 18]]
[[-2 -1  0]
 [ 1  2  3]
 [ 4  5  6]]
[[ 0  3  6]
 [ 9 12 15]
 [18 21 24]]
[[0.   0.25 0.5 ]
 [0.75 1.   1.25]
 [1.5  1.75 2.  ]]
[[0 0 0]
 [0 1 1]
 [1 1 2]]


`+ - * / //`这些运算符在numpy当中类似c++的操作符重载，numpy会把这些操作符用内置的通用函数替换；

In [2]:
print(a+10)
print(np.add(a, 10))

[[10 11 12]
 [13 14 15]
 [16 17 18]]
[[10 11 12]
 [13 14 15]
 [16 17 18]]


In [3]:
print(a*3)
print(np.multiply(a, 3))

[[ 0  3  6]
 [ 9 12 15]
 [18 21 24]]
[[ 0  3  6]
 [ 9 12 15]
 [18 21 24]]


In [4]:
print(a/4)
print(np.divide(a, 4))

[[0.   0.25 0.5 ]
 [0.75 1.   1.25]
 [1.5  1.75 2.  ]]
[[0.   0.25 0.5 ]
 [0.75 1.   1.25]
 [1.5  1.75 2.  ]]


其他的通用函数包括np.abs, np.power, np.sin, np.cos, np.arcsin, np.exp, np.exp2, np.log, np.log2, np.log10

## 通用函数聚合

In [6]:
a = np.arange(1, 6)
np.add.reduce(a)

15

In [7]:
np.multiply.reduce(a)

120

In [8]:
np.multiply.accumulate(a)

array([  1,   2,   6,  24, 120], dtype=int32)

## 求和与最大最小值

In [10]:
a = np.random.randint(1, 15, size=(4, 4))
print(a)
np.sum(a)

[[ 4  3  3 11]
 [12  6  6  9]
 [10 12  4  9]
 [10  6  5  3]]


113

In [11]:
np.sum(a, axis=0)

array([36, 27, 18, 32])

In [12]:
np.min(a)

3

In [13]:
np.argmin()

1

|函数名|描述|
|:---:|:---:|
|np.sum|计算元素的和|
|np.prod|计算元素的积|
|np.mean|平均值|
|np.std|标准差|
|np.var|方差|
|np.min|最小值|
|np.max|最大值|
|np.argmin|最小值索引|
|np.argmax|最大值索引|
|np.median|中位数|
|np.any|任何一个元素满足条件|
|np.all|所有元素满足条件|

## 广播
广播是使用numpy进行向量化操作，避免python缓慢的for循环的一个重要特征；
比如：

In [2]:
import numpy as np
a = np.arange(0, 5)
print(a.shape)
b = 4
print(a+b)

(5,)
[4 5 6 7 8]


这里b=4被广播为\[4, 4, 4, 4, 4\],再和a进行加法运算；
对于更复杂的多维数组之间的广播，比如：

In [4]:
a = np.array([1, 2, 3])
print('a.shape=', a.shape)
b = np.array([[1, 1, 1], [2, 2, 2]])
print('b.shape=', b.shape)
print(a+b)

a.shape= (3,)
b.shape= (2, 3)
[[2 3 4]
 [3 4 5]]


广播规则：(3,)和(2,3)维度不匹配，首先(3,)变成(1,3)，(1,3)和(2,3)还是不匹配，(1,3)顺着axis=1的轴进行复制扩展，得到(2,3)；
也就是\[1,2,3\]  ----> \[\[1,2,3\]\] ---> \[\[1,2,3\],\[1,2,3\]\]

如果两个数组在任意一个维度上的形状都不匹配，比如：

In [5]:
a = np.array([1,2,3])
print('a.shape=', a.shape)
b = np.array([[9], [10]])
print('b.shape=', b.shape)
print(a+b)

a.shape= (3,)
b.shape= (2, 1)
[[10 11 12]
 [11 12 13]]


(3,)和(2,1)维度不匹配，(3,)变成(1,3)， (1,3)和(2,1)不匹配，(1,3)扩展为(2,3)，(2,3)和(2,1)不匹配，(2,1)扩展为(2,3)，最终结果为(2,3)形状；
* 规则 1：如果两个数组的维度数不相同，那么小维度数组的形状将会在最左边补 1。
* 规则 2：如果两个数组的形状在任何一个维度上都不匹配，那么数组的形状会沿着维度为 1 的维度扩展以匹配另外一个数组的形状。
* 规则 3：如果两个数组的形状在任何一个维度上都不匹配并且没有任何一个维度等于 1，那么会引发异常。

## 比较，掩码，bool逻辑
利用numpy重载的比较运算符< > <= >= == !=可以非常方便的得到对应的bool数组：

In [6]:
a = np.random.randint(10, size=(4,4))
print(a)

[[0 4 6 3]
 [9 7 9 7]
 [2 1 4 1]
 [3 9 0 3]]


In [7]:
a<3

array([[ True, False, False, False],
       [False, False, False, False],
       [ True,  True, False,  True],
       [False, False,  True, False]])

In [8]:
np.count_nonzero(a<3)

5

In [9]:
np.sum(a<3, axis=0)

array([2, 1, 1, 1])

bool逻辑运算符也被numpy重载，比如：

In [10]:
print(a)

[[0 4 6 3]
 [9 7 9 7]
 [2 1 4 1]
 [3 9 0 3]]


In [11]:
(a<5) & (a>1)

array([[False,  True, False,  True],
       [False, False, False, False],
       [ True, False,  True, False],
       [ True, False, False,  True]])

bool数组可以作为掩码，直接获取对应True位置的元素

In [12]:
a[a<4]

array([0, 3, 2, 1, 1, 3, 0, 3])

## 高级索引
使用数组来索引数组，获取目标元素：

In [13]:
a = np.random.randint(10, size=8)
print(a)

[9 4 5 2 1 8 7 7]


In [14]:
ind = np.array([1, 3, 5])
a[ind]

array([4, 2, 8])

要牢记的是：使用数组来索引数组，得到的结果数组和索引的形状是一致的：

In [15]:
print(a)
ind = np.array([[0, 1], [2, 3]])
a[ind]

[9 4 5 2 1 8 7 7]


array([[9, 4],
       [5, 2]])

高级索引还可以应用在多维数组：

In [16]:
a = np.random.randint(12, size=(4, 4))
print(a)

[[ 6  0  9  8]
 [ 4  3 11  8]
 [ 6  3 10  2]
 [ 5  8 10  3]]


In [17]:
ind1 = np.array([0, 1, 2])
ind2 = np.array([1, 2, 3])
a[ind1, ind2]

array([ 0, 11,  2])

这里相当于a\[0, 1\], a\[1, 2\], a\[2, 3\]；因为ind1, ind2维度一致都是(3,)，所以结果数组也是(3,)；
也可以让ind1, ind2维度不一致：

In [18]:
ind1 = np.array([0, 1, 2])
ind2 = np.array([1, 2, 3]).reshape(3, 1)
a[ind1, ind2]

array([[ 0,  3,  3],
       [ 9, 11, 10],
       [ 8,  8,  2]])

这种情况和之前的广播类似，ind1维度是(3,)，ind2维度是(3,1)，ind1首先变成(1,3)，进一步扩展成(3,3), ind2也扩展成(3,3)；所以结果数组维度就是(3,3)

### 组合索引

In [19]:
print(a)

[[ 6  0  9  8]
 [ 4  3 11  8]
 [ 6  3 10  2]
 [ 5  8 10  3]]


In [20]:
a[2, [3, 1, 0]]

array([2, 3, 6])

## 排序
numpy中的快速排序：

In [22]:
a = np.random.randint(10, size=10)
print(a)

[4 2 7 3 6 6 8 0 2 6]


In [23]:
np.sort(a)

array([0, 2, 2, 3, 4, 6, 6, 6, 7, 8])

如果希望改变自身，则可以使用自身对象调用sort方法：

In [24]:
a.sort()
print(a)

[0 2 2 3 4 6 6 6 7 8]


获取数组元素排序索引

In [25]:
a = np.random.randint(10, size=10)
print(a)
np.argsort(a)

[5 5 1 3 1 2 5 0 5 4]


array([7, 2, 4, 5, 3, 9, 0, 1, 6, 8], dtype=int64)

类似sum， max, min min等通用函数，sort函数也有axis参数指定多维数组的轴向：

In [26]:
a = np.random.randint(14, size=(4, 4))
print(a)

[[ 2  8  3 12]
 [ 5 12 13  4]
 [ 7  5  5 11]
 [12  2 12 11]]


In [27]:
np.sort(a, axis=0)

array([[ 2,  2,  3,  4],
       [ 5,  5,  5, 11],
       [ 7,  8, 12, 11],
       [12, 12, 13, 12]])

### 部分排序
不对整个数组排序，仅仅找到第几小的元素，可以使用partition函数：

In [37]:
a = np.array([2, 3, 7, 1, 0, 8])
np.partition(a, 4)

array([0, 2, 3, 1, 7, 8])

这个例子中，7是第4小的值，所以7出现在了第4个位置，7左边都是小于7的值，右边是大于7的值，无序的。
类似的，np.partition也可以指定axis用于多维数组