数学和统计方法

可以通过数组上的一组数学函数对整个数组或某个轴向的数据进行统计计算。sum、mean以及标准差std等聚合计算（aggregation，通常叫做约简（reduction））既可以当做数组的实例方法调用，也可以当做顶级NumPy函数使用。

这里，我生成了一些正态分布随机数据，然后做了聚类统计：

In [2]:
arr = np.random.randn(5, 4)
print(arr)
print(arr.mean())
print(np.mean(arr))
print(arr.sum())

[[ 0.9987315  -1.48069383  1.21047565 -0.09722426]
 [-0.15051079  0.47101803  0.48006275  1.38014497]
 [ 0.01154375 -0.07611624  0.31254702 -1.1519071 ]
 [ 0.33466808 -0.65496702  0.0141203  -0.0078273 ]
 [ 1.2752055  -0.33012526  0.19632502 -1.26091585]]
0.0737277463247544
0.0737277463247544
1.474554926495088


mean和sum这类的函数可以接受一个axis选项参数，用于计算该轴向上的统计值，最终结果是一个少一维的数组
arr.mean(1)是“计算行的平均值”，arr.sum(0)是“计算每列的和”

In [6]:
print(arr.mean(axis = 1))
print(arr.sum(axis=1))

[ 0.15782227  0.54517874 -0.22598314 -0.07850149 -0.02987765]
[ 0.63128907  2.18071496 -0.90393257 -0.31400594 -0.11951059]


In [16]:
a = np.array([[1,2,3,4],[1,2,3,4]])
print(a.mean(axis = 1))
print(a.sum(axis = 0))

[2.5 2.5]
[2 4 6 8]


多维数组中，累加函数（如cumsum）返回的是同样大小的数组，但是会根据每个低维的切片沿着标记轴计算部分聚类
更多方法见文档

In [18]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
print(arr)
print(arr.cumsum(axis=0))
print(arr.cumprod(axis=1))

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[ 0  1  2]
 [ 3  5  7]
 [ 9 12 15]]
[[  0   0   0]
 [  3  12  60]
 [  6  42 336]]


上面这些方法中，布尔值会被强制转换为1（True）和0（False）。因此，sum经常被用来对布尔型数组中的True值计数
另外还有两个方法any和all，它们对布尔型数组非常有用。any用于测试数组中是否存在一个或多个True，而all则检查数组中所有值是否都是True：

In [23]:
arr = np.random.randn(100)
print((arr>0).sum())

56


In [25]:
bools = np.array([False, False, True, False])
print(bools.any())
print(bools.all())

True
False


排序

NumPy中提供了各种排序相关功能。 这些排序函数实现不同的排序算法，每个排序算法的特征在于执行速度，最坏情况性能，所需的工作空间和算法的稳定性。 下表显示了三种排序算法的比较。
种类                   速度    最坏情况     工作空间  稳定性
quicksort'(快速排序) 	1 	O(n^2) 	        0 	    否
'mergesort'(归并排序) 	2 	O(n*log(n)) 	~n/2 	是
'heapsort'(堆排序) 	 3 	 O(n*log(n)) 	 0 	     否

sort()函数返回输入数组的排序副本。 它有以下参数：

numpy.sort(a, axis, kind, order)
1   a 要排序的数组
2 	axis 沿着它排序数组的轴，如果没有数组会被展开，沿着最后的轴排序
3 	kind 默认为'quicksort'(快速排序)
4 	order 如果数组包含字段，则是要排序的字段

In [31]:
a = np.array([[3,7],[9,1]])
print("待排序数组：\n")
print(a)
print("________________________________")
print("调用 sort() 函数：")
print(np.sort(a))
print("________________________________")
print ('沿轴 0 排序：')  
print(np.sort(a,axis = 0))
print ('沿轴 1 排序：') 
print(np.sort(a,axis = 1))
# 在 sort 函数中排序字段 
dt = np.dtype([('name',  'S10'),('age',  int)]) 
a = np.array([("raju",21),("anil",25),("ravi",  17),  ("amar",27)], dtype = dt)  
print ('我们的数组是：')  
print (a) 
print ('\n')  
print ('按 name 排序：')  
print (np.sort(a, order =  'name'))

待排序数组：

[[3 7]
 [9 1]]
________________________________
调用 sort() 函数：
[[3 7]
 [1 9]]
________________________________
沿轴 0 排序：
[[3 1]
 [9 7]]
沿轴 1 排序：
[[3 7]
 [1 9]]
我们的数组是：
[(b'raju', 21) (b'anil', 25) (b'ravi', 17) (b'amar', 27)]


按 name 排序：
[(b'amar', 27) (b'anil', 25) (b'raju', 21) (b'ravi', 17)]


numpy.argsort()函数对输入数组沿给定轴执行间接排序，并使用指定排序类型返回数据的索引数组。 这个索引数组用于构造排序后的数组。

In [33]:
arr = np.random.randn(5, 3)
print(arr)

arr.sort(1)
print(arr)

[[ 0.75950218 -1.38071106 -1.92497268]
 [-1.73291189  0.76717194  0.36693274]
 [-0.67162654  0.05224022  0.28578127]
 [ 0.12452654  1.57474511 -1.22492488]
 [-0.12900973  1.9936443   0.40461725]]
[[-1.92497268 -1.38071106  0.75950218]
 [-1.73291189  0.36693274  0.76717194]
 [-0.67162654  0.05224022  0.28578127]
 [-1.22492488  0.12452654  1.57474511]
 [-0.12900973  0.40461725  1.9936443 ]]


In [35]:
x = np.array([3,  1,  2])  
print ('我们的数组是：')  
print (x) 
print ('\n')  
print ('对 x 调用 argsort() 函数：' )
y = np.argsort(x)  
print (y) 
print ('\n')  
print ('以排序后的顺序重构原数组：')  
print (x[y])  
print ('\n')  
print ('使用循环重构原数组：')  
for i in y:  
    print (x[i])

我们的数组是：
[3 1 2]


对 x 调用 argsort() 函数：
[1 2 0]


以排序后的顺序重构原数组：
[1 2 3]


使用循环重构原数组：
1
2
3


numpy.lexsort()

函数使用键序列执行间接排序。 键可以看作是电子表格中的一列。 该函数返回一个索引数组，使用它可以获得排序数据。 注意，最后一个键恰好是 sort 的主键。

In [37]:
nm =  ('raju','anil','ravi','amar') 
dv =  ('f.y.',  's.y.',  's.y.',  'f.y.') 
ind = np.lexsort((dv,nm))  
print ('调用 lexsort() 函数：' ) 
print (ind) 
print ('\n')  
print ('使用这个索引来获取排序后的数据：')  
print ([nm[i]  +  ", "  + dv[i]  for i in ind])

调用 lexsort() 函数：
[3 1 0 2]


使用这个索引来获取排序后的数据：
['amar, f.y.', 'anil, s.y.', 'raju, f.y.', 'ravi, s.y.']


 唯一化以及其它的集合逻辑¶

NumPy提供了一些针对一维ndarray的基本集合运算。最常用的可能要数np.unique了，它用于找出数组中的唯一值并返回已排序的结果：

In [39]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
print(np.unique(names))
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
print(np.unique(ints))

['Bob' 'Joe' 'Will']
[1 2 3 4]


另一个函数np.in1d用于测试一个数组中的值在另一个数组中的成员资格，返回一个布尔型数组：

In [40]:
values = np.array([6, 0, 0, 3, 2, 5, 6])

print(np.in1d(values, [2, 3, 6]))

[ True False False  True  True False  True]
