当你面对大量的数据时， 第一个步骤通常都是计算相关数据的概括统计值。 最常用的概括统计值可能是均值和标准差， 这两个值能让你分别概括出数据集中的“经典”值， 但是其他一些形式的聚合也是非常有用的（如求和、 乘积、 中位数、 最小值和最大值、 分位数， 等等） 。
# 1. 聚合操作
    拿数组求和举例：python本身的sum函数与NumPy的sum函数对比：

In [9]:
import numpy as np
import time
L = np.random.random(10)
print("L =", L)
print("sum(L) =", sum(L))  # Python自身的sum函数
print("np.sum(L) =", np.sum(L))  # NumPy的sum函数

# 时间对比
big_array = np.random.rand(5000000)
ori_begin = time.time()
ori_sum = sum(big_array)
ori_used = time.time() - ori_begin
print("Python自身的sum计算完了，和为 {} ,总耗时：{}s".format(ori_sum, ori_used))

np_begin = time.time()
np_sum = np.sum(big_array)
np_used = time.time() - np_begin
print("NumPy的sum计算完了，和为 {} ,总耗时：{}s".format(np_sum, np_used))

print("可以看到，在这里NumPy的总耗时是Python自身的 {} 倍".format(np_used / ori_used))

L = [0.65850614 0.94606007 0.48335876 0.17656885 0.81848892 0.38164946
 0.63515098 0.94561143 0.05803323 0.59189645]
sum(L) = 5.695324283033182
np.sum(L) = 5.695324283033182
Python自身的sum计算完了，和为 2499576.5182922175 ,总耗时：0.6709506511688232s
NumPy的sum计算完了，和为 2499576.5182924443 ,总耗时：0.009056568145751953s
可以看到，在这里NumPy的总耗时是Python自身的 0.013498113654074327 倍


    对于 min、 max、 sum 和其他 NumPy 聚合， 一种更简洁的语法形式是数组对象直接调用这些方法：

In [13]:
import numpy as np
L = np.random.random(10)
print("min =", L.min())
print("mean =", L.mean())
print("max =", L.min())
print("sum =", L.sum())

min = 0.4571225424022547
mean = 0.7054780105424279
max = 0.4571225424022547
sum = 7.054780105424279


    多维度聚合：
    一种常用的聚合操作是沿着一行(axis=1)或一列(axis=0)聚合。对于其他操作也是适用的

In [23]:
import numpy as np
M = np.random.random((3, 4))
print("全局求和:\tM.sum() =", M.sum())
print("列级求和:\tM.sum(axis=0) =", M.sum(axis=0))
print("行级求和:\tM.sum(axis=1) =", M.sum(axis=1))
print()
print("全局最小:\tM.min() =", M.min())
print("列级最小:\tM.min(axis=0) =", M.min(axis=0))
print("行级最小:\tM.min(axis=1) =", M.min(axis=1))
print()
print("全局平均:\tM.mean() =", M.mean())
print("列级平均:\tM.mean(axis=0) =", M.mean(axis=0))
print("行级平均:\tM.mean(axis=1) =", M.mean(axis=1))
print()
print("全局最大:\tM.max() =", M.max())
print("列级最大:\tM.max(axis=0) =", M.max(axis=0))
print("行级最大:\tM.max(axis=1) =", M.max(axis=1))
print()
print("全局中位数:\tnp.median(M) =", np.median(M))
print("列级中位数:\tnp.median(M, axis=0) =", np.median(M, axis=0))
print("行级中位数:\tnp.median(M, axis=1) =", np.median(M, axis=1))

全局求和:	M.sum() = 7.085391412883207
列级求和:	M.sum(axis=0) = [1.92757038 1.93968756 1.33319932 1.88493415]
行级求和:	M.sum(axis=1) = [2.00673865 2.24230536 2.83634739]

全局最小:	M.min() = 0.04973608451241762
列级最小:	M.min(axis=0) = [0.55098346 0.21157183 0.04973608 0.40069305]
行级最小:	M.min(axis=1) = [0.21157183 0.04973608 0.40069305]

全局平均:	M.mean() = 0.5904492844069339
列级平均:	M.mean(axis=0) = [0.64252346 0.64656252 0.44439977 0.62831138]
行级平均:	M.mean(axis=1) = [0.50168466 0.56057634 0.70908685]

全局最大:	M.max() = 0.9206773311190302
列级最大:	M.max(axis=0) = [0.78193565 0.92067733 0.8462803  0.76333262]
行级最大:	M.max(axis=1) = [0.76333262 0.92067733 0.8462803 ]

全局中位数:	np.median(M) = 0.6577798819453049
列级中位数:	np.median(M, axis=0) = [0.59465128 0.8074384  0.43718294 0.72090849]
行级中位数:	np.median(M, axis=1) = [0.51591711 0.63594597 0.79468702]


以下提供了一个 NumPy 中可用的聚合函数的清单：
![NumPy%E4%B8%AD%E5%8F%AF%E7%94%A8%E7%9A%84%E8%81%9A%E5%90%88%E5%87%BD%E6%95%B0.png](attachment:NumPy%E4%B8%AD%E5%8F%AF%E7%94%A8%E7%9A%84%E8%81%9A%E5%90%88%E5%87%BD%E6%95%B0.png)

看看分位数的例子：

In [38]:
import numpy as np
x = np.arange(0, 100)
print(x)
# 分位数
percent = np.array([0, 10, 30, 50, 70, 90, 100])  
np.percentile(x, percent)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]


array([ 0. ,  9.9, 29.7, 49.5, 69.3, 89.1, 99. ])