## 2.4　聚合：最小值、最大值和其他值

当你面对大量的数据时，第一个步骤通常都是计算相关数据的概括统计值。最常用的概括统计值可能是均值和标准差，这两个值能让你分别概括出数据集中的“经典”值，但是其他一些形式的聚合也是非常有用的（如求和、乘积、中位数、最小值和最大值、分位数，等）。

### 2.4.1　数组值求和

设想计算一个数组中所有元素的和。Python 本身可用内置的sum 函数来实现：

In [3]:
import numpy as np

In [4]:
L = np.random.random(100)
sum(L)

52.513383464444736

它的语法和NumPy 的sum 函数非常相似，并且在这个简单的例子中的结果也是一样的：

In [5]:
np.sum(L)

52.51338346444472

但是，因为NumPy 的sum 函数在编译码中执行操作，所以NumPy 的操作计算得更快一些：

In [6]:
big_array = np.random.rand(1000000)
%timeit sum(big_array)
%timeit np.sum(big_array)

226 ms ± 1.97 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
1.74 ms ± 132 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


需要注意，sum 函数和np.sum 函数并不等同，这有时会导致混淆。尤其是它们各自的可选参数都有不同的含义，np.sum 函数是知道数组的维度的，这一点将在接下来的部分讲解。

### 2.4.2　最小值和最大值

Python 也有内置的min 函数和max 函数，分别被用于获取给定数组的最小值和最大值：

In [7]:
min(big_array), max(big_array)

(1.056923940145893e-06, 0.9999997274367434)

NumPy 对应的函数也有类似的语法，并且也执行得更快：

In [8]:
np.min(big_array), np.max(big_array)

(1.056923940145893e-06, 0.9999997274367434)

In [9]:
%timeit min(big_array)
%timeit np.min(big_array)

136 ms ± 4.4 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
872 µs ± 30.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


对于min、max、sum 和其他NumPy 聚合，一种更简洁的语法形式是**数组对象**直接调用这些方法：

In [10]:
print(big_array.min(), big_array.max(), big_array.sum())

1.056923940145893e-06 0.9999997274367434 499978.3617683003


当你操作NumPy 数组时，确保你执行的是NumPy 版本的聚合。

#### 2.4.2.1 多维度聚合

一种常用的聚合操作是沿着一行或一列聚合。

例如，假设你有一些数据存储在二维数组中：

In [11]:
M = np.random.random((3, 4))
print(M)

[[0.49038096 0.72373506 0.9694993  0.24114347]
 [0.63559054 0.82485532 0.7007582  0.04779207]
 [0.75151833 0.11967068 0.62608236 0.14209439]]


默认情况下，每一个NumPy 聚合函数将会返回对整个数组的聚合结果：

In [12]:
M.sum()

6.273120690255025

聚合函数还有一个参数，用于指定沿着哪个轴的方向进行聚合。例如，可以通过指定axis=0 找到每一列的最小值：

In [13]:
M.min(axis=0)

array([0.49038096, 0.11967068, 0.62608236, 0.04779207])

这个函数返回四个值，对应四列数字的计算值。

同样，也可以找到每一行的最大值：

In [14]:
M.max(axis=1)

array([0.9694993 , 0.82485532, 0.75151833])

其他语言的用户会对轴的指定方式比较困惑。axis 关键字指定的是数组将会被折叠的维度，而不是将要返回的维度。因此指定axis=0 意味着第一个轴将要被折叠——对于二维数组，这意味着每一列的值都将被聚合。

#### 2.4.2.2 其他聚合函数

大多数的聚合都有对NaN 值的安全处理策略（NaN-safe），即计算时忽略所有的缺失值，这些缺失值即特殊的IEEE 浮点型NaN 值（关于缺失值更全面的介绍请参见3.5 节）。
<br>有些NaN-safe 的函数直到NumPy 1.8 版本才加进去，所以更早版本的NumPy 并不支持此功能。

表2-3 提供了一个NumPy 中可用的聚合函数的清单。

表2-3：NumPy中可用的聚合函数

|函数名称|NaN安全版本|描述|
|:|:|:|
|np.sum| np.nansum| 计算元素的和|
|np.prod| np.nanprod| 计算元素的积|
|np.mean| np.nanmean| 计算元素的平均值|
|np.std| np.nanstd| 计算元素的标准差|
|np.var| np.nanvar| 计算元素的方差|
|np.min| np.nanmin| 找出最小值|
|np.max| np.nanmax| 找出最大值|
|np.argmin| np.nanargmin| 找出最小值的索引|
|np.argmax| np.nanargmax| 找出最大值的索引|
|np.media|n np.nanmedian| 计算元素的中位数|
|np.percentile| np.nanpercentile| 计算基于元素排序的统计值|
|np.any| N/A| 验证任何一个元素是否为真|
|np.all| N/A| 验证所有元素是否为真|

本书的其余部分将展示这些聚合函数的使用方法。

### 2.4.3　示例：美国总统的身高是多少

用NumPy 的聚合功能来概括一组数据非常有用。这里举一个简单的例子——计算所有美国总统的身高。这个数据在president_heights.csv 文件中，是一个简单的用逗号分隔的标签和值的列表：

In [None]:
!head -4 data/president_heights.csv

我们将用Pandas 包来读文件并抽取身高信息。（请注意，身高的计量单位是厘米。）

第3 章将更全面地介绍Pandas：

In [None]:
import pandas as pd
data = pd.read_csv('data/president_heights.csv')
heights = np.array(data['height(cm)'])
print(heights)

有了这个数据数组后，就可以计算很多概括统计值了：

In [None]:
print("Mean height: ", heights.mean())
print("Standard deviation:", heights.std())
print("Minimum height: ", heights.min())
print("Maximum height: ", heights.max())

请注意，在这个例子中，聚合操作将整个数组缩减到单个概括值，这个概括值给出了这些
数值的分布信息。我们也可以计算分位数：

In [None]:
print("25th percentile: ", np.percentile(heights, 25))
print("Median: ", np.median(heights))
print("75th percentile: ", np.percentile(heights, 75))

可以看到，美国总统的身高中位数是182cm，或者说不到6 英尺。

当然，有些时候将数据可视化更有用。这时可以先进行一个快速的可视化，通过Matplotlib
（第4 章将详细讨论该工具）用以下代码创建图2-3：

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn; seaborn.set() # 设置绘图风格

In [None]:
plt.hist(heights)
plt.title('Height Distribution of US Presidents')
plt.xlabel('height (cm)')
plt.ylabel('number');