# A.05 数组计算之聚合函数aggregates

### 5.1 聚合 : 最大值, 最小值和中间值

对于大数据，首先要概算统计量。

最常见的统计量是均值与标准差，借此，可以归纳出数据集的典型值，另外一些聚合值也有用（和、积、中值、最小和最大、分位数等）

NumPy有快速内建的聚合函数，下面讨论。

### 5.2 数组求和

In [None]:
import numpy as np

In [None]:
L = np.random.random(100)
print("L=",L)
sum(L)

语法类似于 NumPy 的``sum``函数，返回值也一样。

In [None]:
np.sum(L)

由于运行的是编译代码，NumPy 的操作将很快。

In [None]:
big_array = np.random.rand(1000000)
%timeit sum(big_array)
%timeit np.sum(big_array)

注意：
``sum`` 函数和 ``np.sum`` 函数是不一样的，这有时会引起混淆。

特别地，可选参数有不同意义，``np.sum`` 也可用于多维数组。

### 5.3 最小值和最大值

类似地，Python 也有内建的 ``min`` 和 ``max`` 函数，用于求任意数组的最小和最大值

In [None]:
min(big_array), max(big_array)

NumPy 的相关函数有类似的语法，并且运行速度更快

In [None]:
np.min(big_array), np.max(big_array)

In [None]:
%timeit min(big_array)
%timeit np.min(big_array)

对于 ``min``, ``max``, ``sum``, 等若干 NumPy 聚合，有更短的调用语法：

In [None]:
print(big_array.min(), big_array.max(), big_array.sum())

在操作 NumPy 数组时，要先确认 NumPy 的版本。

### 5.4 多维聚合

假设有一二维数组，最常用的计算是针对行和列实施

In [None]:
M = np.random.random((3, 4))
print(M)

缺省时，每个 NumPy 聚合函数将返回整个数组的聚合

In [None]:
M.sum()

聚合函数有一附加的参数，用于指定沿其计算的轴 *axis*，例如，计算每一列的最小值，就设置 ``axis=0``：

In [None]:
M.min(axis=0)

函数返回了4个值，对应着4列。

类似地，也可计算每行的最大值。

In [None]:
M.max(axis=1)

指定轴的方式有可能引起困惑。

关键字 ``axis`` 指定数组的某坍缩维 (*dimension of the array that will be collapsed*)，而不是返回的维。

如，指定 ``axis=0`` 意指第一个轴将坍缩，对于二维数组，这即是指每列的值将产生。

### 5.5 其它聚合函数

NumPy 还提供其它许多聚合函数，这里不详谈。

绝大多数聚合函数是 NaN 安全的，详见[处理丢失的数据](03.04-丢失的数据.ipynb)).

如下表给出了 NumPy 中可用的聚合函数


|函数名           |   NaN-安全版本     | 描述                                 |
|----------------------|-----------------------|-----------------------------------------------|
| ``np.sum``        | ``np.nansum``       | 计算元素之和                       |
| ``np.prod``       | ``np.nanprod``      | 计算元素之积                  |
| ``np.mean``       | ``np.nanmean``      | 计算元素的均值                      |
| ``np.std``        | ``np.nanstd``       | 计算标准差                    |
| ``np.var``        | ``np.nanvar``       | 计算方差                              |
| ``np.min``        | ``np.nanmin``       | 寻找最小值                           |
| ``np.max``        | ``np.nanmax``       | 寻找最大值                            |
| ``np.argmin``      | ``np.nanargmin``     | 寻找最小值的下标                   |
| ``np.argmax``      | ``np.nanargmax``     | 寻找最大值的下标                  |
| ``np.median``      | ``np.nanmedian``     | 计算元素的中值                   |
| ``np.percentile``   | ``np.nanpercentile``  | 计算元素的各阶统计量     |
| ``np.any``        | N/A              | 测试是否有任一元素为真        |
| ``np.all``        | N/A              | 测试是否所有元素为真       |

后面将不时讨论这些聚合函数

### 5.6 示例：美国总统的平均身高如何?

#### 示例：考虑所有美国总统的身高

数据见文件 *president_heights.csv*

In [None]:
#!head -4 data/president_heights.csv
!type .\data\president_heights.csv

#### ``Pandas``  开放的数据分析模块

- 仅介绍如何采用 ``Pandas`` 包来读取文件数据
- 更一般的有关 Pandas 内容将不在课内介绍

[官方网址: http://pandas.pydata.org/](http://pandas.pydata.org/)

In [None]:
import pandas as pd
data = pd.read_csv('data/president_heights.csv')
data.head()

In [None]:
heights = np.array(data['height(cm)'])
print(heights)

有了数组数据，可以进行统计分析

In [None]:
print("Mean height:       ", heights.mean())
print("Standard deviation:", heights.std())
print("Minimum height:    ", heights.min())
print("Maximum height:    ", heights.max())

注意对于每一个例，聚合操作使整体数组得到缩减

计算以下分位数

In [None]:
print("25th percentile:   ", np.percentile(heights, 25))
print("Median:            ", np.median(heights))
print("75th percentile:   ", np.percentile(heights, 75))

美国总统高度的中间值是182cm，或恰好差不多6英尺

有时，可视化的数据表示更有实用价值，可视化工具选择 Matplotlib (在[第4章](04.00-Matplotlib介绍.ipynb)讨论)，例如。下述代码生成如下图表：

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn; seaborn.set()  # set plot style

In [None]:
plt.hist(heights)
plt.title('Height Distribution of US Presidents')
plt.xlabel('height (cm)')
plt.ylabel('number');

这些聚合函数是数据分析的基础工具，后面章节中将深入讨论。

### 结束