# Numpy的聚合操作(Aggregation operations)

通常在面對大量資料時，要先計算相關資料的摘要統計資訊，NumPy具有內置的聚合操作功能，可用於處理陣列，本範例將展示這些功能。

## 加總陣列中的資料值

進行加總，可以利用Python內建的 ``sum`` 功能:

In [1]:
import numpy as np
L = np.random.random(10)
print(L)
print(sum(L))

[0.27519442 0.21383682 0.37824873 0.21087795 0.8437888  0.12147178
 0.7981921  0.26025743 0.91075127 0.03418838]
4.046807691021659


在NumPy中`np.sum`語法與Python內建功能類似，也可以得到相同結果:

In [2]:
np.sum(L)

4.046807691021659

但是因為利用編譯後程式碼執行，NumPy版本遠比Python版本快:

In [3]:
big_array = np.random.rand(1000000)
print("Python內建版本：")
%timeit sum(big_array)
print("Numpy版本：")
%timeit np.sum(big_array)

Python內建版本：
133 ms ± 1.11 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
Numpy版本：
939 µs ± 5.05 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


## 最小值與最大值

同樣的， Python也有內建的``min`` 與 ``max`` 功能，可用來找尋所給陣列中的最小值與最大值:

In [4]:
min(big_array), max(big_array)

(5.678456824753653e-07, 0.9999999024603322)

在NumPy中也有`np.min`與`np.max`，也可以得到相同結果，但是速度截然不同

In [5]:
np.min(big_array), np.max(big_array)

(5.678456824753653e-07, 0.9999999024603322)

In [6]:
print("Python內建版本：")
%timeit min(big_array)
print("Numpy版本：")
%timeit np.min(big_array)

Python內建版本：
54.2 ms ± 356 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
Numpy版本：
438 µs ± 21.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


對於``min``，``max``，``sum``和其他幾個NumPy聚合功能，更短的寫法是使用陣列物件本身的方法：

In [7]:
print(big_array.min(), big_array.max(), big_array.sum())

5.678456824753653e-07 0.9999999024603322 500441.63962966343


Whenever possible, make sure that you are using the NumPy version of these aggregates when operating on NumPy arrays!

### 多維陣列聚合操作

假設您有一些儲存存在二維陣列中的資料，預設是對整個陣列進行聚合操作，但也可以進行聚合操作是沿行或列聚合：

In [8]:
M = np.random.random((4, 4))
print(M)
print(M.sum())

[[0.2161298  0.24452895 0.9039042  0.06511674]
 [0.95245665 0.96426864 0.66881504 0.32197578]
 [0.43814338 0.03070089 0.30242855 0.33516801]
 [0.45101403 0.73766608 0.16497214 0.2081843 ]]
7.005473168787838


聚合函數採用另一個參數來指定計算聚合的*軸*。 例如，我們可以通過指定``axis = 0``找到每列中的最小值，指定``axis = 1``找到每行中的最小值：

In [9]:
print(M.min(axis=0))
print(M.min(axis=1))

[0.2161298  0.03070089 0.16497214 0.06511674]
[0.06511674 0.32197578 0.03070089 0.16497214]


max與sum也可以進行類似的操作。

In [10]:
print(M.max(axis=0))
print(M.max(axis=1))
print(M.sum(axis=0))
print(M.sum(axis=1))

[0.95245665 0.96426864 0.9039042  0.33516801]
[0.9039042  0.96426864 0.43814338 0.73766608]
[2.05774385 1.97716456 2.04011993 0.93044482]
[1.42967968 2.90751611 1.10644083 1.56183655]


在此處指定軸的方式中，``axis``關鍵字指定將折疊*的陣列的*維度，而不是將返回的維度。因此，指定``axis = 0``意味著第一個軸將被折疊：對於二維陣列，這意味著將聚合每列中的值。

### 其他聚合操作

NumPy提供了許多其他聚合函數，大多數聚合都有一個“NaN”安全對應物來計算結果，同時忽略缺失值，缺失值由特殊的IEEE浮點“NaN”值標記。
下表提供了NumPy中可用的有用聚合函數的列表：

|功能名稱| NaN安全版| 說明|
|-------------------|---------------------|-----------------------------------------------|
| ``np.sum`` | ``np.nansum`` |計算元素之和|
| ``np.prod`` | ``np.nanprod`` |計算元素的乘積|
| ``np.mean`` | ``np.nanmean`` |計算元素的中位數|
| ``np.std`` | ``np.nanstd`` |計算標準差|
| ``np.var`` | ``np.nanvar`` |計算方差|
| ``np.min`` | ``np.nanmin`` |找到最小值|
| ``np.max`` | ``np.nanmax`` |找到最大值|
| ``np.argmin`` | ``np.nanargmin`` |查找最小值索引|
| ``np.argmax`` | ``np.nanargmax`` |查找最大值的索引|
| ``np.median`` | ``np.nanmedian`` |計算元素的中位數|
| ``np.percentile`` | ``np.nanpercentile`` |計算元素的基於排名的統計數據|
| ``np.any`` | N / A |評估是否有任何元素是真的|
| ``np.all`` | N / A |評估所有元素是否都為真|
