In [1]:
import sys, os
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), "../../codes/")))
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), "../../codes/scpy2/")))

from scpy2.utils.nbmagics import install_magics
install_magics()
del install_magics



In [2]:
import numpy as np

### 大小與排序

表2-5 本節要介紹的函數 

| 函數名稱 | 功能 |
|---------|------|
| min() | 最小值 |
| max() | 最大值 |
| minimum() | 二元最小值 |
| maximum() | 二元最大值 |
| ptp() | 最大值與最小值的差 |
| argmin() | 最小值的索引 |
| argmax() | 最大值的索引 |
| unravel_index() | 一維索引轉換成多維索引 |
| sort() | 陣列排序 |
| argsort() | 計算陣列排序的索引 |
| lexsort() | 多列排序 |
| partition() | 快速計算前 k 位 |
| argpartition() | 前 k 位的索引 |
| median() | 中位數 |
| percentile() | 百分位數 |
| searchsorted() | 二分尋找 |

用 `min()` 和 `max()` 可以計算陣列的最小值和最大值，它們都有 `axis`, `out`, `keepdims` 等參數。這些參數的用法和 `sum()` 大致相同，但是 `axis` 參數不支援序列。  
此外，`ptp()` 計算最大值和最小值之間的差，有 `axis` 和 `out` 參數。這裡就不再多舉例了。  
`minimum()` 和 `maximum()` 用於比較兩個陣列對應索引的元素，傳回陣列的形狀為兩參數陣列廣播之後的形狀。

In [3]:
a = np.array([1, 3, 5, 7])
b = np.array([2, 4, 6])
np.maximum(a[None, :], b[:, None])

array([[2, 3, 5, 7],
       [4, 4, 5, 7],
       [6, 6, 6, 7]])

用 `argmax()` 和 `argmin()` 可以求最大值和最小值的索引。如果不指定 `axis` 參數，則傳回平坦化之後的陣列索引，例如下面的程式找到 a 中最大值的索引，有多個最大值時獲得第一個最大值的索引：

In [4]:
np.random.seed(42)
a = np.random.randint(0, 10, size=(4, 5))
max_pos = np.argmax(a)
max_pos

5

下面檢視 a 平坦化之後的陣列中索引為 `max_pos` 的元素：

In [5]:
%C a.ravel()[max_pos]; np.max(a)

a.ravel()[max_pos]  np.max(a)
------------------  ---------
9                   9        


可以透過 `unravel_index()` 將維陣列的索引轉為多維陣列的索引，它的第一個參數為一維陣列的索引，第二個參數是多維陣列的形狀：

In [6]:
idx = np.unravel_index(max_pos, a.shape)
%C idx; a[idx]

 idx    a[idx]
------  ------
(1, 0)  9     


當使用 `axis` 參數時，可以沿著指定軸計算最大值的索引。例如下面的結果表示，在陣列 a 中第 0 行的最大值的索引為 2，第 1 行的最大值的索引為 0：

In [7]:
idx = np.argmax(a, axis=1)
idx

array([2, 0, 1, 2], dtype=int64)

使用下面的敘述可以透過 idx 選出每行的最大值：

In [7]:
a[np.arange(a.shape[0]), idx]

array([7, 9, 7, 7])

陣列的 `sort()` 方法對陣列進行排序，它會改變陣列的內容；而 `sort()` 函數則傳回一個新陣列，不改變原始陣列。它們的 `axis` 預設值都為 -1，即沿著陣列的最後軸進行排序。`sort()` 函數的 `axis` 參數可以設定為 None，此時它將獲得平坦化之後進行排序的新陣列。在下面的實例中，`np.sort(a)` 對 a 中每行的數值進行排序，而 `np.sort(a, axis=0)` 對陣列 a 每列上的數值進行排序。

In [8]:
%C np.sort(a); np.sort(a, axis=0)

    np.sort(a)     np.sort(a, axis=0)
-----------------  ------------------
[[3, 4, 6, 6, 7],  [[3, 1, 6, 2, 1], 
 [2, 4, 6, 7, 9],   [4, 2, 7, 4, 4], 
 [2, 3, 5, 7, 7],   [6, 3, 7, 5, 5], 
 [1, 1, 4, 5, 7]]   [9, 7, 7, 7, 6]] 


`argsort()` 傳回陣列的排序索引，參數 `axis` 的預設值為 -1：

In [9]:
sort_axis1 = np.argsort(a)
sort_axis0 = np.argsort(a, axis=0)
%C sort_axis1; sort_axis0

    sort_axis1         sort_axis0   
-----------------  -----------------
[[1, 3, 0, 4, 2],  [[2, 3, 1, 2, 3],
 [1, 4, 2, 3, 0],   [3, 1, 0, 0, 1],
 [3, 0, 4, 1, 2],   [0, 0, 2, 3, 2],
 [1, 4, 0, 3, 2]]   [1, 2, 3, 1, 0]]


為了使用 sort_axis0 和 sort_axis1 計算排序之後的陣列，即 `np.sort(a)` 的結果，需要產生排序軸的索引。下面使用 `ogrid` 物件產生第 0 軸和第 1 軸的索引 axis0 和 axis1:

In [10]:
axis0, axis1 = np.ogrid[:a.shape[0], :a.shape[1]]

然後使用這些索引陣列獲得排序之後的陣列：

In [11]:
%C a[axis0, sort_axis1]; a[sort_axis0, axis1]

a[axis0, sort_axis1]  a[sort_axis0, axis1]
--------------------  --------------------
[[3, 4, 6, 6, 7],     [[3, 1, 6, 2, 1],   
 [2, 4, 6, 7, 9],      [4, 2, 7, 4, 4],   
 [2, 3, 5, 7, 7],      [6, 3, 7, 5, 5],   
 [1, 1, 4, 5, 7]]      [9, 7, 7, 7, 6]]   


使用這種方法可以對兩個相連結的陣列進行排序，即從陣列 a 產生排序索引陣列，然後使用它對陣列 b 進行排序。排序相關的函數或方法還可以透過 `kind` 參數指定排序演算法，對於結構陣列可以透過 `order` 參數指定排序所使用的欄位。  

`lexsort()` 類似 Excel 中的多列排序。它的參數是一個形狀為 (k, N) 的陣列，或包含 k 個長度為 N 的陣列的序列，可以把它了解為 Excel 中 N 行 k 列的表格。`lexsort()` 傳回排序索引，注意陣列中最後的列為排序的主鍵。在下面的實例中，按照「姓名-年齡」的順序對資料排序：

In [33]:
names = ["zhang", "wang", "li", "wang", "zhang"]
ages = [37, 33, 32, 31, 36]
idx = np.lexsort([ages, names])
# sorted_data = np.array(zip(names, ages), "O")[idx]
sorted_data = np.array([x for x in zip(names, ages)], "O")[idx]
%C idx; sorted_data

      idx          sorted_data  
---------------  ---------------
[2, 3, 1, 4, 0]  [['li', 32],   
                  ['wang', 31], 
                  ['wang', 33], 
                  ['zhang', 36],
                  ['zhang', 37]]


如果需要對一個 N 行 k 列的陣列以第一列為主鍵進行排序，可以先透過切片索引 `::-1` 反轉陣列的第 1 軸，然後對其轉置進行 `lexsort()` 排序：

In [12]:
b = np.random.randint(0, 10, (5, 3))
%C b; b[np.lexsort(b[:, ::-1].T)]

     b       b[np.lexsort(b[:, ::-1].T)]
-----------  ---------------------------
[[4, 0, 9],  [[3, 8, 2],                
 [5, 8, 0],   [4, 0, 9],                
 [9, 2, 6],   [4, 2, 6],                
 [3, 8, 2],   [5, 8, 0],                
 [4, 2, 6]]   [9, 2, 6]]                


`partition()` 和 `argpartition()` 對陣列進行分割，可以很快地找出排序之後的前 k 個元素，由於它不需要對整個陣列進行完整排序，因此速度比呼叫 `sort()` 之後再取前 k 個元素要快許多。下面從 10 萬個亂數中找出前 5 個最小的數，注意 `partition()` 獲得的前 5 個數值沒有按照從小到大排序，如果需要，可以再呼叫 `sort()` 對這 5 個數進行排序即可：

In [15]:
r = np.random.randint(10, 1000000, 100000)
%C np.sort(r)[:5]; np.partition(r, 5)[:5]

   np.sort(r)[:5]     np.partition(r, 5)[:5]
--------------------  ----------------------
[13, 35, 65, 65, 79]  [13, 65, 35, 65, 79]  


下面用 `%timeit` 測試 `sort()` 和 `partition()` 的執行速度：

In [16]:
%timeit np.sort(r)[:5]
%timeit np.sort(np.partition(r, 5)[:5])

4.59 ms ± 38 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
627 µs ± 14.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


用 `median()` 可以獲得陣列的中值，即對陣列進行排序之後，位於陣列中間位置的值。當長度是偶數時，則獲得正中間兩個數的平均值。它也可以指定 `axis` 和 `out` 參數：

In [14]:
np.median(a, axis=1)

array([6., 6., 5., 4.])

`percentile()` 用於計算百分位數，即將數值從小到大排列，計算處於 `p%` 位置上的值。下面的程式計算標準正態分佈亂數的絕對值在 68.3%, 95.4%, 99.7%處的百分位數，它們應該約等於 1 倍, 2 倍, 3 倍的標準差：

In [17]:
r = np.abs(np.random.randn(100000))
np.percentile(r, [68.3, 95.4, 99.7])

array([1.00097166, 2.00088019, 2.98806701])

當陣列中的元素按照從小到大的順序排列時，可以使用 `searchsorted()` 在陣列中進行二分搜索。在下面的實例中， a 是一個己經排好序的清單， v 是需要搜索的數值清單。`searchsorted()` 傳回一個索引陣列，將 v 中對應的元素插入到 a 中的位置，能夠保持資料的昇冪排列。當 v 中的元素在 a 中出現時，透過 `side` 參數指定傳回最左端的索引還是最右端的索引。在下面的實例中，16 放到 a 的索引為 3, 4, 5 的位置都能保持昇冪排列，`side` 參數為預設值 "left" 時傳回 3，而為 "right" 時傳回 5。

In [18]:
a = [2, 4, 8, 16, 16, 32]
v = [1, 5, 33, 16]
%C np.searchsorted(a, v); np.searchsorted(a, v, side="right")

np.searchsorted(a, v)  np.searchsorted(a, v, side="right")
---------------------  -----------------------------------
[0, 2, 6, 3]           [0, 2, 6, 5]                       


`searchsorted()` 可以在於在兩個陣列中尋找相同的元素。下面看一個比較複雜的實例：有 x 和 y 兩個一維陣列，找到 y 中每個元素在 x 中的索引。若不存在，將索引設定為 -1。

In [19]:
x = np.array([3, 5, 7, 1, 9, 8, 6, 10])
y = np.array([2, 1, 5, 10, 100, 6])

def get_index_searchsorted(x, y):
    index = np.argsort(x)  # ❶
    sorted_x = x[index]  # ❷
    sorted_index = np.searchsorted(sorted_x, y)  # ❸
    yindex = np.take(index, sorted_index, mode="clip")  # ❹
    mask = x[yindex] != y  # ❺
    yindex[mask] = -1
    return yindex

get_index_searchsorted(x, y)

array([-1,  3,  1,  7, -1,  6], dtype=int64)

❶ 由於 x 並不是按照昇冪排列，因此先呼叫 `argsort()` 獲得昇冪排序的索引 index。  
❷ 使用 index 獲得將 x 排序之後的 sorted_x。  
❸ 使用 `searchsorted()` 在 sorted_x 中搜索 y 中每個元素對應的索引 sorted_index。  
❹ 如果搜索的值大於 x 的最大值，那麼索引會越界，因此這裡呼叫 `take()` 函數，`take(index, sorted_index)`與`index[sorted_index]`的含義相同，但是能處理索引越界的情況。透過設定 `mode` 參數為 "clip" ，將索引限定在 0 到 len(x)-1 之間。  
❺ 使用 yindex 取得 x 中的元素並和 y 比較，若值相同則表示該元素確實存在於 x 之中，否則表示不存在。

這段演算法有些複雜，但由於利用了 numpy 提供的陣列操作函數，它的運算速度比使用字典的純 python 程式要快。下面我們用兩個較大的陣列測試運算速度。為了比較的公平性，呼叫 `tolist()` 方法將陣列轉換成清單：

In [21]:
x = np.random.permutation(1000)[:100]
y = np.random.randint(0, 1000, 2000)
xl, yl = x.tolist(), y.tolist()

def get_index_dict(x, y):
    idx_map = {v:i for i,v in enumerate(x)}
    yindex = [idx_map.get(v, -1) for v in y]
    return yindex

yindex1 = get_index_searchsorted(x, y)
yindex2 = get_index_dict(xl, yl)
print( np.all(yindex1 == yindex2) )

%timeit get_index_searchsorted(x, y)
%timeit get_index_dict(xl, yl)

True
72.2 µs ± 1.39 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
105 µs ± 7.76 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
