In [1]:
import sys, os
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), "../../codes/")))
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), "../../codes/scpy2/")))

from scpy2.utils.nbmagics import install_magics
install_magics()
del install_magics



In [2]:
import numpy as np

### 統計函數

表2-6 本節介紹的函數

| 函數名稱 | 功能 |
|---------|------|
| unique() | 去除重複元素 |
| bincount() | 對整數陣列的元素計數 |
| histogram() | 一維長條圖統計 |
| digitze() | 離散化 |

`unique()` 傳回其參數陣列中所有不同的值，並且按照從小到大的順序排列。它有兩個可選參數：
- `return_index`：True表示同時傳回原始陣列中的索引。
- `return_inverse`：True表示傳回重建原始陣列用的索引陣列。

下面透過幾個實例介紹 `unique()` 的用法。首先用 `randint()` 建立有 10 個元素、值在 0 到 9 範圍之內的隨機整數陣列，透過 `unique(a)` 可以找到陣列 a 中所有的整數，並按照昇冪排列：

In [3]:
np.random.seed(42)
a = np.random.randint(0, 8, 10)
%C a; np.unique(a)

              a                    np.unique(a)   
------------------------------  ------------------
[6, 3, 4, 6, 2, 7, 4, 4, 6, 1]  [1, 2, 3, 4, 6, 7]


如果參數 `return_index` 為True，則傳回兩個陣列，第二個陣列是第一個陣列在原始陣列中的索引。在下面的實例中，陣列 index 儲存的是陣列 x 中每個元素在陣列 a 中的索引：

In [5]:
x, index = np.unique(a, return_index=True)
%C x; index; a[index]

        x                 index              a[index]     
------------------  ------------------  ------------------
[1, 2, 3, 4, 6, 7]  [9, 4, 1, 2, 0, 5]  [1, 2, 3, 4, 6, 7]


如果參數 `return_inverse` 為 True，則傳回的第二個陣列是原始陣列 a 的每個元素在陣列 x 中的索引：

In [6]:
x, rindex = np.unique(a, return_inverse=True)
%C rindex; x[rindex]

            rindex                        x[rindex]           
------------------------------  ------------------------------
[4, 2, 3, 4, 1, 5, 3, 3, 4, 0]  [6, 3, 4, 6, 2, 7, 4, 4, 6, 1]


`bitcount()` 對整數陣列中各個元素所出現的次數進行統計，它要求陣列中的所有元素都是非負的。其傳回陣列中第 i 個元素的值表示整數 i 出現的次數。

In [7]:
np.bincount(a)

array([0, 1, 1, 1, 3, 0, 3, 1], dtype=int64)

由上面的結果可知，在陣列 a 中有 1個1, 1個2, 1個3, 3個4, 3個6, 1個7, 而0和5等數沒有在陣列 a 中出現。

透過 `weights` 參數可以指定每個數所對應的權重。當指定 `weights` 參數時，`bincount(x, weights=w)` 傳回陣列 x 中的每個整數所對應的 w 中的權重之和。用文字解釋比較難以了解，下面我們看一個實例：

In [8]:
x = np.array([0  ,   1,   2,   2,   1,   1,   0])
w = np.array([0.1, 0.3, 0.2, 0.4, 0.5, 0.8, 1.2])
np.bincount(x, w)

array([1.3, 1.6, 0.6])

在上面的結果中，1.3 是陣列 x 中 0 所對應的 w 中的元素(0.1 和 1.2) 之和，1.6是 1 所對應的w 中的元素(0.3, 0.5, 0.8)之和，而0.6是2所對應的w中的元素(0.2, 0.4)之和。如果要求平均值，可以用求和的結果與次數相除：

In [9]:
np.bincount(x, w) / np.bincount(x)

array([0.65      , 0.53333333, 0.3       ])

`histogram()` 對一維陣列進行長條圖統計。其參數列表如下：
```python
histogram(a, bins=10, range=None, weights=None, density=False)
```
其中 a 是儲存待統計資料的陣列，`bins` 指定統計的區間個數，即對統計範圍的等分數。`range` 是一個長度為 2 的元組，表示統計範圍的最小值和最大值，預設值為 None，表示範圍由資料的範圍決定，即(a.min(), a.max())。當 `density` 參數為 False時，函數傳回 a 中的資料在每個區間的個數，參數為 True則傳回每個區間的機率密度。`weights`參數和`bincount()`的類似。

`histogram()` 傳回兩個一維陣列——`hist` 和 `bin_edges`，第一個陣列是每個區間的統計結果，第二個陣列的長度為 len(hist)-1，每兩個相鄰的數值組成一個統計區間。下面我們看一個實例：


In [10]:
a = np.random.rand(100)
np.histogram(a, bins=5, range=(0, 1))

(array([28, 18, 17, 19, 18], dtype=int64),
 array([0. , 0.2, 0.4, 0.6, 0.8, 1. ]))

首先建立了一個有 100 個元素的一維亂數組 a，設定值範圍在 0 到 1 之間。然後用 `histogram()` 對陣列 a 中的資料進行長條圖統計。結果顯示有 28 個元素的值在 0 到 0.2 之間，18個元素的值在0.2 到 0.4 之間。讀者可以嘗試用 `rand()` 建立更大的亂數組，由統計結果可知每個區間出現的次數近似相等，因此 `rand()` 所建立的亂數在 0 到 1 範圍之間是平均分佈的。

如果需要統計的區間的長度不等，可以將表示區間分隔位置的陣列傳遞給 `bins` 參數，例如：

In [9]:
np.histogram(a, bins=[0, 0.4, 0.8, 1.0])

(array([46, 36, 18]), array([ 0. ,  0.4,  0.8,  1. ]))

結果表示 0 到 0.4 之間有 46 個值，0.4 到 0.8 之間有 36 個值。

如果用 `weights` 參數指定了陣列 a 中每個元素所對應的權重，則 `histogram()` 對區間中數值所對應的權重進行求和。下面看一個使用 `histogram()` 統計男性青少年年齡和身高的實例。"height.csv" 檔案是 100 名年龄在7 到 20 歲之間的男性青少年的身高統計資料。

首先用 `loadtxt()` 從資料檔案載入資料。在陣列 d 中，第 0 列是年龄，第 1 列是身高。可以看到年齡的範圍在 7 到 20 之間。

In [11]:
d = np.loadtxt("height.csv", delimiter=",")
%C d.shape; np.min(d[:, 0]); np.max(d[:, 0])

d.shape   np.min(d[:, 0])  np.max(d[:, 0])
--------  ---------------  ---------------
(100, 2)  7.1              19.9           


下面對資料進行統計，sums 是每個年齡段的身高總和，cnts 是每個年龄段的資料個數，因此很容易計算出每個年龄的平均身高：

In [12]:
sums = np.histogram(d[:, 0], bins=range(7, 21), weights=d[:, 1])[0]
cnts = np.histogram(d[:, 0], bins=range(7, 21))[0]
sums / cnts

array([ 125.96      ,  132.06666667,  137.82857143,  143.8       ,
        148.14      ,  153.44      ,  162.15555556,  166.86666667,
        172.83636364,  173.3       ,  175.275     ,  174.19166667,  175.075     ])

`histogram2d()` 和 `histogramdd()` 對二維和N維資料進行長條圖統計。

### 分段函數

表2-7 本節介紹的函數

| 函數名稱 | 功能 |
|---------|------|
| where() | 向量化判斷運算式 |
| piecewise() | 分段函數 |
| select() | 多分支判斷選擇 |

在前面介紹過使用 `frompyfunc()` 函數計算三角波形。由於三角波形是分段函數，需要根據引數的設定值範圍決定計算函數值的公式，因此無法直接透過 ufunc 函數計算。numpy 提供了一些計算分段函數的方法。

在 python 2.6 中新增以下判斷運算式語法，當 condition 條件為 True 時，運算式的值為 y，否則為 z：
```python
x = y if condition else z
```
在 numpy 中，`where()` 函數可以看作判斷運算式的陣列版本：
```python
x = where(condition, y, z)
```
其中 condition, y, z 都是陣列，它的傳回值是一個形狀與 condition 相同的陣列。當 condition 中的某個元素為 True 時， x 中對應索引的值從陣列 y 取得，否則從陣列 z 取得：

In [12]:
x = np.arange(10)
np.where(x < 5, 9 - x, x)

array([9, 8, 7, 6, 5, 5, 6, 7, 8, 9])

如果 y 和 z 是單一數值或它們的形狀與 condition 的不同，將先透過廣播運算使其形狀一致：

In [13]:
np.where(x > 6, 2 * x, 0)

array([ 0,  0,  0,  0,  0,  0,  0, 14, 16, 18])

使用 `where()` 很容易計算前面介紹過的三角波形：

In [21]:
def triangle_wave1(x, c, c0, hc):
    x = x - x.astype(np.int32) # 三角波的周期為1，因此只取x座標的小數部分進行計算
    return np.where(x >= c, 
                    0, 
                    np.where(x < c0, 
                             x / c0 * hc, 
                             (c - x) / (c - c0) * hc))

由於三角波形分為三段，因此需要兩個巢狀結構的 `where()` 進行計算。由於所有的運算和循環都在 C 語言等級完成，因此它的計算效率比 `frompyfunc()` 高。

隨著分段函數的分段數量的增加，需要巢狀結構更多層 `where()`。這樣不便於程式的撰寫和閱讀。可以用 `select()` 解決這個問題，它的呼叫形式如下：
```python
select(condlist, choicelist, default=0)
```
其中 condlist 是一個長度為 N 的布林陣列清單，choicelist 是一個長度為 N 的儲存候選值的陣列清單，所有陣列的長度都為 M。如果清單元素不是陣列而是單一數值，那麼它相當於元素值都相同，長度為 M 的陣列。

對於從 0 到 M-1 的陣列索引 i ，從布林陣列清單中找出滿足條件 `condlist[j][i]==True` 的 j 的最小值，則 `out[i]=choicelist[j][i]`，其中 `out` 是 `select()` 的傳回陣列。我們可以使用 `select()` 計算三角波形：

In [22]:
def triangle_wave2(x, c, c0, hc):
    x = x - x.astype(np.int32)
    return np.select([x >= c, x < c0 , True            ], 
                      [0     , x/c0*hc, (c-x)/(c-c0)*hc])

由於分段函數分為三段，因此每個清單都有三個元素。choicelist 的最後一個元素為 True，表示前面的所有條件都不滿足時，將使用 choicelist 的最後一個陣列中的值。也可以用 default 參數指定條件都不滿足時的候選值陣列：
```
x >=c, x < c0, x / c0 * hc, (c-x) / (c-c0)*hc
```
在計算時還會產生許多儲存中間結果的陣列，因此如果輸入的陣列 x 很大，將發生大量記憶體分配和釋放。

為了解決這個問題，numpy 提供了 `piecewise()` 專門用於計算分段函數，它的呼叫參數如下：
```python
piecewise(x, condlist, funclist)
```
參數 x 是一個儲存引數值的陣列，condlist 是一個長度為 M 的布林陣列清單，其中的每個布林陣列的長度都和陣列 x 相同。funclist 是一個長度為 M 或 M+1 的函數清單，這些函數的輸入和輸出都是陣列。它們計算分段函數中的每個片段。如果不是函數而是數值，則相當於傳回此數值的函數。每個函數與 condlist 中索引相同的布林陣列對應，如果 funclist 的長度為 M+1，則最後一個函數計算所有條件都為 False 時的值。下面是使用 `piecewise()` 計算三角波形的程式：

In [23]:
def triangle_wave3(x, c, c0, hc):
    x = x - x.astype(np.int32)
    return np.piecewise(x, 
        [x >= c, x < c0],
        [0,  # x>=c 
        lambda x: x / c0 * hc, # x<c0
        lambda x: (c - x) / (c - c0) * hc])  # else

使用 `piecewise()` 的好處在於它只計算需要計算的值。因此在上面的實例中，運算式 $x*c0/hc$ 和 $(c-x)/(c-c0)*hc$ 只對輸入陣列 x 中滿足條件的部分進行計算。下面執行前面定義的三個分段函數，並使用 `%timeit` 指令比較這三個函數的執行時間：

In [24]:
x = np.linspace(0, 2, 10000) 
y1 = triangle_wave1(x, 0.6, 0.4, 1.0)
y2 = triangle_wave2(x, 0.6, 0.4, 1.0)
y3 = triangle_wave3(x, 0.6, 0.4, 1.0)
np.all(y1 == y2), np.all(y1 == y3)

(True, True)

In [25]:
%timeit triangle_wave1(x, 0.6, 0.4, 1.0)
%timeit triangle_wave2(x, 0.6, 0.4, 1.0)
%timeit triangle_wave3(x, 0.6, 0.4, 1.0)

71.5 µs ± 4.1 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
133 µs ± 4.03 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
93.6 µs ± 1.64 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
