# 實作範例 2.0 - NumPy 基本操作

本章補充另一個在資料分析與運算上常用的 Python 套件「**NumPy**」的基本操作。

## NumPy 簡介與安裝

### NumPy 是什麼？

[NumPy](https://www.numpy.org/) 是一個專門用在 Python 中進行高速數值運算的 Python 套件，它提供了一種稱為 `ndarray` 的資料型態，專門用來儲存高維矩陣的資料與運算；另外 NumPy 也提供了許多豐富的科學計算的函式。

### 安裝套件
 
與前面相同，讀者可以在 Windows 下使用 [Anaconda](https://www.anaconda.com/download/ ) 已經幫你安裝好的 NumPy 套件，或者使用 Anaconda 下的 `conda` 套件管理系統安裝與升級 NumPy：
```
conda install numpy
```

較有經驗或者不想使用 Anaconda 的讀者也能使用 Python 內建的 `pip` 套件管理工具安裝：
```
pip install numpy
```

### 載入 NumPy 套件

In [2]:
import numpy as np # 載入 numpy 套件

## python list vs ndarray

![](images/python_list_array.png)


    python list 的缺點是隨機存取速度慢。但可以自由改變長度，隨機增刪很快，可以存放不同資料型態。
    
    ndarray 就是傳統意義上的 array，也就是在記憶體當中連續存放的元素，隨機存取的速度快。numpy.array 也有一些缺點，例如 numpy.array 不能夠自由增減元素，裡面也不能存取不同型態的資料（否則整個資料型態會以儲存最大記憶體的型態存取），在操作上會很不方便。
    
    有兩全其美的方案嗎?

## ndarray

`ndarray` 是 NumPy 裡最重要的資料結構，正如其名所示，它是一種用來儲存多維矩陣 (N-Dimentional ARRAY) 的資料型態，NumPy 對 `ndarray`提供了許多的操作函式，以下將一一介紹。

### 產生 ndarray 物件

我們可以用 `numpy.array()` 來產生一個 `ndarray` 物件：

In [5]:
array = np.array([[1, 2, 3], [2, 3, 4]])
print(array)
print('array 類別:', type(array))

[[1 2 3]
 [2 3 4]]
array 類別: <class 'numpy.ndarray'>


產生之後，我們可以用 `ndarray.ndim`、`ndarray.shape`、`ndarray.size`來取得這個 `ndarray`的**維度**、**行列數**與**元素個數**：

In [6]:
print("Number of dimension(維度):", array.ndim)
print("Number of rows/columns:", array.shape)
print("Number of elements(元素個數):", array.size)


Number of dimension(維度): 2
Number of rows/columns: (2, 3)
Number of elements(元素個數): 6


我們也能使用以下方式來產生 `ndarray`：

* `numpy.arange(start, stop, step) `
  - 在一指定範圍內根據指定間隔大小生成元素
* `numpy.linspace(start, stop, size)`
  - 在一指定範圍內以等量分割法生成指定數量的元素
* `numpy.random.randint(low, high, size)`
  - 在一指定範圍內隨機產生指定數量的元素
* `numpy.reshape((n_row, n_column))`
  - 將 ndarray 重新組合成指定列/行數的 ndarray

In [14]:
# 從 python list 產生 ndarray
ll = [0 for x in range(0, 30, 1)]
nda = np.array(ll)

print(type(npa))
print(nda)
nda.reshape(5, 6)

<class 'numpy.ndarray'>
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]


array([[0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0]])

In [30]:
# 用 list comprehension 建立二維 list
row = 10
col = 30
ll = [[0 for _ in range(col)] for _ in range(row)]
nda = np.array(ll)
print(nda)
nda.shape

[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]


(10, 30)

In [0]:
print( np.arange(10, 30, 1) ) # 生成包含從 10 到 30 為止間隔為 1 之元素的矩陣

[10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29]


In [0]:
print( np.arange(10, 30, 2) ) # 生成包含從 10 到 30 為止間隔為 2 之元素的矩陣

[10 12 14 16 18 20 22 24 26 28]


In [8]:
print( np.arange(10, 30, 1).reshape(4, 5) ) # 生成包含從 10 到 30 為止間隔為 1 之元素的矩陣，並重新組合成 4 列 5 行的矩陣

[[10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]]


In [38]:
nda = np.linspace(1, 10) # 1~10自動切成 50 等分
type(nda)
nda

array([ 1.        ,  1.18367347,  1.36734694,  1.55102041,  1.73469388,
        1.91836735,  2.10204082,  2.28571429,  2.46938776,  2.65306122,
        2.83673469,  3.02040816,  3.20408163,  3.3877551 ,  3.57142857,
        3.75510204,  3.93877551,  4.12244898,  4.30612245,  4.48979592,
        4.67346939,  4.85714286,  5.04081633,  5.2244898 ,  5.40816327,
        5.59183673,  5.7755102 ,  5.95918367,  6.14285714,  6.32653061,
        6.51020408,  6.69387755,  6.87755102,  7.06122449,  7.24489796,
        7.42857143,  7.6122449 ,  7.79591837,  7.97959184,  8.16326531,
        8.34693878,  8.53061224,  8.71428571,  8.89795918,  9.08163265,
        9.26530612,  9.44897959,  9.63265306,  9.81632653, 10.        ])

In [42]:
nda = np.linspace(1, 11, 6)
print( nda ) # 從 1 到 11 切五等分（含頭尾共 6 個元素）
print(type(nda))
print(nda.shape)

[ 1.  3.  5.  7.  9. 11.]
<class 'numpy.ndarray'>
(6,)


In [0]:
print( np.linspace(1, 11, 11) ) # 從 1 到 11 切十等分（含頭尾共 11 個元素）

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11.]


In [0]:
print( np.random.randint(low=4, high=10, size=10) ) # 在 4 到 10 的範圍內隨機產生包含 10 個元素的 ndarray

[8 5 7 9 4 9 6 8 7 6]


更多生成 `ndarray` 的方法可以參考[官方文件](https://docs.scipy.org/doc/numpy/user/basics.creation.html)。

### ndarray 元素選取與操作

與 `DataFrame` 相同，我們可以使用 `[]` 運算子來選取與更換元素：

In [43]:
myarr = np.arange(10)
print(myarr)

arr_slice = myarr[5:8] # 選取 myarr 索引 5~7 元素的 ndarray
print(arr_slice)

myarr[5:8] = 7  # 將 myarr 索引 5~7 的元素改為 7
print(myarr)

arr_slice[1] = 0 # 將 arr_slice 的第二個元素改為 0
print(arr_slice)

[0 1 2 3 4 5 6 7 8 9]
[5 6 7]
[0 1 2 3 4 7 7 7 8 9]
[7 0 7]


針對多維的矩陣，可以用 `[第一維, 第二維, ...]`的方式選取：

In [45]:
myarr = np.arange(11, 31).reshape(4, 5)
print(myarr, "\n")

print("myarr[2, 3] =", myarr[2, 3]) # 選取單一元素 (別忘了 Python 的 index 是從 0 開始喔！)
print("myarr[2] =", myarr[2]) # 選取一列的所有元素 
print("myarr[2][3] =", myarr[2][3]) # 我們也可以利用兩個 [] 運算子來選擇單一元素！也就是從 myarr[2] 的結果中去選擇 index 為 3 的元素
print("myarr[2:4] =", myarr[2:4]); # 選取多列元素
print("myarr[::2] =", myarr[::2]); # 隔列選取
print("myarr[:,2] =", myarr[:,2]); # 選取單一攔，[:,2] 的意思是選擇「所有列」的 index 為「2」的元素，也就是 index 為 2 的那一欄

[[11 12 13 14 15]
 [16 17 18 19 20]
 [21 22 23 24 25]
 [26 27 28 29 30]] 

myarr[2, 3] = 24
myarr[2] = [21 22 23 24 25]
myarr[2][3] = 24
myarr[2:4] = [[21 22 23 24 25]
 [26 27 28 29 30]]
myarr[::2] = [[11 12 13 14 15]
 [21 22 23 24 25]]
myarr[:,2] = [13 18 23 28]


更多關於 Python 中 `[]` 運算子的用法，可以參考 Stack Overflow 的這篇文章：[Understanding slice notation in Python](https://stackoverflow.com/questions/509211/understanding-slice-notation)。

## NumPy 矩陣操作與運算

### NumPy 矩陣合併

我們可以使用 `numpy.vstack()` 與 `numpy.hstack()` 合併兩個矩陣：

In [0]:
a = np.array([1,1,1])
b = np.array([2,2,2])
print( np.vstack((a, b)) ) # 上下(垂直)合併
print( np.hstack((a, b)) ) # 左右(水平)合併

[[1 1 1]
 [2 2 2]]
[1 1 1 2 2 2]


### NumPy 矩陣運算

以下示範 NumPy 中對矩陣的數個基本運算：

In [48]:
a = np.array([10,20,30,40])
b = np.arange(4)

print("a =", a)
print("b =", b)
print("a + b =", a + b)
print("a - b =", a - b) 
print("a * b =", a * b) 
print("b ** 2 =", b ** 2) # 矩陣元素平方

a = [10 20 30 40]
b = [0 1 2 3]
a + b = [10 21 32 43]
a - b = [10 19 28 37]
a * b = [  0  20  60 120]
b ** 2 = [0 1 4 9]


我們也可以對 `ndarray` 內的元素做條件篩選：

In [0]:
print(b < 3) # b 矩陣中的元素是否小於 3？

[ True  True  True False]


以及跟三角函數做運算：

In [0]:
np.sin(a) * 10

array([-5.44021111,  9.12945251, -9.88031624,  7.4511316 ])

接著示範常用的矩陣運算：

In [0]:
a = np.array([[1,0,2],[1,3,1]])
print("a ="); print(a)
print("a.flatten():\n", a.flatten() ) # 將矩陣重組為一維陣列

a =
[[1 0 2]
 [1 3 1]]
a.flatten():
 [1 0 2 1 3 1]


In [0]:
a = np.arange(2, 14)
print("a =", a)
print("a 的累計和 =", np.cumsum(a) ) # a 中元素的累計和 (cumulative sum)

a = [ 2  3  4  5  6  7  8  9 10 11 12 13]
a 的累計和 = [ 2  5  9 14 20 27 35 44 54 65 77 90]


In [0]:
a = np.arange(9)
a_diff = np.diff(a) # 兩兩元素差(後一項減去前一項的差)

print("a =", a)
print("np.diff(a):", a_diff)
print("np.diff(a.cumsum()):", np.diff(a.cumsum()))

a = [0 1 2 3 4 5 6 7 8]
np.diff(a): [1 1 1 1 1 1 1 1]
np.diff(a.cumsum()): [1 2 3 4 5 6 7 8]


In [0]:
a = np.array([[1,0,2],[1,3,1]])
b = np.array([[3,1],[2,1],[1,0]])

print("a ="); print(a)
print("b ="); print(b)
print("b.dot(a):"); print(b.dot(a)) # 矩陣 b 乘 a
print("np.sort(a):"); print(np.sort(a)) # 對矩陣的元素進行排序

a =
[[1 0 2]
 [1 3 1]]
b =
[[3 1]
 [2 1]
 [1 0]]
b.dot(a):
[[4 3 7]
 [3 3 5]
 [1 0 2]]
np.sort(a):
[[0 1 2]
 [1 1 3]]


In [0]:
a = np.array([[1,0,2],[1,3,1]])
a_nonzero = np.nonzero(a) 

print("a =\n{}".format(a))
print("np.nonzero(a):", np.nonzero(a)) # 不為 0 的位置
print("矩陣 a 中的以下元素不為零：")
rows, cols = a_nonzero
for i in range(rows.size):
    print("a[{}][{}]".format(rows[i], cols[i]))

print("np.transpose(a):"); print(np.transpose(a)) # 行列互換
print("np.clip(a, 1, 2):"); print(np.clip(a, 1, 2)) # 限制矩陣內的元素值在特定範圍內，以此例而言，元素小於 1 者均重設為 1，大於 2 者均重設為 2

a =
[[1 0 2]
 [1 3 1]]
np.nonzero(a): (array([0, 0, 1, 1, 1]), array([0, 2, 0, 1, 2]))
矩陣 a 中的以下元素不為零：
a[0][0]
a[0][2]
a[1][0]
a[1][1]
a[1][2]
np.transpose(a):
[[1 1]
 [0 3]
 [2 1]]
np.clip(a, 1, 2):
[[1 1 2]
 [1 2 1]]


## NumPy 基本統計

NumPy 也跟 pandas 一樣，可以輸出 `ndarray` 內的幾個基本統計指標：

* `mean() `
  - 取所有元素平均值
* `sum() `
  - 所有元素總和
* `min() `
  - 所有元素最小值
* `max() `
  - 所有元素最大值
* `std()`
  - 所有元素的標準差

In [0]:
a = np.random.randint(low=1, high=100, size=20)

print("a =", a)
print("sorted a =", np.sort(a))
print("a.mean():", a.mean())
print("a.sum():", a.sum())
print("a.min():", a.min())
print("a.max():", a.max())
print("a.std():", a.std())

a = [55 16 56 36  3 72 29 91 76 60 29 38 67 91 91 43 39 45 72 66]
sorted a = [ 3 16 29 29 36 38 39 43 45 55 56 60 66 67 72 72 76 91 91 91]
a.mean(): 53.75
a.sum(): 1075
a.min(): 3
a.max(): 91
a.std(): 24.38621536852326


NumPy 與 `ndarray` 還有許許多多的函式可供使用，有興趣的讀者可以參考以下官方資源：

* [NumPy User Guide](https://docs.scipy.org/doc/numpy/user/index.html)
* [NumPy API Reference](https://docs.scipy.org/doc/numpy/reference/)
* [The N-dimensional array (ndarray) API Reference](https://docs.scipy.org/doc/numpy/reference/arrays.ndarray.html)

## 本課程由成大與台南二中共同開發的人工智慧高中教材改編