# NumPy 和陣列導向的程式設計

`NumPy` 可以說是 Python 中最最標準的科學計算、數據分析套件。也因為 `NumPy` 的出現, 讓 Python 有了非常好的數據分析基礎, 一直到現在成為數據分析覇主。

In [None]:
import numpy as np

## 1. 陣列導向 101

科學計算一個很核心的概念叫 "array oriented" 的寫法。Array 是 `numpy` 標準的資料結構, 和 list 很像, 但就差了那麼一點點。而這一點點讓我們在計算上是無比的方便。

### 【暖身】 計算平均

某位同學期中考各科成績如下, 請幫他計算成績。

    grades = [77, 85, 56, 90, 66]
    
請計算平均。

In [None]:
# [方式1]: List
sum = 0
grades = [77, 85, 56, 90, 66]
print(type(grades))
for i in grades:
  sum += i
# print("average:{}", sum/len(grades))
print("average:{0:8.2f},  sum={1}".format(sum/len(grades), sum))  #到小數點第二位

<class 'list'>
average:   74.80,  sum=374


In [None]:
# [方式2]: array
grades = [77, 85, 56, 90, 66]
arr = np.array(grades)
print(type(arr))
print("average:{}", arr.mean())

<class 'numpy.ndarray'>
average:{} 74.8


### 【示範】陣列導向

最大值

In [None]:
arr.max()
# arr[np.argmax(arr)] # argmax():找出最大值的索引位置
# np.max(arr)

90

標準差

In [None]:
arr.std()
# np.std(arr)

12.416118556135006

### 【暖身】 換算匯率

假設今天我想查查號稱 Pentax 三公主的 31mm, 43mm, 77mm 三隻 limited 鏡頭在美國賣多少。於是我去 B&H 查了他們的價格分別是:

    prices = [1096.95, 596.95, 896.95]
    
我又查了 Google 匯率 1 美金為 31.71 元。請把三支鏡頭的價格換算為台幣。

In [None]:
# [方式1]: List
usd_prices = [1096.95, 596.95, 896.95]
usd2twd = 31.71
twd_prices = []
for i in range(len(usd_prices)):
  # twd_prices[i] = prices[i]*usd2twd  # 錯誤
  twd_prices.append(usd_prices[i]*usd2twd)
print(twd_prices)

[34784.2845, 18929.2845, 28442.2845]


先不管這實在有夠醜的數字, 我們要記得在科學計算中:

### 儘可能不要使用迴圈

這可能嗎?

### 【示範】陣列換算匯率

In [None]:
# [方式2]: array
prices = [1096.95, 596.95, 896.95]
prices = np.array(prices)
usd2twd = 31.71
prices * usd2twd

array([34784.2845, 18929.2845, 28442.2845])

哦哦, 傑克, 這太神奇了!

## 2. 其實 array 還有很多功能

### 【練習】 成績計算

一位老師成績這樣算的:

* 平時成績 20%
* 期中考   35%
* 期未考   45%

有位同學

* 平時成績 85 分
* 期中 70 分
* 期末 80 分

這位同學的學期成績是多少?

In [None]:
grades = np.array([85,70,80])
weights = np.array([0.2, 0.35, 0.45])

這還不是我們要的最終成績啊!

In [None]:
grades * weights

array([17. , 24.5, 36. ])

### 【提示】 array 還有很多函數可以用

可以先打入

    weighted_grades.
    
先不要按 `enter` 或 `shift-enter`, 而是按 `tab`...


In [None]:
weightedgrades = grades * weights
weightedgrades.sum()
# np.sum(weightedgrades)

77.5

### 【技巧】 一行完成成績計算

In [None]:
np.dot(grades, weights)

77.5

## 3. 重要的 array 大變身!

我們在數據分析, 常常要改 array 的型式。

### 【練習】 一個 50 個數字的 array

先想辦法、用亂數做出 50 個數字的 array, 叫做 A 好了。

In [None]:
A = np.random.rand(50)  # 0~1的數值
A

array([0.50934457, 0.41435621, 0.31097805, 0.8168662 , 0.31652778,
       0.64704917, 0.14450683, 0.917212  , 0.04970045, 0.78165734,
       0.38012045, 0.10394843, 0.10399341, 0.28008343, 0.75650969,
       0.53761589, 0.31370612, 0.08822225, 0.25756566, 0.22121183,
       0.87022631, 0.92752093, 0.36614769, 0.27727098, 0.43303119,
       0.10889814, 0.29093723, 0.41756065, 0.88610931, 0.8104996 ,
       0.50118003, 0.24574467, 0.97517466, 0.00192145, 0.71633084,
       0.81425686, 0.77988733, 0.00621067, 0.79347629, 0.19353228,
       0.42374232, 0.22411319, 0.05699344, 0.82345975, 0.44777896,
       0.73758556, 0.12040636, 0.76391158, 0.63816431, 0.83144352])

In [None]:
A[0]   # 取值(一維)

0.5252104789339461

### 【技巧】 檢查 A 的 `shape`

In [None]:
A.shape

(50,)

### 【技巧】 更改 A 的 shape[方式1]: 可以用 `shape`直接指定

In [None]:
A.shape = (5,10) #或者 A.shape = (5,-1)。直接用-1來進行自動計算
A

NameError: ignored

In [None]:
A[0,0]   # 取值(二維)

0.5093445725027594

### 【技巧】 更改 A 的 shape[方式2]: 也可以用 `reshape`

但要注意, reshape 並沒有改原來的陣列。

In [None]:
A.reshape(10,5) #或者 A.reshape(10,-1_。直接用-1來進行自動計算
A

array([[0.52521048, 0.58111004, 0.14594136, 0.07031475, 0.20354168,
        0.33766125, 0.44659675, 0.0612143 , 0.13131733, 0.43450878],
       [0.16467063, 0.2443377 , 0.80666616, 0.34468525, 0.18578646,
        0.58970616, 0.56049873, 0.11094823, 0.21819229, 0.2828288 ],
       [0.30704883, 0.85466508, 0.1810355 , 0.27536895, 0.5265338 ,
        0.52073275, 0.5061636 , 0.70586302, 0.16362278, 0.9540507 ],
       [0.00379306, 0.51201424, 0.07728924, 0.43472478, 0.1385118 ,
        0.94782182, 0.49630805, 0.16009825, 0.8550533 , 0.18754727],
       [0.13402255, 0.17287384, 0.02219845, 0.93727279, 0.45054016,
        0.38044519, 0.22650219, 0.51582403, 0.65921605, 0.83096555]])

### 【技巧】 更改 A 的 shape[方式3]: 拉平 `ravel`

雖然你想一想就知道可以用 `shape` 或 `reshape` 把多維陣列拉成一維。不過用 `ravel` 很潮。

In [None]:
A.ravel() # 或者使用A.flatten()

array([0.52521048, 0.58111004, 0.14594136, 0.07031475, 0.20354168,
       0.33766125, 0.44659675, 0.0612143 , 0.13131733, 0.43450878,
       0.16467063, 0.2443377 , 0.80666616, 0.34468525, 0.18578646,
       0.58970616, 0.56049873, 0.11094823, 0.21819229, 0.2828288 ,
       0.30704883, 0.85466508, 0.1810355 , 0.27536895, 0.5265338 ,
       0.52073275, 0.5061636 , 0.70586302, 0.16362278, 0.9540507 ,
       0.00379306, 0.51201424, 0.07728924, 0.43472478, 0.1385118 ,
       0.94782182, 0.49630805, 0.16009825, 0.8550533 , 0.18754727,
       0.13402255, 0.17287384, 0.02219845, 0.93727279, 0.45054016,
       0.38044519, 0.22650219, 0.51582403, 0.65921605, 0.83096555])

In [None]:
A.flatten()

array([0.50934457, 0.41435621, 0.31097805, 0.8168662 , 0.31652778,
       0.64704917, 0.14450683, 0.917212  , 0.04970045, 0.78165734,
       0.38012045, 0.10394843, 0.10399341, 0.28008343, 0.75650969,
       0.53761589, 0.31370612, 0.08822225, 0.25756566, 0.22121183,
       0.87022631, 0.92752093, 0.36614769, 0.27727098, 0.43303119,
       0.10889814, 0.29093723, 0.41756065, 0.88610931, 0.8104996 ,
       0.50118003, 0.24574467, 0.97517466, 0.00192145, 0.71633084,
       0.81425686, 0.77988733, 0.00621067, 0.79347629, 0.19353228,
       0.42374232, 0.22411319, 0.05699344, 0.82345975, 0.44777896,
       0.73758556, 0.12040636, 0.76391158, 0.63816431, 0.83144352])

## 4. 快速 array 生成法

### 【技巧】 都是 0 的 array

In [None]:
np.zeros(10)
np.zeros((512,512))  #或者 np.zeros([512,512]) #影像處理中常常會使用到512

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

### 【技巧】 都是 1 的 array

In [None]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

### 【技巧】單位矩陣

In [None]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

### 【技巧】給定範圍均勻生出 n 個點

In [None]:
x = np.linspace(0, 10, 100)  #0~10，生成100個  # 包含10
y = np.arange(0,10, (10-0)/100)          # 未包含10
print(x)
print(y)

[ 0.          0.1010101   0.2020202   0.3030303   0.4040404   0.50505051
  0.60606061  0.70707071  0.80808081  0.90909091  1.01010101  1.11111111
  1.21212121  1.31313131  1.41414141  1.51515152  1.61616162  1.71717172
  1.81818182  1.91919192  2.02020202  2.12121212  2.22222222  2.32323232
  2.42424242  2.52525253  2.62626263  2.72727273  2.82828283  2.92929293
  3.03030303  3.13131313  3.23232323  3.33333333  3.43434343  3.53535354
  3.63636364  3.73737374  3.83838384  3.93939394  4.04040404  4.14141414
  4.24242424  4.34343434  4.44444444  4.54545455  4.64646465  4.74747475
  4.84848485  4.94949495  5.05050505  5.15151515  5.25252525  5.35353535
  5.45454545  5.55555556  5.65656566  5.75757576  5.85858586  5.95959596
  6.06060606  6.16161616  6.26262626  6.36363636  6.46464646  6.56565657
  6.66666667  6.76767677  6.86868687  6.96969697  7.07070707  7.17171717
  7.27272727  7.37373737  7.47474747  7.57575758  7.67676768  7.77777778
  7.87878788  7.97979798  8.08080808  8.18181818  8

### 【技巧】`range` 的 array 版

就是 `arange`。

In [None]:
np.arange(1, 10, 0.2)  #功能與range一樣

array([1. , 1.2, 1.4, 1.6, 1.8, 2. , 2.2, 2.4, 2.6, 2.8, 3. , 3.2, 3.4,
       3.6, 3.8, 4. , 4.2, 4.4, 4.6, 4.8, 5. , 5.2, 5.4, 5.6, 5.8, 6. ,
       6.2, 6.4, 6.6, 6.8, 7. , 7.2, 7.4, 7.6, 7.8, 8. , 8.2, 8.4, 8.6,
       8.8, 9. , 9.2, 9.4, 9.6, 9.8])

## 5. 超重要 `axis` 觀念

初學 `numpy` 很多人有點弄不清楚 `axis` 概念。其實掌握矩陣, 或很像矩陣的陣列都是「先列(row)，後行(column)」就可以!

我們先弄個 array 來練習。

In [None]:
A = np.arange(10).reshape(2,5)
A

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### 【重點】 一列一列算下來是 `axis=0`

![axis=0](images/axis0.png)

In [None]:
A.sum(axis=0)

array([ 5,  7,  9, 11, 13])

### 【重點】 一行一行算過去是 `axis=1`

![axis=1](images/axis1.png)

In [None]:
A.sum(axis=1)

array([10, 35])

### 【提示】當然也有可能全部算

In [None]:
A.sum()

45

## 6. array 過濾器

篩出我們要的資料, 這樣的技巧非常重要!

### 【例子】篩出大於 0 的數

我們有個陣列, 想找出大於 0 的數。<br>
L = np.array([3, -2, -1, 5, 7, -3])

In [None]:
L = np.array([3, -2, -1, 5, 7, -3])

我們可以很白痴的自己判斷...<br>
c = np.array([True,False,False,True,True,False])

In [None]:
c = np.array([True,False,False,True,True,False])

這是做啥呢? 我們可以瞬間...

In [None]:
L[c]

array([3, 5, 7])

除了自己做很白痴, 這看來很厲害!

事實上我們可以叫 `numpy` 做!

In [None]:
L>0

array([ True, False, False,  True,  True, False])

這有點強, 我們還可以一次到位!

In [None]:
L[L>0] # 這樣不會更改到L

array([3, 5, 7])

## 7. 次元切割刀

`numpy` 中 array 的切割法和 list 很像。

In [None]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
x[3:7]

array([3, 4, 5, 6])

### 【技巧】2維陣列切法

記得先列後行!

In [None]:
# x.reshape(2,5)
# x
x = x.reshape(2,5)
x

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

要所有的row, 切出行 1-3 位置。

In [None]:
x[:,1:3]

array([[1, 2],
       [6, 7]])

要所有的行col, 切出第 1 列row!

In [None]:
x[1,:]

array([5, 6, 7, 8, 9])

## 8. `NumPy` 的 `zip` 和 `unzip`

之前我們介紹 list 可以用 `zip` 和 `unzip` (其實還是 `zip`) 做到的資料格式變換, 在 array 中怎麼做呢?

![zip and unzip](images/zip.png)

### 【重點】array 的 `zip`

![array zip](images/arrzip.png)

In [None]:
x = np.array([1,2,3,4])
y = np.array([5,6,7,8])

In [None]:
X = np.c_[x,y]
X

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [None]:
Y = np.r_[x,y]
Y

array([1, 2, 3, 4, 5, 6, 7, 8])

### 【自己補充】array 的 `zip`
https://www.delftstack.com/zh-tw/howto/numpy/python-numpy-zip/

In [None]:
x = np.array([1,2,3,4])
y = np.array([5,6,7,8])

# <方式1>: 這種方法效率不高，因為我們必須在陣列和列表之間進行轉換。
way1 = np.array(list(zip(x,y)))
print(way1)

# <方式2>: 使用 numpy.stack() 函式的 NumPy Zip
way2 = np.stack([x,y], axis=1)
print(way2)

# <方式3>: 使用 numpy.column_stack() 函式的 NumPy Zip
# numpy.column_stack() 函式用於將兩個或多個一維陣列作為列連線到單個二維陣列中。我們不必為此方法指定任何軸引數
way3 = np.column_stack([x,y])
print(way3)


[[1 5]
 [2 6]
 [3 7]
 [4 8]]
[[1 5]
 [2 6]
 [3 7]
 [4 8]]
[[1 5]
 [2 6]
 [3 7]
 [4 8]]


### 【重點】array 的 `unzip`

這裡其實只需要用到 array 的切割法...

![array zip](images/arrunzip.png)

In [None]:
X[:,0]

array([1, 2, 3, 4])

In [None]:
X[:,1]

array([5, 6, 7, 8])