# NumPy 和陣列導向的程式設計

`NumPy` 可以說是 Python 中最最標準的科學計算、數據分析套件。也因為 `NumPy` 的出現, 讓 Python 有了非常好的數據分析基礎, 一直到現在成為數據分析覇主。

In [1]:
import numpy as np

## 1. 陣列導向 101

科學計算一個很核心的概念叫 "array oriented" 的寫法。Array 是 `numpy` 標準的資料結構, 和 list 很像, 但就差了那麼一點點。而這一點點讓我們在計算上是無比的方便。

### 【暖身】 計算平均

某位同學期中考各科成績如下, 請幫他計算成績。

    grades = [77, 85, 56, 90, 66]
    
請計算平均。

In [2]:
grades = np.array([77, 85, 56, 90, 66])
print(f"Average = {np.mean(grades)}, Sum = {np.sum(grades)}")


Average = 74.8, Sum = 374


### 【示範】陣列導向

In [3]:
grades = np.array([77, 85, 56, 90, 66])

print(f"Average = {np.mean(grades):.4}, Sum = {np.sum(grades)}")
print(f"Max = {np.max(grades)}, Std = {np.std(grades):.4}")

Average = 74.8, Sum = 374
Max = 90, Std = 12.42


最大值

標準差

### 【暖身】 換算匯率

假設今天我想查查號稱 Pentax 三公主的 31mm, 43mm, 77mm 三隻 limited 鏡頭在美國賣多少。於是我去 B&H 查了他們的價格分別是:

    prices = [1096.95, 596.95, 896.95]
    
我又查了 Google 匯率 1 美金為 31.71 元。請把三支鏡頭的價格換算為台幣。

In [4]:
prices = np.array([1096.95, 596.95, 896.95])
print(f"NT$ {prices*31.71}")

NT$ [34784.2845 18929.2845 28442.2845]


先不管這實在有夠醜的數字, 我們要記得在科學計算中:

### 儘可能不要使用迴圈

這可能嗎?

### 【示範】陣列換算匯率

哦哦, 傑克, 這太神奇了!

## 2. 其實 array 還有很多功能

### 【練習】 成績計算

一位老師成績這樣算的:

* 平時成績 20%
* 期中考   35%
* 期未考   45%

有位同學

* 平時成績 85 分
* 期中 70 分
* 期末 80 分

這位同學的學期成績是多少?

In [5]:
grades = np.array([85.0, 70.0, 80.0])
weights = np.array([0.2, 0.35, 0.45])

print(f"學期成績 = {np.average(grades, weights = weights)}")

學期成績 = 77.5


這還不是我們要的最終成績啊!

### 【提示】 array 還有很多函數可以用

可以先打入

    weighted_grades.
    
先不要按 `enter` 或 `shift-enter`, 而是按 `tab`...


### 【技巧】 一行完成成績計算

## 3. 重要的 array 大變身!

我們在數據分析, 常常要改 array 的型式。

### 【練習】 一個 50 個數字的 array

先想辦法、用亂數做出 50 個數字的 array, 叫做 A 好了。

In [16]:
A = np.random.randn(1, 50)
print(f"A = \n{A}")

A = 
[[ 0.56547519 -0.7547822  -2.71839492 -0.43889241 -0.26176404 -1.36145887
  -1.68343454  1.61985201 -0.69057071 -1.24678274  3.26580454  1.08439602
   0.0745791   1.94647096 -0.66206024 -1.86572485  0.39698131 -1.65950243
  -0.26163135  1.43906416  0.21589722 -0.33552764 -1.81355787  0.29336443
   0.92967619 -0.43005094 -0.00860014  0.01474472  0.05572986  0.03875072
   0.300072   -0.30347919  0.02965671  1.17354459  0.3777173   0.81370859
   0.62530689  0.06502224  0.08618969 -0.18587104  0.0195918   0.17607058
  -0.87672198  0.85737776  0.94508746 -0.22809842  1.53700293  1.00221084
   1.47642495  0.41561843]]


### 【技巧】 檢查 A 的 `shape`

In [17]:
row, col = A.shape
print(f"row of A is {row}, col of A is {col}")

row of A is 1, col of A is 50


### 【技巧】 更改 A 的 shape

In [18]:
A.resize(5, 10)
row, col = A.shape
print(f"row of A is {row}, col of A is {col}")

row of A is 5, col of A is 10


### 【技巧】 也可以用 `reshape`

但要注意, reshape 並沒有改原來的陣列。

In [20]:
A = A.reshape(25, 2)
row, col = A.shape
print(f"row of A is {row}, col of A is {col}")

row of A is 25, col of A is 2


### 【技巧】 拉平 `ravel`

雖然你想一想就知道可以用 `shape` 或 `reshape` 把多維陣列拉成一維。不過用 `ravel` 很潮。

In [36]:
A = A.ravel("C")
print(f"After calling ravel, A = \n{A}")

array([0.7372234 , 0.6126442 , 0.27626397, 0.28984569, 0.4988311 ,
       0.42021495, 0.4515489 , 0.15328583, 0.93455268, 0.23537373,
       0.24761985, 0.41945762, 0.44871061, 0.66726833, 0.15622678,
       0.70315927, 0.98138833, 0.8233088 , 0.85394749, 0.14797509,
       0.32816167, 0.64607213, 0.96849395, 0.90799427, 0.19579351,
       0.35618479, 0.30311169, 0.32568614, 0.66885309, 0.67844806,
       0.18201376, 0.69592441, 0.11077285, 0.22884185, 0.29488536,
       0.90457337, 0.19872841, 0.38361489, 0.35731267, 0.76200102,
       0.92178147, 0.44190395, 0.07941469, 0.03253205, 0.44805018,
       0.38885104, 0.15473767, 0.55240742, 0.80182196, 0.70921062])

## 4. 快速 array 生成法

### 【技巧】 都是 0 的 array

In [26]:
zeros = np.zeros(5)
print(f"zeros = \n{zeros}")

zeros = 
[0. 0. 0. 0. 0.]


### 【技巧】 都是 1 的 array

In [27]:
ones = np.ones(5)
print(f"ones = \n{ones}")

ones = 
[1. 1. 1. 1. 1.]


### 【技巧】單位矩陣

In [28]:
identity = np.eye(5)
print(f"identity = \n{identity}")

identity = 
[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


### 【技巧】給定範圍均勻生出 n 個點

In [30]:
points = np.linspace(1, 10, 5)
print(f"points = \n{points}")

points = 
[ 1.    3.25  5.5   7.75 10.  ]


### 【技巧】`range` 的 array 版

就是 `arange`。

In [31]:
array = np.arange(1.0, 10.0, 0.2, float)
print(f"array = \n{array}")

array = 
[1.  1.2 1.4 1.6 1.8 2.  2.2 2.4 2.6 2.8 3.  3.2 3.4 3.6 3.8 4.  4.2 4.4
 4.6 4.8 5.  5.2 5.4 5.6 5.8 6.  6.2 6.4 6.6 6.8 7.  7.2 7.4 7.6 7.8 8.
 8.2 8.4 8.6 8.8 9.  9.2 9.4 9.6 9.8]


## 5. 超重要 `axis` 觀念

初學 `numpy` 很多人有點弄不清楚 `axis` 概念。其實掌握矩陣, 或很像矩陣的陣列都是「先列後行」就可以!

我們先弄個 array 來練習。

In [55]:
array = np.arange(10)
array.resize(2, 5)
array

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### 【重點】 一列一列算下來是 `axis=0`

![axis=0](images/axis0.png)

In [56]:
array.sum(axis = 0)

array([ 5,  7,  9, 11, 13])

### 【重點】 一行一行算過去是 `axis=1`

![axis=1](images/axis1.png)

In [57]:
array.sum(axis = 1)

array([10, 35])

### 【提示】當然也有可能全部算

In [59]:
array.sum()

45

## 6. array 過濾器

篩出我們要的資料, 這樣的技巧非常重要!

### 【例子】篩出大於 0 的數

我們有個陣列, 想找出大於 0 的數。<br>
L = np.array([3, -2, -1, 5, 7, -3])

In [61]:
L = np.array([3, -2, -1, 5, 7, -3])
L = L[L>0]

array([3, 5, 7])

事實上我們可以叫 `numpy` 做!

In [61]:
L > 0

array([ True, False, False,  True,  True, False])

這有點強, 我們還可以一次到位!

## 7. 次元切割刀

`numpy` 中 array 的切割法和 list 很像。

In [62]:
a = np.array([[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]])
b = np.array([[1, 2],[6, 7]])

### 【技巧】2維陣列切法

記得先列後行!

要所有的row, 切出行 1-3 位置。

In [66]:
print(f"A = \n{a}")
print(f"要所有的row, 切出行 1-3 位置:\n{a[:, 1:4]}")

A = 
[[0 1 2 3 4]
 [5 6 7 8 9]]
要所有的row, 切出行 1-3 位置:
[[1 2 3]
 [6 7 8]]


要所有的行col, 切出第 1 列row!

In [68]:
print(f"B = \n{b}")
print(f"要所有的行col, 切出第 1 列row:\n{b[1, :]}")

B = 
[[1 2]
 [6 7]]
要所有的行col, 切出第 1 列row:
[6 7]


## 8. `NumPy` 的 `zip` 和 `unzip`

之前我們介紹 list 可以用 `zip` 和 `unzip` (其實還是 `zip`) 做到的資料格式變換, 在 array 中怎麼做呢?

![zip and unzip](images/zip.png)

### 【重點】array 的 `zip`

![array zip](images/arrzip.png)

In [69]:
# a, b are column vectors
a = np.array([1,2,3,4,5])
b = np.array([6,7,8,9,10])

In [79]:
X = np.c_[a, b]
X

array([[ 1,  6],
       [ 2,  7],
       [ 3,  8],
       [ 4,  9],
       [ 5, 10]])

In [75]:
Y = np.r_[a, b]
Y

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

### 【重點】array 的 `unzip`

這裡其實只需要用到 array 的切割法...

![array zip](images/arrunzip.png)

In [80]:
X[:, 0]

array([1, 2, 3, 4, 5])