# NumPy 和陣列導向的程式設計

`NumPy` 可以說是 Python 中最最標準的科學計算、數據分析套件。也因為 `NumPy` 的出現, 讓 Python 有了非常好的數據分析基礎, 一直到現在成為數據分析覇主。

In [11]:
import numpy as np

## 1. 陣列導向 101

科學計算一個很核心的概念叫 "array oriented" 的寫法。Array 是 `numpy` 標準的資料結構, 和 list 很像, 但就差了那麼一點點。而這一點點讓我們在計算上是無比的方便。

### 【暖身】 計算平均

某位同學期中考各科成績如下, 請幫他計算成績。

    grades = [77, 85, 56, 90, 66]
    
請計算平均。

In [100]:
grades = [77, 85, 56, 90, 66]
average = 0
sum_number = 0
for i in grades:
    sum_number +=i
f'average = {sum_number / len(grades)}'

'average = 74.8'

### 【示範】陣列導向

In [102]:
arr = np.array(grades)
arr.mean()

74.8

最大值

In [103]:
arr.max()

90

標準差

In [104]:
arr.std()

12.416118556135006

### 【暖身】 換算匯率

假設今天我想查查號稱 Pentax 三公主的 31mm, 43mm, 77mm 三隻 limited 鏡頭在美國賣多少。於是我去 B&H 查了他們的價格分別是:

    prices = [1096.95, 596.95, 896.95]
    
我又查了 Google 匯率 1 美金為 31.71 元。請把三支鏡頭的價格換算為台幣。

In [108]:
prices = [1096.95, 596.95, 896.95]
exchange = 31.71
result = []
for i in prices:
    result.append(i * exchange)
result

[34784.2845, 18929.2845, 28442.2845]

先不管這實在有夠醜的數字, 我們要記得在科學計算中:

### 儘可能不要使用迴圈

這可能嗎?

### 【示範】陣列換算匯率

In [109]:
np.array(prices)*31.71 

array([34784.2845, 18929.2845, 28442.2845])

哦哦, 傑克, 這太神奇了!

## 2. 其實 array 還有很多功能

### 【練習】 成績計算

一位老師成績這樣算的:

* 平時成績 20%
* 期中考   35%
* 期未考   45%

有位同學

* 平時成績 85 分
* 期中 70 分
* 期末 80 分

這位同學的學期成績是多少?

In [110]:
grades = np.array([85,70,80])
weights = np.array([0.2, 0.35, 0.45])

這還不是我們要的最終成績啊!

In [111]:
weighted_grades = grades * weights
weighted_grades

array([17. , 24.5, 36. ])

### 【提示】 array 還有很多函數可以用

可以先打入

    weighted_grades.
    
先不要按 `enter` 或 `shift-enter`, 而是按 `tab`...


In [112]:
weighted_grades.sum()

77.5

### 【技巧】 一行完成成績計算

In [113]:
grades.dot(weights)

77.5

## 3. 重要的 array 大變身!

我們在數據分析, 常常要改 array 的型式。

### 【練習】 一個 50 個數字的 array

先想辦法、用亂數做出 50 個數字的 array, 叫做 A 好了。

In [114]:
A = np.random.rand(50)

In [115]:
A

array([0.9144729 , 0.22270865, 0.15075854, 0.8735262 , 0.45811673,
       0.74010519, 0.90144447, 0.41150925, 0.82076861, 0.3481921 ,
       0.91884857, 0.5035609 , 0.71166538, 0.73873776, 0.17710807,
       0.93427267, 0.58840199, 0.05818518, 0.09291176, 0.22672686,
       0.01290604, 0.78006297, 0.02242296, 0.1196332 , 0.392755  ,
       0.86938347, 0.78738922, 0.26913633, 0.03228863, 0.93221628,
       0.18560441, 0.55601225, 0.78648558, 0.32220701, 0.48286808,
       0.44053924, 0.22924151, 0.35088819, 0.58174401, 0.14526986,
       0.87031232, 0.08692171, 0.37854344, 0.59245853, 0.70142499,
       0.96598353, 0.01966735, 0.49457529, 0.80374628, 0.72627464])

### 【技巧】 檢查 A 的 `shape`

In [94]:
A.shape

(50,)

### 【技巧】 更改 A 的 shape

In [96]:
A.shape = (5, 10)
A

array([[0.5699121 , 0.43941459, 0.49209443, 0.42475165, 0.80805792,
        0.46610263, 0.07909815, 0.36336182, 0.16937636, 0.23910875],
       [0.57194002, 0.11319869, 0.25479437, 0.53681081, 0.50449862,
        0.70336199, 0.73218094, 0.35149951, 0.88450319, 0.93443455],
       [0.9315975 , 0.55934841, 0.19842445, 0.64276937, 0.20710201,
        0.15685451, 0.46836817, 0.07235193, 0.36219096, 0.08331745],
       [0.1420847 , 0.95271697, 0.47013951, 0.66878071, 0.00810136,
        0.04529264, 0.31465787, 0.53219274, 0.88619827, 0.42302637],
       [0.74540292, 0.45842012, 0.21219065, 0.74961345, 0.83641465,
        0.57573497, 0.19589019, 0.93282809, 0.42884857, 0.71162415]])

### 【技巧】 也可以用 `reshape`

但要注意, reshape 並沒有改原來的陣列。

In [97]:
A.reshape(10, 5)

array([[0.5699121 , 0.43941459, 0.49209443, 0.42475165, 0.80805792],
       [0.46610263, 0.07909815, 0.36336182, 0.16937636, 0.23910875],
       [0.57194002, 0.11319869, 0.25479437, 0.53681081, 0.50449862],
       [0.70336199, 0.73218094, 0.35149951, 0.88450319, 0.93443455],
       [0.9315975 , 0.55934841, 0.19842445, 0.64276937, 0.20710201],
       [0.15685451, 0.46836817, 0.07235193, 0.36219096, 0.08331745],
       [0.1420847 , 0.95271697, 0.47013951, 0.66878071, 0.00810136],
       [0.04529264, 0.31465787, 0.53219274, 0.88619827, 0.42302637],
       [0.74540292, 0.45842012, 0.21219065, 0.74961345, 0.83641465],
       [0.57573497, 0.19589019, 0.93282809, 0.42884857, 0.71162415]])

### 【技巧】 拉平 `ravel`

雖然你想一想就知道可以用 `shape` 或 `reshape` 把多維陣列拉成一維。不過用 `ravel` 很潮。

In [98]:
np.ravel(A)

array([0.5699121 , 0.43941459, 0.49209443, 0.42475165, 0.80805792,
       0.46610263, 0.07909815, 0.36336182, 0.16937636, 0.23910875,
       0.57194002, 0.11319869, 0.25479437, 0.53681081, 0.50449862,
       0.70336199, 0.73218094, 0.35149951, 0.88450319, 0.93443455,
       0.9315975 , 0.55934841, 0.19842445, 0.64276937, 0.20710201,
       0.15685451, 0.46836817, 0.07235193, 0.36219096, 0.08331745,
       0.1420847 , 0.95271697, 0.47013951, 0.66878071, 0.00810136,
       0.04529264, 0.31465787, 0.53219274, 0.88619827, 0.42302637,
       0.74540292, 0.45842012, 0.21219065, 0.74961345, 0.83641465,
       0.57573497, 0.19589019, 0.93282809, 0.42884857, 0.71162415])

## 4. 快速 array 生成法

### 【技巧】 都是 0 的 array

In [41]:
np.zeros([10, 10])

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

### 【技巧】 都是 1 的 array

In [42]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

### 【技巧】單位矩陣

In [43]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

### 【技巧】給定範圍均勻生出 n 個點

In [48]:
np.random.uniform(size=(10, 10))

array([[0.166772  , 0.44356056, 0.33029898, 0.48500488, 0.81729942,
        0.8314724 , 0.52403548, 0.33150694, 0.35876056, 0.45258656],
       [0.15141389, 0.1015838 , 0.23134731, 0.82280644, 0.74887489,
        0.9220584 , 0.33886994, 0.44853022, 0.94877789, 0.86145643],
       [0.02636473, 0.40133278, 0.45721116, 0.28834436, 0.95129084,
        0.94132405, 0.81346684, 0.22612975, 0.05912402, 0.58118788],
       [0.83424521, 0.83799738, 0.92937324, 0.33243767, 0.13663108,
        0.48503071, 0.24095842, 0.70740328, 0.72402893, 0.83292328],
       [0.67992897, 0.01890816, 0.16349053, 0.66579638, 0.50636752,
        0.85861077, 0.63847943, 0.57986494, 0.34698056, 0.57973704],
       [0.62402809, 0.11699011, 0.0588608 , 0.0013629 , 0.58610181,
        0.81368071, 0.75205334, 0.02472447, 0.64310253, 0.87316758],
       [0.41616522, 0.1154746 , 0.430048  , 0.40604333, 0.68340517,
        0.4930996 , 0.13952563, 0.32544375, 0.97447845, 0.62680792],
       [0.63281761, 0.17395795, 0.1718522

### 【技巧】`range` 的 array 版

就是 `arange`。

In [49]:
np.arange(1, 10, 0.2)

array([1. , 1.2, 1.4, 1.6, 1.8, 2. , 2.2, 2.4, 2.6, 2.8, 3. , 3.2, 3.4,
       3.6, 3.8, 4. , 4.2, 4.4, 4.6, 4.8, 5. , 5.2, 5.4, 5.6, 5.8, 6. ,
       6.2, 6.4, 6.6, 6.8, 7. , 7.2, 7.4, 7.6, 7.8, 8. , 8.2, 8.4, 8.6,
       8.8, 9. , 9.2, 9.4, 9.6, 9.8])

## 5. 超重要 `axis` 觀念

初學 `numpy` 很多人有點弄不清楚 `axis` 概念。其實掌握矩陣, 或很像矩陣的陣列都是「先列後行」就可以!

我們先弄個 array 來練習。

In [57]:
A = np.arange(0, 10).reshape(2, 5)
A

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### 【重點】 一列一列算下來是 `axis=0`

![axis=0](images/axis0.png)

In [58]:
A.sum(axis=0)

array([ 5,  7,  9, 11, 13])

### 【重點】 一行一行算過去是 `axis=1`

![axis=1](images/axis1.png)

In [59]:
A.sum(axis=1)

array([10, 35])

### 【提示】當然也有可能全部算

In [60]:
A.sum()

45

## 6. array 過濾器

篩出我們要的資料, 這樣的技巧非常重要!

### 【例子】篩出大於 0 的數

我們有個陣列, 想找出大於 0 的數。<br>
L = np.array([3, -2, -1, 5, 7, -3])

In [62]:
L = np.array([3, -2, -1, 5, 7, -3])

我們可以很白痴的自己判斷...<br>
c = np.array([True,False,False,True,True,False])

In [63]:
c = np.array([True,False,False,True,True,False])

這是做啥呢? 我們可以瞬間...

In [64]:
L[c]

array([3, 5, 7])

除了自己做很白痴, 這看來很厲害!

事實上我們可以叫 `numpy` 做!

In [116]:
L>0

array([ True, False, False,  True,  True, False])

這有點強, 我們還可以一次到位!

In [117]:
L[L>0]

array([3, 5, 7])

## 7. 次元切割刀

`numpy` 中 array 的切割法和 list 很像。

In [68]:
A = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
A

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [70]:
A[3:7]

array([3, 4, 5, 6])

### 【技巧】2維陣列切法

記得先列後行!

In [118]:
A = np.array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])
A

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

要所有的row, 切出行 1-3 位置。

In [119]:
A[:,1:3]

array([[1, 2],
       [6, 7]])

要所有的行col, 切出第 1 列row!

In [74]:
A[1]

array([5, 6, 7, 8, 9])

## 8. `NumPy` 的 `zip` 和 `unzip`

之前我們介紹 list 可以用 `zip` 和 `unzip` (其實還是 `zip`) 做到的資料格式變換, 在 array 中怎麼做呢?

![zip and unzip](images/zip.png)

### 【重點】array 的 `zip`

![array zip](images/arrzip.png)

In [78]:
x = np.array([1,2,3,4])
y = np.array([5,6,7,8])

In [122]:
A = np.c_[x, y]
A

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [123]:
Y = np.r_[x, y]
Y

array([1, 2, 3, 4, 5, 6, 7, 8])

### 【重點】array 的 `unzip`

這裡其實只需要用到 array 的切割法...

![array zip](images/arrunzip.png)

In [131]:
np.squeeze(A)

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [126]:
A[:,0]

array([1, 2, 3, 4])

In [127]:
A[:,1]

array([5, 6, 7, 8])