# NumPy 和陣列導向的程式設計

`NumPy` 可以說是 Python 中最最標準的科學計算、數據分析套件。也因為 `NumPy` 的出現, 讓 Python 有了非常好的數據分析基礎, 一直到現在成為數據分析覇主。

In [1]:
import numpy as np

## 1. 陣列導向 101

科學計算一個很核心的概念叫 "array oriented" 的寫法。Array 是 `numpy` 標準的資料結構, 和 list 很像, 但就差了那麼一點點。而這一點點讓我們在計算上是無比的方便。

### 【暖身】 計算平均

某位同學期中考各科成績如下, 請幫他計算成績。

    grades = [77, 85, 56, 90, 66]
    
請計算平均。

In [6]:
grades = [77, 85, 56, 90, 66]
sum1 = 0
n = len(grades)
for i in range(n):
    sum1 += grades[i]
print('average = %.2f'%(sum1/n))
print('sum = %d'%(sum1))

average = 74.80
sum = 374


In [7]:
grades = [77, 85, 56, 90, 66]
arr_grades = np.array(grades)
average = arr_grades.mean()
summation = arr_grades.sum()
print('average = %.2f'%(average))
print('sum = %d'%(summation))

average = 74.80
sum = 374


### 【示範】陣列導向

In [8]:
grades = [77, 85, 56, 90, 66]
arr_grades = np.array(grades)
average = arr_grades.mean()
summation = arr_grades.sum()
print('average = %.2f'%(average))
print('sum = %d'%(summation))

average = 74.80
sum = 374


最大值

In [5]:
maxgrade = arr_grades.max()
maxgrade

90

標準差

In [9]:
std = arr_grades.std()
std

12.416118556135006

### 【暖身】 換算匯率

假設今天我想查查號稱 Pentax 三公主的 31mm, 43mm, 77mm 三隻 limited 鏡頭在美國賣多少。於是我去 B&H 查了他們的價格分別是:

    prices = [1096.95, 596.95, 896.95]
    
我又查了 Google 匯率 1 美金為 31.71 元。請把三支鏡頭的價格換算為台幣。

In [18]:
prices = [1096.95, 596.95, 896.95]

newprices = []
for i in range(len(prices)):
    NTD = prices[i]*31.71
    newprices.append(NTD)
print ('三支鏡頭的新台幣價格為：',newprices)

三支鏡頭的新台幣價格為： [34784.2845, 18929.2845, 28442.2845]


先不管這實在有夠醜的數字, 我們要記得在科學計算中:

### 儘可能不要使用迴圈

這可能嗎?

### 【示範】陣列換算匯率

In [19]:
arr_prices = np.array(prices)
ans = arr_prices * 31.71
ans

array([34784.2845, 18929.2845, 28442.2845])

哦哦, 傑克, 這太神奇了!

## 2. 其實 array 還有很多功能

### 【練習】 成績計算

一位老師成績這樣算的:

* 平時成績 20%
* 期中考   35%
* 期未考   45%

有位同學

* 平時成績 85 分
* 期中 70 分
* 期末 80 分

這位同學的學期成績是多少?

In [14]:
grades = np.array([85,70,80])
weights = np.array([0.2, 0.35, 0.45])

這還不是我們要的最終成績啊!

In [20]:
newgrades = grades*weights
newgrades

array([17. , 24.5, 36. ])

### 【提示】 array 還有很多函數可以用

可以先打入

    weighted_grades.
    
先不要按 `enter` 或 `shift-enter`, 而是按 `tab`...


In [21]:
weighted_grades = newgrades.sum()
weighted_grades

77.5

### 【技巧】 一行完成成績計算

In [23]:
ans = grades.dot(weights)
ans

77.5

## 3. 重要的 array 大變身!

我們在數據分析, 常常要改 array 的型式。

### 【練習】 一個 50 個數字的 array

先想辦法、用亂數做出 50 個數字的 array, 叫做 A 好了。

In [33]:
A = np.random.rand(50)
A

array([0.52174655, 0.08116389, 0.70258145, 0.01732217, 0.34812168,
       0.76850735, 0.83644592, 0.3497264 , 0.92174513, 0.23370469,
       0.64309128, 0.57658052, 0.30083287, 0.89861241, 0.07424678,
       0.03471783, 0.53755965, 0.11912215, 0.30856103, 0.17587854,
       0.65803329, 0.0123611 , 0.13689584, 0.28257705, 0.56611583,
       0.12910666, 0.10575342, 0.97086972, 0.22825324, 0.14062371,
       0.80741759, 0.51001062, 0.87888648, 0.73390086, 0.51736653,
       0.98529441, 0.23610527, 0.5358331 , 0.10932302, 0.00477653,
       0.32488009, 0.09414465, 0.61526629, 0.04844664, 0.02834398,
       0.17852526, 0.68569249, 0.67414267, 0.97104225, 0.69337242])

In [34]:
A[0]

0.5217465510270886

### 【技巧】 檢查 A 的 `shape`

In [35]:
A.shape

(50,)

### 【技巧】 更改 A 的 shape

In [36]:
A.shape = (10,5)
A

array([[0.52174655, 0.08116389, 0.70258145, 0.01732217, 0.34812168],
       [0.76850735, 0.83644592, 0.3497264 , 0.92174513, 0.23370469],
       [0.64309128, 0.57658052, 0.30083287, 0.89861241, 0.07424678],
       [0.03471783, 0.53755965, 0.11912215, 0.30856103, 0.17587854],
       [0.65803329, 0.0123611 , 0.13689584, 0.28257705, 0.56611583],
       [0.12910666, 0.10575342, 0.97086972, 0.22825324, 0.14062371],
       [0.80741759, 0.51001062, 0.87888648, 0.73390086, 0.51736653],
       [0.98529441, 0.23610527, 0.5358331 , 0.10932302, 0.00477653],
       [0.32488009, 0.09414465, 0.61526629, 0.04844664, 0.02834398],
       [0.17852526, 0.68569249, 0.67414267, 0.97104225, 0.69337242]])

In [37]:
A[0]

array([0.52174655, 0.08116389, 0.70258145, 0.01732217, 0.34812168])

### 【技巧】 也可以用 `reshape`

但要注意, reshape 並沒有改原來的陣列。

In [38]:
A.reshape(10,5)

array([[0.52174655, 0.08116389, 0.70258145, 0.01732217, 0.34812168],
       [0.76850735, 0.83644592, 0.3497264 , 0.92174513, 0.23370469],
       [0.64309128, 0.57658052, 0.30083287, 0.89861241, 0.07424678],
       [0.03471783, 0.53755965, 0.11912215, 0.30856103, 0.17587854],
       [0.65803329, 0.0123611 , 0.13689584, 0.28257705, 0.56611583],
       [0.12910666, 0.10575342, 0.97086972, 0.22825324, 0.14062371],
       [0.80741759, 0.51001062, 0.87888648, 0.73390086, 0.51736653],
       [0.98529441, 0.23610527, 0.5358331 , 0.10932302, 0.00477653],
       [0.32488009, 0.09414465, 0.61526629, 0.04844664, 0.02834398],
       [0.17852526, 0.68569249, 0.67414267, 0.97104225, 0.69337242]])

### 【技巧】 拉平 `ravel`

雖然你想一想就知道可以用 `shape` 或 `reshape` 把多維陣列拉成一維。不過用 `ravel` 很潮。

In [40]:
A.ravel()

array([0.52174655, 0.08116389, 0.70258145, 0.01732217, 0.34812168,
       0.76850735, 0.83644592, 0.3497264 , 0.92174513, 0.23370469,
       0.64309128, 0.57658052, 0.30083287, 0.89861241, 0.07424678,
       0.03471783, 0.53755965, 0.11912215, 0.30856103, 0.17587854,
       0.65803329, 0.0123611 , 0.13689584, 0.28257705, 0.56611583,
       0.12910666, 0.10575342, 0.97086972, 0.22825324, 0.14062371,
       0.80741759, 0.51001062, 0.87888648, 0.73390086, 0.51736653,
       0.98529441, 0.23610527, 0.5358331 , 0.10932302, 0.00477653,
       0.32488009, 0.09414465, 0.61526629, 0.04844664, 0.02834398,
       0.17852526, 0.68569249, 0.67414267, 0.97104225, 0.69337242])

## 4. 快速 array 生成法

### 【技巧】 都是 0 的 array

In [46]:
ans = np.zeros((5,10))
ans

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

### 【技巧】 都是 1 的 array

In [47]:
ans = np.ones((5,10))
ans

array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]])

### 【技巧】單位矩陣

In [50]:
ans = np.eye(5)
ans

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

### 【技巧】給定範圍均勻生出 n 個點

In [52]:
ans = np.linspace(0,50,100)
ans

array([ 0.        ,  0.50505051,  1.01010101,  1.51515152,  2.02020202,
        2.52525253,  3.03030303,  3.53535354,  4.04040404,  4.54545455,
        5.05050505,  5.55555556,  6.06060606,  6.56565657,  7.07070707,
        7.57575758,  8.08080808,  8.58585859,  9.09090909,  9.5959596 ,
       10.1010101 , 10.60606061, 11.11111111, 11.61616162, 12.12121212,
       12.62626263, 13.13131313, 13.63636364, 14.14141414, 14.64646465,
       15.15151515, 15.65656566, 16.16161616, 16.66666667, 17.17171717,
       17.67676768, 18.18181818, 18.68686869, 19.19191919, 19.6969697 ,
       20.2020202 , 20.70707071, 21.21212121, 21.71717172, 22.22222222,
       22.72727273, 23.23232323, 23.73737374, 24.24242424, 24.74747475,
       25.25252525, 25.75757576, 26.26262626, 26.76767677, 27.27272727,
       27.77777778, 28.28282828, 28.78787879, 29.29292929, 29.7979798 ,
       30.3030303 , 30.80808081, 31.31313131, 31.81818182, 32.32323232,
       32.82828283, 33.33333333, 33.83838384, 34.34343434, 34.84

### 【技巧】`range` 的 array 版

就是 `arange`。

In [54]:
ans = np.arange(1,10,0.2)
ans

array([1. , 1.2, 1.4, 1.6, 1.8, 2. , 2.2, 2.4, 2.6, 2.8, 3. , 3.2, 3.4,
       3.6, 3.8, 4. , 4.2, 4.4, 4.6, 4.8, 5. , 5.2, 5.4, 5.6, 5.8, 6. ,
       6.2, 6.4, 6.6, 6.8, 7. , 7.2, 7.4, 7.6, 7.8, 8. , 8.2, 8.4, 8.6,
       8.8, 9. , 9.2, 9.4, 9.6, 9.8])

## 5. 超重要 `axis` 觀念

初學 `numpy` 很多人有點弄不清楚 `axis` 概念。其實掌握矩陣, 或很像矩陣的陣列都是「先列後行」就可以!

我們先弄個 array 來練習。

In [57]:
arr = np.arange(10).reshape(2,5)
arr

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### 【重點】 一列一列算下來是 `axis=0`

![axis=0](images/axis0.png)

In [61]:
arr.sum(axis=0)

array([ 5,  7,  9, 11, 13])

### 【重點】 一行一行算過去是 `axis=1`

![axis=1](images/axis1.png)

In [62]:
arr.sum(axis=1)

array([10, 35])

### 【提示】當然也有可能全部算

In [64]:
arr.sum()

45

## 6. array 過濾器

篩出我們要的資料, 這樣的技巧非常重要!

### 【例子】篩出大於 0 的數

我們有個陣列, 想找出大於 0 的數。<br>
L = np.array([3, -2, -1, 5, 7, -3])

In [65]:
L = np.array([3, -2, -1, 5, 7, -3])

我們可以很白痴的自己判斷...<br>
c = np.array([True,False,False,True,True,False])

In [66]:
c = np.array([True,False,False,True,True,False])

這是做啥呢? 我們可以瞬間...

In [67]:
L[c]

array([3, 5, 7])

除了自己做很白痴, 這看來很厲害!

事實上我們可以叫 `numpy` 做!

In [68]:
L>0

array([ True, False, False,  True,  True, False])

這有點強, 我們還可以一次到位!

In [70]:
ans = L[L>0]
ans

array([3, 5, 7])

## 7. 次元切割刀

`numpy` 中 array 的切割法和 list 很像。

In [72]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [75]:
arr[3:7]

array([3, 4, 5, 6])

### 【技巧】2維陣列切法

記得先列後行!

In [76]:
arr2 = arr.reshape(2,5)
arr2

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

要所有的row, 切出行 1-3 位置。

In [77]:
arr2[:,1:3]

array([[1, 2],
       [6, 7]])

要所有的行col, 切出第 1 列row!

In [78]:
arr2[1,:]

array([5, 6, 7, 8, 9])

## 8. `NumPy` 的 `zip` 和 `unzip`

之前我們介紹 list 可以用 `zip` 和 `unzip` (其實還是 `zip`) 做到的資料格式變換, 在 array 中怎麼做呢?

![zip and unzip](images/zip.png)

### 【重點】array 的 `zip`

![array zip](images/arrzip.png)

In [79]:
x = np.array([1,2,3,4])
y = np.array([5,6,7,8])

In [82]:
X = np.c_[x,y]
X

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [84]:
Y = np.r_[x,y]
Y

array([1, 2, 3, 4, 5, 6, 7, 8])

### 【重點】array 的 `unzip`

這裡其實只需要用到 array 的切割法...

![array zip](images/arrunzip.png)

In [86]:
X[:,1]

array([5, 6, 7, 8])