# NumPy 和陣列導向的程式設計

`NumPy` 可以說是 Python 中最最標準的科學計算、數據分析套件。也因為 `NumPy` 的出現, 讓 Python 有了非常好的數據分析基礎, 一直到現在成為數據分析覇主。

In [29]:
import numpy as np

## 1. 陣列導向 101

科學計算一個很核心的概念叫 "array oriented" 的寫法。Array 是 `numpy` 標準的資料結構, 和 list 很像, 但就差了那麼一點點。而這一點點讓我們在計算上是無比的方便。

### 【暖身】 計算平均

某位同學期中考各科成績如下, 請幫他計算成績。

    grades = [77, 85, 56, 90, 66]
    
請計算平均。

In [27]:
s = 0
grades = [77, 85, 56, 90, 66]
for i in grades:
    s+=i
print("average = {0:9.2f}, sum = {1:6.2f}".format(s/len(grades),s)) # 9.2f ->等號後9個位數，小數點後2位

average =     74.80, sum = 374.00


### 【示範】陣列導向

In [31]:
grades = [77, 85, 56, 90, 66]
arr = np.array(grades)
arr.mean()

74.8

最大值

In [33]:
arr.max()

90

標準差

In [35]:
arr.std()

12.416118556135006

### 【暖身】 換算匯率

假設今天我想查查號稱 Pentax 三公主的 31mm, 43mm, 77mm 三隻 limited 鏡頭在美國賣多少。於是我去 B&H 查了他們的價格分別是:

    prices = [1096.95, 596.95, 896.95]
    
我又查了 Google 匯率 1 美金為 31.71 元。請把三支鏡頭的價格換算為台幣。

In [37]:
prices = [1096.95, 596.95, 896.95]
usd2twd = 31.71
price_twd = []
for i in prices:
    price_twd.append(i*usd2twd)
print(price_twd)

[34784.2845, 18929.2845, 28442.2845]


先不管這實在有夠醜的數字, 我們要記得在科學計算中:

### 儘可能不要使用迴圈

這可能嗎?

### 【示範】陣列換算匯率

In [43]:
prices = [1096.95, 596.95, 896.95]
usd2twd = 31.71
arr_price = np.array(prices)*usd2twd
print(arr_price)

[34784.2845 18929.2845 28442.2845]


哦哦, 傑克, 這太神奇了!

## 2. 其實 array 還有很多功能

### 【練習】 成績計算

一位老師成績這樣算的:

* 平時成績 20%
* 期中考   35%
* 期未考   45%

有位同學

* 平時成績 85 分
* 期中 70 分
* 期末 80 分

這位同學的學期成績是多少?

In [45]:
grades = np.array([85,70,80])
weights = np.array([0.2, 0.35, 0.45])

這還不是我們要的最終成績啊!

In [51]:
weighted_grades=grades*weights

### 【提示】 array 還有很多函數可以用

可以先打入

    weighted_grades.
    
先不要按 `enter` 或 `shift-enter`, 而是按 `tab`...


In [53]:
weighted_grades.sum()

77.5

### 【技巧】 一行完成成績計算

In [55]:
np.dot(grades,weights)

77.5

## 3. 重要的 array 大變身!

我們在數據分析, 常常要改 array 的型式。

### 【練習】 一個 50 個數字的 array

先想辦法、用亂數做出 50 個數字的 array, 叫做 A 好了。

In [61]:
A = np.random.rand(50)
A

array([0.31165122, 0.78867997, 0.97237162, 0.23437754, 0.95980896,
       0.25181658, 0.04692401, 0.73377953, 0.3256373 , 0.75534173,
       0.27282502, 0.84167937, 0.77562345, 0.95042397, 0.00170851,
       0.91100964, 0.16460484, 0.74017353, 0.82058574, 0.45418985,
       0.89420237, 0.71800656, 0.90073208, 0.77321811, 0.37116981,
       0.94904352, 0.35007672, 0.31670208, 0.53437814, 0.65808071,
       0.80519744, 0.26584467, 0.25386459, 0.91878221, 0.1271861 ,
       0.66321713, 0.69587495, 0.81326256, 0.88381835, 0.85600034,
       0.05747829, 0.88558697, 0.22316021, 0.42119198, 0.05938673,
       0.81286156, 0.83415267, 0.64210962, 0.36878951, 0.29430708])

In [63]:
A[0]

0.3116512171573139

### 【技巧】 檢查 A 的 `shape`

In [73]:
A.shape

(5, 10)

### 【技巧】 更改 A 的 shape

In [75]:
A.shape = (5,10)
A

array([[0.31165122, 0.78867997, 0.97237162, 0.23437754, 0.95980896,
        0.25181658, 0.04692401, 0.73377953, 0.3256373 , 0.75534173],
       [0.27282502, 0.84167937, 0.77562345, 0.95042397, 0.00170851,
        0.91100964, 0.16460484, 0.74017353, 0.82058574, 0.45418985],
       [0.89420237, 0.71800656, 0.90073208, 0.77321811, 0.37116981,
        0.94904352, 0.35007672, 0.31670208, 0.53437814, 0.65808071],
       [0.80519744, 0.26584467, 0.25386459, 0.91878221, 0.1271861 ,
        0.66321713, 0.69587495, 0.81326256, 0.88381835, 0.85600034],
       [0.05747829, 0.88558697, 0.22316021, 0.42119198, 0.05938673,
        0.81286156, 0.83415267, 0.64210962, 0.36878951, 0.29430708]])

### 【技巧】 也可以用 `reshape`

但要注意, reshape 並沒有改原來的陣列。

In [85]:
A.reshape(25,2)

array([[0.31165122, 0.78867997],
       [0.97237162, 0.23437754],
       [0.95980896, 0.25181658],
       [0.04692401, 0.73377953],
       [0.3256373 , 0.75534173],
       [0.27282502, 0.84167937],
       [0.77562345, 0.95042397],
       [0.00170851, 0.91100964],
       [0.16460484, 0.74017353],
       [0.82058574, 0.45418985],
       [0.89420237, 0.71800656],
       [0.90073208, 0.77321811],
       [0.37116981, 0.94904352],
       [0.35007672, 0.31670208],
       [0.53437814, 0.65808071],
       [0.80519744, 0.26584467],
       [0.25386459, 0.91878221],
       [0.1271861 , 0.66321713],
       [0.69587495, 0.81326256],
       [0.88381835, 0.85600034],
       [0.05747829, 0.88558697],
       [0.22316021, 0.42119198],
       [0.05938673, 0.81286156],
       [0.83415267, 0.64210962],
       [0.36878951, 0.29430708]])

### 【技巧】 拉平 `ravel`

雖然你想一想就知道可以用 `shape` 或 `reshape` 把多維陣列拉成一維。不過用 `ravel` 很潮。

In [87]:
A.ravel()

array([0.31165122, 0.78867997, 0.97237162, 0.23437754, 0.95980896,
       0.25181658, 0.04692401, 0.73377953, 0.3256373 , 0.75534173,
       0.27282502, 0.84167937, 0.77562345, 0.95042397, 0.00170851,
       0.91100964, 0.16460484, 0.74017353, 0.82058574, 0.45418985,
       0.89420237, 0.71800656, 0.90073208, 0.77321811, 0.37116981,
       0.94904352, 0.35007672, 0.31670208, 0.53437814, 0.65808071,
       0.80519744, 0.26584467, 0.25386459, 0.91878221, 0.1271861 ,
       0.66321713, 0.69587495, 0.81326256, 0.88381835, 0.85600034,
       0.05747829, 0.88558697, 0.22316021, 0.42119198, 0.05938673,
       0.81286156, 0.83415267, 0.64210962, 0.36878951, 0.29430708])

## 4. 快速 array 生成法

### 【技巧】 都是 0 的 array

In [97]:
np.zeros(50)
np.zeros((512,512)) # numpy.zeros(shape, dtype=float, order='C')

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

### 【技巧】 都是 1 的 array

In [91]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

### 【技巧】單位矩陣

In [99]:
np.eye(10)

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

### 【技巧】給定範圍均勻生出 n 個點

In [101]:
np.linspace(0,10,100)

array([ 0.        ,  0.1010101 ,  0.2020202 ,  0.3030303 ,  0.4040404 ,
        0.50505051,  0.60606061,  0.70707071,  0.80808081,  0.90909091,
        1.01010101,  1.11111111,  1.21212121,  1.31313131,  1.41414141,
        1.51515152,  1.61616162,  1.71717172,  1.81818182,  1.91919192,
        2.02020202,  2.12121212,  2.22222222,  2.32323232,  2.42424242,
        2.52525253,  2.62626263,  2.72727273,  2.82828283,  2.92929293,
        3.03030303,  3.13131313,  3.23232323,  3.33333333,  3.43434343,
        3.53535354,  3.63636364,  3.73737374,  3.83838384,  3.93939394,
        4.04040404,  4.14141414,  4.24242424,  4.34343434,  4.44444444,
        4.54545455,  4.64646465,  4.74747475,  4.84848485,  4.94949495,
        5.05050505,  5.15151515,  5.25252525,  5.35353535,  5.45454545,
        5.55555556,  5.65656566,  5.75757576,  5.85858586,  5.95959596,
        6.06060606,  6.16161616,  6.26262626,  6.36363636,  6.46464646,
        6.56565657,  6.66666667,  6.76767677,  6.86868687,  6.96

### 【技巧】`range` 的 array 版

就是 `arange`。

In [103]:
np.arange(1,10,0.05)

array([1.  , 1.05, 1.1 , 1.15, 1.2 , 1.25, 1.3 , 1.35, 1.4 , 1.45, 1.5 ,
       1.55, 1.6 , 1.65, 1.7 , 1.75, 1.8 , 1.85, 1.9 , 1.95, 2.  , 2.05,
       2.1 , 2.15, 2.2 , 2.25, 2.3 , 2.35, 2.4 , 2.45, 2.5 , 2.55, 2.6 ,
       2.65, 2.7 , 2.75, 2.8 , 2.85, 2.9 , 2.95, 3.  , 3.05, 3.1 , 3.15,
       3.2 , 3.25, 3.3 , 3.35, 3.4 , 3.45, 3.5 , 3.55, 3.6 , 3.65, 3.7 ,
       3.75, 3.8 , 3.85, 3.9 , 3.95, 4.  , 4.05, 4.1 , 4.15, 4.2 , 4.25,
       4.3 , 4.35, 4.4 , 4.45, 4.5 , 4.55, 4.6 , 4.65, 4.7 , 4.75, 4.8 ,
       4.85, 4.9 , 4.95, 5.  , 5.05, 5.1 , 5.15, 5.2 , 5.25, 5.3 , 5.35,
       5.4 , 5.45, 5.5 , 5.55, 5.6 , 5.65, 5.7 , 5.75, 5.8 , 5.85, 5.9 ,
       5.95, 6.  , 6.05, 6.1 , 6.15, 6.2 , 6.25, 6.3 , 6.35, 6.4 , 6.45,
       6.5 , 6.55, 6.6 , 6.65, 6.7 , 6.75, 6.8 , 6.85, 6.9 , 6.95, 7.  ,
       7.05, 7.1 , 7.15, 7.2 , 7.25, 7.3 , 7.35, 7.4 , 7.45, 7.5 , 7.55,
       7.6 , 7.65, 7.7 , 7.75, 7.8 , 7.85, 7.9 , 7.95, 8.  , 8.05, 8.1 ,
       8.15, 8.2 , 8.25, 8.3 , 8.35, 8.4 , 8.45, 8.

## 5. 超重要 `axis` 觀念

初學 `numpy` 很多人有點弄不清楚 `axis` 概念。其實掌握矩陣, 或很像矩陣的陣列都是「先列後行」就可以!

我們先弄個 array 來練習。

In [117]:
A = np.arange(10).reshape(2,5)
A

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### 【重點】 一列一列算下來是 `axis=0`

![axis=0](images/axis0.png)

In [119]:
A.sum(axis=0)

array([ 5,  7,  9, 11, 13])

### 【重點】 一行一行算過去是 `axis=1`

![axis=1](images/axis1.png)

In [121]:
A.sum(axis=1)

array([10, 35])

### 【提示】當然也有可能全部算

In [123]:
A.sum()

45

## 6. array 過濾器

篩出我們要的資料, 這樣的技巧非常重要!

### 【例子】篩出大於 0 的數

我們有個陣列, 想找出大於 0 的數。<br>
L = np.array([3, -2, -1, 5, 7, -3])

In [125]:
L = np.array([3, -2, -1, 5, 7, -3])

我們可以很白痴的自己判斷...<br>
c = np.array([True,False,False,True,True,False])

In [127]:
c = np.array([True,False,False,True,True,False])

這是做啥呢? 我們可以瞬間...

In [135]:
L[c]

array([3, 5, 7])

除了自己做很白痴, 這看來很厲害!

事實上我們可以叫 `numpy` 做!

In [139]:
L<5

array([ True,  True,  True, False, False,  True])

這有點強, 我們還可以一次到位!

In [141]:
L[L<5]

array([ 3, -2, -1, -3])

## 7. 次元切割刀

`numpy` 中 array 的切割法和 list 很像。

In [145]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [151]:
x[3:7]
x[2:5]

array([2, 3, 4])

### 【技巧】2維陣列切法

記得先列後行!

In [155]:
x = x.reshape(2,5)
x

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

要所有的row, 切出行 1-3 位置。

In [157]:
x[:,1:3]

array([[1, 2],
       [6, 7]])

要所有的行col, 切出第 1 列row!

In [159]:
x[0,:]

array([0, 1, 2, 3, 4])

## 8. `NumPy` 的 `zip` 和 `unzip`

之前我們介紹 list 可以用 `zip` 和 `unzip` (其實還是 `zip`) 做到的資料格式變換, 在 array 中怎麼做呢?

![zip and unzip](images/zip.png)

### 【重點】array 的 `zip`

![array zip](images/arrzip.png)

In [161]:
x = np.array([1,2,3,4])
y = np.array([5,6,7,8])

In [165]:
X = np.c_[x,y]
X

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [167]:
Y = np.r_[x,y]
Y

array([1, 2, 3, 4, 5, 6, 7, 8])

### 【重點】array 的 `unzip`

這裡其實只需要用到 array 的切割法...

![array zip](images/arrunzip.png)

In [169]:
X[:,0]

array([1, 2, 3, 4])

In [171]:
X[:,1]

array([5, 6, 7, 8])

In [175]:
Y[0:4]

array([1, 2, 3, 4])

In [177]:
Y[4:len(Y)]

array([5, 6, 7, 8])