# NumPy 和陣列導向的程式設計

`NumPy` 可以說是 Python 中最最標準的科學計算、數據分析套件。也因為 `NumPy` 的出現, 讓 Python 有了非常好的數據分析基礎, 一直到現在成為數據分析覇主。

In [1]:
import numpy as np

## 1. 陣列導向 101

科學計算一個很核心的概念叫 "array oriented" 的寫法。Array 是 `numpy` 標準的資料結構, 和 list 很像, 但就差了那麼一點點。而這一點點讓我們在計算上是無比的方便。

### 【暖身】 計算平均

某位同學期中考各科成績如下, 請幫他計算成績。

    grades = [77, 85, 56, 90, 66]
    
請計算平均。

In [3]:
s=0
grades = [77, 85, 56, 90, 66]
for i in grades:
    s=s+i
    
print("average = {0:.2f} ; sum = {1}".format(s/len(grades),s))
# ".2f"表示為顯示至小數點第2位


average = 74.80 ; sum = 374


### 【示範】陣列導向

In [4]:
grades = [77, 85, 56, 90, 66]
arr = np.array(grades)  #把list放入陣列裡，方便快速運算
arr.mean()

74.8

最大值

In [5]:
arr.max()

90

標準差

In [6]:
arr.std()

12.416118556135006

### 【暖身】 換算匯率

假設今天我想查查號稱 Pentax 三公主的 31mm, 43mm, 77mm 三隻 limited 鏡頭在美國賣多少。於是我去 B&H 查了他們的價格分別是:

    prices = [1096.95, 596.95, 896.95]
    
我又查了 Google 匯率 1 美金為 31.71 元。請把三支鏡頭的價格換算為台幣。

In [10]:
prices = [1096.95, 596.95, 896.95]
usd2twd = 31.71
twd = []
for i in prices:
    i = i*usd2twd



SyntaxError: 'return' outside function (<ipython-input-10-aabea3ca3df1>, line 6)

先不管這實在有夠醜的數字, 我們要記得在科學計算中:

### 儘可能不要使用迴圈

這可能嗎?

### 【示範】陣列換算匯率

In [11]:
prices = [1096.95, 596.95, 896.95]
prices = np.array(prices)
usd2twd = 31.71
prices * usd2twd


array([34784.2845, 18929.2845, 28442.2845])

哦哦, 傑克, 這太神奇了!

## 2. 其實 array 還有很多功能

### 【練習】 成績計算

一位老師成績這樣算的:

* 平時成績 20%
* 期中考   35%
* 期未考   45%

有位同學

* 平時成績 85 分
* 期中 70 分
* 期末 80 分

這位同學的學期成績是多少?

In [13]:
grades = np.array([85,70,80])
weights = np.array([0.2, 0.35, 0.45])

這還不是我們要的最終成績啊!

In [14]:
grades * weights  #依然是陣列

array([17. , 24.5, 36. ])

### 【提示】 array 還有很多函數可以用

可以先打入

    weighted_grades.
    
先不要按 `enter` 或 `shift-enter`, 而是按 `tab`...


In [16]:
score = grades * weights #依然是陣列
score.sum()   #加總

77.5

### 【技巧】 一行完成成績計算

In [17]:
#一鍵完成，用點乘
np.dot(grades,weights)

77.5

## 3. 重要的 array 大變身!

我們在數據分析, 常常要改 array 的型式。

### 【練習】 一個 50 個數字的 array

先想辦法、用亂數做出 50 個數字的 array, 叫做 A 好了。

In [43]:
A=np.random.rand(50)
A

array([0.02399197, 0.5282594 , 0.07386794, 0.05573126, 0.59855128,
       0.68488948, 0.13755294, 0.19559258, 0.08667011, 0.72853484,
       0.168939  , 0.83990304, 0.28398792, 0.59326935, 0.43493125,
       0.40477176, 0.94307889, 0.71640907, 0.49292718, 0.46245161,
       0.50607416, 0.51786166, 0.27310016, 0.62418776, 0.59526552,
       0.50334747, 0.17762063, 0.57481087, 0.83745089, 0.24203075,
       0.26024035, 0.00237685, 0.85356338, 0.52468067, 0.14376429,
       0.74969437, 0.18929855, 0.84850217, 0.51890911, 0.62109617,
       0.57635572, 0.48330347, 0.81031158, 0.36469933, 0.66752688,
       0.46181832, 0.221544  , 0.23609372, 0.20823135, 0.79657544])

In [44]:
A.shape  #一維的

(50,)

### 【技巧】 檢查 A 的 `shape`

In [21]:
A.shape  #一維的

(50,)

### 【技巧】 更改 A 的 shape

In [46]:
A.shape = (10,5)  #2維的
A

array([[0.02399197, 0.5282594 , 0.07386794, 0.05573126, 0.59855128],
       [0.68488948, 0.13755294, 0.19559258, 0.08667011, 0.72853484],
       [0.168939  , 0.83990304, 0.28398792, 0.59326935, 0.43493125],
       [0.40477176, 0.94307889, 0.71640907, 0.49292718, 0.46245161],
       [0.50607416, 0.51786166, 0.27310016, 0.62418776, 0.59526552],
       [0.50334747, 0.17762063, 0.57481087, 0.83745089, 0.24203075],
       [0.26024035, 0.00237685, 0.85356338, 0.52468067, 0.14376429],
       [0.74969437, 0.18929855, 0.84850217, 0.51890911, 0.62109617],
       [0.57635572, 0.48330347, 0.81031158, 0.36469933, 0.66752688],
       [0.46181832, 0.221544  , 0.23609372, 0.20823135, 0.79657544]])

In [24]:
A[0]

array([0.79067077, 0.14291914, 0.07936926, 0.2336357 , 0.62096658,
       0.18316057, 0.21533912, 0.86874165, 0.02032151, 0.9862253 ])

### 【技巧】 也可以用 `reshape`

但要注意, reshape 並沒有改原來的陣列。

In [25]:
A.reshape(10,5)

array([[0.79067077, 0.14291914, 0.07936926, 0.2336357 , 0.62096658],
       [0.18316057, 0.21533912, 0.86874165, 0.02032151, 0.9862253 ],
       [0.63990558, 0.86243641, 0.86845812, 0.97996308, 0.49216397],
       [0.34585543, 0.94147233, 0.79106023, 0.80257564, 0.81649688],
       [0.31648294, 0.07809819, 0.95207133, 0.47446451, 0.3582659 ],
       [0.67750396, 0.64126988, 0.66941768, 0.12832668, 0.24107385],
       [0.00262846, 0.63677774, 0.54587311, 0.42563263, 0.16332451],
       [0.2204244 , 0.33366634, 0.31402862, 0.9695592 , 0.30633011],
       [0.66098114, 0.94502514, 0.36054349, 0.94272838, 0.06237594],
       [0.24075216, 0.89783151, 0.19552399, 0.26038339, 0.75864996]])

### 【技巧】 拉平 `ravel`

雖然你想一想就知道可以用 `shape` 或 `reshape` 把多維陣列拉成一維。不過用 `ravel` 很潮。

In [26]:
A.ravel()

array([0.79067077, 0.14291914, 0.07936926, 0.2336357 , 0.62096658,
       0.18316057, 0.21533912, 0.86874165, 0.02032151, 0.9862253 ,
       0.63990558, 0.86243641, 0.86845812, 0.97996308, 0.49216397,
       0.34585543, 0.94147233, 0.79106023, 0.80257564, 0.81649688,
       0.31648294, 0.07809819, 0.95207133, 0.47446451, 0.3582659 ,
       0.67750396, 0.64126988, 0.66941768, 0.12832668, 0.24107385,
       0.00262846, 0.63677774, 0.54587311, 0.42563263, 0.16332451,
       0.2204244 , 0.33366634, 0.31402862, 0.9695592 , 0.30633011,
       0.66098114, 0.94502514, 0.36054349, 0.94272838, 0.06237594,
       0.24075216, 0.89783151, 0.19552399, 0.26038339, 0.75864996])

## 4. 快速 array 生成法

### 【技巧】 都是 0 的 array

In [27]:
np.zeros(20)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0.])

In [30]:
np.zeros((512,512))

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

### 【技巧】 都是 1 的 array

In [31]:
np.ones(5)

array([1., 1., 1., 1., 1.])

### 【技巧】單位矩陣

In [32]:
np.eye(10)

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

### 【技巧】給定範圍均勻生出 n 個點

In [34]:
x= np.linspace(0,10,50)
x

array([ 0.        ,  0.20408163,  0.40816327,  0.6122449 ,  0.81632653,
        1.02040816,  1.2244898 ,  1.42857143,  1.63265306,  1.83673469,
        2.04081633,  2.24489796,  2.44897959,  2.65306122,  2.85714286,
        3.06122449,  3.26530612,  3.46938776,  3.67346939,  3.87755102,
        4.08163265,  4.28571429,  4.48979592,  4.69387755,  4.89795918,
        5.10204082,  5.30612245,  5.51020408,  5.71428571,  5.91836735,
        6.12244898,  6.32653061,  6.53061224,  6.73469388,  6.93877551,
        7.14285714,  7.34693878,  7.55102041,  7.75510204,  7.95918367,
        8.16326531,  8.36734694,  8.57142857,  8.7755102 ,  8.97959184,
        9.18367347,  9.3877551 ,  9.59183673,  9.79591837, 10.        ])

### 【技巧】`range` 的 array 版

就是 `arange`。

In [36]:
np.arange(1,100,5)

array([ 1,  6, 11, 16, 21, 26, 31, 36, 41, 46, 51, 56, 61, 66, 71, 76, 81,
       86, 91, 96])

## 5. 超重要 `axis` 觀念

初學 `numpy` 很多人有點弄不清楚 `axis` 概念。其實掌握矩陣, 或很像矩陣的陣列都是「先列後行」就可以!

我們先弄個 array 來練習。

In [49]:
A=np.arange(10).reshape(2,5)
A

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])




























### 【重點】 一列一列算下來是 `axis=0`

![axis=0](images/axis0.png)

In [50]:
A.sum(axis=0) #縱向加總

array([ 5,  7,  9, 11, 13])

### 【重點】 一行一行算過去是 `axis=1`

![axis=1](images/axis1.png)

In [51]:
A.sum(axis=1) #橫向加總

array([10, 35])

### 【提示】當然也有可能全部算

In [52]:
A.sum()

45

## 6. array 過濾器

篩出我們要的資料, 這樣的技巧非常重要!

### 【例子】篩出大於 0 的數

我們有個陣列, 想找出大於 0 的數。<br>
L = np.array([3, -2, -1, 5, 7, -3])

In [53]:
L = np.array([3, -2, -1, 5, 7, -3])

我們可以很白痴的自己判斷...<br>
c = np.array([True,False,False,True,True,False])

In [54]:
c = np.array([True,False,False,True,True,False])

這是做啥呢? 我們可以瞬間...

In [55]:
L[c]

array([3, 5, 7])

除了自己做很白痴, 這看來很厲害!

事實上我們可以叫 `numpy` 做!

In [58]:
L>1

array([ True, False, False,  True,  True, False])

這有點強, 我們還可以一次到位!

In [59]:
L[L>1]

array([3, 5, 7])

## 7. 次元切割刀

`numpy` 中 array 的切割法和 list 很像。

In [60]:
x=np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [62]:
x=np.arange(2,5)
x

array([2, 3, 4])

### 【技巧】2維陣列切法

記得先列後行!

In [3]:
x=np.arange(20)
x.reshape(4,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

要所有的row, 切出行 1-3 位置。

In [5]:
print(x)
x=x.reshape(4,5)
x[:,1:3]

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


array([[ 1,  2],
       [ 6,  7],
       [11, 12],
       [16, 17]])

要所有的行col, 切出第 1 列row!

In [6]:
x[1,:]

array([5, 6, 7, 8, 9])

## 8. `NumPy` 的 `zip` 和 `unzip`

之前我們介紹 list 可以用 `zip` 和 `unzip` (其實還是 `zip`) 做到的資料格式變換, 在 array 中怎麼做呢?

![zip and unzip](images/zip.png)

### 【重點】array 的 `zip`

![array zip](images/arrzip.png)

In [7]:
x = np.array([1,2,3,4])
y = np.array([5,6,7,8])

In [8]:
x=np.c_[x,y]
x

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [11]:
x = np.array([1,2,3,4])
y = np.array([5,6,7,8])
z=np.r_[x,y]
z

array([1, 2, 3, 4, 5, 6, 7, 8])

### 【重點】array 的 `unzip`

這裡其實只需要用到 array 的切割法...

![array zip](images/arrunzip.png)

In [75]:
x[:,0]

array([1, 2, 3, 4])

In [76]:
x[:,1]

array([5, 6, 7, 8])