# NumPy 和陣列導向的程式設計

`NumPy` 可以說是 Python 中最最標準的科學計算、數據分析套件。也因為 `NumPy` 的出現, 讓 Python 有了非常好的數據分析基礎, 一直到現在成為數據分析覇主。

In [1]:
import numpy as np

## 1. 陣列導向 101

科學計算一個很核心的概念叫 "array oriented" 的寫法。Array 是 `numpy` 標準的資料結構, 和 list 很像, 但就差了那麼一點點。而這一點點讓我們在計算上是無比的方便。

### 【暖身】 計算平均

某位同學期中考各科成績如下, 請幫他計算成績。

    grades = [77, 85, 56, 90, 66]
    
請計算平均。

In [5]:
grades = [77, 85, 56, 90, 66]
grades_sum = sum(grades)
grades_mean = grades_sum / len(grades)
print('平均: ', grades_mean)

平均:  74.8


### 【示範】陣列導向

In [4]:
grades = np.array([77, 85, 56, 90, 66])
print('平均: ', np.mean(grades))

平均:  74.8


最大值

In [7]:
print('最大值: ', np.max(grades))

最大值:  90


標準差

In [8]:
print('標準差: ', np.std(grades))

標準差:  12.416118556135006


### 【暖身】 換算匯率

假設今天我想查查號稱 Pentax 三公主的 31mm, 43mm, 77mm 三隻 limited 鏡頭在美國賣多少。於是我去 B&H 查了他們的價格分別是:

    prices = [1096.95, 596.95, 896.95]
    
我又查了 Google 匯率 1 美金為 31.71 元。請把三支鏡頭的價格換算為台幣。

In [11]:
prices = [1096.95, 596.95, 896.95]
us_exchange_rate = 31.71
prices_us = []
for price in prices:
    prices_us.append(price*us_exchange_rate)
print('價格是 : ', prices_us)

價格是 :  [34784.2845, 18929.2845, 28442.2845]


先不管這實在有夠醜的數字, 我們要記得在科學計算中:

### 儘可能不要使用迴圈

這可能嗎?

### 【示範】陣列換算匯率

In [13]:
prices = np.array([1096.95, 596.95, 896.95])
us_exchange_rate = 31.71
print('價格是:', prices*us_exchange_rate )

價格是: [34784.2845 18929.2845 28442.2845]


哦哦, 傑克, 這太神奇了!

## 2. 其實 array 還有很多功能

### 【練習】 成績計算

一位老師成績這樣算的:

* 平時成績 20%
* 期中考   35%
* 期未考   45%

有位同學

* 平時成績 85 分
* 期中 70 分
* 期末 80 分

這位同學的學期成績是多少?

In [14]:
grades = np.array([85,70,80])
weights = np.array([0.2, 0.35, 0.45])

這還不是我們要的最終成績啊!

In [18]:
weights_grades = grades*weights
weights_grades

array([17. , 24.5, 36. ])

### 【提示】 array 還有很多函數可以用

可以先打入

    weighted_grades.
    
先不要按 `enter` 或 `shift-enter`, 而是按 `tab`...


In [19]:
print('學期成績是:', weights_grades.sum())

學期成績是: 77.5


### 【技巧】 一行完成成績計算

In [20]:
print('學期成績是:', grades.dot(weights))

學期成績是: 77.5


## 3. 重要的 array 大變身!

我們在數據分析, 常常要改 array 的型式。

### 【練習】 一個 50 個數字的 array

先想辦法、用亂數做出 50 個數字的 array, 叫做 A 好了。

In [21]:
A = np.random.rand(50)
A

array([0.96522587, 0.03047427, 0.38174842, 0.67584046, 0.62636938,
       0.16663746, 0.05416443, 0.28057919, 0.19422794, 0.61597246,
       0.91709227, 0.33624407, 0.56200576, 0.49618563, 0.97997417,
       0.57148204, 0.46801601, 0.11837769, 0.34260019, 0.18917094,
       0.86161108, 0.68959719, 0.52383363, 0.88314194, 0.38000624,
       0.12117765, 0.46574906, 0.77864383, 0.6056969 , 0.28416255,
       0.92287997, 0.58839154, 0.85321409, 0.99889314, 0.92921384,
       0.80816348, 0.68829285, 0.0723219 , 0.7662367 , 0.64012979,
       0.74161973, 0.09064452, 0.33256158, 0.80934536, 0.10814302,
       0.30772727, 0.38572029, 0.92092131, 0.93506478, 0.02009238])

0.737223397267063

### 【技巧】 檢查 A 的 `shape`

In [22]:
A.shape

(50,)

### 【技巧】 更改 A 的 shape

In [23]:
A.shape = 5,-1
A

array([[0.96522587, 0.03047427, 0.38174842, 0.67584046, 0.62636938,
        0.16663746, 0.05416443, 0.28057919, 0.19422794, 0.61597246],
       [0.91709227, 0.33624407, 0.56200576, 0.49618563, 0.97997417,
        0.57148204, 0.46801601, 0.11837769, 0.34260019, 0.18917094],
       [0.86161108, 0.68959719, 0.52383363, 0.88314194, 0.38000624,
        0.12117765, 0.46574906, 0.77864383, 0.6056969 , 0.28416255],
       [0.92287997, 0.58839154, 0.85321409, 0.99889314, 0.92921384,
        0.80816348, 0.68829285, 0.0723219 , 0.7662367 , 0.64012979],
       [0.74161973, 0.09064452, 0.33256158, 0.80934536, 0.10814302,
        0.30772727, 0.38572029, 0.92092131, 0.93506478, 0.02009238]])

### 【技巧】 也可以用 `reshape`

但要注意, reshape 並沒有改原來的陣列。

In [24]:
A.reshape(10,-1)

array([[0.96522587, 0.03047427, 0.38174842, 0.67584046, 0.62636938],
       [0.16663746, 0.05416443, 0.28057919, 0.19422794, 0.61597246],
       [0.91709227, 0.33624407, 0.56200576, 0.49618563, 0.97997417],
       [0.57148204, 0.46801601, 0.11837769, 0.34260019, 0.18917094],
       [0.86161108, 0.68959719, 0.52383363, 0.88314194, 0.38000624],
       [0.12117765, 0.46574906, 0.77864383, 0.6056969 , 0.28416255],
       [0.92287997, 0.58839154, 0.85321409, 0.99889314, 0.92921384],
       [0.80816348, 0.68829285, 0.0723219 , 0.7662367 , 0.64012979],
       [0.74161973, 0.09064452, 0.33256158, 0.80934536, 0.10814302],
       [0.30772727, 0.38572029, 0.92092131, 0.93506478, 0.02009238]])

### 【技巧】 拉平 `ravel`

雖然你想一想就知道可以用 `shape` 或 `reshape` 把多維陣列拉成一維。不過用 `ravel` 很潮。

In [25]:
A.ravel()

array([0.96522587, 0.03047427, 0.38174842, 0.67584046, 0.62636938,
       0.16663746, 0.05416443, 0.28057919, 0.19422794, 0.61597246,
       0.91709227, 0.33624407, 0.56200576, 0.49618563, 0.97997417,
       0.57148204, 0.46801601, 0.11837769, 0.34260019, 0.18917094,
       0.86161108, 0.68959719, 0.52383363, 0.88314194, 0.38000624,
       0.12117765, 0.46574906, 0.77864383, 0.6056969 , 0.28416255,
       0.92287997, 0.58839154, 0.85321409, 0.99889314, 0.92921384,
       0.80816348, 0.68829285, 0.0723219 , 0.7662367 , 0.64012979,
       0.74161973, 0.09064452, 0.33256158, 0.80934536, 0.10814302,
       0.30772727, 0.38572029, 0.92092131, 0.93506478, 0.02009238])

## 4. 快速 array 生成法

### 【技巧】 都是 0 的 array

In [26]:
A = np.zeros(50)
A

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

### 【技巧】 都是 1 的 array

In [27]:
A = np.ones(50)
A

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

### 【技巧】單位矩陣

In [29]:
A = np.eye(10)
A

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

### 【技巧】給定範圍均勻生出 n 個點

In [30]:
np.linspace(0,100,5)

array([  0.,  25.,  50.,  75., 100.])

### 【技巧】`range` 的 array 版

就是 `arange`。

In [31]:
np.arange(1,100)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85,
       86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

## 5. 超重要 `axis` 觀念

初學 `numpy` 很多人有點弄不清楚 `axis` 概念。其實掌握矩陣, 或很像矩陣的陣列都是「先列後行」就可以!

我們先弄個 array 來練習。

In [34]:
A = np.arange(0,20).reshape(2,-1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]])

### 【重點】 一列一列算下來是 `axis=0`

![axis=0](images/axis0.png)

In [35]:
A.sum(axis=0)

array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

### 【重點】 一行一行算過去是 `axis=1`

![axis=1](images/axis1.png)

In [36]:
A.sum(axis = 1)

array([ 45, 145])

### 【提示】當然也有可能全部算

In [37]:
A.sum()

190

## 6. array 過濾器

篩出我們要的資料, 這樣的技巧非常重要!

### 【例子】篩出大於 0 的數

我們有個陣列, 想找出大於 0 的數。<br>
L = np.array([3, -2, -1, 5, 7, -3])

In [39]:
L = np.array([3, -2, -1, 5, 7, -3])

我們可以很白痴的自己判斷...<br>
c = np.array([True,False,False,True,True,False])

In [40]:
c = np.array([True,False,False,True,True,False])

這是做啥呢? 我們可以瞬間...

In [41]:
L[c]

array([3, 5, 7])

除了自己做很白痴, 這看來很厲害!

事實上我們可以叫 `numpy` 做!

In [42]:
L>0

array([ True, False, False,  True,  True, False])

這有點強, 我們還可以一次到位!

In [43]:
L[L>0]

array([3, 5, 7])

## 7. 次元切割刀

`numpy` 中 array 的切割法和 list 很像。

In [20]:
A = np.arange(10)
A

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [19]:
A[2:5]

array([2, 3, 4])

### 【技巧】2維陣列切法

記得先列後行!

In [26]:
A.reshape(2,5)
A

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

要所有的row, 切出行 1-3 位置。

In [27]:
A[:,1:3]

array([[1, 2],
       [6, 7]])

要所有的行col, 切出第 1 列row!

In [28]:
A[1,:]

array([5, 6, 7, 8, 9])

## 8. `NumPy` 的 `zip` 和 `unzip`

之前我們介紹 list 可以用 `zip` 和 `unzip` (其實還是 `zip`) 做到的資料格式變換, 在 array 中怎麼做呢?

![zip and unzip](images/zip.png)

### 【重點】array 的 `zip`

![array zip](images/arrzip.png)

In [30]:
x = np.array([1,2,3,4])
y = np.array([5,6,7,8])

In [37]:
X = np.c_[x,y]
X

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [47]:
Y = np.r_[x,y]
Y
print(type(np))

<class 'module'>


### 【重點】array 的 `unzip`

這裡其實只需要用到 array 的切割法...

![array zip](images/arrunzip.png)

In [38]:
X[:,1]

array([5, 6, 7, 8])