# NumPy 和陣列導向的程式設計

`NumPy` 可以說是 Python 中最最標準的科學計算、數據分析套件。也因為 `NumPy` 的出現, 讓 Python 有了非常好的數據分析基礎, 一直到現在成為數據分析覇主。

In [2]:
import numpy as np

## 1. 陣列導向 101

科學計算一個很核心的概念叫 "array oriented" 的寫法。Array 是 `numpy` 標準的資料結構, 和 list 很像, 但就差了那麼一點點。而這一點點讓我們在計算上是無比的方便。

### 【暖身】 計算平均

某位同學期中考各科成績如下, 請幫他計算成績。

    grades = [77, 85, 56, 90, 66]
    
請計算平均。

In [3]:
a=np.array([77, 85, 56, 90, 66],int)
c_sum=a.sum()
d=c_sum/len(a)
print('average = %.2f, sum = %d' % (d,c_sum))

average = 74.80, sum = 374


### 【示範】陣列導向

In [4]:
print(a.mean())

74.8


最大值

In [5]:
print(a.max())

90


標準差

In [6]:
print(a.std())

12.416118556135006


### 【暖身】 換算匯率

假設今天我想查查號稱 Pentax 三公主的 31mm, 43mm, 77mm 三隻 limited 鏡頭在美國賣多少。於是我去 B&H 查了他們的價格分別是:

    prices = [1096.95, 596.95, 896.95]
    
我又查了 Google 匯率 1 美金為 31.71 元。請把三支鏡頭的價格換算為台幣。

In [7]:
prices = [1096.95, 596.95, 896.95]
a=np.array(prices)
s=31.71
b=a*s
print(b)

[34784.2845 18929.2845 28442.2845]


先不管這實在有夠醜的數字, 我們要記得在科學計算中:

### 儘可能不要使用迴圈

這可能嗎?

### 【示範】陣列換算匯率

In [8]:
prices = [1096.95, 596.95, 896.95]
a=np.array(prices)
s=31.71
b=a*s
print(b)

[34784.2845 18929.2845 28442.2845]


哦哦, 傑克, 這太神奇了!

## 2. 其實 array 還有很多功能

### 【練習】 成績計算

一位老師成績這樣算的:

* 平時成績 20%
* 期中考   35%
* 期未考   45%

有位同學

* 平時成績 85 分
* 期中 70 分
* 期末 80 分

這位同學的學期成績是多少?

In [9]:
grades = np.array([85,70,80])
weights = np.array([0.2, 0.35, 0.45])

這還不是我們要的最終成績啊!

In [11]:
c=grades*weights
c.sum()

77.5

### 【提示】 array 還有很多函數可以用

可以先打入

    weighted_grades.
    
先不要按 `enter` 或 `shift-enter`, 而是按 `tab`...


In [12]:
c=grades*weights
c.sum()

77.5

### 【技巧】 一行完成成績計算

In [15]:
np.dot(grades,weights)

77.5

## 3. 重要的 array 大變身!

我們在數據分析, 常常要改 array 的型式。

### 【練習】 一個 50 個數字的 array

先想辦法、用亂數做出 50 個數字的 array, 叫做 A 好了。

In [20]:
A=np.random.rand(50)
A

array([0.2747154 , 0.2435019 , 0.91732163, 0.81506935, 0.74416903,
       0.03629545, 0.83361197, 0.02725179, 0.2898139 , 0.1105395 ,
       0.75196141, 0.65207045, 0.22005785, 0.03799967, 0.47847764,
       0.64733017, 0.01049368, 0.1835942 , 0.94726361, 0.67301225,
       0.00277188, 0.71837314, 0.15570276, 0.55515254, 0.14074831,
       0.71237109, 0.77054431, 0.10059609, 0.84636883, 0.39945918,
       0.29126064, 0.27434158, 0.87225424, 0.67282322, 0.1289408 ,
       0.5148638 , 0.66026038, 0.15804711, 0.95924445, 0.34717184,
       0.11836328, 0.9766986 , 0.87265196, 0.48321839, 0.39429187,
       0.49935012, 0.12252001, 0.06097846, 0.33549899, 0.12591724])

### 【技巧】 檢查 A 的 `shape`

In [21]:
A.shape

(50,)

### 【技巧】 更改 A 的 shape

In [23]:
A.shape=(5,10)
A

array([[0.2747154 , 0.2435019 , 0.91732163, 0.81506935, 0.74416903,
        0.03629545, 0.83361197, 0.02725179, 0.2898139 , 0.1105395 ],
       [0.75196141, 0.65207045, 0.22005785, 0.03799967, 0.47847764,
        0.64733017, 0.01049368, 0.1835942 , 0.94726361, 0.67301225],
       [0.00277188, 0.71837314, 0.15570276, 0.55515254, 0.14074831,
        0.71237109, 0.77054431, 0.10059609, 0.84636883, 0.39945918],
       [0.29126064, 0.27434158, 0.87225424, 0.67282322, 0.1289408 ,
        0.5148638 , 0.66026038, 0.15804711, 0.95924445, 0.34717184],
       [0.11836328, 0.9766986 , 0.87265196, 0.48321839, 0.39429187,
        0.49935012, 0.12252001, 0.06097846, 0.33549899, 0.12591724]])

In [25]:
A[0,0]

0.2747153951125916

### 【技巧】 也可以用 `reshape`

但要注意, reshape 並沒有改原來的陣列。

In [26]:
A.reshape(10,5)

array([[0.2747154 , 0.2435019 , 0.91732163, 0.81506935, 0.74416903],
       [0.03629545, 0.83361197, 0.02725179, 0.2898139 , 0.1105395 ],
       [0.75196141, 0.65207045, 0.22005785, 0.03799967, 0.47847764],
       [0.64733017, 0.01049368, 0.1835942 , 0.94726361, 0.67301225],
       [0.00277188, 0.71837314, 0.15570276, 0.55515254, 0.14074831],
       [0.71237109, 0.77054431, 0.10059609, 0.84636883, 0.39945918],
       [0.29126064, 0.27434158, 0.87225424, 0.67282322, 0.1289408 ],
       [0.5148638 , 0.66026038, 0.15804711, 0.95924445, 0.34717184],
       [0.11836328, 0.9766986 , 0.87265196, 0.48321839, 0.39429187],
       [0.49935012, 0.12252001, 0.06097846, 0.33549899, 0.12591724]])

### 【技巧】 拉平 `ravel`

雖然你想一想就知道可以用 `shape` 或 `reshape` 把多維陣列拉成一維。不過用 `ravel` 很潮。

In [27]:
A.ravel()

array([0.2747154 , 0.2435019 , 0.91732163, 0.81506935, 0.74416903,
       0.03629545, 0.83361197, 0.02725179, 0.2898139 , 0.1105395 ,
       0.75196141, 0.65207045, 0.22005785, 0.03799967, 0.47847764,
       0.64733017, 0.01049368, 0.1835942 , 0.94726361, 0.67301225,
       0.00277188, 0.71837314, 0.15570276, 0.55515254, 0.14074831,
       0.71237109, 0.77054431, 0.10059609, 0.84636883, 0.39945918,
       0.29126064, 0.27434158, 0.87225424, 0.67282322, 0.1289408 ,
       0.5148638 , 0.66026038, 0.15804711, 0.95924445, 0.34717184,
       0.11836328, 0.9766986 , 0.87265196, 0.48321839, 0.39429187,
       0.49935012, 0.12252001, 0.06097846, 0.33549899, 0.12591724])

## 4. 快速 array 生成法

### 【技巧】 都是 0 的 array

In [37]:
np.zeros(10)
np.zeros((512,512))


array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

### 【技巧】 都是 1 的 array

In [30]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

### 【技巧】單位矩陣

In [39]:
np.eye(7)

array([[1., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 1.]])

### 【技巧】給定範圍均勻生出 n 個點

In [40]:
x=np.linspace(1,10,100)
x

array([ 1.        ,  1.09090909,  1.18181818,  1.27272727,  1.36363636,
        1.45454545,  1.54545455,  1.63636364,  1.72727273,  1.81818182,
        1.90909091,  2.        ,  2.09090909,  2.18181818,  2.27272727,
        2.36363636,  2.45454545,  2.54545455,  2.63636364,  2.72727273,
        2.81818182,  2.90909091,  3.        ,  3.09090909,  3.18181818,
        3.27272727,  3.36363636,  3.45454545,  3.54545455,  3.63636364,
        3.72727273,  3.81818182,  3.90909091,  4.        ,  4.09090909,
        4.18181818,  4.27272727,  4.36363636,  4.45454545,  4.54545455,
        4.63636364,  4.72727273,  4.81818182,  4.90909091,  5.        ,
        5.09090909,  5.18181818,  5.27272727,  5.36363636,  5.45454545,
        5.54545455,  5.63636364,  5.72727273,  5.81818182,  5.90909091,
        6.        ,  6.09090909,  6.18181818,  6.27272727,  6.36363636,
        6.45454545,  6.54545455,  6.63636364,  6.72727273,  6.81818182,
        6.90909091,  7.        ,  7.09090909,  7.18181818,  7.27

### 【技巧】`range` 的 array 版

就是 `arange`。

In [41]:
np.arange(0,10,0.5)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. ,
       6.5, 7. , 7.5, 8. , 8.5, 9. , 9.5])

## 5. 超重要 `axis` 觀念

初學 `numpy` 很多人有點弄不清楚 `axis` 概念。其實掌握矩陣, 或很像矩陣的陣列都是「先列後行」就可以!

我們先弄個 array 來練習。

In [49]:
a=np.arange(10)
a.shape=(2,5)
a

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### 【重點】 一列一列算下來是 `axis=0`

![axis=0](images/axis0.png)

In [50]:
np.sum(a,axis=0)

array([ 5,  7,  9, 11, 13])

### 【重點】 一行一行算過去是 `axis=1`

![axis=1](images/axis1.png)

In [51]:
np.sum(a,axis=1)

array([10, 35])

### 【提示】當然也有可能全部算

In [52]:
a.sum()

45

## 6. array 過濾器

篩出我們要的資料, 這樣的技巧非常重要!

### 【例子】篩出大於 0 的數

我們有個陣列, 想找出大於 0 的數。<br>
L = np.array([3, -2, -1, 5, 7, -3])

In [53]:
L = np.array([3, -2, -1, 5, 7, -3])

我們可以很白痴的自己判斷...<br>
c = np.array([True,False,False,True,True,False])

In [56]:
c=np.where(L>0,True,False)
c

array([ True, False, False,  True,  True, False])

這是做啥呢? 我們可以瞬間...

In [57]:
L[c]

array([3, 5, 7])

除了自己做很白痴, 這看來很厲害!

事實上我們可以叫 `numpy` 做!

In [59]:
L>0


array([ True, False, False,  True,  True, False])

這有點強, 我們還可以一次到位!

In [60]:
L[L>0]

array([3, 5, 7])

## 7. 次元切割刀

`numpy` 中 array 的切割法和 list 很像。

In [61]:
x=np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [62]:
x[3:8]

array([3, 4, 5, 6, 7])

### 【技巧】2維陣列切法

記得先列後行!

In [70]:
x.shape=(2,5)
x

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

要所有的row, 切出行 1-3 位置。

In [71]:
x[:,1:3]

array([[1, 2],
       [6, 7]])

要所有的行col, 切出第 1 列row!

In [74]:
x[1,:]

array([5, 6, 7, 8, 9])

## 8. `NumPy` 的 `zip` 和 `unzip`

之前我們介紹 list 可以用 `zip` 和 `unzip` (其實還是 `zip`) 做到的資料格式變換, 在 array 中怎麼做呢?

![zip and unzip](images/zip.png)

### 【重點】array 的 `zip`

![array zip](images/arrzip.png)

In [78]:
x = np.array([1,2,3,4])
y = np.array([5,6,7,8])

In [93]:
c=np.array(list(zip(x,y)))
c

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [94]:
x,y=zip(*c)
print(x)
print(y)

(1, 2, 3, 4)
(5, 6, 7, 8)


### 【重點】array 的 `unzip`

這裡其實只需要用到 array 的切割法...

![array zip](images/arrunzip.png)

In [101]:
a=c[:,0]
b=c[:,1]
a

array([1, 2, 3, 4])

In [102]:
b

array([5, 6, 7, 8])