# NumPy 和陣列導向的程式設計

`NumPy` 可以說是 Python 中最最標準的科學計算、數據分析套件。也因為 `NumPy` 的出現, 讓 Python 有了非常好的數據分析基礎, 一直到現在成為數據分析覇主。

In [6]:
import numpy as np

## 1. 陣列導向 101

科學計算一個很核心的概念叫 "array oriented" 的寫法。Array 是 `numpy` 標準的資料結構, 和 list 很像, 但就差了那麼一點點。而這一點點讓我們在計算上是無比的方便。

### 【暖身】 計算平均

某位同學期中考各科成績如下, 請幫他計算成績。

    grades = [77, 85, 56, 90, 66]
    
請計算平均。

In [5]:
grades = [77, 85, 56, 90, 66]
s = 0 
for i in grades:
    s += i
average = s/len(grades)
print(s)
print("{0:.2f}".format(average))  #格式化輸出 : 到小數點第二位

374
74.80


### 【示範】陣列導向

In [10]:
grades = [77, 85, 56, 90, 66]
arr = np.array(grades)
arr.mean()

74.8

最大值

In [11]:
arr.max()

90

標準差

In [12]:
arr.std()

12.416118556135006

### 【暖身】 換算匯率

假設今天我想查查號稱 Pentax 三公主的 31mm, 43mm, 77mm 三隻 limited 鏡頭在美國賣多少。於是我去 B&H 查了他們的價格分別是:

    prices = [1096.95, 596.95, 896.95]
    
我又查了 Google 匯率 1 美金為 31.71 元。請把三支鏡頭的價格換算為台幣。

In [13]:
prices = [1096.95, 596.95, 896.95]
NTD = []
for i in prices:
    NTD.append(i*31.71)
print(NTD)

[34784.2845, 18929.2845, 28442.2845]


先不管這實在有夠醜的數字, 我們要記得在科學計算中:

### 儘可能不要使用迴圈

這可能嗎?

### 【示範】陣列換算匯率

In [15]:
arrprice = np.array(prices)
print(arrprice*31.71)

[34784.2845 18929.2845 28442.2845]


哦哦, 傑克, 這太神奇了!

## 2. 其實 array 還有很多功能

### 【練習】 成績計算

一位老師成績這樣算的:

* 平時成績 20%
* 期中考   35%
* 期未考   45%

有位同學

* 平時成績 85 分
* 期中 70 分
* 期末 80 分

這位同學的學期成績是多少?

In [17]:
grades = np.array([85,70,80])
weights = np.array([0.2, 0.35, 0.45])

這還不是我們要的最終成績啊!

In [18]:
weight_grades = grades * weights
print(weight_grades)

[17.  24.5 36. ]


### 【提示】 array 還有很多函數可以用

可以先打入

    weighted_grades.
    
先不要按 `enter` 或 `shift-enter`, 而是按 `tab`...


In [19]:
weight_grades.sum()

77.5

### 【技巧】 一行完成成績計算

In [21]:
np.dot(grades,weights)

77.5

## 3. 重要的 array 大變身!

我們在數據分析, 常常要改 array 的型式。

### 【練習】 一個 50 個數字的 array

先想辦法、用亂數做出 50 個數字的 array, 叫做 A 好了。

In [30]:
A = np.random.rand(50)
A = np.array(A)
A

array([0.84948306, 0.9538989 , 0.2981356 , 0.46878681, 0.44083363,
       0.78076867, 0.51148961, 0.20520345, 0.89462778, 0.93373859,
       0.91666093, 0.7304889 , 0.27627772, 0.08837872, 0.1512439 ,
       0.80873125, 0.64722997, 0.18058181, 0.0402749 , 0.42812466,
       0.54298678, 0.17966271, 0.03516425, 0.93561678, 0.19922709,
       0.35462735, 0.09530816, 0.18813973, 0.15729121, 0.4075998 ,
       0.8872488 , 0.22566995, 0.16001538, 0.68973628, 0.95173487,
       0.80062434, 0.23337472, 0.17463315, 0.05026636, 0.33301061,
       0.67788469, 0.16509645, 0.26291248, 0.81175354, 0.78955571,
       0.44120852, 0.54766064, 0.23665973, 0.09742225, 0.70063262])

In [31]:
print(A[0])

0.849483058024325


### 【技巧】 檢查 A 的 `shape`

In [35]:
A.shape

(50,)

### 【技巧】 更改 A 的 shape

In [37]:
A.shape=(10,5) #row=10 column=5
A

array([[0.84948306, 0.9538989 , 0.2981356 , 0.46878681, 0.44083363],
       [0.78076867, 0.51148961, 0.20520345, 0.89462778, 0.93373859],
       [0.91666093, 0.7304889 , 0.27627772, 0.08837872, 0.1512439 ],
       [0.80873125, 0.64722997, 0.18058181, 0.0402749 , 0.42812466],
       [0.54298678, 0.17966271, 0.03516425, 0.93561678, 0.19922709],
       [0.35462735, 0.09530816, 0.18813973, 0.15729121, 0.4075998 ],
       [0.8872488 , 0.22566995, 0.16001538, 0.68973628, 0.95173487],
       [0.80062434, 0.23337472, 0.17463315, 0.05026636, 0.33301061],
       [0.67788469, 0.16509645, 0.26291248, 0.81175354, 0.78955571],
       [0.44120852, 0.54766064, 0.23665973, 0.09742225, 0.70063262]])

### 【技巧】 也可以用 `reshape`

但要注意, reshape 並沒有改原來的陣列。

In [38]:
A.reshape(5,10)

array([[0.84948306, 0.9538989 , 0.2981356 , 0.46878681, 0.44083363,
        0.78076867, 0.51148961, 0.20520345, 0.89462778, 0.93373859],
       [0.91666093, 0.7304889 , 0.27627772, 0.08837872, 0.1512439 ,
        0.80873125, 0.64722997, 0.18058181, 0.0402749 , 0.42812466],
       [0.54298678, 0.17966271, 0.03516425, 0.93561678, 0.19922709,
        0.35462735, 0.09530816, 0.18813973, 0.15729121, 0.4075998 ],
       [0.8872488 , 0.22566995, 0.16001538, 0.68973628, 0.95173487,
        0.80062434, 0.23337472, 0.17463315, 0.05026636, 0.33301061],
       [0.67788469, 0.16509645, 0.26291248, 0.81175354, 0.78955571,
        0.44120852, 0.54766064, 0.23665973, 0.09742225, 0.70063262]])

### 【技巧】 拉平 `ravel`

雖然你想一想就知道可以用 `shape` 或 `reshape` 把多維陣列拉成一維。不過用 `ravel` 很潮。

In [39]:
A.ravel()

array([0.84948306, 0.9538989 , 0.2981356 , 0.46878681, 0.44083363,
       0.78076867, 0.51148961, 0.20520345, 0.89462778, 0.93373859,
       0.91666093, 0.7304889 , 0.27627772, 0.08837872, 0.1512439 ,
       0.80873125, 0.64722997, 0.18058181, 0.0402749 , 0.42812466,
       0.54298678, 0.17966271, 0.03516425, 0.93561678, 0.19922709,
       0.35462735, 0.09530816, 0.18813973, 0.15729121, 0.4075998 ,
       0.8872488 , 0.22566995, 0.16001538, 0.68973628, 0.95173487,
       0.80062434, 0.23337472, 0.17463315, 0.05026636, 0.33301061,
       0.67788469, 0.16509645, 0.26291248, 0.81175354, 0.78955571,
       0.44120852, 0.54766064, 0.23665973, 0.09742225, 0.70063262])

## 4. 快速 array 生成法

### 【技巧】 都是 0 的 array

In [44]:
np.zeros(10)
np.zeros((2,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

### 【技巧】 都是 1 的 array

In [41]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

### 【技巧】單位矩陣

In [45]:
np.eye(10)

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

### 【技巧】給定範圍均勻生出 n 個點

In [54]:
x = np.linspace(0,100,50)  #0到100間均勻切50點
x

array([  0.        ,   2.04081633,   4.08163265,   6.12244898,
         8.16326531,  10.20408163,  12.24489796,  14.28571429,
        16.32653061,  18.36734694,  20.40816327,  22.44897959,
        24.48979592,  26.53061224,  28.57142857,  30.6122449 ,
        32.65306122,  34.69387755,  36.73469388,  38.7755102 ,
        40.81632653,  42.85714286,  44.89795918,  46.93877551,
        48.97959184,  51.02040816,  53.06122449,  55.10204082,
        57.14285714,  59.18367347,  61.2244898 ,  63.26530612,
        65.30612245,  67.34693878,  69.3877551 ,  71.42857143,
        73.46938776,  75.51020408,  77.55102041,  79.59183673,
        81.63265306,  83.67346939,  85.71428571,  87.75510204,
        89.79591837,  91.83673469,  93.87755102,  95.91836735,
        97.95918367, 100.        ])

### 【技巧】`range` 的 array 版

就是 `arange`。

In [56]:
np.arange(1,10,2)

array([1, 3, 5, 7, 9])

## 5. 超重要 `axis` 觀念

初學 `numpy` 很多人有點弄不清楚 `axis` 概念。其實掌握矩陣, 或很像矩陣的陣列都是「先列後行」就可以!

我們先弄個 array 來練習。

In [58]:
B = np.arange(0,10).reshape(2,5)
B

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### 【重點】 一列一列算下來是 `axis=0`

![axis=0](images/axis0.png)

In [62]:
B.sum(axis=0)   #垂直加總

array([ 5,  7,  9, 11, 13])

### 【重點】 一行一行算過去是 `axis=1`

![axis=1](images/axis1.png)

In [63]:
B.sum(axis=1)   #水平加總

array([10, 35])

### 【提示】當然也有可能全部算

In [65]:
B.sum()

45

## 6. array 過濾器

篩出我們要的資料, 這樣的技巧非常重要!

### 【例子】篩出大於 0 的數

我們有個陣列, 想找出大於 0 的數。<br>
L = np.array([3, -2, -1, 5, 7, -3])

In [67]:
L = np.array([3, -2, -1, 5, 7, -3])

我們可以很白痴的自己判斷...<br>
c = np.array([True,False,False,True,True,False])

In [68]:
c = np.array([True,False,False,True,True,False])

這是做啥呢? 我們可以瞬間...

In [69]:
L[c]

array([3, 5, 7])

除了自己做很白痴, 這看來很厲害!

事實上我們可以叫 `numpy` 做!

In [70]:
L>0

array([ True, False, False,  True,  True, False])

這有點強, 我們還可以一次到位!

In [72]:
L=L[L>0]
L

array([3, 5, 7])

## 7. 次元切割刀

`numpy` 中 array 的切割法和 list 很像。

In [73]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [76]:
x[2:6] #印2~5,不含終止值

array([2, 3, 4, 5])

### 【技巧】2維陣列切法

記得先列後行!

In [84]:
x = x.reshape(2,5)
x

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

要所有的row, 切出行 1-3 位置。

In [85]:
x[:,1:3]  #所有的row 都切出1~3位置

array([[1, 2],
       [6, 7]])

要所有的行col, 切出第 1 列row!

In [86]:
x[1,:]

array([5, 6, 7, 8, 9])

## 8. `NumPy` 的 `zip` 和 `unzip`

之前我們介紹 list 可以用 `zip` 和 `unzip` (其實還是 `zip`) 做到的資料格式變換, 在 array 中怎麼做呢?

![zip and unzip](images/zip.png)

### 【重點】array 的 `zip`

![array zip](images/arrzip.png)

In [87]:
x = np.array([2,4,6,8])
y = np.array([5,6,7,8])

In [89]:
X = np.c_[x,y]
X

array([[2, 5],
       [4, 6],
       [6, 7],
       [8, 8]])

In [92]:
Y = np.r_[x,y]

array([2, 4, 6, 8, 5, 6, 7, 8])

### 【重點】array 的 `unzip`

這裡其實只需要用到 array 的切割法...

![array zip](images/arrunzip.png)

In [96]:
X[:,1]

array([5, 6, 7, 8])