# NumPy 和陣列導向的程式設計

`NumPy` 可以說是 Python 中最最標準的科學計算、數據分析套件。也因為 `NumPy` 的出現, 讓 Python 有了非常好的數據分析基礎, 一直到現在成為數據分析覇主。

In [6]:
import numpy as np

## 1. 陣列導向 101

科學計算一個很核心的概念叫 "array oriented" 的寫法。Array 是 `numpy` 標準的資料結構, 和 list 很像, 但就差了那麼一點點。而這一點點讓我們在計算上是無比的方便。

### 【暖身】 計算平均

某位同學期中考各科成績如下, 請幫他計算成績。

    grades = [77, 85, 56, 90, 66]
    
請計算平均。

In [5]:
s=0
grades = [77, 85, 56, 90, 66]
for i in grades:
    s += i
print("Average= {0:5.2f}, Sum = {1}". format(s / len(grades),s))




Average= 74.80, Sum = 374


### 【示範】陣列導向

In [8]:
grades = [77, 85, 56, 90, 66]
arr = np.array(grades)




90

最大值

In [11]:
arr.max()

90

標準差

In [12]:
arr.std()

12.416118556135006

### 【暖身】 換算匯率

假設今天我想查查號稱 Pentax 三公主的 31mm, 43mm, 77mm 三隻 limited 鏡頭在美國賣多少。於是我去 B&H 查了他們的價格分別是:

    prices = [1096.95, 596.95, 896.95]
    
我又查了 Google 匯率 1 美金為 31.71 元。請把三支鏡頭的價格換算為台幣。

In [None]:
prices = [1096.95, 596.95, 896.95]


先不管這實在有夠醜的數字, 我們要記得在科學計算中:

### 儘可能不要使用迴圈

這可能嗎?

### 【示範】陣列換算匯率

In [13]:
prices = [1096.95, 596.95, 896.95]
prices = np.array(prices)
U2T = 31.71
prices * U2T

array([34784.2845, 18929.2845, 28442.2845])

哦哦, 傑克, 這太神奇了!

## 2. 其實 array 還有很多功能

### 【練習】 成績計算

一位老師成績這樣算的:

* 平時成績 20%
* 期中考   35%
* 期未考   45%

有位同學

* 平時成績 85 分
* 期中 70 分
* 期末 80 分

這位同學的學期成績是多少?

In [14]:
grades = np.array([85,70,80])
weights = np.array([0.2, 0.35, 0.45])

這還不是我們要的最終成績啊!

In [15]:
grades * weights

array([17. , 24.5, 36. ])

### 【提示】 array 還有很多函數可以用

可以先打入

    weighted_grades.
    
先不要按 `enter` 或 `shift-enter`, 而是按 `tab`...


In [17]:
weighted_grades = weights * grades
weighted_grades.sum()


77.5

### 【技巧】 一行完成成績計算

In [18]:
np.dot(weights,grades)

77.5

## 3. 重要的 array 大變身!

我們在數據分析, 常常要改 array 的型式。

### 【練習】 一個 50 個數字的 array

先想辦法、用亂數做出 50 個數字的 array, 叫做 A 好了。

In [20]:
A = np.random.rand(50)
A

array([0.26451642, 0.10611961, 0.8333321 , 0.78869095, 0.56748567,
       0.30347765, 0.68641351, 0.72328567, 0.36773417, 0.14067338,
       0.67911372, 0.94790962, 0.07971185, 0.35498981, 0.93258592,
       0.75915612, 0.55740753, 0.71614829, 0.79642284, 0.76094521,
       0.53757141, 0.62223607, 0.25259989, 0.39241814, 0.08601985,
       0.3224374 , 0.26496613, 0.81912062, 0.54835625, 0.88379243,
       0.5778971 , 0.7212494 , 0.61608202, 0.81582995, 0.44401176,
       0.44793207, 0.75699871, 0.22815506, 0.13305076, 0.34768559,
       0.77371019, 0.34632431, 0.51682453, 0.0200925 , 0.78850591,
       0.17375767, 0.222401  , 0.64081235, 0.98481525, 0.35946061])

In [24]:
A.shape = (5,10)
A

array([[0.26451642, 0.10611961, 0.8333321 , 0.78869095, 0.56748567,
        0.30347765, 0.68641351, 0.72328567, 0.36773417, 0.14067338],
       [0.67911372, 0.94790962, 0.07971185, 0.35498981, 0.93258592,
        0.75915612, 0.55740753, 0.71614829, 0.79642284, 0.76094521],
       [0.53757141, 0.62223607, 0.25259989, 0.39241814, 0.08601985,
        0.3224374 , 0.26496613, 0.81912062, 0.54835625, 0.88379243],
       [0.5778971 , 0.7212494 , 0.61608202, 0.81582995, 0.44401176,
        0.44793207, 0.75699871, 0.22815506, 0.13305076, 0.34768559],
       [0.77371019, 0.34632431, 0.51682453, 0.0200925 , 0.78850591,
        0.17375767, 0.222401  , 0.64081235, 0.98481525, 0.35946061]])

### 【技巧】 檢查 A 的 `shape`

In [25]:
A[0,0]

0.26451641590624997

### 【技巧】 更改 A 的 shape

In [26]:
A.reshape(10,5)
A

array([[0.26451642, 0.10611961, 0.8333321 , 0.78869095, 0.56748567,
        0.30347765, 0.68641351, 0.72328567, 0.36773417, 0.14067338],
       [0.67911372, 0.94790962, 0.07971185, 0.35498981, 0.93258592,
        0.75915612, 0.55740753, 0.71614829, 0.79642284, 0.76094521],
       [0.53757141, 0.62223607, 0.25259989, 0.39241814, 0.08601985,
        0.3224374 , 0.26496613, 0.81912062, 0.54835625, 0.88379243],
       [0.5778971 , 0.7212494 , 0.61608202, 0.81582995, 0.44401176,
        0.44793207, 0.75699871, 0.22815506, 0.13305076, 0.34768559],
       [0.77371019, 0.34632431, 0.51682453, 0.0200925 , 0.78850591,
        0.17375767, 0.222401  , 0.64081235, 0.98481525, 0.35946061]])

### 【技巧】 也可以用 `reshape`

但要注意, reshape 並沒有改原來的陣列。

array([[0.7372234 , 0.6126442 , 0.27626397, 0.28984569, 0.4988311 ],
       [0.42021495, 0.4515489 , 0.15328583, 0.93455268, 0.23537373],
       [0.24761985, 0.41945762, 0.44871061, 0.66726833, 0.15622678],
       [0.70315927, 0.98138833, 0.8233088 , 0.85394749, 0.14797509],
       [0.32816167, 0.64607213, 0.96849395, 0.90799427, 0.19579351],
       [0.35618479, 0.30311169, 0.32568614, 0.66885309, 0.67844806],
       [0.18201376, 0.69592441, 0.11077285, 0.22884185, 0.29488536],
       [0.90457337, 0.19872841, 0.38361489, 0.35731267, 0.76200102],
       [0.92178147, 0.44190395, 0.07941469, 0.03253205, 0.44805018],
       [0.38885104, 0.15473767, 0.55240742, 0.80182196, 0.70921062]])

### 【技巧】 拉平 `ravel`

雖然你想一想就知道可以用 `shape` 或 `reshape` 把多維陣列拉成一維。不過用 `ravel` 很潮。

In [27]:
A.ravel()


array([0.26451642, 0.10611961, 0.8333321 , 0.78869095, 0.56748567,
       0.30347765, 0.68641351, 0.72328567, 0.36773417, 0.14067338,
       0.67911372, 0.94790962, 0.07971185, 0.35498981, 0.93258592,
       0.75915612, 0.55740753, 0.71614829, 0.79642284, 0.76094521,
       0.53757141, 0.62223607, 0.25259989, 0.39241814, 0.08601985,
       0.3224374 , 0.26496613, 0.81912062, 0.54835625, 0.88379243,
       0.5778971 , 0.7212494 , 0.61608202, 0.81582995, 0.44401176,
       0.44793207, 0.75699871, 0.22815506, 0.13305076, 0.34768559,
       0.77371019, 0.34632431, 0.51682453, 0.0200925 , 0.78850591,
       0.17375767, 0.222401  , 0.64081235, 0.98481525, 0.35946061])

## 4. 快速 array 生成法

### 【技巧】 都是 0 的 array

In [30]:
A = np.zeros(10)
A = np.zeros((512,512))
A

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

### 【技巧】 都是 1 的 array

In [33]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

### 【技巧】單位矩陣

In [34]:
np.eye(10)


array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

### 【技巧】給定範圍均勻生出 n 個點

In [37]:
X = np.linspace(0,5,50)
X

array([0.        , 0.10204082, 0.20408163, 0.30612245, 0.40816327,
       0.51020408, 0.6122449 , 0.71428571, 0.81632653, 0.91836735,
       1.02040816, 1.12244898, 1.2244898 , 1.32653061, 1.42857143,
       1.53061224, 1.63265306, 1.73469388, 1.83673469, 1.93877551,
       2.04081633, 2.14285714, 2.24489796, 2.34693878, 2.44897959,
       2.55102041, 2.65306122, 2.75510204, 2.85714286, 2.95918367,
       3.06122449, 3.16326531, 3.26530612, 3.36734694, 3.46938776,
       3.57142857, 3.67346939, 3.7755102 , 3.87755102, 3.97959184,
       4.08163265, 4.18367347, 4.28571429, 4.3877551 , 4.48979592,
       4.59183673, 4.69387755, 4.79591837, 4.89795918, 5.        ])

### 【技巧】`range` 的 array 版

就是 `arange`。

In [38]:
A = np.arange(1,5,0.2)
A

array([1. , 1.2, 1.4, 1.6, 1.8, 2. , 2.2, 2.4, 2.6, 2.8, 3. , 3.2, 3.4,
       3.6, 3.8, 4. , 4.2, 4.4, 4.6, 4.8])

## 5. 超重要 `axis` 觀念

初學 `numpy` 很多人有點弄不清楚 `axis` 概念。其實掌握矩陣, 或很像矩陣的陣列都是「先列後行」就可以!

我們先弄個 array 來練習。

In [42]:
A = np.arange(10).reshape(2,5)
A

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### 【重點】 一列一列算下來是 `axis=0`

![axis=0](images/axis0.png)

In [43]:
A.sum(axis=0)

array([ 5,  7,  9, 11, 13])

### 【重點】 一行一行算過去是 `axis=1`

![axis=1](images/axis1.png)

In [44]:
A.sum(axis=1)

array([10, 35])

### 【提示】當然也有可能全部算

In [45]:
A.sum()


45

## 6. array 過濾器

篩出我們要的資料, 這樣的技巧非常重要!

### 【例子】篩出大於 0 的數

我們有個陣列, 想找出大於 0 的數。<br>
L = np.array([3, -2, -1, 5, 7, -3])

In [46]:
L = np.array([3, -2, -1, 5, 7, -3])

我們可以很白痴的自己判斷...<br>
c = np.array([True,False,False,True,True,False])

In [47]:
c = np.array([True,False,False,True,True,False])

這是做啥呢? 我們可以瞬間...

In [50]:
L[c]


array([3, 5, 7])

除了自己做很白痴, 這看來很厲害!

事實上我們可以叫 `numpy` 做!

In [51]:
L>0

array([ True, False, False,  True,  True, False])

這有點強, 我們還可以一次到位!

In [53]:
L = L[L>0]
L


array([3, 5, 7])

## 7. 次元切割刀

`numpy` 中 array 的切割法和 list 很像。

In [55]:
Y = np.arange(10)
Y

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [57]:
Y[2:5]

array([2, 3, 4])

### 【技巧】2維陣列切法

記得先列後行!

In [59]:
Y.shape =(2,5)
Y

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

要所有的row, 切出行 1-3 位置。

In [70]:
Y[:,1:3]

array([[1, 2],
       [6, 7]])

要所有的行col, 切出第 1 列row!

In [71]:
X[1,:]

array([5, 6, 7, 8, 9])

## 8. `NumPy` 的 `zip` 和 `unzip`

之前我們介紹 list 可以用 `zip` 和 `unzip` (其實還是 `zip`) 做到的資料格式變換, 在 array 中怎麼做呢?

![zip and unzip](images/zip.png)

### 【重點】array 的 `zip`

![array zip](images/arrzip.png)

In [65]:
x = np.array([1,2,3,4])
y = np.array([5,6,7,8])

In [66]:
X = np.c_[x,y]
X

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [68]:
Y = np.r_[x,y]
Y

array([1, 2, 3, 4, 5, 6, 7, 8])

### 【重點】array 的 `unzip`

這裡其實只需要用到 array 的切割法...

![array zip](images/arrunzip.png)