# 單元2. NumPy 和陣列導向的程式設計

`NumPy` 可以說是 Python 中最最標準的科學計算、數據分析套件。也因為 `NumPy` 的出現, 讓 Python 有了非常好的數據分析基礎, 一直到現在成為數據分析覇主。

In [1]:
%matplotlib inline

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## 2-1 陣列導向 101

科學計算一個很核心的概念叫 "array oriented" 的寫法。Array 是 `numpy` 標準的資料結構, 和 list 很像, 但就差了那麼一點點。而這一點點讓我們在計算上是無比的方便。

### 【暖身】 計算平均

某位同學期中考各科成績如下, 請幫他計算成績。

    grades = [77, 85, 56, 90, 66]
    
請計算平均。

In [2]:
s = 0 
grades = [77, 85, 60, 90, 66, 0, 88]
for i in grades:
    s = s + i # s += i
print("average = {:.2f}".format(s/len(grades)))

average = 66.57


### 【示範】陣列導向

In [3]:
grades = [77, 85, 60, 90, 66, 0, 88]

In [4]:
arr = np.array(grades)

In [5]:
arr.mean()

66.571428571428569

最大值

In [6]:
arr.max()

90

標準差

In [7]:
arr.std()

29.109925370945916

### 【暖身】 換算匯率

假設今天我想查查號稱 Pentax 三公主的 31mm, 43mm, 77mm 三隻 limited 鏡頭在美國賣多少。於是我去 B&H 查了他們的價格分別是:

    prices = [1096.95, 596.95, 896.95]
    
我又查了 Google 匯率 1 美金為 31.71 元。請把三支鏡頭的價格換算為台幣。

In [8]:
prices = [1096.95, 596.95, 896.95]

usd2twd = 37.71
twd_prices = []
for price in prices:
    twd = price * usd2twd
    twd_prices.append(twd)

In [9]:
twd_prices

[41365.984500000006, 22510.984500000002, 33823.984500000006]

先不管這實在有夠醜的數字, 我們要記得在科學計算中:

### 儘可能不要使用迴圈

這可能嗎?

### 【示範】陣列換算匯率

In [10]:
prices = np.array(prices)

prices * usd2twd

array([ 41365.9845,  22510.9845,  33823.9845])

哦哦, 傑克, 這太神奇了!

## 2-2 其實 array 還有很多功能

### 【練習】 成績計算

一位老師成績這樣算的:

* 平時成績 20%
* 期中考   35%
* 期未考   45%

有位同學

* 平時成績 85 分
* 期中 70 分
* 期末 80 分

這位同學的學期成績是多少?

In [11]:
grades = np.array([85, 70, 80])
weights = np.array([0.2, 0.35, 0.45])

In [12]:
grades * weights

array([ 17. ,  24.5,  36. ])

這還不是我們要的最終成績啊!

In [13]:
weighted_grades = grades * weights
weighted_grades.sum()

77.5

### 【提示】 array 還有很多函數可以用

可以先打入

    weighted_grades.
    
先不要按 `enter` 或 `shift-enter`, 而是按 `tab`...


### 【技巧】 一行完成成績計算

In [14]:
np.dot(grades, weights)

77.5

## 2-3 重要的 array 大變身!

我們在數據分析, 常常要改 array 的型式。

### 【練習】 一個 50 個數字的 array

先想辦法、用亂數做出 50 個數字的 array, 叫做 A 好了。

In [15]:
A = np.random.rand(50)

In [16]:
A

array([ 0.91693391,  0.62673655,  0.88740456,  0.48046312,  0.62757485,
        0.23008913,  0.87575306,  0.84879738,  0.85338107,  0.35223236,
        0.78653391,  0.16405592,  0.03517845,  0.99583909,  0.99331807,
        0.09916008,  0.52317243,  0.57976434,  0.42196879,  0.71423832,
        0.06954672,  0.22901599,  0.27902607,  0.05743525,  0.52306812,
        0.02489168,  0.13016429,  0.86994998,  0.2397208 ,  0.87943497,
        0.62407166,  0.91747131,  0.54925329,  0.76590221,  0.890491  ,
        0.79625002,  0.76969155,  0.24340744,  0.36103934,  0.11170765,
        0.53489513,  0.74905285,  0.23782001,  0.27695218,  0.2494906 ,
        0.27548546,  0.84363987,  0.46040861,  0.97404141,  0.73425538])

### 【技巧】 檢查 A 的 `shape`

In [17]:
A.shape

(50,)

### 【技巧】 更改 A 的 shape

In [18]:
A.shape = (5,10)

In [19]:
A

array([[ 0.91693391,  0.62673655,  0.88740456,  0.48046312,  0.62757485,
         0.23008913,  0.87575306,  0.84879738,  0.85338107,  0.35223236],
       [ 0.78653391,  0.16405592,  0.03517845,  0.99583909,  0.99331807,
         0.09916008,  0.52317243,  0.57976434,  0.42196879,  0.71423832],
       [ 0.06954672,  0.22901599,  0.27902607,  0.05743525,  0.52306812,
         0.02489168,  0.13016429,  0.86994998,  0.2397208 ,  0.87943497],
       [ 0.62407166,  0.91747131,  0.54925329,  0.76590221,  0.890491  ,
         0.79625002,  0.76969155,  0.24340744,  0.36103934,  0.11170765],
       [ 0.53489513,  0.74905285,  0.23782001,  0.27695218,  0.2494906 ,
         0.27548546,  0.84363987,  0.46040861,  0.97404141,  0.73425538]])

### 【技巧】 也可以用 `reshape`

但要注意, reshape 並沒有改原來的陣列。

In [20]:
A.reshape(10,5)

array([[ 0.91693391,  0.62673655,  0.88740456,  0.48046312,  0.62757485],
       [ 0.23008913,  0.87575306,  0.84879738,  0.85338107,  0.35223236],
       [ 0.78653391,  0.16405592,  0.03517845,  0.99583909,  0.99331807],
       [ 0.09916008,  0.52317243,  0.57976434,  0.42196879,  0.71423832],
       [ 0.06954672,  0.22901599,  0.27902607,  0.05743525,  0.52306812],
       [ 0.02489168,  0.13016429,  0.86994998,  0.2397208 ,  0.87943497],
       [ 0.62407166,  0.91747131,  0.54925329,  0.76590221,  0.890491  ],
       [ 0.79625002,  0.76969155,  0.24340744,  0.36103934,  0.11170765],
       [ 0.53489513,  0.74905285,  0.23782001,  0.27695218,  0.2494906 ],
       [ 0.27548546,  0.84363987,  0.46040861,  0.97404141,  0.73425538]])

### 【技巧】 拉平 `ravel`

雖然你想一想就知道可以用 `shape` 或 `reshape` 把多維陣列拉成一維。不過用 `ravel` 很潮。

In [21]:
A.ravel()

array([ 0.91693391,  0.62673655,  0.88740456,  0.48046312,  0.62757485,
        0.23008913,  0.87575306,  0.84879738,  0.85338107,  0.35223236,
        0.78653391,  0.16405592,  0.03517845,  0.99583909,  0.99331807,
        0.09916008,  0.52317243,  0.57976434,  0.42196879,  0.71423832,
        0.06954672,  0.22901599,  0.27902607,  0.05743525,  0.52306812,
        0.02489168,  0.13016429,  0.86994998,  0.2397208 ,  0.87943497,
        0.62407166,  0.91747131,  0.54925329,  0.76590221,  0.890491  ,
        0.79625002,  0.76969155,  0.24340744,  0.36103934,  0.11170765,
        0.53489513,  0.74905285,  0.23782001,  0.27695218,  0.2494906 ,
        0.27548546,  0.84363987,  0.46040861,  0.97404141,  0.73425538])

## 2-4 快速 array 生成法

### 【技巧】 都是 0 的 array

In [22]:
np.zeros(10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [23]:
np.zeros((3,4))

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

### 【技巧】 都是 1 的 array

In [24]:
np.ones(10)

array([ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.])

In [25]:
np.ones((2,5))

array([[ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.]])

### 【技巧】單位矩陣

In [26]:
np.eye(5)

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

### 【技巧】給定範圍均勻生出 n 個點

In [27]:
x = np.linspace(0, 10, 100)

### 【技巧】`range` 的 array 版

就是 `arange`。

In [28]:
np.arange(1,10,0.2)

array([ 1. ,  1.2,  1.4,  1.6,  1.8,  2. ,  2.2,  2.4,  2.6,  2.8,  3. ,
        3.2,  3.4,  3.6,  3.8,  4. ,  4.2,  4.4,  4.6,  4.8,  5. ,  5.2,
        5.4,  5.6,  5.8,  6. ,  6.2,  6.4,  6.6,  6.8,  7. ,  7.2,  7.4,
        7.6,  7.8,  8. ,  8.2,  8.4,  8.6,  8.8,  9. ,  9.2,  9.4,  9.6,
        9.8])

## 2-5 超重要 `axis` 觀念

初學 `numpy` 很多人有點弄不清楚 `axis` 概念。其實掌握矩陣, 或很像矩陣的陣列都是「先列後行」就可以!

我們先弄個 array 來練習。

In [29]:
A = np.arange(10).reshape(2,5)

In [30]:
A

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### 【重點】 一列一列算下來是 `axis=0`

![axis=0](images/axis0.png)

In [31]:
A.sum(axis=0)

array([ 5,  7,  9, 11, 13])

### 【重點】 一行一行算過去是 `axis=1`

![axis=1](images/axis1.png)

In [32]:
A.sum(axis=1)

array([10, 35])

### 【提示】當然也有可能全部算

In [33]:
A.sum()

45

## 2-6 array 過濾器

篩出我們要的資料, 這樣的技巧非常重要!

### 【例子】篩出大於 0 的數

我們有個陣列, 想找出大於 0 的數。

In [34]:
L = np.array([3, -2, -1, 5, 7, -3])

我們可以很白痴的自己判斷...

In [35]:
c = np.array([True, False, False, True, True, False])

這是做啥呢? 我們可以瞬間...

In [36]:
L[c]

array([3, 5, 7])

除了自己做很白痴, 這看來很厲害!

事實上我們可以叫 `numpy` 做!

In [37]:
L>0

array([ True, False, False,  True,  True, False], dtype=bool)

這有點強, 我們還可以一次到位!

In [38]:
L[L>0]

array([3, 5, 7])

## 2-7 次元切割刀

`numpy` 中 array 的切割法和 list 很像。

In [39]:
x = np.arange(10)

In [40]:
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [41]:
x[2:5]

array([2, 3, 4])

### 【技巧】2維陣列切法

記得先列後行!

In [42]:
x.shape=(2,5)

In [43]:
x

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

要所有的列, 切出行 1-3 位置。

In [44]:
x[:, 1:3]

array([[1, 2],
       [6, 7]])

要所有的行, 切出第 1 列!

In [45]:
x[1, :]

array([5, 6, 7, 8, 9])

## 2-8 `NumPy` 的 `zip` 和 `unzip`

之前我們介紹 list 可以用 `zip` 和 `unzip` (其實還是 `zip`) 做到的資料格式變換, 在 array 中怎麼做呢?

![zip and unzip](images/zip.png)

### 【重點】array 的 `zip`

![array zip](images/arrzip.png)

In [46]:
x = np.array([1,2,3,4])
y = np.array([5,6,7,8])

In [47]:
X = np.c_[x,y]

In [48]:
x

array([1, 2, 3, 4])

In [49]:
y

array([5, 6, 7, 8])

### 【重點】array 的 `unzip`

這裡其實只需要用到 array 的切割法...

![array zip](images/arrunzip.png)

In [50]:
X[:, 0]

array([1, 2, 3, 4])

In [51]:
X[:, 1]

array([5, 6, 7, 8])