# NumPy 和陣列導向的程式設計

`NumPy` 可以說是 Python 中最最標準的科學計算、數據分析套件。也因為 `NumPy` 的出現, 讓 Python 有了非常好的數據分析基礎, 一直到現在成為數據分析覇主。

In [2]:
import numpy as np

## 1. 陣列導向 101

科學計算一個很核心的概念叫 "array oriented" 的寫法。Array 是 `numpy` 標準的資料結構, 和 list 很像, 但就差了那麼一點點。而這一點點讓我們在計算上是無比的方便。

### 【暖身】 計算平均

某位同學期中考各科成績如下, 請幫他計算成績。

    grades = [77, 85, 56, 90, 66]
    
請計算平均。

In [3]:
ScoreSum = 0
grades = [77, 85, 56, 90, 66]
for score in grades:
    ScoreSum = ScoreSum + score
print("average = {0:.2f}, sum = {1}".format(ScoreSum / len(grades), ScoreSum))

average = 74.80, sum = 374


### 【示範】陣列導向

In [4]:
grades = [77, 85, 56, 90, 66]
ScoreArr = np.array(grades)
ScoreArr.mean()

74.8

最大值

In [5]:
ScoreArr.max()

90

標準差

In [6]:
ScoreArr.std()

12.416118556135006

### 【暖身】 換算匯率

假設今天我想查查號稱 Pentax 三公主的 31mm, 43mm, 77mm 三隻 limited 鏡頭在美國賣多少。於是我去 B&H 查了他們的價格分別是:

    prices = [1096.95, 596.95, 896.95]
    
我又查了 Google 匯率 1 美金為 31.71 元。請把三支鏡頭的價格換算為台幣。

In [7]:
prices = [1096.95, 596.95, 896.95]
ExchangeRate = 31.71
TwPrice = []
for p in prices:
    TwPrice.append(round(p*ExchangeRate,0))  # 台幣取到整數位
TwPrice

[34784.0, 18929.0, 28442.0]

先不管這實在有夠醜的數字, 我們要記得在科學計算中:

### 儘可能不要使用迴圈

這可能嗎?

### 【示範】陣列換算匯率

In [8]:
priceArr = np.array(prices)
TwPriceArr = np.round(priceArr * ExchangeRate,0)
TwPriceArr

array([34784., 18929., 28442.])

哦哦, 傑克, 這太神奇了!

## 2. 其實 array 還有很多功能

### 【練習】 成績計算

一位老師成績這樣算的:

* 平時成績 20%
* 期中考   35%
* 期未考   45%

有位同學

* 平時成績 85 分
* 期中 70 分
* 期末 80 分

這位同學的學期成績是多少?

In [9]:
grades = np.array([85,70,80])
weights = np.array([0.2, 0.35, 0.45])

這還不是我們要的最終成績啊!

In [10]:
grades * weights

array([17. , 24.5, 36. ])

### 【提示】 array 還有很多函數可以用

可以先打入

    weighted_grades.
    
先不要按 `enter` 或 `shift-enter`, 而是按 `tab`...


In [11]:
weighted_grades = grades * weights
weighted_grades.sum()

77.5

### 【技巧】 一行完成成績計算

In [12]:
grades.dot(weights) 

77.5

## 3. 重要的 array 大變身!

我們在數據分析, 常常要改 array 的型式。

### 【練習】 一個 50 個數字的 array

先想辦法、用亂數做出 50 個數字的 array, 叫做 A 好了。

In [13]:
A = np.random.rand(50)
A

array([0.0016003 , 0.86908395, 0.56909983, 0.54996904, 0.28788168,
       0.93949306, 0.48969286, 0.38698351, 0.90326939, 0.17437843,
       0.78157249, 0.18466973, 0.62012445, 0.76870706, 0.46544269,
       0.91435361, 0.0102948 , 0.35746773, 0.70828064, 0.45690442,
       0.83492691, 0.90399007, 0.76489044, 0.69814042, 0.52843254,
       0.8109461 , 0.67403326, 0.5561493 , 0.56988036, 0.13370031,
       0.84714975, 0.19067888, 0.8136373 , 0.15037262, 0.32412751,
       0.356883  , 0.51091814, 0.47034196, 0.45582828, 0.29979949,
       0.42019336, 0.74818731, 0.25337865, 0.38379059, 0.11371363,
       0.63211993, 0.55577924, 0.49297437, 0.37137854, 0.33392285])

In [14]:
A[0]

0.0016003019194972268

### 【技巧】 檢查 A 的 `shape`

In [34]:
A.shape

(50,)

### 【技巧】 更改 A 的 shape

In [15]:
A.shape = (5,10)
A[0]

array([0.0016003 , 0.86908395, 0.56909983, 0.54996904, 0.28788168,
       0.93949306, 0.48969286, 0.38698351, 0.90326939, 0.17437843])

### 【技巧】 也可以用 `reshape`

但要注意, reshape 並沒有改原來的陣列。

In [16]:
B = A.reshape(5, 10)
B 

array([[0.0016003 , 0.86908395, 0.56909983, 0.54996904, 0.28788168,
        0.93949306, 0.48969286, 0.38698351, 0.90326939, 0.17437843],
       [0.78157249, 0.18466973, 0.62012445, 0.76870706, 0.46544269,
        0.91435361, 0.0102948 , 0.35746773, 0.70828064, 0.45690442],
       [0.83492691, 0.90399007, 0.76489044, 0.69814042, 0.52843254,
        0.8109461 , 0.67403326, 0.5561493 , 0.56988036, 0.13370031],
       [0.84714975, 0.19067888, 0.8136373 , 0.15037262, 0.32412751,
        0.356883  , 0.51091814, 0.47034196, 0.45582828, 0.29979949],
       [0.42019336, 0.74818731, 0.25337865, 0.38379059, 0.11371363,
        0.63211993, 0.55577924, 0.49297437, 0.37137854, 0.33392285]])

### 【技巧】 拉平 `ravel`

雖然你想一想就知道可以用 `shape` 或 `reshape` 把多維陣列拉成一維。不過用 `ravel` 很潮。

In [17]:
A.ravel()

array([0.0016003 , 0.86908395, 0.56909983, 0.54996904, 0.28788168,
       0.93949306, 0.48969286, 0.38698351, 0.90326939, 0.17437843,
       0.78157249, 0.18466973, 0.62012445, 0.76870706, 0.46544269,
       0.91435361, 0.0102948 , 0.35746773, 0.70828064, 0.45690442,
       0.83492691, 0.90399007, 0.76489044, 0.69814042, 0.52843254,
       0.8109461 , 0.67403326, 0.5561493 , 0.56988036, 0.13370031,
       0.84714975, 0.19067888, 0.8136373 , 0.15037262, 0.32412751,
       0.356883  , 0.51091814, 0.47034196, 0.45582828, 0.29979949,
       0.42019336, 0.74818731, 0.25337865, 0.38379059, 0.11371363,
       0.63211993, 0.55577924, 0.49297437, 0.37137854, 0.33392285])

## 4. 快速 array 生成法

### 【技巧】 都是 0 的 array

In [18]:
np.zeros(10)
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

### 【技巧】 都是 1 的 array

In [19]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

### 【技巧】單位矩陣

In [20]:
np.eye(6)

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]])

### 【技巧】給定範圍均勻生出 n 個點

In [21]:
x = np.linspace(0, 100, 100)
x

array([  0.        ,   1.01010101,   2.02020202,   3.03030303,
         4.04040404,   5.05050505,   6.06060606,   7.07070707,
         8.08080808,   9.09090909,  10.1010101 ,  11.11111111,
        12.12121212,  13.13131313,  14.14141414,  15.15151515,
        16.16161616,  17.17171717,  18.18181818,  19.19191919,
        20.2020202 ,  21.21212121,  22.22222222,  23.23232323,
        24.24242424,  25.25252525,  26.26262626,  27.27272727,
        28.28282828,  29.29292929,  30.3030303 ,  31.31313131,
        32.32323232,  33.33333333,  34.34343434,  35.35353535,
        36.36363636,  37.37373737,  38.38383838,  39.39393939,
        40.4040404 ,  41.41414141,  42.42424242,  43.43434343,
        44.44444444,  45.45454545,  46.46464646,  47.47474747,
        48.48484848,  49.49494949,  50.50505051,  51.51515152,
        52.52525253,  53.53535354,  54.54545455,  55.55555556,
        56.56565657,  57.57575758,  58.58585859,  59.5959596 ,
        60.60606061,  61.61616162,  62.62626263,  63.63

### 【技巧】`range` 的 array 版

就是 `arange`。

In [22]:
np.arange(1, 10, 2) #(起始，終止，間隔)

array([1, 3, 5, 7, 9])

## 5. 超重要 `axis` 觀念

初學 `numpy` 很多人有點弄不清楚 `axis` 概念。其實掌握矩陣, 或很像矩陣的陣列都是「先列後行」就可以!

我們先弄個 array 來練習。

In [23]:
A = np.arange(10).reshape(2, 5)
A

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### 【重點】 一列一列算下來是 `axis=0`

![axis=0](images/axis0.png)

In [24]:
A.sum(axis = 0)

array([ 5,  7,  9, 11, 13])

### 【重點】 一行一行算過去是 `axis=1`

![axis=1](images/axis1.png)

In [25]:
A.sum(axis = 1)

array([10, 35])

### 【提示】當然也有可能全部算

In [26]:
A.sum()

45

## 6. array 過濾器

篩出我們要的資料, 這樣的技巧非常重要!

### 【例子】篩出大於 0 的數

我們有個陣列, 想找出大於 0 的數。<br>
L = np.array([3, -2, -1, 5, 7, -3])

In [27]:
L = np.array([3, -2, -1, 5, 7, -3])

我們可以很白痴的自己判斷...<br>
c = np.array([True,False,False,True,True,False])

In [28]:
c = np.array([True,False,False,True,True,False])

這是做啥呢? 我們可以瞬間...

In [29]:
L[c]

array([3, 5, 7])

除了自己做很白痴, 這看來很厲害!

事實上我們可以叫 `numpy` 做!

In [30]:
L > 0

array([ True, False, False,  True,  True, False])

這有點強, 我們還可以一次到位!

In [31]:
L[L>0]

array([3, 5, 7])

## 7. 次元切割刀

`numpy` 中 array 的切割法和 list 很像。

In [32]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [33]:
x[3:7]

array([3, 4, 5, 6])

### 【技巧】2維陣列切法

記得先列後行!

In [34]:
x.shape = (2,5)
x

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

要所有的row, 切出行 1-3 位置。

In [35]:
x[:, 1:3]

array([[1, 2],
       [6, 7]])

要所有的行col, 切出第 1 列row!

In [36]:
x[1, :]

array([5, 6, 7, 8, 9])

## 8. `NumPy` 的 `zip` 和 `unzip`

之前我們介紹 list 可以用 `zip` 和 `unzip` (其實還是 `zip`) 做到的資料格式變換, 在 array 中怎麼做呢?

![zip and unzip](images/zip.png)

### 【重點】array 的 `zip`

![array zip](images/arrzip.png)

In [37]:
x = np.array([1,2,3,4])
y = np.array([5,6,7,8])

In [40]:
merge_C = np.c_[x, y]
merge_C

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [41]:
merge_R = np.c_[x, y]
merge_R

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

### 【重點】array 的 `unzip`

這裡其實只需要用到 array 的切割法...

![array zip](images/arrunzip.png)

In [42]:
merge_C[:,0]

array([1, 2, 3, 4])

In [46]:
merge_R[1:4,:]

array([[2, 6],
       [3, 7],
       [4, 8]])