# NumPy 和陣列導向的程式設計

`NumPy` 可以說是 Python 中最最標準的科學計算、數據分析套件。也因為 `NumPy` 的出現, 讓 Python 有了非常好的數據分析基礎, 一直到現在成為數據分析覇主。

In [14]:
import numpy as np

## 1. 陣列導向 101

科學計算一個很核心的概念叫 "array oriented" 的寫法。Array 是 `numpy` 標準的資料結構, 和 list 很像, 但就差了那麼一點點。而這一點點讓我們在計算上是無比的方便。

### 【暖身】 計算平均

某位同學期中考各科成績如下, 請幫他計算成績。

    grades = [77, 85, 56, 90, 66]
    
請計算平均。

In [15]:
sum_calc = 0
grades = [77, 85, 56, 90, 66]
for ele in grades:
    sum_calc += ele
average = sum_calc / len(grades)
print(average)

74.8


### 【示範】陣列導向

In [19]:
grades = [77, 85, 56, 90, 66]
array = np.array(grades)
print(array)

[77 85 56 90 66]


最大值

In [20]:
print(array.max())

90


標準差

In [21]:
print(array.std())

12.416118556135006


### 【暖身】 換算匯率

假設今天我想查查號稱 Pentax 三公主的 31mm, 43mm, 77mm 三隻 limited 鏡頭在美國賣多少。於是我去 B&H 查了他們的價格分別是:

    prices = [1096.95, 596.95, 896.95]
    
我又查了 Google 匯率 1 美金為 31.71 元。請把三支鏡頭的價格換算為台幣。

In [32]:
prices = [1096.95, 596.95, 896.95]
TW_prices = prices
TW_currency = 31.71
for i in range(len(prices)):
    TW_prices[i] = prices[i] * TW_currency
print(TW_prices)


[34784.2845, 18929.2845, 28442.2845]


先不管這實在有夠醜的數字, 我們要記得在科學計算中:

### 儘可能不要使用迴圈

這可能嗎?

### 【示範】陣列換算匯率

In [25]:
prices = [1096.95, 596.95, 896.95]
np_prices = np.array(prices)
TW_currency = 31.71
TW_prices = np_prices * 31.71
print(TW_prices)

[34784.2845 18929.2845 28442.2845]


哦哦, 傑克, 這太神奇了!

## 2. 其實 array 還有很多功能

### 【練習】 成績計算

一位老師成績這樣算的:

* 平時成績 20%
* 期中考   35%
* 期未考   45%

有位同學

* 平時成績 85 分
* 期中 70 分
* 期末 80 分

這位同學的學期成績是多少?

In [41]:
grades = np.array([85,70,80])
weights = np.array([0.2, 0.35, 0.45])
weighted_grade = grades * weights
print(weighted_grade)

[17.  24.5 36. ]


這還不是我們要的最終成績啊!

In [42]:
sum_calc = 0
for ele in weighted_grade:
    sum_calc += ele
print(sum_calc)

77.5


### 【提示】 array 還有很多函數可以用

可以先打入

    weighted_grades.
    
先不要按 `enter` 或 `shift-enter`, 而是按 `tab`...


In [46]:
weighted_grade.sum()

77.5

### 【技巧】 一行完成成績計算

In [73]:
np.dot(grades,weights)

77.5

## 3. 重要的 array 大變身!

我們在數據分析, 常常要改 array 的型式。

### 【練習】 一個 50 個數字的 array

先想辦法、用亂數做出 50 個數字的 array, 叫做 A 好了。

In [65]:
import random as rm

A = np.random.sample(50)


In [66]:
A

array([0.85303356, 0.02397539, 0.24847038, 0.39306153, 0.2253032 ,
       0.45483834, 0.83250276, 0.61350017, 0.10183043, 0.41100144,
       0.90679254, 0.25919282, 0.13949693, 0.23974231, 0.90485028,
       0.33612147, 0.16144688, 0.2994816 , 0.56739118, 0.43417024,
       0.61293357, 0.54580021, 0.70371523, 0.81618822, 0.86561397,
       0.26636658, 0.85384779, 0.26974318, 0.26872153, 0.91406468,
       0.46485238, 0.60549335, 0.32405847, 0.85438847, 0.98229928,
       0.79244118, 0.34744767, 0.19477318, 0.80580377, 0.22059621,
       0.73279342, 0.79135871, 0.0546218 , 0.2390507 , 0.29378609,
       0.156649  , 0.5665265 , 0.35883369, 0.32162958, 0.8677349 ])

### 【技巧】 檢查 A 的 `shape`

In [68]:
A.shape

(50,)

### 【技巧】 更改 A 的 shape

In [88]:
A.shape = (5,10)
print(A)

[[0.85303356 0.02397539 0.24847038 0.39306153 0.2253032  0.45483834
  0.83250276 0.61350017 0.10183043 0.41100144]
 [0.90679254 0.25919282 0.13949693 0.23974231 0.90485028 0.33612147
  0.16144688 0.2994816  0.56739118 0.43417024]
 [0.61293357 0.54580021 0.70371523 0.81618822 0.86561397 0.26636658
  0.85384779 0.26974318 0.26872153 0.91406468]
 [0.46485238 0.60549335 0.32405847 0.85438847 0.98229928 0.79244118
  0.34744767 0.19477318 0.80580377 0.22059621]
 [0.73279342 0.79135871 0.0546218  0.2390507  0.29378609 0.156649
  0.5665265  0.35883369 0.32162958 0.8677349 ]]


### 【技巧】 也可以用 `reshape`

但要注意, reshape 並沒有改原來的陣列。

In [89]:
print(A.reshape(2,25))

[[0.85303356 0.02397539 0.24847038 0.39306153 0.2253032  0.45483834
  0.83250276 0.61350017 0.10183043 0.41100144 0.90679254 0.25919282
  0.13949693 0.23974231 0.90485028 0.33612147 0.16144688 0.2994816
  0.56739118 0.43417024 0.61293357 0.54580021 0.70371523 0.81618822
  0.86561397]
 [0.26636658 0.85384779 0.26974318 0.26872153 0.91406468 0.46485238
  0.60549335 0.32405847 0.85438847 0.98229928 0.79244118 0.34744767
  0.19477318 0.80580377 0.22059621 0.73279342 0.79135871 0.0546218
  0.2390507  0.29378609 0.156649   0.5665265  0.35883369 0.32162958
  0.8677349 ]]


### 【技巧】 拉平 `ravel`

雖然你想一想就知道可以用 `shape` 或 `reshape` 把多維陣列拉成一維。不過用 `ravel` 很潮。

In [90]:
print(A.ravel())

[0.85303356 0.02397539 0.24847038 0.39306153 0.2253032  0.45483834
 0.83250276 0.61350017 0.10183043 0.41100144 0.90679254 0.25919282
 0.13949693 0.23974231 0.90485028 0.33612147 0.16144688 0.2994816
 0.56739118 0.43417024 0.61293357 0.54580021 0.70371523 0.81618822
 0.86561397 0.26636658 0.85384779 0.26974318 0.26872153 0.91406468
 0.46485238 0.60549335 0.32405847 0.85438847 0.98229928 0.79244118
 0.34744767 0.19477318 0.80580377 0.22059621 0.73279342 0.79135871
 0.0546218  0.2390507  0.29378609 0.156649   0.5665265  0.35883369
 0.32162958 0.8677349 ]


## 4. 快速 array 生成法

### 【技巧】 都是 0 的 array

In [100]:
np.zeros((256,256))

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

### 【技巧】 都是 1 的 array

In [99]:
np.ones((512,512))

array([[1., 1., 1., ..., 1., 1., 1.],
       [1., 1., 1., ..., 1., 1., 1.],
       [1., 1., 1., ..., 1., 1., 1.],
       ...,
       [1., 1., 1., ..., 1., 1., 1.],
       [1., 1., 1., ..., 1., 1., 1.],
       [1., 1., 1., ..., 1., 1., 1.]])

### 【技巧】單位矩陣

In [101]:
np.eye(10)

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

### 【技巧】給定範圍均勻生出 n 個點

In [104]:
A = np.linspace(0,20,100)
A

array([ 0.        ,  0.2020202 ,  0.4040404 ,  0.60606061,  0.80808081,
        1.01010101,  1.21212121,  1.41414141,  1.61616162,  1.81818182,
        2.02020202,  2.22222222,  2.42424242,  2.62626263,  2.82828283,
        3.03030303,  3.23232323,  3.43434343,  3.63636364,  3.83838384,
        4.04040404,  4.24242424,  4.44444444,  4.64646465,  4.84848485,
        5.05050505,  5.25252525,  5.45454545,  5.65656566,  5.85858586,
        6.06060606,  6.26262626,  6.46464646,  6.66666667,  6.86868687,
        7.07070707,  7.27272727,  7.47474747,  7.67676768,  7.87878788,
        8.08080808,  8.28282828,  8.48484848,  8.68686869,  8.88888889,
        9.09090909,  9.29292929,  9.49494949,  9.6969697 ,  9.8989899 ,
       10.1010101 , 10.3030303 , 10.50505051, 10.70707071, 10.90909091,
       11.11111111, 11.31313131, 11.51515152, 11.71717172, 11.91919192,
       12.12121212, 12.32323232, 12.52525253, 12.72727273, 12.92929293,
       13.13131313, 13.33333333, 13.53535354, 13.73737374, 13.93

### 【技巧】`range` 的 array 版

就是 `arange`。

In [105]:
np.arange(2,10,0.1)

array([2. , 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9, 3. , 3.1, 3.2,
       3.3, 3.4, 3.5, 3.6, 3.7, 3.8, 3.9, 4. , 4.1, 4.2, 4.3, 4.4, 4.5,
       4.6, 4.7, 4.8, 4.9, 5. , 5.1, 5.2, 5.3, 5.4, 5.5, 5.6, 5.7, 5.8,
       5.9, 6. , 6.1, 6.2, 6.3, 6.4, 6.5, 6.6, 6.7, 6.8, 6.9, 7. , 7.1,
       7.2, 7.3, 7.4, 7.5, 7.6, 7.7, 7.8, 7.9, 8. , 8.1, 8.2, 8.3, 8.4,
       8.5, 8.6, 8.7, 8.8, 8.9, 9. , 9.1, 9.2, 9.3, 9.4, 9.5, 9.6, 9.7,
       9.8, 9.9])

## 5. 超重要 `axis` 觀念

初學 `numpy` 很多人有點弄不清楚 `axis` 概念。其實掌握矩陣, 或很像矩陣的陣列都是「先列後行」就可以!

我們先弄個 array 來練習。

In [115]:
A = np.arange(0,20,1).reshape(4,5)
A

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

### 【重點】 一列一列算下來是 `axis=0`

![axis=0](images/axis0.png)

In [116]:
A.sum(axis=0)

array([30, 34, 38, 42, 46])

### 【重點】 一行一行算過去是 `axis=1`

![axis=1](images/axis1.png)

In [119]:
A.sum(axis=1)

array([10, 35, 60, 85])

### 【提示】當然也有可能全部算

In [120]:
A.sum()

190

## 6. array 過濾器

篩出我們要的資料, 這樣的技巧非常重要!

### 【例子】篩出大於 0 的數

我們有個陣列, 想找出大於 0 的數。<br>
L = np.array([3, -2, -1, 5, 7, -3])

In [121]:
L = np.array([3, -2, -1, 5, 7, -3])

我們可以很白痴的自己判斷...<br>
c = np.array([True,False,False,True,True,False])

In [122]:
c = np.array([True,False,False,True,True,False])

這是做啥呢? 我們可以瞬間...

In [125]:
L[c]

array([3, 5, 7])

除了自己做很白痴, 這看來很厲害!

事實上我們可以叫 `numpy` 做!

In [126]:
L>0

array([ True, False, False,  True,  True, False])

這有點強, 我們還可以一次到位!

In [128]:
L = L[L>0]
L

array([3, 5, 7])

## 7. 次元切割刀

`numpy` 中 array 的切割法和 list 很像。

In [131]:
A = np.arange(10)
A

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [134]:
print(A[3:7])
print(A[2:5])

[3 4 5 6]
[2 3 4]


### 【技巧】2維陣列切法

記得先列後行!

In [142]:
A.shape = (2,5)
A

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

要所有的row, 切出行 1-3 位置。

In [140]:
A[:,1:3]

array([[1, 2],
       [6, 7]])

要所有的行col, 切出第 1 列row!

In [144]:
A[1,:]

array([5, 6, 7, 8, 9])

## 8. `NumPy` 的 `zip` 和 `unzip`

之前我們介紹 list 可以用 `zip` 和 `unzip` (其實還是 `zip`) 做到的資料格式變換, 在 array 中怎麼做呢?

![zip and unzip](images/zip.png)

### 【重點】array 的 `zip`

![array zip](images/arrzip.png)

In [146]:
x = np.array([1,2,3,4])
y = np.array([5,6,7,8])

In [148]:
X = np.c_[x,y]
X

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [150]:
Y = np.r_[x,y]
Y

array([1, 2, 3, 4, 5, 6, 7, 8])

### 【重點】array 的 `unzip`

這裡其實只需要用到 array 的切割法...

![array zip](images/arrunzip.png)

In [152]:
X[:,0]

array([1, 2, 3, 4])

In [153]:
X[:,1]

array([5, 6, 7, 8])

In [155]:
Y[0:4]

array([1, 2, 3, 4])

In [157]:
Y[4:9]

array([5, 6, 7, 8])