# NumPy 和陣列導向的程式設計

`NumPy` 可以說是 Python 中最最標準的科學計算、數據分析套件。也因為 `NumPy` 的出現, 讓 Python 有了非常好的數據分析基礎, 一直到現在成為數據分析覇主。

In [193]:
import numpy as np

In [4]:
# 巢狀迴圈走訪array
import numpy as np
b=np.array([[1,2],[3,4]])
for i in b:
    for j in i:
        print(j,end=" ")

1 2 3 4 

In [22]:
#  向量四則運算: 向量&純量→直接加減乘除，但向量&向量需要相同維度
b=np.array([[1,2],[3,4]])
a=3
c=a+b
print(c)

[[4 5]
 [6 7]]


In [21]:
#  向量內積: a內積b → a.dot(b)、矩陣內積和數學依樣
a=np.array([1,2])
b=np.array([3,4])
c=a.dot(b)
print(c)

11


In [23]:
#  向量長度: np.linalg.norm(參數)
b=np.array([3,4])
print(np.linalg.norm(b))

5.0


In [26]:
#  向量切片
a=np.array([1,2,3,4,5,6])
b,c,d=a[1:3], a[:3], a[3:]
print(b,c,d)

[2 3] [1 2 3] [4 5 6]


In [44]:
#  reshape、切割矩陣 [列,欄,step]
a=np.arange(1,26)
a=a.reshape(5,5)
print(a)
print("------------")
print(a[0,1:4])
print("------------")
print(a[1:4,0])
print("------------")
print(a[0:2,0:2])
print("------------")
print(a[0:6,1])  # 只要其中一項是單一個數字，出來的結果會儲存成list
print("------------")
print(a[::2,::2])
print("------------")
print(a[(0,1,2,3,4),(0,1,2,3,4)])  # 取五個座標點(0,0),(1,1),(2,2)...
print("------------")
mask=np.array([1,0,1,0,1],dtype=np.bool) # 布林值
print(a[mask,2])  #  代表要取True的row=0,2,4行

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]
 [21 22 23 24 25]]
------------
[2 3 4]
------------
[ 6 11 16]
------------
[[1 2]
 [6 7]]
------------
[ 2  7 12 17 22]
------------
[[ 1  3  5]
 [11 13 15]
 [21 23 25]]
------------
[ 1  7 13 19 25]
------------
[ 3 13 23]


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  mask=np.array([1,0,1,0,1],dtype=np.bool) # 布林值


In [41]:
#  進階索引值選資料
a=np.array([1,2,3,4,5])
print(a[[0,1,4]])   #記得要兩個中括號!!!
odd=(a%2==0)
print(odd)

[1 2 5]
[False  True False  True False]


In [189]:
#  進階選資料:
x=np.array([0,4,3,3,8,4,7,3,1,7])
y=np.array([0,4,3,5,6,4,1,2,1,7])
print( np.argmax(x) )               #最大值的索引值
print( np.where(x!=y)[0] )          #找到x!=y的索引值
print( np.where(x<5, 1, 0) )        #x<5的話值改成1，其他是0
print( np.piecewise(x,[x<4,x>7], [lambda x:x*2, lambda x:x*3]))     #小於4的話*2, 大於7的話*3，其他變成0

4
[3 4 6 7]
[1 1 1 1 0 1 0 1 1 0]
[ 0  0  6  6 24  0  0  6  2  0]


In [46]:
#  陣列平坦化 a.ravel()或是 np.ravel(a)
a=np.array([[1,2,3],[4,5,6]])
a=a.ravel()
print(a)

[1 2 3 4 5 6]


In [56]:
#  改變陣列維度  np.newaxis
a=np.array([1,2,3])
a=a[: ,np.newaxis]
print(a)
print(a.shape)

[[1]
 [2]
 [3]]
(3, 1)


In [53]:
#  顛倒矩陣 a.transpose()或是a.T
a=np.array([[1,2],[3,4]])
a=a.transpose()
print(a)
b=np.array([[1,2],[3,4],[5,6]])
b=b.T   # 不用括號
print(b)

[[1 3]
 [2 4]]
[[1 3 5]
 [2 4 6]]


In [67]:
#  陣列複製 .copy()、陣列填滿值 .fill()、陣列連接 np.concatenate((要連接的))
a=np.array([1,2,3,4])
b=a.copy()   # 要用copy才不會改a、b連動一起改，若用b=a的時候會變成一起改動→因為這兩個儲存的地方會是同一個，但copy儲存的地方是不同的
print(b)
b.fill(4)   # 全部填滿4
print(b)
c= np.concatenate((a,b))  #要雙括號!!!!

[1 2 3 4]
[4 4 4 4]


In [76]:
#  陣列連接:下方連接、右方連接
a=np.array([[1,2],[3,4]])
b=np.array([[5,6],[7,8]])
c=np.concatenate((a,b), axis=0)  # 下方連接
d=np.concatenate((a,b), axis=1)  # 右方連接
print(c)
print(d)

[[1 2]
 [3 4]
 [5 6]
 [7 8]]
[[1 2 5 6]
 [3 4 7 8]]


In [77]:
#  陣列廣播broadcasting特性: 不同size的矩陣相加時，會以最大的size為主每一行相加
a=np.array([[1,2],[3,4]])
b=np.array([0,2])
c=a+b
print(c)  # →變成a的每一個row都加上0,2

[[1 4]
 [3 6]]


In [105]:
#  其他功能: 隨機索引值、雜訊、添加雜訊
a=np.array([0,10,20,30,40,50,60,70,80,90,100])
index=np.random.randint(0,len(a),3)  #  從0-長度a中取3個出來當索引值
print(index)
print(a[index])

noise=np.random.standard_normal(5)*0.3
print(noise)


[1 9 0]
[10 90  0]
[-0.01225318  0.27077755 -0.00829526  0.63835691  0.13906518]


In [108]:
#  三種進位
a=np.array([1.1, 2.2 , 5.5 , 6.6, 8.8 , 9.9])
print(np.floor(a))
print(np.ceil(a))
print(np.round(a))

[1. 2. 5. 6. 8. 9.]
[ 2.  3.  6.  7.  9. 10.]
[ 1.  2.  6.  7.  9. 10.]


In [119]:
#  陣列的統計
a=np.arange(0,10).reshape(2,5)
print(a)
print( np.sum(a) )
print( np.sum(a, axis=0) )  # 縱向相加
print( np.sum(a, axis=1) )  # 橫向相加
print( np.mean(a, axis=0) )  # mean 縱向平均
print( np.average(a, axis=0, weights=[0.2,0.8]) )  # average可以加上參數weights 作加權平均

# 還有np.max(), np.std(), np.var(), np.sort()

[[0 1 2 3 4]
 [5 6 7 8 9]]
45
[ 5  7  9 11 13]
[10 35]
[2.5 3.5 4.5 5.5 6.5]
[4. 5. 6. 7. 8.]


In [192]:
a=np.array([8, 7, 7, 5, 3, 8, 0])
print( np.bincount(a) )   #元素出現的次數，從0開始
print( np.unique(a) )  #出現過的值，把重複的扣掉，像集合的概念

array([0, 3, 5, 7, 8])

In [129]:
#  改變陣列大小
a=np.arange(1,11,1)
a.shape=2,5
print(a)
a.shape=5,-1  # -1代表自動計算，不用自己算
print(a)
b=a.reshape(2,-1)  # 要指派新陣列得用reshape
print(b)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]


In [182]:
#  只取小數
a=np.random.rand(10)*50
print(a)
a=np.array([i-int(i) for i in a])   #  利用序列生成式，把所有的i減掉整數i
print(a)

[27.04162155 42.78104485 31.90965998 44.4344487   0.49588891 31.07998027
 22.58059991 10.35830311 29.83897453 28.47354127]
[0.04162155 0.78104485 0.90965998 0.4344487  0.49588891 0.07998027
 0.58059991 0.35830311 0.83897453 0.47354127]


## 1. 陣列導向 101

科學計算一個很核心的概念叫 "array oriented" 的寫法。Array 是 `numpy` 標準的資料結構, 和 list 很像, 但就差了那麼一點點。而這一點點讓我們在計算上是無比的方便。

### 【暖身】 計算平均

某位同學期中考各科成績如下, 請幫他計算成績。

    grades = [77, 85, 56, 90, 66]
    
請計算平均。

In [215]:
grades = [77, 85, 56, 90, 66]
total=0
for i in grades:
    total+=i
average=total/len(grades)
print(format(average, ".2f"))

74.80


### 【示範】陣列導向

In [216]:
grades = [77, 85, 56, 90, 66]
arr=np.array(grades)
arr.mean()

74.8

最大值

In [218]:
arr.max()

90

標準差

In [220]:
arr.std()

12.416118556135006

### 【暖身】 換算匯率

假設今天我想查查號稱 Pentax 三公主的 31mm, 43mm, 77mm 三隻 limited 鏡頭在美國賣多少。於是我去 B&H 查了他們的價格分別是:

    prices = [1096.95, 596.95, 896.95]
    
我又查了 Google 匯率 1 美金為 31.71 元。請把三支鏡頭的價格換算為台幣。

In [222]:
prices = [1096.95, 596.95, 896.95]
new=[i*31.71 for i in prices]
print(new)

[34784.2845, 18929.2845, 28442.2845]


先不管這實在有夠醜的數字, 我們要記得在科學計算中:

### 儘可能不要使用迴圈

這可能嗎?

### 【示範】陣列換算匯率

In [224]:
prices = [1096.95, 596.95, 896.95]
prices = np.array(prices)
print(prices*31.71)

[34784.2845 18929.2845 28442.2845]


哦哦, 傑克, 這太神奇了!

## 2. 其實 array 還有很多功能

### 【練習】 成績計算

一位老師成績這樣算的:

* 平時成績 20%
* 期中考   35%
* 期未考   45%

有位同學

* 平時成績 85 分
* 期中 70 分
* 期末 80 分

這位同學的學期成績是多少?

In [228]:
grades = np.array([85,70,80])
weights = np.array([0.2, 0.35, 0.45])
new_grades=grades*weights
new_grades

array([17. , 24.5, 36. ])

這還不是我們要的最終成績啊!

In [229]:
new_grades.sum()

77.5

### 【技巧】 一行完成成績計算

In [230]:
np.dot(grades,weights)  

77.5

## 3. 重要的 array 大變身!

我們在數據分析, 常常要改 array 的型式。

### 【練習】 一個 50 個數字的 array

先想辦法、用亂數做出 50 個數字的 array, 叫做 A 好了。

In [235]:
A = np.random.rand(50)
A

array([8.22534116e-01, 7.58278248e-01, 3.02773843e-01, 8.85553034e-01,
       8.98599706e-01, 4.70707529e-01, 8.07088096e-01, 6.84927685e-02,
       5.42057009e-01, 7.48017015e-01, 8.06795083e-01, 5.83388469e-01,
       2.49171347e-01, 1.02019085e-01, 1.77976301e-01, 2.99299365e-01,
       4.52192859e-01, 4.07189239e-01, 5.16048299e-01, 3.41250800e-01,
       7.27525645e-01, 4.44426907e-01, 2.85792163e-02, 5.43054341e-01,
       9.00536754e-01, 7.15555972e-01, 3.97322202e-01, 4.87581880e-01,
       7.94908610e-01, 9.35032661e-01, 8.20139086e-01, 2.53258141e-01,
       7.48086254e-01, 4.71555218e-01, 3.22654339e-01, 8.92368010e-01,
       6.32460855e-02, 5.81409638e-01, 3.03601709e-01, 4.30420774e-01,
       2.28412041e-02, 9.37307492e-01, 4.98728205e-01, 5.74405782e-01,
       1.73660858e-01, 5.03757227e-01, 2.43297261e-01, 2.22059500e-04,
       7.87463259e-01, 4.99303491e-01])

### 【技巧】 檢查 A 的 `shape`

In [239]:
A.shape

(50,)

### 【技巧】 更改 A 的 shape

In [240]:
A.shape=5,10
A

array([[8.22534116e-01, 7.58278248e-01, 3.02773843e-01, 8.85553034e-01,
        8.98599706e-01, 4.70707529e-01, 8.07088096e-01, 6.84927685e-02,
        5.42057009e-01, 7.48017015e-01],
       [8.06795083e-01, 5.83388469e-01, 2.49171347e-01, 1.02019085e-01,
        1.77976301e-01, 2.99299365e-01, 4.52192859e-01, 4.07189239e-01,
        5.16048299e-01, 3.41250800e-01],
       [7.27525645e-01, 4.44426907e-01, 2.85792163e-02, 5.43054341e-01,
        9.00536754e-01, 7.15555972e-01, 3.97322202e-01, 4.87581880e-01,
        7.94908610e-01, 9.35032661e-01],
       [8.20139086e-01, 2.53258141e-01, 7.48086254e-01, 4.71555218e-01,
        3.22654339e-01, 8.92368010e-01, 6.32460855e-02, 5.81409638e-01,
        3.03601709e-01, 4.30420774e-01],
       [2.28412041e-02, 9.37307492e-01, 4.98728205e-01, 5.74405782e-01,
        1.73660858e-01, 5.03757227e-01, 2.43297261e-01, 2.22059500e-04,
        7.87463259e-01, 4.99303491e-01]])

### 【技巧】 也可以用 `reshape`

但要注意, reshape 並沒有改原來的陣列。

In [243]:
A.reshape(2,25)

array([[8.22534116e-01, 7.58278248e-01, 3.02773843e-01, 8.85553034e-01,
        8.98599706e-01, 4.70707529e-01, 8.07088096e-01, 6.84927685e-02,
        5.42057009e-01, 7.48017015e-01, 8.06795083e-01, 5.83388469e-01,
        2.49171347e-01, 1.02019085e-01, 1.77976301e-01, 2.99299365e-01,
        4.52192859e-01, 4.07189239e-01, 5.16048299e-01, 3.41250800e-01,
        7.27525645e-01, 4.44426907e-01, 2.85792163e-02, 5.43054341e-01,
        9.00536754e-01],
       [7.15555972e-01, 3.97322202e-01, 4.87581880e-01, 7.94908610e-01,
        9.35032661e-01, 8.20139086e-01, 2.53258141e-01, 7.48086254e-01,
        4.71555218e-01, 3.22654339e-01, 8.92368010e-01, 6.32460855e-02,
        5.81409638e-01, 3.03601709e-01, 4.30420774e-01, 2.28412041e-02,
        9.37307492e-01, 4.98728205e-01, 5.74405782e-01, 1.73660858e-01,
        5.03757227e-01, 2.43297261e-01, 2.22059500e-04, 7.87463259e-01,
        4.99303491e-01]])

### 【技巧】 拉平 `ravel`

雖然你想一想就知道可以用 `shape` 或 `reshape` 把多維陣列拉成一維。不過用 `ravel` 很潮。

In [244]:
A.ravel()    #拉平成1D陣列

array([8.22534116e-01, 7.58278248e-01, 3.02773843e-01, 8.85553034e-01,
       8.98599706e-01, 4.70707529e-01, 8.07088096e-01, 6.84927685e-02,
       5.42057009e-01, 7.48017015e-01, 8.06795083e-01, 5.83388469e-01,
       2.49171347e-01, 1.02019085e-01, 1.77976301e-01, 2.99299365e-01,
       4.52192859e-01, 4.07189239e-01, 5.16048299e-01, 3.41250800e-01,
       7.27525645e-01, 4.44426907e-01, 2.85792163e-02, 5.43054341e-01,
       9.00536754e-01, 7.15555972e-01, 3.97322202e-01, 4.87581880e-01,
       7.94908610e-01, 9.35032661e-01, 8.20139086e-01, 2.53258141e-01,
       7.48086254e-01, 4.71555218e-01, 3.22654339e-01, 8.92368010e-01,
       6.32460855e-02, 5.81409638e-01, 3.03601709e-01, 4.30420774e-01,
       2.28412041e-02, 9.37307492e-01, 4.98728205e-01, 5.74405782e-01,
       1.73660858e-01, 5.03757227e-01, 2.43297261e-01, 2.22059500e-04,
       7.87463259e-01, 4.99303491e-01])

## 4. 快速 array 生成法

### 【技巧】 都是 0 的 array

In [251]:
np.zeros(10)    # 10筆0
np.zeros((3,4))    # 3x4的0

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

### 【技巧】 都是 1 的 array

In [246]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

### 【技巧】單位矩陣

In [252]:
np.eye(6)  # 對角線都是1

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]])

### 【技巧】給定範圍均勻生出 n 個點

In [254]:
x=np.linspace(0,10,100)  # 0到10切100個點
x

array([ 0.        ,  0.1010101 ,  0.2020202 ,  0.3030303 ,  0.4040404 ,
        0.50505051,  0.60606061,  0.70707071,  0.80808081,  0.90909091,
        1.01010101,  1.11111111,  1.21212121,  1.31313131,  1.41414141,
        1.51515152,  1.61616162,  1.71717172,  1.81818182,  1.91919192,
        2.02020202,  2.12121212,  2.22222222,  2.32323232,  2.42424242,
        2.52525253,  2.62626263,  2.72727273,  2.82828283,  2.92929293,
        3.03030303,  3.13131313,  3.23232323,  3.33333333,  3.43434343,
        3.53535354,  3.63636364,  3.73737374,  3.83838384,  3.93939394,
        4.04040404,  4.14141414,  4.24242424,  4.34343434,  4.44444444,
        4.54545455,  4.64646465,  4.74747475,  4.84848485,  4.94949495,
        5.05050505,  5.15151515,  5.25252525,  5.35353535,  5.45454545,
        5.55555556,  5.65656566,  5.75757576,  5.85858586,  5.95959596,
        6.06060606,  6.16161616,  6.26262626,  6.36363636,  6.46464646,
        6.56565657,  6.66666667,  6.76767677,  6.86868687,  6.96

### 【技巧】`range` 的 array 版

就是 `arange`。

In [258]:
np.arange(1,10,0.2) # 和range規則依樣 (start,end,steps)

array([1. , 1.2, 1.4, 1.6, 1.8, 2. , 2.2, 2.4, 2.6, 2.8, 3. , 3.2, 3.4,
       3.6, 3.8, 4. , 4.2, 4.4, 4.6, 4.8, 5. , 5.2, 5.4, 5.6, 5.8, 6. ,
       6.2, 6.4, 6.6, 6.8, 7. , 7.2, 7.4, 7.6, 7.8, 8. , 8.2, 8.4, 8.6,
       8.8, 9. , 9.2, 9.4, 9.6, 9.8])

## 5. 超重要 `axis` 觀念

初學 `numpy` 很多人有點弄不清楚 `axis` 概念。其實掌握矩陣, 或很像矩陣的陣列都是「先列後行」就可以!

我們先弄個 array 來練習。

In [261]:
A=np.arange(10).reshape(2,5)
A

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### 【重點】 一列一列算下來是 `axis=0`

![axis=0](images/axis0.png)

In [264]:
# 縱向總和=列+列= 各欄總和
print( np.sum(A,axis=0) )
print( A.sum(axis=0) )

[ 5  7  9 11 13]
[ 5  7  9 11 13]


### 【重點】 一行一行算過去是 `axis=1`

![axis=1](images/axis1.png)

In [265]:
# 橫向總和=欄+欄= 各列總和
print( np.sum(A,axis=1) )
print( A.sum(axis=1) )

[10 35]
[10 35]


### 【提示】當然也有可能全部算

In [266]:
A.sum()

45

## 6. array 過濾器

篩出我們要的資料, 這樣的技巧非常重要!

### 【例子】篩出大於 0 的數

我們有個陣列, 想找出大於 0 的數。<br>
L = np.array([3, -2, -1, 5, 7, -3])

In [267]:
L = np.array([3, -2, -1, 5, 7, -3])

我們可以很白痴的自己判斷...<br>
c = np.array([True,False,False,True,True,False])

In [273]:
c = np.array([True,False,False,True,True,False])
L[c]

array([3, 5, 7])

事實上我們可以叫 `numpy` 做!

In [278]:
L>0

array([ True, False, False,  True,  True, False])

我們還可以一次到位!

In [279]:
L[L>0]

array([3, 5, 7])

## 7. 次元切割刀

`numpy` 中 array 的切割法和 list 很像。

In [280]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [281]:
# 切出3-6
x[3:7]

array([3, 4, 5, 6])

### 【技巧】2維陣列切法

記得先列後行!

In [287]:
x=x.reshape(2,5)
x

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

要所有的row, 切出 1-3 column位置。

In [286]:
x[:,1:4]

array([[1, 2, 3],
       [6, 7, 8]])

要所有的column, 切出第 1 列row!

In [289]:
x[1,:]

array([5, 6, 7, 8, 9])

## 8. `NumPy` 的 `zip` 和 `unzip`

之前我們介紹 list 可以用 `zip` 和 `unzip` (其實還是 `zip`) 做到的資料格式變換, 在 array 中怎麼做呢?

![zip and unzip](images/zip.png)

### 【重點】array 的 `zip`

![array zip](images/arrzip.png)

In [293]:
x = np.array([1,2,3,4])
y = np.array([5,6,7,8])

In [295]:
#  當成column相加
X=np.c_[x,y]   #只能用中括號
X

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [296]:
#  當成row相加
Y=np.r_[x,y]
Y

array([1, 2, 3, 4, 5, 6, 7, 8])

In [300]:
np.concatenate((x,y),axis=0)

array([1, 2, 3, 4, 5, 6, 7, 8])

### 【重點】array 的 `unzip`

這裡其實只需要用到 array 的切割法...

![array zip](images/arrunzip.png)

In [303]:
X[0,:]

array([1, 5])