## $\Large{Numpy\; Tutorial\; (part2)}$

Numpy 是使用Python進行科學運算中最基礎的模組，主要的功能環繞在**ndarray (n-dimensional array，中文為多維陣列)**物件上。

上一個部份我們已經知道Numpy中多維陣列的一些特性以及常見的用法，在這個部分當中我們將會介紹如何操作一個或多個陣列、以及Numpy所提供的其他模組。

In [1]:
!pip install flake8 pycodestyle_magic
%load_ext pycodestyle_magic
%pycodestyle_on



### 本章節內容大綱
* [操作多維陣列(Array Manipulation)](#操作多維陣列)
    - [改變陣列維度](#改變陣列維度)
    - [取得陣列元素](#取得陣列元素)
    - [取得陣列片段](#取得陣列片段)
    - [陣列搜尋與判斷](#陣列搜尋與判斷)
    - [重複陣列元素](#重複陣列元素)
    - [排序陣列內元素](#排序陣列內元素)
* [合併或堆疊多個陣列(Array Concatenation / Stacking)](#合併或堆疊多個陣列)
    - [合併陣列](#合併陣列)
    - [堆疊陣列](#堆疊陣列)
* [Numpy內的其他模組](#Numpy內的其他模組)
    - [線性代數模組](#線性代數模組)
    - [隨機模組](#隨機模組)

In [2]:
import numpy as np

---
<a name="操作多維陣列"></a>
## 操作多維陣列

Reference: 手把手打開資料分析大門
https://www.slideshare.net/tw_dsconf/python-83977705/47

<a name="改變陣列維度"></a>
- ### 改變陣列維度

Numpy所提供的多維陣列除了在計算上很便利之外，也可以彈性地改變陣列的維度。在此我們主要介紹以下三個函數功能
    - reshape：改變陣列維度
    - expand_dim：增加陣列維度
    - squeeze：壓縮陣列維度

#### reshape 功能

reshape是在改變陣列維度中最常被使用的函數，它可以彈性地重塑陣列的形狀、增加、或是減少陣列維度。

<img src='https://drive.google.com/uc?export=view&id=1zltB5Gg6tdpPbq5MIcE2ikYAKMyaR3sE'/>


如上面這個例子，原先儲存 [0,1,2,3,4,5] 共六個元素的陣列維度可以是(6, )的一維陣列，也可以是(3,2)的二維陣列，甚至是(2,3,1)的三維陣列，唯一的需求就是改變後陣列的元素總數需與改變前相同。另外值得注意的是在改變形狀後陣列元素會依照維度依序排列，不會隨便亂跑！

In [3]:
# 創建一個一維陣列，裡面共有6個元素
x = np.arange(6)

print(x)
print(x.shape)
# [0 1 2 3 4 5]

[0 1 2 3 4 5]
(6,)


In [4]:
# 使用reshape 將原本的陣列改成(3,2)的形狀
new_x = x.reshape(3, 2)
print(new_x)
print(new_x.shape)
# [[0 1]
#  [2 3]
#  [4 5]]

[[0 1]
 [2 3]
 [4 5]]
(3, 2)


In [5]:
# 使用reshape 將原本的陣列改成(2,3,1)的形狀
new_x2 = np.arange(6).reshape(2, 3, 1)
print(new_x2)
print(new_x2.shape)

[[[0]
  [1]
  [2]]

 [[3]
  [4]
  [5]]]
(2, 3, 1)


In [6]:
x

array([0, 1, 2, 3, 4, 5])

In [7]:
# extra

# 如果懶得算要轉換的維度，也可以給予 -1 讓numpy自已計算
new_x4 = x.reshape(2, -1)
print(new_x4, new_x4.shape)

[[0 1 2]
 [3 4 5]] (2, 3)


#### expand_dims 與 squeeze 功能

相較於reshape強大且彈性的功能，expand_dims與squeeze各自負責的是在不改變陣列形狀的前提下增加或是減少維度。

In [8]:
# 創建一個一維陣列
x = np.arange(6)
print(x, x.shape)

[0 1 2 3 4 5] (6,)


In [9]:
# 在x這個陣列額外增加一個維度並且命名為x2，在這邊我們加在第一個軸，因此axis = 0
x2 = np.expand_dims(x, axis=0)
print(x2, x2.shape)

[[0 1 2 3 4 5]] (1, 6)


In [10]:
# 將x2這個陣列裡面多的維度(長度為一的維度)壓縮
x3 = np.squeeze(x2)
print(x3, x3.shape)

[0 1 2 3 4 5] (6,)


<a name="取得陣列元素"></a>
- ### 取得陣列元素

如果我們想要取出一個或多個陣列的元素的話，我們就需要使用陣列內元素的索引去取得元素本身，還記得python原生的列表(list)嗎?陣列元素索引的使用方式與列表其實非常類似，只要在陣列後面以中括號**[   ]**並在裡面填入索引就可以了，差異在於陣列的維度是多維的，因此陣列元素的索引也是多維的。

<img src='https://drive.google.com/uc?export=view&id=1B61vJz9OSg96B75_LSXN20jeFUUI7jWE'/>

In [11]:
# 創建一個一維陣列
x = np.arange(6)
print(x)
# array([0, 1, 2, 3, 4, 5])

# 取出這個陣列的第三個元素
print(x[2])
# 2

# 取出這個陣列的倒數第二個元素
print(x[-2])
# 4

[0 1 2 3 4 5]
2
4


In [12]:
# 創建一個二維陣列
x = np.arange(6).reshape(2, 3)
print(x)
# [[0, 1, 2],
#  [3, 4, 5]])

# 取出第一個維度索引為0，第二個維度索引為2的元素
print(x[0, 2])
# 2

# 取出第一個維度索引為1，第二個維度索引為-1 (倒數第一)的元素
print(x[1, -1])
# 5

[[0 1 2]
 [3 4 5]]
2
5


<a name="取得陣列片段"></a>
- ### 取得陣列片段

同樣地，在陣列中要取得某一部份的元素我們同樣可以利用和列表(list)相似的辦法。

In [13]:
# 創建一個一維陣列
x = np.arange(6)
# array([0, 1, 2, 3, 4, 5])

In [14]:
x

array([0, 1, 2, 3, 4, 5])

In [15]:
# 取出這個陣列第二到第六個元素的片段(不含第六個元素)
print(x[1:5])
# [1, 2, 3, 4]

[1 2 3 4]


In [16]:
# 取出這個陣列從頭開始到第三個元素的片段(不含第三個元素)
print(x[:2])
# [0, 1]

[0 1]


In [17]:
# 取出這個陣列第二個到第六個元素的片段(不含第六個元素)，且每隔兩個值取一個元素
print(x[1:5:2])
# [1, 3]

[1 3]


In [18]:
# 創建一個二維陣列
x = np.arange(6).reshape(2, 3)
# [[0, 1, 2],
#  [3, 4, 5]])

In [19]:
x

array([[0, 1, 2],
       [3, 4, 5]])

In [20]:
# 取出這個陣列第一個維度索引為0，第二個維度從第一個到第三個元素的片段(不含第三個元素)
print(x[0, 0:2])
#  [0, 1]

[0 1]


In [21]:
# 取出這個陣列第一個維度的所有索引，第二個維度從第二個到最後一個元素的片段
print(x[:, 1:])
# [[1, 2],
#  [4, 5]]

[[1 2]
 [4 5]]


In [22]:
# 取出這個陣列第一個維度從頭到尾且每隔一個值取一個元素，第二個維度從頭到尾且每隔兩個值取一個元素的片段
print(x[::1, ::2])
# [[0, 2],
#  [3, 5]]

[[0 2]
 [3 5]]


<a name="陣列搜尋與判斷"></a>
- ### 陣列搜尋與判斷

在一個陣列中我們也可以做搜尋或是每個元素的判斷，讓我們來看一下要如何操作吧。

In [23]:
# 創建一個一維陣列
x = np.arange(6)
# array([0, 1, 2, 3, 4, 5])

# 針對每個元素判斷是不是小於3，若小於3則為True、大於等於3則為False
condition = x < 3

# 這個只有True / Fasle 的陣列也被稱為布林遮罩(boolean mask)
print(condition)
# [ True  True  True False False False]

[ True  True  True False False False]


In [24]:
# 創建一個一維陣列
x = np.array([3, 1, 6, 4, 2])

# 使用argmax去找陣列中最大的元素索引
idx_ = np.argmax(x)
print('陣列x中最大數值的索引是:', idx_)
print('陣列x中最大數值是 : ', x[idx_])

陣列x中最大數值的索引是: 2
陣列x中最大數值是 :  6


我們也可以使用判斷過後的遮罩幫助我們取出陣列中的元素

In [25]:
# 創建一個一維陣列
x = np.arange(6)
# array([0, 1, 2, 3, 4, 5])

# 判斷這個陣列的元素是否小於3
condition = x < 3

# 可以在索引當中放入剛剛的判斷式，就可以只取出小於3的元素們
print(x[condition])
# [0, 1, 2]

[0 1 2]


In [26]:
# 也可以應用這樣個方法直接取代陣列中的元素數值
x[condition] = 0
print(x)
# [0, 0, 0, 3, 4, 5]

[0 0 0 3 4 5]


<a name="重複陣列元素"></a>
- ### 重複陣列元素

如果需要快速複製陣列中的元素，我們可以使用repeat函數功能，而若需要做的是重複整個陣列內容則可以用tile函數做到這件事情。

In [27]:
# 創建一個二維陣列
x = np.array([[0, 1], [2, 3]])
print(x)
# [[0, 1]
#  [2, 3]]

[[0 1]
 [2 3]]


In [28]:
# 重複陣列中的元素兩次，預設會將陣列攤平成一維陣列
np.repeat(x, repeats=2)
# [0, 0, 1, 1, 2, 2, 3, 3]

array([0, 0, 1, 1, 2, 2, 3, 3])

In [29]:
# 指定每個元素的重複次數
np.repeat(x, repeats=(1, 2, 3, 4))
# [0, 1, 1, 2, 2, 2, 3, 3, 3, 3]

array([0, 1, 1, 2, 2, 2, 3, 3, 3, 3])

In [30]:
# 以axis參數指定要重複時所依據的維度
# 指定axis = 0，numpy就會將第一軸index相同的元素(ex.[0, 1])當作同一組做重複。
np.repeat(x, repeats=2, axis=0)
# [[0, 1],
#  [0, 1],
#  [2, 3],
#  [2, 3]]

array([[0, 1],
       [0, 1],
       [2, 3],
       [2, 3]])

In [31]:
# 以axis參數指定要重複時所依據的維度
# 指定axis = 1，numpy就會將第二軸index相同的元素當作同一組做重複。
# (ex.[0
#     2])

np.repeat(x, repeats=2, axis=1)
# [[0, 0, 1, 1],
#  [2, 2, 3, 3]]

array([[0, 0, 1, 1],
       [2, 2, 3, 3]])

#### tile 功能

In [32]:
# 創建一個二維陣列
x = np.array([[0, 1], [2, 3]])
print(x)
# [[0, 1]
#  [2, 3]]

[[0 1]
 [2 3]]


In [33]:
# 預設在重複時會沿著最後一個維度(在這邊是axis=1)增加
np.tile(x, reps=2)
# [[0, 1, 0, 1],
#  [2, 3, 2, 3]]

array([[0, 1, 0, 1],
       [2, 3, 2, 3]])

In [34]:
# 在reps參數中也可以指定每個維度的重複次數
np.tile(x, reps=(1, 2))
# [[0, 1, 0, 1],
#  [2, 3, 2, 3]]

array([[0, 1, 0, 1],
       [2, 3, 2, 3]])

In [35]:
# 設定在第一個維度重複兩次，第二個維度不做重複動作
np.tile(x, reps=(2, 1))
# [[0, 1],
#  [2, 3],]
#  [0, 1],]
#  [2, 3],]

array([[0, 1],
       [2, 3],
       [0, 1],
       [2, 3]])

In [36]:
# 若reps參數中填入的維度大於原本陣列的維度，則會自動增加陣列維度
np.tile(x, reps=(2, 2, 2))
# [[[0, 1, 0, 1],
#  [2, 3, 2, 3],
#  [0, 1, 0, 1],
#  [2, 3, 2, 3]],
#
# [[0, 1, 0, 1],
#  [2, 3, 2, 3],
#  [0, 1, 0, 1],
#  [2, 3, 2, 3]]]

array([[[0, 1, 0, 1],
        [2, 3, 2, 3],
        [0, 1, 0, 1],
        [2, 3, 2, 3]],

       [[0, 1, 0, 1],
        [2, 3, 2, 3],
        [0, 1, 0, 1],
        [2, 3, 2, 3]]])

In [37]:
np.tile(x, reps=(2, 2, 2)).shape

(2, 4, 4)

<a name="排序陣列內元素"></a>
- ### 排序陣列內元素

針對陣列中的元素，我們也可以進行排序讓他們交換位置，另外在這邊我們也可以利用axis參數讓功能更加彈性。

In [38]:
# 創建一個二維陣列
x = np.array([[6, 5, 4], [1, 2, 3]])
print(x)

[[6 5 4]
 [1 2 3]]


In [39]:
# 使用np.sort排序陣列內元素，預設會沿著最後一個維度做排序
np.sort(x)
# [[4, 5, 6],
#  [1, 2, 3]]

array([[4, 5, 6],
       [1, 2, 3]])

In [40]:
# 也可以直接使用axis參數指定要依照哪個維度做排序
# 在此範例中因為x的維度有(0,1)兩種可能性，指定axis=-1 將等於 axis=1
np.sort(x, axis=-1)

array([[4, 5, 6],
       [1, 2, 3]])

In [41]:
# 依據第一個維度做排序
np.sort(x, axis=0)
# [[1, 2, 3],
#  [6, 5, 4]]

array([[1, 2, 3],
       [6, 5, 4]])

In [42]:
# 若指定axis = None，則會排序陣列中所有元素並且攤平
np.sort(x, axis=None)
# [1, 2, 3, 4, 5, 6]

array([1, 2, 3, 4, 5, 6])

<a name="合併或堆疊多個陣列"></a>
## 合併或堆疊多個陣列

除了對一個陣列做操作之外，有的時候也會遇到將多個陣列合併在一起的狀況，此時依據需求不同我們可以使用concatenate或是stack幫我們做到這件事情。

<a name="合併陣列"></a>
- ### 合併陣列

concatenate可以幫助我們把多個陣列沿著某一個維度合併在一起，合併之後的陣列維度會跟原本的維度數量相同，不會額外增加新的維度。

要注意的是要合併的陣列除了要合併的維度之外，其餘的維度長度都要一樣喔!

<img src='https://drive.google.com/uc?export=view&id=17bF0POHQnXo1H2whuEhGkvvUMCyhsT-w'/>

---

<img src='https://drive.google.com/uc?export=view&id=1szBfNPXI55yrZwo2Tov3P8ekWKFrpvou'/>

In [43]:
# 創建兩個二維陣列
a = np.array([[1, 2, 3], [4, 5, 6]])
b = np.array([[7, 8, 9]])

print(a)
print('--------')
print(b)

[[1 2 3]
 [4 5 6]]
--------
[[7 8 9]]


In [44]:
# 將兩個陣列沿著第一個維度合併起來，我們可以用三個陣列的shape看一下到底發生了甚麼事情
c = np.concatenate((a, b), axis=0)
print(c)
print(a.shape, b.shape, c.shape)
# [[1, 2, 3],
#  [4, 5, 6],
#  [7, 8, 9]]

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(2, 3) (1, 3) (3, 3)


In [45]:
# 創建另外一個二維陣列
d = np.array([[0], [0]])

# 將a與d兩個陣列沿著第二個維度合併起來
np.concatenate((a, d), axis=1)
# [[1, 2, 3, 0],
#  [4, 5, 6, 0]]

array([[1, 2, 3, 0],
       [4, 5, 6, 0]])

<a name="堆疊陣列"></a>
- ### 堆疊陣列

stack與concatenate不同的地方在於，需要合併的陣列無論是維度或是各維度的長度都需要相同，另外合併後的陣列會額外新增一個維度。

而vstack(vertical stacking)與hstack(horizontal stacking)則與concatenate功能類似，只是不需要指定合併的維度。

<img src='https://drive.google.com/uc?export=view&id=1F31qyZFUE2ruBaZ5qihHTX3GbTSlnUMG'/>

In [46]:
# 創建三個二維陣列
a = np.array([[0, 1],
              [2, 3]])

b = np.array([[4, 5],
              [6, 7]])

c = np.array([[8,  9],
              [10, 11]])

In [47]:
# 將三個陣列在第一個維度堆疊起來
s = np.stack([a, b, c], axis=0)
print(s)
print(s.shape)
# (3, 2, 2)

[[[ 0  1]
  [ 2  3]]

 [[ 4  5]
  [ 6  7]]

 [[ 8  9]
  [10 11]]]
(3, 2, 2)


In [48]:
# 將三個陣列沿著第一個維度合併起來
v = np.vstack([a, b, c])
print(v)
print(v.shape)
# (6, 2)

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]]
(6, 2)


In [49]:
# 將三個陣列沿著第二個維度合併起來
h = np.hstack([a, b, c])
print(h)
print(h.shape)
# (2, 6)

[[ 0  1  4  5  8  9]
 [ 2  3  6  7 10 11]]
(2, 6)


---
<a name="Numpy內的其他模組"></a>
## Numpy內的其他模組

由於numpy提供的是通用性的陣列物件，除了上述的基本功能之外，也有其他模組供使用者進行其他的數學運算，在此我們介紹兩個較常使用的模組，分別為線性代數模組與隨機模組。

<a name="線性代數模組"></a>
- ### 線性代數模組

在numpy中，二維的陣列即可以當作矩陣來使用，因此在numpy.linalg 模組中提供許多針對矩陣進行操作的函數和方法。在此我們簡單介紹如何將一個矩陣作轉置、得到它的反矩陣、以及做內積。

轉置矩陣：m \* n 矩陣在向量空間上轉置為 n \* m 矩陣  
反矩陣：n \* n 矩陣 A 存在一個 n \* n 矩陣 B，使得 AB = BA = I

In [50]:
# 創建一個二維陣列，可視為矩陣
x = np.array([[0, 1],
              [2, 3]])

print(x)

[[0 1]
 [2 3]]


In [51]:
# 取得x的轉置矩陣
print(x.T)
# [[0, 2],
#  [1, 3]]

[[0 2]
 [1 3]]


In [52]:
# 取得x的反矩陣
inverse = np.linalg.inv(x)
print(inverse)
# [[-1.5, 0.5],
#  [1,    0]]

[[-1.5  0.5]
 [ 1.   0. ]]


In [53]:
# 將x與x的反矩陣進行內積，結果應為單位矩陣
print(np.dot(x, inverse))
# [[ 1.  0.]
#  [ 0.  1.]]

[[1. 0.]
 [0. 1.]]


<a name="隨機模組"></a>
- ### 隨機模組

在數學運算或模擬的過程中，我們很常需要隨機地產生數字，此時我們就可以使用numpy的隨機模組。

In [54]:
# 設定隨機種子
np.random.seed(seed=818)

# 使用np.random模組產生隨機整數
# 設定範圍為1到10，並且產生5個隨機整數 (每個整數出現的機率相同)
print(np.random.randint(low=1, high=10, size=5))

[6 5 6 7 6]


In [55]:
# 從標準常態分配中取得10個數字
print(np.random.randn(10))

[ 1.06991018  0.38406747 -1.54283716  1.80118313  0.05777835 -0.1332702
 -0.26652827 -0.25196111  0.21402129 -0.6670333 ]


大家可能會疑惑一開始的隨機種子到底是甚麼意思，事實上在電腦裡面所取的隨機數並非真正的隨機，而是透過演算法所產生出來的隨機數字，這樣的方式又被稱為偽隨機(Pseudo-Randomness)。

也因為這樣，只要我們給予相同的數字作為輸入給產生隨機數的演算法，就能夠得到一模一樣的同一組隨機數字，這個決定隨機演算法輸出的數字也被稱為隨機種子。在numpy內我們可以使用np.random.seed 設定當使用到隨機模組時要使用的隨機種子數值是多少。

In [56]:
# 設定隨機種子為10，並且從標準常態分配中抽取一個樣本
np.random.seed(seed=10)
print(np.random.randn(1))

# 再一次設定這次要用的隨機種子是10，看看我們可不可以得到相同的結果
np.random.seed(seed=10)
print(np.random.randn(1))

[1.3315865]
[1.3315865]
