# Array Manipulation

### 查看陣列基本屬性
> `ndim` : 維度數量(show有幾維)  
> `shape` : 維度大小(show每一個維度的長度)  
> `size` : 陣列總大小  
> `dtype` : 陣列資料型態  
> `itemsize` : 陣列內每個元素大小(bytes為單位)  
> `nbytes` : 陣列使用多少記憶體(bytes為單位)  
> `astype` : 轉換元素資料型態  

In [2]:
import numpy as np

In [3]:
a = np.random.random([3,3])
a

array([[0.87829934, 0.95148559, 0.9710468 ],
       [0.9784813 , 0.3614916 , 0.14524829],
       [0.88601571, 0.19169026, 0.80424848]])

In [4]:
a.size

9

In [5]:
a.shape

(3, 3)

In [6]:
a.ndim

2

In [7]:
a.dtype

dtype('float64')

In [9]:
# float64代表64bit => 64/8 = 8bytes，也就是說每一個元素是8bytes
a.itemsize

8

In [12]:
# nbytes = itemsize * size，9個元素，每一個8byte，總和就是72!
a.nbytes

72

In [181]:
# 轉換資料型態 string => float (無指定就是default 64)
a = np.array(['1.25', '-9.6', '42']) 
a.astype(float), a.astype(float).dtype

(array([ 1.25, -9.6 , 42.  ]), dtype('float64'))

In [180]:
# 轉換資料型態 float64 => int32 / int8 / uint8
b = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
b.dtype, b.astype(np.int32).dtype, b.astype(np.int8), b.astype(np.uint8)

(dtype('float64'),
 dtype('int32'),
 array([ 3, -1, -2,  0, 12, 10], dtype=int8),
 array([  3, 255, 254,   0,  12,  10], dtype=uint8))

### Basic Indexing(陣列索引)
np array索引方式和list大致相同，都是透過[value1 , value2 , ...]來做索引，這裡的value指的是各維度內元素的位置!

In [20]:
np.random.randn(5)[0]

0.3537377200330542

In [21]:
np.random.randn(5)[2:4]

array([-0.47222706, -1.19063134])

In [24]:
# 二維陣列-1取的就是最後一行(沒逗點，代表第一維度，所以-1就是指倒數第一個元素!!)
a = np.random.random([3,3])
a , a[-1]

(array([[0.22265384, 0.79020508, 0.14775635],
        [0.4137186 , 0.42467868, 0.43176963],
        [0.31225144, 0.08548396, 0.79474236]]),
 array([0.31225144, 0.08548396, 0.79474236]))

In [27]:
# 第一維度內倒數第2個元素，這個元素裡面的第2個元素(0為第一個)
a[-2 ,1]

0.4246786757456317

In [29]:
# 透過索引變更陣列元素值
a[2,2] = 0.000005
a

array([[2.22653840e-01, 7.90205080e-01, 1.47756348e-01],
       [4.13718601e-01, 4.24678676e-01, 4.31769633e-01],
       [3.12251444e-01, 8.54839646e-02, 5.00000000e-06]])

### Fancy Index 
fancy索引的概念就是使用陣列當作索引值進行slice!

In [2]:
import numpy as np
x = np.random.randint(0,100,size=10)
x

array([77,  6, 80, 10, 20, 84, 85, 72, 99, 79])

In [8]:
# 注意fancy索引回傳的是broadcasting後的shape，而非原始資料shape
ind = np.array([[3,7] , [4,5]])
x[ind]

array([[35, 26],
       [17,  3]])

In [9]:
# 建立初始矩陣
X=np.arange(12).reshape(3,4)
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [10]:
# np array 取陣列對應元素運算
row = np.array([0,1,2]) 
col = np.array([2,1,3])
X[row,col]

array([ 2,  5, 11])

In [None]:
# broadcasting應用

In [11]:
X[row[:,np.newaxis] , col]

array([[ 2,  1,  3],
       [ 6,  5,  7],
       [10,  9, 11]])

In [12]:
# 使用陣列進行索引
X[2 , [0,3,1]]

array([ 8, 11,  9])

In [13]:
# 使用陣列進行索引
X[1: , [0,3,1]]

array([[ 4,  7,  5],
       [ 8, 11,  9]])

In [17]:
# 與布林陣列組合使用
mask = np.array([1,0,1,0] , dtype='bool')
mask , X[row[:,np.newaxis] , :] , X[row[:,np.newaxis] , mask]

(array([ True, False,  True, False]),
 array([[[ 0,  1,  2,  3]],
 
        [[ 4,  5,  6,  7]],
 
        [[ 8,  9, 10, 11]]]),
 array([[ 0,  2],
        [ 4,  6],
        [ 8, 10]]))

### Basic Slicing(陣列切片)
和list相同，使用:做陣列切割

##### 一維陣列切割

In [55]:
x = np.arange(11)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [32]:
# 切出5~最後
x[5:]

array([ 5,  6,  7,  8,  9, 10])

In [60]:
# 間隔2，從頭開始
x[::2]

array([ 0,  2,  4,  6,  8, 10])

In [40]:
# 間隔2，從索引值為3的元素開始
x[3::2]

array([3, 5, 7, 9])

In [41]:
# 反轉所有元素
x[::-1]

array([10,  9,  8,  7,  6,  5,  4,  3,  2,  1,  0])

In [52]:
# 從索引值為5的地方反向切割
x[5::-2]

array([5, 3, 1])

In [58]:
# 從索引1開始切到索引7(不包含7)，間隔3
x[1:7:3]

array([1, 4])

##### 多維陣列切割

In [44]:
y = np.random.random([5,5])
y

array([[0.30303162, 0.42000227, 0.65677541, 0.7295459 , 0.1051267 ],
       [0.06976164, 0.82281273, 0.2795462 , 0.35855545, 0.80955563],
       [0.22818419, 0.41936896, 0.46837036, 0.21796807, 0.9881694 ],
       [0.51362509, 0.36489119, 0.35867755, 0.82294705, 0.31380788],
       [0.06010595, 0.77760771, 0.50714877, 0.39374454, 0.47919945]])

In [59]:
# 只取第3列
y[2,:]

array([0.22818419, 0.41936896, 0.46837036, 0.21796807, 0.9881694 ])

In [46]:
# 第一維度從0切到2(不包含2) ; 第二維度從0切到3(不包含3)
y[:2,:3]

array([[0.30303162, 0.42000227, 0.65677541],
       [0.06976164, 0.82281273, 0.2795462 ]])

In [48]:
# 第一維度不動 ; 第二維度從0開始間隔2
y[:,::2]

array([[0.30303162, 0.65677541, 0.1051267 ],
       [0.06976164, 0.2795462 , 0.80955563],
       [0.22818419, 0.46837036, 0.9881694 ],
       [0.51362509, 0.35867755, 0.31380788],
       [0.06010595, 0.50714877, 0.47919945]])

In [51]:
# 兩個維度的順序都反轉
y[::-1,::-1]

array([[0.47919945, 0.39374454, 0.50714877, 0.77760771, 0.06010595],
       [0.31380788, 0.82294705, 0.35867755, 0.36489119, 0.51362509],
       [0.9881694 , 0.21796807, 0.46837036, 0.41936896, 0.22818419],
       [0.80955563, 0.35855545, 0.2795462 , 0.82281273, 0.06976164],
       [0.1051267 , 0.7295459 , 0.65677541, 0.42000227, 0.30303162]])

In [19]:
# 重複運算可能造成的謬誤
x=np.zeros(10)
i=[2,3,3,4,4,4]
x[i] += 1 
x

array([0., 0., 1., 1., 1., 0., 0., 0., 0., 0.])

In [23]:
# 要正確的在每一次索引都正確動作，需要使用 .at()方法
x=np.zeros(10)
i=[2,3,3,4,4,4]
np.add.at(x,i,1)
x

array([0., 0., 1., 2., 3., 0., 0., 0., 0., 0.])

### Masking Slicing
使用陣列或是邏輯值進行陣列篩選

In [6]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 2) 
names, data

(array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4'),
 array([[-0.15856481,  0.70669498],
        [-0.07738265,  0.77413698],
        [-0.16610137,  0.41795472],
        [ 1.76530875,  0.86053321],
        [ 0.09406502,  0.7015382 ],
        [ 0.39873852, -0.34526082],
        [-0.3964849 ,  1.3301635 ]]))

In [12]:
# 注意當索引只輸入單一陣列(無:號)時，以row方向篩選哪幾列要呈現
names != 'Bob', data[(names != 'Bob')]

(array([False,  True,  True, False,  True,  True,  True]),
 array([[-0.07738265,  0.77413698],
        [-0.16610137,  0.41795472],
        [ 0.09406502,  0.7015382 ],
        [ 0.39873852, -0.34526082],
        [-0.3964849 ,  1.3301635 ]]))

In [10]:
# 單一邏輯值則呈現整體陣列或是無內容的空陣列
data[False] , data[True]

(array([], shape=(0, 7, 2), dtype=float64),
 array([[[-0.15856481,  0.70669498],
         [-0.07738265,  0.77413698],
         [-0.16610137,  0.41795472],
         [ 1.76530875,  0.86053321],
         [ 0.09406502,  0.7015382 ],
         [ 0.39873852, -0.34526082],
         [-0.3964849 ,  1.3301635 ]]]))

In [11]:
mask = (names == 'Bob') | (names == 'Will')
mask, data[mask]

(array([ True, False,  True,  True,  True, False, False]),
 array([[-0.15856481,  0.70669498],
        [-0.16610137,  0.41795472],
        [ 1.76530875,  0.86053321],
        [ 0.09406502,  0.7015382 ]]))

### Sorting(陣列排序)
根據API文件 https://numpy.org/doc/stable/reference/generated/numpy.sort.html  
Numpy內的預設排序是quick sort演算法!  
排序包含以下方法: 
> sort(array , axis=0) : 回傳排序後的陣列    
> argsort(array , axis=0) : 同上，只是回傳元素索引位置  
> partition(array , index , axis=0) : 依照特定維度排序，將該維度內最小的元素指定個數放在最左邊，其他元素亂數放置     
> argpartition(array , index , axis=0) : 同上，只是回傳元素索引位置  

In [30]:
# 使用OOP的方法會導致原資料被變更
x=np.array([2,1,4,3,5])
x.sort() , x 

(None, array([1, 2, 3, 4, 5]))

In [29]:
# 原資料不更動的做法
x=np.array([2,1,4,3,5])
np.sort(x) , x

(array([1, 2, 3, 4, 5]), array([2, 1, 4, 3, 5]))

In [31]:
# 回傳索引值
x=np.array([2,1,4,3,5])
i = np.argsort(x)
i

array([1, 0, 3, 2, 4], dtype=int64)

In [32]:
# 使用 fancy 索引還原排序後資料
x[i]

array([1, 2, 3, 4, 5])

In [34]:
# 排序也可以根據維度方向來操作
rand=np.random.RandomState(42)
X=rand.randint(0,10,[4,6])
X

array([[6, 3, 7, 4, 6, 9],
       [2, 6, 7, 4, 3, 7],
       [7, 2, 5, 4, 1, 7],
       [5, 1, 4, 0, 9, 5]])

In [35]:
np.sort(X,axis=1)

array([[3, 4, 6, 6, 7, 9],
       [2, 3, 4, 6, 7, 7],
       [1, 2, 4, 5, 7, 7],
       [0, 1, 4, 5, 5, 9]])

In [40]:
# 可以看到最小的3個元素被放在最左邊，並且沒有經過排序!
x=np.array([7,2,3,1,6,5,4])


array([2, 1, 3, 4, 6, 5, 7])

In [41]:
# 同樣可以操作在二維陣列
np.partition(X,2,axis=1)

array([[3, 4, 6, 7, 6, 9],
       [2, 3, 4, 7, 6, 7],
       [1, 2, 4, 5, 7, 7],
       [0, 1, 4, 5, 9, 5]])

In [42]:
# 重要應用! 計算2維平面多點的 metric matrix
X=np.random.randint(0,50,[10,2])
X

array([[ 2, 33],
       [42, 29],
       [15, 16],
       [36, 48],
       [ 1, 17],
       [11, 45],
       [46, 42],
       [ 7, 41],
       [39, 23],
       [46, 40]])

In [44]:
# 利用broadcasting原理，達到X,Y座標相減並且取平方和的效果!!
dist_q = np.sum( (X[:,np.newaxis,:]-X[np.newaxis,:,:])**2 , axis=-1)
dist_q

array([[   0, 1616,  458, 1381,  257,  225, 2017,   89, 1469, 1985],
       [1616,    0,  898,  397, 1825, 1217,  185, 1369,   45,  137],
       [ 458,  898,    0, 1465,  197,  857, 1637,  689,  625, 1537],
       [1381,  397, 1465,    0, 2186,  634,  136,  890,  634,  164],
       [ 257, 1825,  197, 2186,    0,  884, 2650,  612, 1480, 2554],
       [ 225, 1217,  857,  634,  884,    0, 1234,   32, 1268, 1250],
       [2017,  185, 1637,  136, 2650, 1234,    0, 1522,  410,    4],
       [  89, 1369,  689,  890,  612,   32, 1522,    0, 1348, 1522],
       [1469,   45,  625,  634, 1480, 1268,  410, 1348,    0,  338],
       [1985,  137, 1537,  164, 2554, 1250,    4, 1522,  338,    0]])

In [45]:
# 確認對角線均為0
dist_q.diagonal()

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [46]:
# 利用argsort()得到元素排序，注意每列第一個元素0~9，因為自己和自己距離最近(距離0)
nearest = np.argsort(dist_q , axis=1)
nearest

array([[0, 7, 5, 4, 2, 3, 8, 1, 9, 6],
       [1, 8, 9, 6, 3, 2, 5, 7, 0, 4],
       [2, 4, 0, 8, 7, 5, 1, 3, 9, 6],
       [3, 6, 9, 1, 5, 8, 7, 0, 2, 4],
       [4, 2, 0, 7, 5, 8, 1, 3, 9, 6],
       [5, 7, 0, 3, 2, 4, 1, 6, 9, 8],
       [6, 9, 3, 1, 8, 5, 7, 2, 0, 4],
       [7, 5, 0, 4, 2, 3, 8, 1, 6, 9],
       [8, 1, 9, 6, 2, 3, 5, 7, 0, 4],
       [9, 6, 1, 3, 8, 5, 7, 2, 0, 4]], dtype=int64)

In [48]:
# 找出距離最近的2點，也就是針對每一列排序，把最小的丟到最左邊，即為kNN的概念!
nearest_partition = np.argpartition(dist_q , 3 , axis=1)
nearest_partition 

array([[5, 0, 7, 4, 1, 3, 6, 2, 8, 9],
       [1, 8, 9, 6, 3, 5, 2, 7, 0, 4],
       [2, 4, 0, 8, 7, 3, 1, 5, 9, 6],
       [3, 6, 9, 1, 8, 5, 7, 0, 2, 4],
       [2, 4, 0, 7, 5, 3, 1, 8, 9, 6],
       [5, 7, 0, 3, 2, 4, 6, 1, 8, 9],
       [6, 9, 3, 1, 8, 5, 2, 7, 0, 4],
       [5, 0, 7, 4, 1, 3, 6, 2, 8, 9],
       [9, 1, 8, 6, 2, 3, 5, 7, 0, 4],
       [6, 9, 1, 3, 8, 5, 2, 7, 0, 4]], dtype=int64)

In [61]:
# 至於取出每列前兩個位置，可透過hsplit
np.hsplit(nearest_partition , [0,2])[1]

array([[5, 0],
       [1, 8],
       [2, 4],
       [3, 6],
       [2, 4],
       [5, 7],
       [6, 9],
       [5, 0],
       [9, 1],
       [6, 9]], dtype=int64)

### Shallow Copy
在np array的運算下，修改np array會同步修改到原始資料(inplace)，因此我們需要將原資料copy一份作修改用，保原資料完整性!

In [62]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [63]:
arr_slice = arr[5:8]
arr, arr_slice

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), array([5, 6, 7]))

In [65]:
# 變更slice後的資料，原始資料也會連動
arr_slice[:] = 64
arr, arr_slice 

(array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9]), array([64, 64, 64]))

In [37]:
arr2 = np.arange(10)
arr2

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]:
# 使用 copy()
arr_slice2 = arr2[5:8].copy()
arr_slice2[:] = 64
arr2, arr_slice2 

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), array([64, 64, 64]))

### Deep Copy
shallow copy與deep copy最大的差異在於變更的元素是否immutable!! 

In [17]:
import copy
a = [1, [2,3]]
a_ref = a
a_shallowcopy = copy.copy(a)
a_deepcopy = copy.deepcopy(a)

print("{:<15}{:<20}{}".format("a:", f"{a}", f"id:{id(a_ref)}"))
print("{:<15}{:<20}{}".format("a_shallow_copy:", f"{a_shallowcopy}", f"id:{id(a_shallowcopy)}"))
print("{:<15}{:<20}{}".format("a_deepcopy:", f"{a_deepcopy}", f"id:{id(a_deepcopy)}"))

a[0] = 4
a[1][0] = 99
print("\nChange immutable part: a[0] = 4")
print("\nChange immutable part: a[1][0] = 99")
print("{:<15}{:<20}{}".format("a:", f"{a}", f"id:{id(a_ref)}"))
print("{:<15}{:<20}{}".format("a_shallow_copy:", f"{a_shallowcopy}", f"id:{id(a_shallowcopy)}"))
print("{:<15}{:<20}{}".format("a_deepcopy:", f"{a_deepcopy}", f"id:{id(a_deepcopy)}"))

a:             [1, [2, 3]]         id:2428796930048
a_shallow_copy:[1, [2, 3]]         id:2428425060288
a_deepcopy:    [1, [2, 3]]         id:2428796936448

Change immutable part: a[0] = 4

Change immutable part: a[1][0] = 99
a:             [4, [99, 3]]        id:2428796930048
a_shallow_copy:[1, [99, 3]]        id:2428425060288
a_deepcopy:    [1, [2, 3]]         id:2428796936448


### Dimension Definition(陣列維度定義)
陣列簡易理解:
> 幾組中括號 [ ] 即為幾維陣列  
> 維度計算由外而內 => [[[ ... ]]]  

以下介紹1~3維陣列

In [2]:
# 1d-array concept
# 一維陣列即為一串數字，以[...]呈現，資料型別為ndarray
import numpy as np
x = np.array(range(10))
print(x , x.shape , type(x))

[0 1 2 3 4 5 6 7 8 9] (10,) <class 'numpy.ndarray'>


In [16]:
# 2d-array concept
# 將一維陣列內的元素置換成陣列，整個物件即為二維陣列，以[ [...] , [...] , ...]呈現，資料型別仍為ndarray 
y = np.random.randn(2, 3)
print(y , y.shape , type(y))
# 這裡的shape(2,3)意思就是這個ndarray物件內有2個元素，這2個元素都是陣列，且內容包含3個元素，而這個3也就是我們說的第二維度的元素數目!

[[-1.16793029 -0.42805292  0.05283791]
 [-0.94743635  0.31580892 -0.01051219]] (2, 3) <class 'numpy.ndarray'>


In [11]:
# 3d-array concept
# 將二維陣列內的元素置換成陣列，整個物件即為三維陣列，以[ [ [...] , [...] , ... ]  , ...]
z = np.arange(24).reshape(2, 3, 4)
print(z , z.shape , type(z))
# 這裡的shape(2,3,4)意思就是ndarray物件內有2個陣列元素，其內容包含3個陣列元素，這3個陣列元素長度為4，而這個4也就是第三維度的元素數目! 

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]] (2, 3, 4) <class 'numpy.ndarray'>


### Concatenate(陣列的串接)
Numpy中串接array主要以concatenate,stack來完成  
根據官方API文件，https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html?highlight=concat#numpy.concatenate  
concatenate第一個position arg需要給array-like的物件，其shape必須相同，例如: (2,3)對應(2,3)  
而這個array-like物件可以用tuple形式；也可以用list形式! i.e. (...) or [...]  
> `concatenate( [a1,a2,...] [, axis=0 , dtype=None])`  
預設axis=第一維度0，而給None則表示結果以一維陣列顯示

In [82]:
a = np.random.randn(5) ; b = np.arange(5 , dtype='float64')
a , b

(array([ 0.34870849, -0.13177096, -0.71142358, -1.97758005,  0.20605235]),
 array([0., 1., 2., 3., 4.]))

In [87]:
# 注意如果不用tuple or list input會報錯
# np.concatenate(a,b)
np.concatenate( [a,b])

array([ 0.34870849, -0.13177096, -0.71142358, -1.97758005,  0.20605235,
        0.        ,  1.        ,  2.        ,  3.        ,  4.        ])

In [88]:
# 使用tuple形式也可以
np.concatenate( (a,b))

array([ 0.34870849, -0.13177096, -0.71142358, -1.97758005,  0.20605235,
        0.        ,  1.        ,  2.        ,  3.        ,  4.        ])

In [98]:
# 串接3個陣列，default axis=0，所以結果會是一維陣列!
c = [0,5,10,15,20]
np.concatenate( [a,b,c])

array([ 0.34870849, -0.13177096, -0.71142358, -1.97758005,  0.20605235,
        0.        ,  1.        ,  2.        ,  3.        ,  4.        ,
        0.        ,  5.        , 10.        , 15.        , 20.        ])

In [91]:
# 二維陣列串接
grid = np.array([[1,2,3],[4,5,6]])
grid

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
# 以第一維度串接

In [94]:
np.concatenate( (grid,grid) , axis=0)

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [None]:
# 以第二維度串接

In [95]:
np.concatenate( (grid,grid) , axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [97]:
# axis給None代表攤平成一維
np.concatenate( (grid,grid) , axis=None)

array([1, 2, 3, 4, 5, 6, 1, 2, 3, 4, 5, 6])

### Reshape(陣列的重塑)
> .reshape()方法能讓指定的ndarray依照指定維度回傳，但如果ndarray元素數目與指定維度不相符則會報錯  
> .newaxis 可以強制增加維度  

In [104]:
# 把24個元素的1維陣列轉乘2x3x4的3維陣列
# 注意維度指定錯誤會報錯
#np.arange(24).reshape(7,3,4)
np.arange(24).reshape(2,3,4)

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [102]:
# 新增第二維度於原先的2維陣列，形成3維陣列
np.arange(15).reshape(5,3)[:,np.newaxis,:]

array([[[ 0,  1,  2]],

       [[ 3,  4,  5]],

       [[ 6,  7,  8]],

       [[ 9, 10, 11]],

       [[12, 13, 14]]])

### Transpose(陣列的轉置)
正確來說應該用permutation，因為轉置是指數學上矩陣的兩維度交換(e.g. M')  
置入的數字代表要將原始陣列的第幾維度換到該shape上:  
> `.transpose(dim1 , dim2 , ...)` : arg個數必須與維度數相符，否則報錯，取值為0~最大維度數，數字不能重複  

In [12]:
# 下面的例子是這樣看: 把原始陣列的axis=1維度元素數目換到axis=0上，也就是說axis=0這個維度數目會是3，後面以此類推...
a = np.arange(24).reshape(2,3,4)
a.transpose(1,2,0)

array([[[ 0, 12],
        [ 1, 13],
        [ 2, 14],
        [ 3, 15]],

       [[ 4, 16],
        [ 5, 17],
        [ 6, 18],
        [ 7, 19]],

       [[ 8, 20],
        [ 9, 21],
        [10, 22],
        [11, 23]]])

### Stride(陣列的排序)
在陣列內，存在base基底，它是一個1維陣列。後續衍生的ndarray物件都是參考base產生。  
也就是說，如果我們查詢由同樣一維陣列衍生的array的base，他們會相同!!  
有了這個概念後，接下來就必須要知道stride。  
stride根據Numpy API文件 https://numpy.org/doc/stable/reference/generated/numpy.ndarray.strides.html  
這個屬性的定義為 Tuple of bytes to step in each dimension when traversing an array.  
也就是在特定維度上移動1單位所需要的byte數。  
我們透過以下例子詳細說明:

In [6]:
# 建立原生與衍生物件陣列
a = np.arange(24)
b = np.arange(24).reshape(2,3,4)
c = np.arange(24).reshape(3,2,4)
a,b,c

(array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19, 20, 21, 22, 23]),
 array([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],
 
        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]]),
 array([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7]],
 
        [[ 8,  9, 10, 11],
         [12, 13, 14, 15]],
 
        [[16, 17, 18, 19],
         [20, 21, 22, 23]]]))

In [7]:
# 可以看到b,c兩個衍生陣列的base均相同，而a為原生陣列，並非透過Numpy的陣列方法產生的物件，因此回傳None
a.base , b.base , c.base

(None,
 array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19, 20, 21, 22, 23]),
 array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19, 20, 21, 22, 23]))

In [8]:
# 查看b,c兩陣列的strides，會發現略有不同
b.strides , c.strides

((48, 16, 4), (32, 16, 4))

In [10]:
# transpose 會改變物件的stride，因此會對元素填入順序產生影響
d = b.transpose(1,2,0)
d

array([[[ 0, 12],
        [ 1, 13],
        [ 2, 14],
        [ 3, 15]],

       [[ 4, 16],
        [ 5, 17],
        [ 6, 18],
        [ 7, 19]],

       [[ 8, 20],
        [ 9, 21],
        [10, 22],
        [11, 23]]])

In [11]:
# stride由b的(48,16,4)變成(16,4,48)，與transpose變換方式相同
d.strides

(16, 4, 48)

In [None]:
# 回傳的tuple代表每一個維度移動1單位所需要的byte數
# 第三維度為48，代表從 d[0,0,0] 移動到 d[0,0,1] 需要48 bytes，而 1 int = 4 byte，因此需要移動12個單位 => base從0開始移動12個單位即為12
# 第二維度為48，代表從 d[0,0,0] 移動到 d[0,1,0] 需要4 bytes，而 1 int = 4 byte，因此需要移動1個單位 => base從0開始移動1個單位即為1
# 第一維度為48，代表從 d[0,0,0] 移動到 d[1,0,0] 需要16 bytes，而 1 int = 4 byte，因此需要移動4個單位 => base從0開始移動4個單位即為4
# 因此，第2維度的第0個元素即為 [0,12] ...以此類推

### Split(陣列的分割)
根據Numpy API文件 https://numpy.org/doc/stable/reference/generated/numpy.split.html  
`np.split(array , indices_or_sections , axis=0) ` 
> 第1個position arg為ndarray，即Numpy陣列  
> 第2個position arg為指標或區間  
        - 指標: 給整數，就代表要分成幾段，但是如果段數不能整除資料長度會報錯  
        - 區間: 可以直接給list也可以用np.array(range())給，不能整除不會報錯，會將不足的部分以空陣列array([])回傳  
> 第3個position arg為分割方向，0為第一維度軸；1為第二維度軸...以此類推  

In [12]:
# 有了多維陣列的概念，split/vsplit/hsplit/vstack/hstack/concatenate只要了解維度運算方向就能輕易解決
# Ex1 : 一維數據切割
a = np.arange(15)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [71]:
# 整數切割
np.split(a , 3) # 分成3段
#np.split(a , 7) # 分成7段，因為15不能被7整除，所以會報錯!

[array([[0.22265384, 0.79020508, 0.14775635]]),
 array([[0.4137186 , 0.42467868, 0.43176963]]),
 array([[3.12251444e-01, 8.54839646e-02, 5.00000000e-06]])]

In [72]:
# 區間切割
np.split(a , [2,4]) # [2,4]代表2,3，所以第2和第3元素會被切在一段，前段(0,1)與末段(4~14)剩餘元素分別整合成一個array，所以最終結果會有3個ndarray
#np.split(a , np.array([1,6,9])) # 根據切割區間的定義，[1,6,9]代表 0 / 1~5 / 6~8 / 9~14，即為切割結果
#np.split(a , np.array([12,20,25])) # 根據API定義，切割區間超出範圍時，不存在的區間以空回傳，所以20~24 和 25~均為空陣列

[array([[0.22265384, 0.79020508, 0.14775635],
        [0.4137186 , 0.42467868, 0.43176963]]),
 array([[3.12251444e-01, 8.54839646e-02, 5.00000000e-06]]),
 array([], shape=(0, 3), dtype=float64)]

In [73]:
# Ex2 : 一維數據切割
b = np.arange(32).reshape((8, 4))
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [74]:
# 整數切割
#np.split(b , 3 ,axis=0) # 8無法被3整除，因此報錯
np.split(b , 4) # default切割axis=0，也就是第一維度的方向，而第一維度內有8個元素，因此切割後每一組有2個元素，也就是[ [陣列1] , [陣列2] ]，一個二維陣列

[array([[0, 1, 2, 3],
        [4, 5, 6, 7]]),
 array([[ 8,  9, 10, 11],
        [12, 13, 14, 15]]),
 array([[16, 17, 18, 19],
        [20, 21, 22, 23]]),
 array([[24, 25, 26, 27],
        [28, 29, 30, 31]])]

In [75]:
# 區間切割
#np.split(b , [2,4] ,axis=0) # default在第一維度方向，因此會切出0,1 / 2,3 / 4,5,6,7這樣的組合區間，且每一個元素都是一個陣列
np.split(b , [2,3]  ,axis=1) # 設定往第二維度方向切割，也就是4這個元素數目，舉例來說[0,1,2,3]就會被切成0,1 / 2 / 3，每一分段為二維陣列

[array([[ 0,  1],
        [ 4,  5],
        [ 8,  9],
        [12, 13],
        [16, 17],
        [20, 21],
        [24, 25],
        [28, 29]]),
 array([[ 2],
        [ 6],
        [10],
        [14],
        [18],
        [22],
        [26],
        [30]]),
 array([[ 3],
        [ 7],
        [11],
        [15],
        [19],
        [23],
        [27],
        [31]])]

In [76]:
# Ex3 : 三維數據切割
c = np.arange(24).reshape((3,4,2))
c
# np.split(c , [2,3] , axis=1)
# c.sum(axis=0)
# c.sum(axis=1)
# c.sum(axis=2)

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15]],

       [[16, 17],
        [18, 19],
        [20, 21],
        [22, 23]]])

In [77]:
# 整數切割
#np.split(c , 2) # 第一維度為3，因此無法被2整除，所以報錯
#np.split(c , 3) # 將第一維度切成3段呈現
np.split(c , 2 , axis=1) # 以第二維度的方向來切，第二維度內元素長度為4，因此拆成2組，每一組都是3維陣列

[array([[[ 0,  1],
         [ 2,  3]],
 
        [[ 8,  9],
         [10, 11]],
 
        [[16, 17],
         [18, 19]]]),
 array([[[ 4,  5],
         [ 6,  7]],
 
        [[12, 13],
         [14, 15]],
 
        [[20, 21],
         [22, 23]]])]

In [78]:
# 區間切割
#np.split(c , [2,4]) # 以第一維度切割，因此結果為第0,1 / 2,3  / 4~，而3個元素後面沒有了，所以 4~的部分會以空array回傳
#np.split(c , [3,5] , axis=2) # 以第三維度切割，因為第三維度內有2個元素，因此[3,5]切割代表0,1,2 / 3,4 / 5~，所以只會有0,1 後面兩段都以空array回傳
np.split(c , [2,3] , axis=1) # 以第2維度切割，因第二維度內有4個元素，因此[2,3]切割代表 0,1 / 2 / 3,4~

[array([[[ 0,  1],
         [ 2,  3]],
 
        [[ 8,  9],
         [10, 11]],
 
        [[16, 17],
         [18, 19]]]),
 array([[[ 4,  5]],
 
        [[12, 13]],
 
        [[20, 21]]]),
 array([[[ 6,  7]],
 
        [[14, 15]],
 
        [[22, 23]]])]

In [10]:
# 應用: 根據不同維度方向計算sum
print(c.sum(axis=0))
print(c.sum(axis=1))
print(c.sum(axis=2))

[[24 27]
 [30 33]
 [36 39]
 [42 45]]
[[12 16]
 [44 48]
 [76 80]]
[[ 1  5  9 13]
 [17 21 25 29]
 [33 37 41 45]]


### Stack(矩陣的堆疊)
根據Numpy API文件 https://numpy.org/doc/stable/reference/generated/numpy.stack.html  
np.stack()第一個position arg需要給要被堆疊的array-like的物件，其shape必須相同，例如: (2,3)對應(2,3)
而這個array-like物件可以用tuple形式；也可以用list形式! i.e. (...) or [...]  
此外，文件內最重要的敘述在此:  "specifies the index of the new axis"，注意new即為「新增」維度  
也就是說stack會增加維度再堆疊!  
`stack( [arr1,arr2,...] [, axis=0])`

In [113]:
# 產生2個相同shape的陣列
a = np.arange(10).reshape(2,5)
b = np.arange(10,20,1).reshape(2,5)
c = np.arange(10,25,5)
a,b,c

(array([[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]]),
 array([[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]]),
 array([10, 15, 20]))

In [147]:
# shape不matching的堆疊會報錯
#np.stack( [a,c] )

# Default沿著axis=0，也就是第一維度做堆疊
# stack會根據指定axis增加指定維度為1，例如: 當axis=0，就新增第一維度為1再做運算
# 以這個例子來說，原先的shape(2,5)在知道stack(,axis=0)之後，會變成(1,2,5)
# 須注意回傳的結果，沿著第一維度堆疊後會得到2個元素(因為我們使用a和b兩個元素相堆疊)，所以第一維度的元素個數會是2
# 第一維度內第0個元素即為a；第1個元素即為b，個別自己的原始資料型態，也就是shape(2,5)
# 因此最後產出結果的shape會是 (2,2,5)
np.stack( [a,b] ) , np.stack( [a,b] ).shape

(array([[[ 0,  1,  2,  3,  4],
         [ 5,  6,  7,  8,  9]],
 
        [[10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19]]]),
 (2, 2, 5))

In [124]:
# 透過list comprehension產生一個2x3x4三維list
arrays = [np.random.randn(3, 4) for _ in range(2)]
# 注意這個物件不是numpy array，他是原生資料型態list (因為我們用[...]產生物件)
# 這個list內有2個元素，兩個元素都是ndarray，每一個ndarray shape都是(3,4)
# 因此，套用arrays.shape()會報錯!
#arrays.shape

# 沿著第一維度做堆疊，所以shape(,,)第一個arg的值會是2 (兩個ndarray)，後面兩個即為本身的二維陣列shape，也就是(3,4)!
arrays , np.stack(arrays, axis=0) , np.stack(arrays, axis=0).shape

([array([[-0.52922294,  0.80360003, -0.88547922, -0.43842715],
         [ 0.44444861, -0.4851096 ,  1.0053239 ,  0.37453898],
         [ 1.89880638, -0.12358573, -0.6003807 ,  1.07886559]]),
  array([[ 1.20049688, -0.19016549, -1.4237726 ,  1.55362535],
         [ 0.75031771, -0.89663676, -0.43437768, -1.62971788],
         [ 0.47841448, -1.40030338, -0.45287554,  1.6375614 ]])],
 array([[[-0.52922294,  0.80360003, -0.88547922, -0.43842715],
         [ 0.44444861, -0.4851096 ,  1.0053239 ,  0.37453898],
         [ 1.89880638, -0.12358573, -0.6003807 ,  1.07886559]],
 
        [[ 1.20049688, -0.19016549, -1.4237726 ,  1.55362535],
         [ 0.75031771, -0.89663676, -0.43437768, -1.62971788],
         [ 0.47841448, -1.40030338, -0.45287554,  1.6375614 ]]]),
 (2, 3, 4))

### hstack,vstack,hsplit,vsplit
水平與垂直的陣列split操作其實和split相同，只是已經指定維度，所以不會有axis arg  
但是stack就不同了，vstack和stack(...,axis=0)結果不同!!  
vertical水平維度對應axis=0 ; horizontal垂直維度對應axis=1  
以下split和stack各舉一個例子:

In [150]:
# split
b = np.arange(32).reshape((8, 4))
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [154]:
# 沿著第二維度(axis=1分割)
np.split(b , [2,3]  ,axis=1)

[array([[ 0,  1],
        [ 4,  5],
        [ 8,  9],
        [12, 13],
        [16, 17],
        [20, 21],
        [24, 25],
        [28, 29]]),
 array([[ 2],
        [ 6],
        [10],
        [14],
        [18],
        [22],
        [26],
        [30]]),
 array([[ 3],
        [ 7],
        [11],
        [15],
        [19],
        [23],
        [27],
        [31]])]

In [153]:
# 套用 hsplit，會發現結果完全一樣
np.hsplit(b , [2,3])

[array([[ 0,  1],
        [ 4,  5],
        [ 8,  9],
        [12, 13],
        [16, 17],
        [20, 21],
        [24, 25],
        [28, 29]]),
 array([[ 2],
        [ 6],
        [10],
        [14],
        [18],
        [22],
        [26],
        [30]]),
 array([[ 3],
        [ 7],
        [11],
        [15],
        [19],
        [23],
        [27],
        [31]])]

In [156]:
# 產生2個相同shape的陣列
a = np.arange(10).reshape(2,5)
b = np.arange(10,20,1).reshape(2,5)
a,b

(array([[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]]),
 array([[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]]))

In [157]:
# 沿著第1維度堆疊，根據API文件定義，a和b會變成shape(1,2,5)
# 增加後，第1維度堆疊，1+1=2!! 
np.stack( (a,b) , axis=0) , np.stack( (a,b) , axis=0).shape

(array([[[ 0,  1,  2,  3,  4],
         [ 5,  6,  7,  8,  9]],
 
        [[10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19]]]),
 (2, 2, 5))

In [149]:
# 套用vstack，會發現結果只有2維
# 這是因為vstack鎖定在axis=0上運算，不進行擴增維度
# 所以在第一維度的堆疊就是把第一維度上的元素堆在一起，也就是2+2=4!!
a , b  , np.vstack( (a,b) ) , np.vstack( (a,b) ).shape

(array([[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]]),
 array([[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]]),
 array([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]]),
 (4, 5))

In [168]:
# 如果被堆疊的元素本身只有1維，那麼vstack會在新增第1維度並在其上堆疊
m = np.arange(4)
n = np.arange(4,8,1)
m,n,m.shape,n.shape

(array([0, 1, 2, 3]), array([4, 5, 6, 7]), (4,), (4,))

In [170]:
# 使用vstack和hstack
# 可以看到 shape從原本1維增加到2維
np.vstack((m,n)) , np.vstack((m,n)).shape

(array([[0, 1, 2, 3],
        [4, 5, 6, 7]]),
 (2, 4))

In [169]:
# hstack等價於axis=1，也就是第2維度，也就是 [...] 內部
# 在 [...] 做堆疊，其實就是把內容給串接起來，因此還是1維
np.hstack((m,n)) , np.hstack((m,n)).shape

(array([0, 1, 2, 3, 4, 5, 6, 7]), (8,))

In [176]:
# 回過頭看 stack方法在1維陣列是否有相同效果

# 可以看到 stack方法仍維持其準則，新增維度並在上面進行堆疊動作
# 所以stack和vstack在1維陣列上具備相同效果!
np.stack( [m,n] , axis = 0) , np.stack( [m,n] , axis = 0).shape

(array([[0, 1, 2, 3],
        [4, 5, 6, 7]]),
 (2, 4))

In [175]:
# 原先的 [0,1,2,3] 經過新增維度後變成 [ [0],[1],[2],[3] ] => shape(4,1)
# 第2維度即為內層的中括號[.]，因此 [ [0],[1],[2],[3] ] 和 [ [4],[5],[6],[7] ]做運算
# 根據np array初始運算規則，兩個shape相同的array運算是對應元素做運算
# 所以[0]和[4]做堆疊，那就是[0,4]囉!
# 根據結果，我們得到stack和hstack在1維陣列上"不"具備相同效果!
np.stack( [m,n] , axis = 1) , np.stack( [m,n] , axis = 1).shape

(array([[0, 4],
        [1, 5],
        [2, 6],
        [3, 7]]),
 (4, 2))