## NumPy特點
- 資料結構是多維陣列(ndarray)，提供多維度陣列與矩陣運算
- 擁有基本四則運算、線性代數、隨機亂數產生、傅立葉變換，不需要編寫迴圈
- 底層以 C、C++、Fortran 語言實作
- 為Pandas、SciPy、Scikit-learn 等套件的基礎
- 讀取/寫入磁碟上的陣列數據、文件
- 參考資料：[Numpy](https://numpy.org/doc/stable/index.html)

## Python、Pandas、NumPy資料型別
|資料型別|Python type|Pandas dtype|NumPy type|
|-|-|-|-|
|字串/非數字|str or mixed|object|string_, unicode_, mixed types|
|整數|int|int64|int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64|
|浮點數|float|float64|float_, float16, float32, float64|
|步林|bool|bool|bool_|
|日期時間|datetime|datetime64|datetime64[ns]|
|時間差|NA|timedelta[ns]|NA|
|列舉|NA|category|NA|

In [1]:
import numpy as np

## 創建陣列
### np.array(object, dtype=None, copy=True)
建立陣列，指定陣列資料類型。ndarray 對象的屬性：
- np.ndim：維度
- np.shape：ndarray對象的尺度，n行m列
- np.size：ndarray對象元素的個數，相當於n*m的值
- np.dtype：ndarray對象的元素類型
- np.itemsize：ndarray對象中每個元素的大小，以字節為單位

In [43]:
a = np.array([[[1, 2, 3], [4, 5, 6]],[[10, 11, 12], [13, 14, 15]]])    #建立三維陣列
a

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[10, 11, 12],
        [13, 14, 15]]])

In [38]:
print(a.ndim, a.shape, a.size, a.dtype)

3 (2, 2, 3) 12 int64


## 轉換資料類型、調整陣列維度
### np.array().astype(dtype)
轉換陣列元素的資料類型

### np.array().reshape(shape)
重新調整陣列維度

In [39]:
b = a.astype(np.float64)
b

array([[[ 1.,  2.,  3.],
        [ 4.,  5.,  6.]],

       [[10., 11., 12.],
        [13., 14., 15.]]])

In [40]:
a.reshape(3,2,2)

array([[[ 1,  2],
        [ 3,  4]],

       [[ 5,  6],
        [10, 11]],

       [[12, 13],
        [14, 15]]])

## 創建等差陣列
### np.linspace(start, stop, num=50, endpoint=True)
創建一個初值和終值之間的 num 個數組成的等差數列

### np.arange([start,] stop[, step,], dtype=None)
透過指定初值、終值和步進值的方式創建用於表示等差陣列的一維陣列

In [10]:
np.linspace(10, 1000, 10)

array([  10.,  120.,  230.,  340.,  450.,  560.,  670.,  780.,  890.,
       1000.])

In [11]:
np.arange(12)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

## 創建特定陣列
### np.emtpy(shape, dtype=float)
創建未初始化的陣列

### np.zeros(shape, dtype=float)
創建值為 0、任意維度且任一資料類型的陣列，常用來做初始化

### np.ones(shape, dtype=None)
創建值為 0、任意維度的陣列

### np.identity(n, dtype=None) 或 np.eye(n)
創建對角線值為 1 其餘為 0 的單位矩陣

### np.full(shape, fill_value)
創建指定值為 fill_value、形狀為 shape 的陣列

In [17]:
np.empty((2, 3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [18]:
np.zeros((2, 3), int)

array([[0, 0, 0],
       [0, 0, 0]])

In [19]:
np.ones((3, 2, 4), int)

array([[[1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1]]])

In [20]:
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [36]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [21]:
np.full((3, 3), 33)

array([[33, 33, 33],
       [33, 33, 33],
       [33, 33, 33]])

## 創建隨機數陣列
### np.random.rand(d0,d1,...,dn)
創建指定形狀(d0,d1,...,dn)、值在[0,1]區間內的均勻取樣的隨機數陣列

### np.random.randn(d0,d1,...,dn)
創建指定形狀(d0,d1,...,dn)、值在[0,1]區間內的標準正態分佈的隨機數陣列

### np.random.random(shape)
創建形狀為shape、值在[0,1]區間內的均勻取樣的隨機數陣列

### np.random.randint(low, high, size, dtype)
創建形狀為size、值在[low,high]之間的dtype類型的隨機整數，dtype的資料類型可以是int64或int

### np.random.uniform(low=0.0, high=1.0, size=None)
創建[low,high)之間的隨機数，可以是单个值，也可以是一维陣列，也可以是多维陣列

### np.random.normal(loc=0.0, scale=1.0, size=None)
創建值在[0,1]區間、按正態分佈 N(loc,scale) 取樣的隨機數或陣列

In [35]:
np.random.random(10)

array([0.44441373, 0.81064426, 0.7076755 , 0.86444173, 0.19936655,
       0.57884701, 0.42252273, 0.14445106, 0.94890275, 0.6418496 ])

In [33]:
np.random.randint(1, 5, 5)

array([2, 4, 2, 2, 4])

In [34]:
np.random.randint(10, size = (2, 3))

array([[4, 8, 8],
       [4, 9, 1]])

## 增加、重複與鋪設
### np.append(arr, values, axis=None)
在已有陣列後增加內容以創建一個新的陣列

### np.repeat(a, repeats, axis=None)
沿著某個軸重複使用陣列中的元素創建一個新的陣列

### np.tile(A, reps)
將整個陣列像瓷磚一樣垂直或水平複製

In [50]:
np.append(a, [[[16,17,18],[19,20,21]]], axis=0)

[[[ 1  2  3]
  [ 4  5  6]]

 [[10 11 12]
  [13 14 15]]]


array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[10, 11, 12],
        [13, 14, 15]],

       [[16, 17, 18],
        [19, 20, 21]]])

In [57]:
np.repeat(a, 2, axis=0)

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 1,  2,  3],
        [ 4,  5,  6]],

       [[10, 11, 12],
        [13, 14, 15]],

       [[10, 11, 12],
        [13, 14, 15]]])

## 合併
### np.concatenate((a1, a2, ...), axis=0, out=None)
沿著指定軸 axis 拼接多個陣列，從而創建一個新的陣列

### np.stack(arrays, axis=0, out=None)
將一系列陣列沿著 axis 的方向堆積成一個新的陣列。跟 np.concatenate() 區別在於，stack() 將合併的陣列作為一個整體進行堆積(合併)操作，因此新陣列會多出一個維度

### np.hstack(tup)
作為 np.concatenate() 的特殊形式，沿著 axis=1 方向(水平方向)進行拼接

### np.column_stack(tup)
作為 np.stack() 的特殊形式，將 tup 中的一系列一維陣列作為二維陣列的列，以創建一個二維陣列

### np.vstack(tup) 
作為 np.concatenate() 的特殊形式，沿著 axis=0 方向(垂直方向)進行拼接

### np.row_stack(tup)
陣列垂直合併

In [131]:
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
b = np.array([[11, 12, 13], [14, 15, 16], [17, 18, 19]])
print(a)
print()
print(b)

[[1 2 3]
 [4 5 6]
 [7 8 9]]

[[11 12 13]
 [14 15 16]
 [17 18 19]]


In [108]:
np.concatenate((a, b), axis=0)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [11, 12, 13],
       [14, 15, 16],
       [17, 18, 19]])

In [109]:
np.stack((a, b), axis=0)

array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9]],

       [[11, 12, 13],
        [14, 15, 16],
        [17, 18, 19]]])

In [102]:
#水平合併
np.hstack((a, b))

array([[ 1,  2,  3, 11, 12, 13],
       [ 4,  5,  6, 14, 15, 16],
       [ 7,  8,  9, 17, 18, 19]])

In [103]:
np.column_stack((a, b))

array([[ 1,  2,  3, 11, 12, 13],
       [ 4,  5,  6, 14, 15, 16],
       [ 7,  8,  9, 17, 18, 19]])

In [104]:
#垂直合併
np.vstack((a, b))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [11, 12, 13],
       [14, 15, 16],
       [17, 18, 19]])

In [105]:
np.row_stack((a, b))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [11, 12, 13],
       [14, 15, 16],
       [17, 18, 19]])

## 分割
### np.split(ary, indices_or_sections, axis=0)
分割是合併相反的操作，沿著 axis 的方向對陣列進行分割

### np.hsplit()
陣列水平分割，沿著 axis=1 方向對陣列進行分割，是 np.split() 的特殊形式

### np.vsplit()
陣列垂直分割，沿著 axis=0 方向對陣列進行分割，是 np.split() 的特殊形式

In [130]:
a

array([ -1.7  ,   5.55 , 123.2  ,   0.567,  25.532])

In [112]:
np.split(a, 3)

[array([[1, 2, 3]]), array([[4, 5, 6]]), array([[7, 8, 9]])]

In [113]:
np.hsplit(a, 3)

[array([[1],
        [4],
        [7]]),
 array([[2],
        [5],
        [8]]),
 array([[3],
        [6],
        [9]])]

In [116]:
np.vsplit(a, 3)

[array([[1, 2, 3]]), array([[4, 5, 6]]), array([[7, 8, 9]])]

## 邊緣填充
### np.pad(array, pad_width, mode='constant', **kwargs)

可以對陣列的所有維度進行邊緣填充，即在維度的前後填充一些數值

In [117]:
a = [[2, 5], [7, 9]]
np.pad(a, ((1, 2), (2, 3)), 'minimum')

array([[2, 2, 2, 5, 2, 2, 2],
       [2, 2, 2, 5, 2, 2, 2],
       [7, 7, 7, 9, 7, 7, 7],
       [2, 2, 2, 5, 2, 2, 2],
       [2, 2, 2, 5, 2, 2, 2]])

## 擴充維度
### np.expand_dims(a, axis)
用於在 axis 的位置插入一個新的維度，從而擴充陣列

In [125]:
a = np.array([[2, 5], [7, 9]])
a

array([[2, 5],
       [7, 9]])

In [124]:
np.expand_dims(a, axis=0)

array([[[2, 5],
        [7, 9]]])

In [123]:
np.expand_dims(a, axis=1)

array([[[2, 5]],

       [[7, 9]]])

## 交換維度
有時我們需要交換陣列的維度，譬如彩色圖形的顏色通道可能是第 3 維度，而在一些程式中，顏色通道需要在第 1 維度內
### np.swapaxes(a, axis1, axis2)
用於交換維度

### np.rollaxis(a, axis, start=0)
用於將維度向後捲動，直到其位於維度 start 前

### np.moveaxis(a, source, destination)
用於將維度 source 移到維度 destination 處

### np.transpose(a, axes=None)
可根據 axes 中維度的次序，重新對陣列的維度進行排序，axes=None表示對維度進行反向排列：即轉置，行轉成列，列轉成行，等同於a.T

In [139]:
a = np.random.random((2, 3, 4))
b = np.swapaxes(a, 0, 1)
print(a.shape)
print(b.shape)

(2, 3, 4)
(3, 2, 4)


In [140]:
c = np.rollaxis(a, 2, 0)
d = np.rollaxis(c, 2, 1)
print(c.shape)
print(d.shape)

(4, 2, 3)
(4, 3, 2)


In [141]:
c = np.moveaxis(a, 2, 0)
d = np.moveaxis(c, 2, 1)
print(c.shape)
print(d.shape)

(4, 2, 3)
(4, 3, 2)


In [142]:
e = np.transpose(a)
print(e.shape)

(4, 3, 2)


In [144]:
e = a.T
print(e.shape)

(4, 3, 2)


## 陣列的索引及切片
Numpy 陣列的索引和切片不是創建新的陣列，而是創建原陣列的視窗，即子陣列是原陣列的一部分。因此透過切片所引用的變數去修改這個切片，實際上修改的是原陣列。透過切片操作得到的子陣列是原陣列的視窗，與原陣列視窗區域共用資料儲存空間；透過給每維傳遞整數陣列的索引，可創建新陣列，且新陣列和原陣列不共用資料儲存空間，即改變一個陣列的內容不影響另一個陣列

## 陣列的加減乘除
對於兩個多維陣列，可「逐元素」執行加減乘除餘等運算，以產生新的陣列。Numpy 中的函數都可以執行逐元素的運算，即對每個元素執行對應的運算，以產生新的陣列，譬如 Numpy 的 np.sqrt(), np.sin(), np.power() 函數分別用於計算陣列元素的平方根、正弦值、指數函數值。逐元素乘積也稱為 Hadamard 乘積或 Schur 乘積。兩個向量的 Hadamard 乘積是由其對應元素的乘積組成的向量，兩個矩陣的 Hadamard 乘積是由其對應元素的乘積組成的矩陣

In [126]:
a = np.array([2, 1, 4, 6, 3, 5])
print("a = ", a)
print("a + 10 = ", a + 10)
print("a - 3 = ", a - 3)
print("a * 7 = ", a * 7)
print("a / 5= ", a / 5)

a =  [2 1 4 6 3 5]
a + 10 =  [12 11 14 16 13 15]
a - 3 =  [-1 -2  1  3  0  2]
a * 7 =  [14  7 28 42 21 35]
a / 5=  [0.4 0.2 0.8 1.2 0.6 1. ]


In [159]:
a = np.random.randint(10, size = (3, 4))
b = np.random.randint(10, size = (3, 1))
print(a)
print()
print(b)
print()
print(a + b)
print()
print(a * b)

[[2 3 2 4]
 [7 7 9 7]
 [2 5 2 9]]

[[4]
 [8]
 [0]]

[[ 6  7  6  8]
 [15 15 17 15]
 [ 2  5  2  9]]

[[ 8 12  8 16]
 [56 56 72 56]
 [ 0  0  0  0]]


In [160]:
c = np.random.randint(10, size = (3, 4))
print(c)
print()
print(a + c)
print()
print(a * c)

[[6 0 6 1]
 [7 4 5 8]
 [6 5 0 3]]

[[ 8  3  8  5]
 [14 11 14 15]
 [ 8 10  2 12]]

[[12  0 12  4]
 [49 28 45 56]
 [12 25  0 27]]


## 最值
### np.max(a, axis=None, out=None)
找出陣列中最大值

### np.min(a, axis=None, out=None)
找出陣列中最小值

### np.argmax(a, axis=None, out=None)
找出陣列中最大值的index

### np.argmin(a, axis=None, out=None)
找出陣列中最小值的index

In [81]:
a = np.random.randint(10, size = (3, 4))
a

array([[4, 9, 8, 1],
       [7, 1, 8, 3],
       [2, 3, 8, 9]])

In [None]:
np.max(a)

In [None]:
np.min(a)

In [None]:
np.max(a, axis = 0)

In [None]:
np.min(a, axis = 0)

In [None]:
np.max(a, axis = 1)

In [None]:
np.min(a, axis = 1)

In [None]:
np.argmax(a)

In [None]:
np.argmin(a)

In [None]:
np.argmax(a, axis = 0)

In [None]:
np.argmin(a, axis = 0)

In [None]:
np.argmax(a, axis = 1)

In [82]:
np.argmin(a, axis = 1)

array([3, 1, 0])

## 平均數 & 標準差
### np.mean()
陣列平均值

### np.std()
陣列標準差

### np.sum()
陣列總和

### np.cumsum()
陣列累加

In [146]:
a = np.random.randint(10, size =(3, 4))
a

array([[8, 7, 5, 2],
       [4, 1, 5, 8],
       [5, 2, 0, 9]])

In [147]:
np.mean(a)

4.666666666666667

In [148]:
np.mean(a, axis = 0)

array([5.66666667, 3.33333333, 3.33333333, 6.33333333])

In [149]:
np.mean(a, axis = 1)

array([5.5, 4.5, 4. ])

In [150]:
np.std(a)

2.8382310609877335

In [151]:
np.sum(a)

56

In [152]:
np.sum(a, axis = 0)

array([17, 10, 10, 19])

In [153]:
np.sum(a, axis = 1)

array([22, 18, 16])

In [154]:
np.cumsum(a)

array([ 8, 15, 20, 22, 26, 27, 32, 40, 45, 47, 47, 56])

In [155]:
np.cumsum(a, axis = 0)

array([[ 8,  7,  5,  2],
       [12,  8, 10, 10],
       [17, 10, 10, 19]])

In [156]:
np.cumsum(a, axis = 1)

array([[ 8, 15, 20, 22],
       [ 4,  5, 10, 18],
       [ 5,  7,  7, 16]])

## 點積
### np.dot()
不同於 Hadamard 乘積是逐元素的乘積，張量的點積是向量點積和矩陣乘積的推廣。兩個向量的點積是它們對應元素乘積的和，是一個純量。矩陣的內積是 A 陣列 row 乘以 B 陣列 column。

In [16]:
a = np.random.randint(10, size =(3, 4))
b = np.random.randint(10, size =(3, 4))
print(a)
print()
print(b)
print()
print(np.dot(a, b.T))
#print(a.dot(b.T))

[[1 6 4 7]
 [5 1 6 7]
 [8 3 3 2]]

[[4 9 3 2]
 [0 0 2 5]
 [9 9 9 2]]

[[ 84  43 113]
 [ 61  47 122]
 [ 72  16 130]]


## 逆矩陣、反矩陣
### np.linalg.inv()
$$A = \begin{bmatrix}
a & b\\ 
c & d
\end{bmatrix}$$

$$A^{-1} = \frac{1}{ad-bc}\begin{vmatrix}
d & -b\\ 
-c & a
\end{vmatrix}$$

In [20]:
a = np.random.randint(10, size =(3, 3))
b = np.linalg.inv(a)
print(a)
print()
print(b)

[[7 1 6]
 [1 4 0]
 [6 1 7]]

[[ 0.54901961 -0.01960784 -0.47058824]
 [-0.1372549   0.25490196  0.11764706]
 [-0.45098039 -0.01960784  0.52941176]]


## 線性代數計算，求聯立方程式
### np.linalg.solve()
$$\left\{\begin{matrix}
3x + 5y - 2z - 2w = -6\\ x - 3y + z + 3w = 18
\\ 5x + 7y - 3z - w = 4
\\ 10x - y - z + 5w = 37
\end{matrix}\right.$$
上述方程式轉成矩陣，求解x：
$$\begin{bmatrix}
3 & 5 & -2 & -2\\ 
1 & -3 & 1 & 3\\ 
5 & 7 & -3 & -1\\ 
10 & -1 & -1 & 5
\end{bmatrix}x = \begin{bmatrix}
-6\\18 
\\ 4
\\ 37
\end{bmatrix}$$

矩陣計算方法：
$$\begin{matrix}
Ax = B\\ A^{-1}Ax = A^{-1}B 
\\ x = A^{-1}B 
\end{matrix}$$

In [21]:
a = np.array([[3, 5, -2, -2], [1, -3, 1, 3], [5, 7, -3, -1], [10, -1, -1, 5]])
b = np.array([-6, 18, 4, 37])
a_inv = np.linalg.inv(a)
ans = a_inv.dot(b)
# ans = np.linalg.solve(a, b)
ans

array([1., 3., 5., 7.])

## 四捨五入
### np.around(a, decimals=0, out=None)
四捨五入

### np.floor()
返回小於輸入參數的最大整數

### np.ceil()
返回大於輸入參數的最小整數

In [127]:
a = np.array([-1.7, 5.55,  123.2,  0.567,  25.532])  
np.around(a)

array([ -2.,   6., 123.,   1.,  26.])

In [85]:
np.around(a, decimals = 1)

array([ -1.7,   5.6, 123.2,   0.6,  25.5])

In [86]:
np.around(a, decimals = -1)

array([ -0.,  10., 120.,   0.,  30.])

In [87]:
np.floor(a)

array([ -2.,   5., 123.,   0.,  25.])

In [24]:
np.ceil(a)

array([ -1.,   6., 124.,   1.,  26.])

## 陣列逐步差
### np.diff(a, n=1, axis=-1)

In [96]:
np.diff(a)

array([[ 4,  0,  2],
       [ 8, -3, -4],
       [ 1, -2,  3]])

In [97]:
np.diff(a, axis = 0)

array([[ 0,  4,  1, -5],
       [ 2, -5, -4,  3]])

In [98]:
np.diff(a, axis = 1)

array([[ 4,  0,  2],
       [ 8, -3, -4],
       [ 1, -2,  3]])

## 簡易判別式
### np.where()

In [27]:
a = np.arange(10)
np.where(a % 2 == 0, 'even', 'odd')

array(['even', 'odd', 'even', 'odd', 'even', 'odd', 'even', 'odd', 'even',
       'odd'], dtype='<U4')

In [28]:
b = np.random.randint(100, size = 100 )
np.where(b > 80, 1, 0)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0])

## 排序
### np.sort()

In [76]:
a = np.random.randint(100, size = 20)
a

array([67, 62, 65, 52, 34, 37, 48, 90, 95,  9, 32, 38, 98, 43, 87, 19, 52,
       80,  8, 58])

In [77]:
#由小到大，法1
print(np.sort(a))

#由小到大，法2
a.sort()
print(a)

[ 8  9 19 32 34 37 38 43 48 52 52 58 62 65 67 80 87 90 95 98]
[ 8  9 19 32 34 37 38 43 48 52 52 58 62 65 67 80 87 90 95 98]


In [72]:
#由大到小，法1
print(-np.sort(-a))

#由大到小，法2
a[::-1].sort()
print(a)

[94 83 68 67 57 55 55 43 34 34 34 33 29 21 17 13 11  7  4  2]
[94 83 68 67 57 55 55 43 34 34 34 33 29 21 17 13 11  7  4  2]


## 存檔 & 讀檔
### np.savetxt()

### np.loadtxt()

In [55]:
a = np.asarray([[1,2,3], [4,5,6], [7,8,9]])
np.savetxt("test.csv", a, fmt="%.0f", delimiter=",")

In [56]:
b = np.loadtxt(open("test.csv","rb"), delimiter=",", skiprows=0)
b

array([[1., 2., 3.],
       [4., 5., 6.],
       [7., 8., 9.]])