在數據處理上，需要能夠快速，輕鬆地存取、過濾和轉換數據內容，並取得有效的結果

在 Python 中，有兩個重要的套件可以執行這樣的任務：**NumPy** 和 **Pandas**

![np_1.png](attachment:np_1.png)

http://www.numpy.org

NumPy 是一個 Python 的開源套件，是 *Nemerical Python* 的簡稱，集成 C 和 C++ 的工具，長久來是 Python 中數值計算的重要基石。由於其陣列型態提供了有效率的資料操作，利用一個強大的 N 維陣列，以列（Row）和行（Column）的形式出現，因此目前幾乎是 Python 整個資料科學生態系的核心

一些重要的特色如下：

- 快速以效率的多維陣列物件 **ndarray**
- 陣列的元素計算功能或陣列間數值計算
- 具有從磁碟讀入或寫出陣列資料集工具
- 線性代數運算、傅立葉轉換以及亂數產生器
- 具成熟的 C API，可讓 C 或 C++ 程式碼存取 NumPy 的資料結構與計算功能
- 作為資料的容器，在演算法和函示庫間傳遞資料

整個核心是 ndarray 物件，是具有相同資料型態元素所組成的陣列

透過 import 載入 numpy 套件

In [1]:
import numpy as np

確認安裝的版本

In [2]:
np.__version__

'1.16.2'

# Array 陣列

- 是固定大小的  
   不像 Python List 可以動態增減
- Array 之中的每一個元素都必須是相同型態 
- NumPy 會讓程式碼更有效率  
   NumPy 所有元件都需要是相同大小的，因此在記憶體有相同的 Size。更適合用於數學運算與資料較龐大時的運算

NumPy 的陣列被稱作 ndarray

要特別注意 numpy.array 和標準 Python 所提供 array.array 並不相同，後者只處理一維陣列和提供少量功能

In [3]:
import array

In [4]:
od = array.array('d', [1.0, 2.0, 3.14])
od

array('d', [1.0, 2.0, 3.14])

In [5]:
type(od)

array.array

In [6]:
L = list(range(10))
L

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [7]:
A = array.array('i', L)    # i 是設定內容之型態為整數
A

array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# 建立 Array

利用 Python 的 List 來建立陣列

In [8]:
type([1, 2, 3])

list

In [9]:
a = np.array([1, 2, 3]) 
a

array([1, 2, 3])

檢視 Array 的型態

In [10]:
type(a)

numpy.ndarray

不同於 List，NumPy 限制所有在陣列中的內容需要為同樣的型態，如果型態不符合，會自動轉換其型態

In [11]:
np.array([3.14, 4, 2, 1])

# 內容全部變成浮點數型態

array([3.14, 4.  , 2.  , 1.  ])

In [12]:
np.array(['t', 1, 3])

# 內容全部變成文字型態

array(['t', '1', '3'], dtype='<U1')

建立二維 Array

In [13]:
b = np.array([[1, 2, 3], [4, 5, 6]])
b

array([[1, 2, 3],
       [4, 5, 6]])

預設的類型（dtype）都是 float64

## 練習：

使用一個 List [2, 4, 5, 8] 來建立一個 Array

In [None]:
# a 為 [2, 4, 5, 8]  的一個 List 物件
a = 
a

In [None]:
# b 為一個 Array
b = 
b

In [None]:
type(b)

## 練習：

自行建立一個建立 3X3 的 Array

In [None]:
d = 
d

建立時，可以利用 dtype 參數指定 Array 類型

In [14]:
c = np.array([[1, 2], [3, 4]], dtype = complex)    # 複數
c

array([[1.+0.j, 2.+0.j],
       [3.+0.j, 4.+0.j]])

In [15]:
d = np.array([[1.2, 2.5], [3., 4.8]], dtype = int)   # 整數
d

array([[1, 2],
       [3, 4]])

zeros() 函數建立一個內容全是 0 的 Array

In [16]:
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [17]:
np.zeros((3, 4)).dtype

dtype('float64')

ones() 函數建立一個內容全為 1 的 2 X 5 浮點數 Array

In [18]:
np.ones((2, 5))    

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [20]:
np.ones((2, 5), dtype = int)

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

建立一個填滿 3.14 內容的 3 X 5 Array

In [21]:
np.full((3, 5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

建立一個陣列，不設定初始值

不保證該內容一定都是 0，有可能會有其他未初始化的值，這些值是原本就存在那些記憶體中的值

In [23]:
np.empty((2, 3, 2))

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

建立一個依序填滿的 Array，從 0 開始，到 20 結束（不包含），每次以 2 為間隔

和內建的 range() 類似

In [24]:
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

建立一個 5 個值的 Array，在 0 到 1 之間平均分佈

In [25]:
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

建立一個平均分佈的 3 X 3 Array，在 0 到 1 之間亂數值

In [26]:
np.random.random((3, 3))

array([[0.64410057, 0.94014844, 0.06604192],
       [0.23921596, 0.46122172, 0.94651919],
       [0.56919611, 0.60036957, 0.36135145]])

建立一個 3 X 3 Array，內容為常態分佈的亂數值，平均是 0 而標準差為 1

In [27]:
np.random.normal(0, 1, (3, 3))

array([[ 0.01290576,  1.73252554, -0.46840612],
       [-0.59166051,  0.45356996, -1.36426254],
       [ 1.41337725, -2.57268412, -1.18299961]])

建立一個 3 X 3 Array，內容為介於範圍在 [0, 10] 的整數亂數

In [28]:
np.random.randint(0, 10, (3, 3))

array([[5, 0, 2],
       [3, 4, 4],
       [9, 8, 4]])

建立一個 3 X 3 的單位矩陣

In [29]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

# ndarray 重要屬性

重要的屬性有：
- ndarray.ndim：陣列軸的個數（rank）
- ndarray.shape：陣列的維度。這是一個指示 Array 在每個維度上大小的整數元組。例如一個 n 排 m 列的矩陣，它的 shape 屬性將是 (2,3)，這個元組的長度顯然是秩，即維度或者 ndim 屬性
- ndarray.size：陣列元素的總個數，等於 shape 屬性中元素的乘積
- ndarray.dtype：用來描述 Array 中元素類型，可以透過創造或指定 dtype 使用標準 Python 類型。
- ndarray.itemsize：Array 中每個元素的字節大小。例如，一個元素類型為 float64 的 Array 其 itemsize 屬性值為 8（=64/8），又如，一個元素類型為complex32 的 Array 其 item 屬性為 4（=32/8）

In [30]:
np.random.seed(0)

In [31]:
a = np.random.randint(10, size = (3, 4))
a

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

檢視 Array 維度的數量（軸（axes）個數（rank））

In [33]:
a.ndim

2

檢視 Array 每一個維度的大小

In [34]:
a.shape

(3, 4)

檢視整個 Array 的總大小

In [35]:
a.size

12

檢視 Array 的資料類型

In [36]:
a.dtype

dtype('int64')

In [40]:
a.dtype.name

'int64'

檢視 Array 內每個元素的大小（以位元組為單位）

In [37]:
print('itemsize:', a.itemsize, 'bytes')

itemsize: 8 bytes


列出整個 Array 的大小，以位元組為單位

In [38]:
print('nbytes:', a.nbytes, 'bytes')

nbytes: 96 bytes


一般來說，nbytes 應該會等於 itemsize 乘上 size

改變 Array 形狀

In [40]:
b = np.arange(12)
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [41]:
b.reshape(4, 3)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [42]:
b = np.arange(12).reshape(4, 3)  
b

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

轉換 dtype

將陣列從一種 dtype 轉換成另外一種 dtype

In [54]:
arr = np.array([1, 2, 3, 4, 5])
arr

array([1, 2, 3, 4, 5])

In [55]:
arr.dtype

dtype('int64')

In [56]:
# 整數轉換成浮點數
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

# Array 索引：取單一個元素

In [43]:
x1 = np.random.randint(10, size = 6)
x1

array([8, 8, 1, 6, 7, 7])

In [44]:
x1[0]

8

In [45]:
x1[4]

7

In [46]:
x1[-1]

7

In [47]:
x1[-3]

6

In [48]:
x2 =  np.random.randint(10, size = (3, 4))
x2

array([[8, 1, 5, 9],
       [8, 9, 4, 3],
       [0, 3, 5, 0]])

In [49]:
x2[0, 0]

8

In [50]:
x2[2, 3]

0

In [51]:
x2[2, -1]

0

改變 Array 內資料的內容

In [52]:
x1[0] = 5
x1

array([5, 8, 1, 6, 7, 7])

In [53]:
x2[0, 0] = 12
x2

array([[12,  1,  5,  9],
       [ 8,  9,  4,  3],
       [ 0,  3,  5,  0]])

## 練習：

1. 使用 arange 函數建立一個 3 X 3 的 Array

2. 請自行建立出一個 3 X 5 的 Array

檢視前一個建立出的 Array 的維度

請列出第二列的每個元素內容

將浮點數轉換為整數

In [57]:
aflot = np.array([3.7, -.12, 2.8, -3, 10.1])
aflot

array([ 3.7 , -0.12,  2.8 , -3.  , 10.1 ])

In [None]:
ar = 
ar.dtype

# Array 切片：取子陣列

array[start:stop:step]

預設值為 start = 0, stop = 陣列的大小, step = 1

In [59]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

取前面 5 個元素

In [60]:
x[:5]

array([0, 1, 2, 3, 4])

取索引值在 6 之後的所有元素

In [61]:
x[6:]

array([6, 7, 8, 9])

取子陣列

In [62]:
x[4:8]

array([4, 5, 6, 7])

取間隔為 3 的所有元素

In [63]:
x[::3]

array([0, 3, 6, 9])

從索引值 2 開始，間隔為 2 的所有元素

In [64]:
x[2::2]

array([2, 4, 6, 8])

反轉所有的元素

當 step 為負值時，start 和 stop 的預設值彼此互換。這樣也提供了一個反轉取得陣列的簡便方式

In [65]:
x[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

從索引值 2 開始反轉往前取得間隔 2 的所有元素

In [66]:
x[7::-2]

array([7, 5, 3, 1])

多個維度的切片也是使用相同的方式，只要使用逗號分隔多個切片值的指定內容即可

In [67]:
x2

array([[12,  1,  5,  9],
       [ 8,  9,  4,  3],
       [ 0,  3,  5,  0]])

取前兩列，前三欄的所有資料

In [68]:
x2[:2, :3]

array([[12,  1,  5],
       [ 8,  9,  4]])

取所有列的偶數欄

In [69]:
x2[:3, ::2]

array([[12,  5],
       [ 8,  4],
       [ 0,  5]])

反轉內容

In [70]:
x2[::-1, ::-1]

array([[ 0,  5,  3,  0],
       [ 3,  4,  9,  8],
       [ 9,  5,  1, 12]])

取第一行

In [71]:
x2[:, 0]

array([12,  8,  0])

取第一列

In [72]:
x2[0, :]

array([12,  1,  5,  9])

In [73]:
x2[0]

array([12,  1,  5,  9])

## 練習：

In [74]:
x2d = np.arange(12).reshape(3, 4)
x2d

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

將第一列中的第二個元素之後的全部取出

請將 a 中第一個元素的值更改成 20，並將結果列印出來

請將 x2d 列印出來，看看有什麼不一樣了？

# 建立陣列複本

使用 copy() 來建立複本

In [75]:
x2

array([[12,  1,  5,  9],
       [ 8,  9,  4,  3],
       [ 0,  3,  5,  0]])

In [76]:
xmat = x2.copy()
xmat

array([[12,  1,  5,  9],
       [ 8,  9,  4,  3],
       [ 0,  3,  5,  0]])

In [77]:
xmat_sub = xmat[:2, :3]
xmat_sub

array([[12,  1,  5],
       [ 8,  9,  4]])

In [78]:
xmat_sub[0, 0] = 92
xmat_sub

array([[92,  1,  5],
       [ 8,  9,  4]])

In [79]:
xmat

array([[92,  1,  5,  9],
       [ 8,  9,  4,  3],
       [ 0,  3,  5,  0]])

In [80]:
x2

array([[12,  1,  5,  9],
       [ 8,  9,  4,  3],
       [ 0,  3,  5,  0]])

## 合併與分割

Array 合併

np.concatenate()、np.vstack()、np.hstack()

In [81]:
A = np.array([1, 1, 1])
B = np.array([2, 2, 2])

In [82]:
np.concatenate([A, B])

array([1, 1, 1, 2, 2, 2])

In [83]:
C = [3, 3, 3] 

In [84]:
np.concatenate([A, B, C])

array([1, 1, 1, 2, 2, 2, 3, 3, 3])

In [85]:
gd = np.array([[1, 2, 3], 
                     [5, 7, 9]])

沿著第一軸串接

In [86]:
np.concatenate([gd, gd])

array([[1, 2, 3],
       [5, 7, 9],
       [1, 2, 3],
       [5, 7, 9]])

沿著第二軸串接

In [87]:
np.concatenate([gd, gd], axis = 1)

array([[1, 2, 3, 1, 2, 3],
       [5, 7, 9, 5, 7, 9]])

要在不同維度陣列進行合併操作，使用 np.vstack() 垂直堆疊及 np.hstack() 水平堆疊會比較清楚

In [88]:
x = np.array([1, 2, 3])
ge = np.array([[3, 5, 4],
                     [7, 0, 7]])

In [89]:
# Vertical
np.vstack([x, ge])

array([[1, 2, 3],
       [3, 5, 4],
       [7, 0, 7]])

## 練習：

利用 hstack() 將 ge、t 進行水平堆疊

In [None]:
ge = np.array([[3, 5, 4],
                     [7, 0, 7]])
t = np.array([[64],
                  [37]])

Array 分割

np.split()、np.vsplit()、np.hsplit()

In [90]:
x = [1, 2, 4, 6, 82, 82, 92, 48]

透過索引值的 List 來指定要分割的點

In [91]:
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

[1 2 4] [ 6 82] [82 92 48]


In [92]:
a = np.arange(12).reshape((3, 4))
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [93]:
np.vsplit(a, 3)

[array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11]])]

## 練習：

利用 hsplit() 將 a 垂直分隔成兩個陣列

# 基本運算

Array 的運算是依照元素的。新的 Array 會被創建並被結果填滿

In [94]:
a = np.array([20, 30, 40, 50])
a

array([20, 30, 40, 50])

In [95]:
b = np.arange(4)
b

array([0, 1, 2, 3])

In [96]:
c = np.arange(3)
c

array([0, 1, 2])

In [97]:
d = a - b
d

array([20, 29, 38, 47])

In [98]:
e = a - c
e

ValueError: operands could not be broadcast together with shapes (4,) (3,) 

In [99]:
b ** 2

array([0, 1, 4, 9])

In [100]:
10 * np.sin(a)

array([ 9.12945251, -9.88031624,  7.4511316 , -2.62374854])

In [101]:
a < 35

array([ True,  True, False, False])

NumPy 中的乘法運算符號 * 是指依照元素計算，矩陣乘法可以使用 dot 函數

In [102]:
A = np.array([[1, 1],
                   [0, 1]])
A

array([[1, 1],
       [0, 1]])

In [103]:
B = np.array([[2, 0],
                   [3, 4]])
B 

array([[2, 0],
       [3, 4]])

elementwise product

In [104]:
A * B 

array([[2, 0],
       [0, 4]])

matrix product

In [105]:
np.dot(A, B)

array([[5, 4],
       [3, 4]])

In [107]:
# transpose
A.T

array([[1, 0],
       [1, 1]])

運算子

$+$ : np.add   加法

$-$ : np.subtract   減法

$-$ : np.negative   負數符號

$*$ : np.multiply   乘法

$/$ : np.divide   除號

$//$ : np.floor_divide   取地板除法

$**$ : np.power   指數運算

% : np.mod   取餘數運算

In [108]:
A + 2

array([[3, 3],
       [2, 3]])

In [109]:
np.add(A, 2)

array([[3, 3],
       [2, 3]])

In [110]:
x = np.array([-2, -1, 0, 1, 2])
abs(x)

array([2, 1, 0, 1, 2])

對應函數是 np.absolute，也可以用 np.abs

In [111]:
np.abs(x)

array([2, 1, 0, 1, 2])

## 加總、最小、最大

In [112]:
a = np.random.randint(0, 10, (3, 4))
a

array([[2, 3, 8, 1],
       [3, 3, 3, 7],
       [0, 1, 9, 9]])

In [113]:
np.sum(a)

49

In [114]:
a.sum()

49

In [115]:
np.min(a)

0

In [116]:
a.min()

0

In [117]:
np.max(a)

9

In [118]:
a.max()

9

上述的加總、最小、最大是不考慮 Array 的形狀，可以透過指定 axis 參數把運算應用到指定的軸上

In [119]:
b = np.arange(12).reshape(3, 4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

sum of each column

In [120]:
b.sum(axis = 0)

array([12, 15, 18, 21])

sum of each row

In [121]:
b.sum(axis = 1)

array([ 6, 22, 38])

找出每列最小值

In [122]:
b.min(axis = 1)

array([0, 4, 8])

cumulative sum along each row

In [123]:
b.cumsum(axis = 1) 

array([[ 0,  1,  3,  6],
       [ 4,  9, 15, 22],
       [ 8, 17, 27, 38]])

## 練習：

找出每欄最大值

In [None]:
b = np.arange(12).reshape(3, 4)
b

使用 axis 的方法有時會造成混淆，axis 這個關鍵字是用來指定陣列中要被收合起來的那個維度，而不是要被傳回來的那個。所以 axis = 0 表示第一個維度會被收合起來，對於二維陣列來說，就表示在欄中的每一個數值被聚集起來運算。

NumPy 可使用的聚合函式：

- np.sum            計算所有元素的加總
- np.prod           計算所有元素的乘積
- np.average            計算所有元素的平均值
- np.std            計算標準差
- np.var            計算變異量
- np.miin            計算最小值
- np.max            計算最大值
- np.argmin        找出最小值的索引
- np.argmax       找出最小值的索引
- np.median       計算元素的中位數
- np.percentile    計算元素的排名統計
- np.any             當陣列中有任一值是 True 或是非零值時傳回 True
- np.all               當陣列中所有值是 True 或是非零值時傳回 True

# 聚合

reduce 會重複應用一個給定的運算到陣列中的每一個元素，直到剩下一個結果為止

In [124]:
x = np.arange(1, 6)
x

array([1, 2, 3, 4, 5])

In [125]:
np.add.reduce(x)

15

In [126]:
np.multiply.reduce(x)

120

要儲存所有中間運算的結果，可使用 accumulate 取代

In [127]:
np.add.accumulate(x)

array([ 1,  3,  6, 10, 15])

In [128]:
np.multiply.accumulate(x)

array([  1,   2,   6,  24, 120])

# 排序操作

In [129]:
x = np.array([2, 1, 4, 3, 5])

不更動到原有輸入的內容

In [130]:
np.sort(x) 

array([1, 2, 3, 4, 5])

In [131]:
x

array([2, 1, 4, 3, 5])

在陣列中直接進行排列

In [132]:
x.sort()
x

array([1, 2, 3, 4, 5])

傳回被排序過元素的索引值

In [133]:
x = np.array([2, 1, 4, 3, 5])

In [134]:
i = np.argsort(x) 
print(i)

[1 0 3 2 4]


多維排序

In [135]:
data = np.random.randn(4, 4)
data

array([[ 0.03343893,  0.68056724, -1.56349669, -0.56669762],
       [-0.24214951,  1.51439128, -0.3330574 ,  0.04736482],
       [ 1.46274045,  1.53502913,  0.56644004,  0.14926509],
       [-1.078278  ,  1.39547227,  1.78748405, -0.56951726]])

沿着列 (axis = 0) 進行索引，並升序排序

In [136]:
data.sort(0)
data

array([[-1.078278  ,  0.68056724, -1.56349669, -0.56951726],
       [-0.24214951,  1.39547227, -0.3330574 , -0.56669762],
       [ 0.03343893,  1.51439128,  0.56644004,  0.04736482],
       [ 1.46274045,  1.53502913,  1.78748405,  0.14926509]])

降序操作

In [137]:
data[::-1]

array([[ 1.46274045,  1.53502913,  1.78748405,  0.14926509],
       [ 0.03343893,  1.51439128,  0.56644004,  0.04736482],
       [-0.24214951,  1.39547227, -0.3330574 , -0.56669762],
       [-1.078278  ,  0.68056724, -1.56349669, -0.56951726]])

# Boolean 操作

In [138]:
datb = np.array([[1, 2, 3],
                       [4, 5, 6],
                       [7, 8, 9]])
datb

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [139]:
datb > 3

array([[False, False, False],
       [ True,  True,  True],
       [ True,  True,  True]])

遮罩運算，透過索引這個 boolean 陣列，從陣列中選取這些資料

這些值在該遮罩的位置上是 True

找出大於 3 的元素

In [140]:
datb[datb > 3]

array([4, 5, 6, 7, 8, 9])

運算子 

$==$        np.equal  
$!=$         np.not_equal  
$<$          np.less  
$<=$        np.less_equal  
$>$          np.less_greater  
$>=$        np.greater_equal

大於 3 的標記為 1，小於等於 3 的標記為 0

In [141]:
np.where(datb > 3, 1, 0)

array([[0, 0, 0],
       [1, 1, 1],
       [1, 1, 1]])

# 常用統計操作

In [142]:
data = np.array([[1, 2, 3],
                       [4, 5, 6],
                       [7, 8, 9]])
data

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

沿着列（axis=0）進行索引，求出平均值

In [143]:
data.mean(axis = 0) 

array([4., 5., 6.])

求出全部元素的標準差

In [144]:
data.std()

2.581988897471611

統計出陣列中元素大於3的個數

In [145]:
(data > 3).sum()

6

沿着行（axis = 0）进行索引，進行累加

In [146]:
data.cumsum(0)

array([[ 1,  2,  3],
       [ 5,  7,  9],
       [12, 15, 18]])

## 練習：

沿着列（axis = 1）進行索引，進行累乘（cumprod)