# AI 教材補充單元 - Numpy Quick Tutorial 
- 2022 機器學習 Summer Session 教材 (師培中心)<br>
- @ 台南應用科技大學 資管系 杜主民

## 什麼是 Numpy?
- NumPy，全名為 Numerical Python。
- Numpy 是 Python 家族語言在數據分析及科學計算上最重要的一個套件。
- Numpy 創建一種稱為 **ndarray** 的型別，彌補了 Python 原生 list 所缺乏的運算效率。
- 一個 ndarray 中僅能儲存單一種型別。
- 在數據處理的領域，記得**多用 array，少用 for 迴圈**。

## 載入 Numpy 套件

In [1]:
import numpy as np # np 是別名 (alias)

## 建立 Numpy 物件

In [2]:
# 建立一個 1 維整數 Numpy 物件
a1 = np.array([1, 2, 3])
print('a1=', a1)

a1= [1 2 3]


In [3]:
# 建立一個 1 維浮點數 Numpy 物件
a2 = np.array([1.1, 2.2, 3.3])
print('a2=', a2)

a2= [1.1 2.2 3.3]


In [4]:
# 建立一個 1 維整數混搭浮點數 Numpy 物件? 
a3 = np.array([1, 2.2, 3])
print('a3=', a3)

a3= [1.  2.2 3. ]


In [5]:
# 建立一個 2 維整數 Numpy 物件
b1 = np.array([(3, 2, 1), (6, 5, 4)])
print('b1=\n', b1)

b1=
 [[3 2 1]
 [6 5 4]]


## Numpy 為什麼較有效率?
- 先來看一個例子: 公里轉換成英里的範例

- 想像 dist_in_km:  [3, 5, 10, 21.1, 42.195] 是 5 筆以公里度量的距離串列資料
- 如果你想要將 dist_in_km 轉換為英制的 mile，你該如何做?
- PS : 1 公里等於 0.62137英里

In [5]:
# 1) 使用 for loop 方法
dist_in_km = [3, 5, 10, 21.1, 42.195]
dist_in_mile = []
for d in dist_in_km:
  dist_in_mile.append(d / 0.62137)

print('轉換後的英里: ', dist_in_mile)

轉換後的英里:  [4.828041263659333, 8.046735439432222, 16.093470878864444, 33.95722355440398, 67.90640037336853]


In [6]:
# 2) list comprehension 方法
dist_in_km = [3, 5, 10, 21.1, 42.195]
dist_in_mile = [d / 0.62137 for d in dist_in_km]

print('轉換後的英里: ', dist_in_mile)

轉換後的英里:  [4.828041263659333, 8.046735439432222, 16.093470878864444, 33.95722355440398, 67.90640037336853]


In [7]:
# 3) 利用函數轉換公里成為英里
def mileConvert(kilometers):
    dist_in_mile = []
    for k in kilometers:
        m = k / 0.62137
        dist_in_mile.append(m)
    return dist_in_mile

In [8]:
# 呼叫 mileConvert 函數
dist_in_km = [3, 5, 10, 21.1, 42.195]
dist_in_mile = mileConvert(dist_in_km)

print('轉換後的英里: ', dist_in_mile)

轉換後的英里:  [4.828041263659333, 8.046735439432222, 16.093470878864444, 33.95722355440398, 67.90640037336853]


In [9]:
# 4) 使用 map 搭配 lambda 函數
dist_in_km = [3, 5, 10, 21.1, 42.195]
dist_in_mile = map(lambda x: x / 0.62137, dist_in_km)
dist_in_mile = list(dist_in_mile)

print('轉換後的英里:',dist_in_mile)

轉換後的英里: [4.828041263659333, 8.046735439432222, 16.093470878864444, 33.95722355440398, 67.90640037336853]


- 前述的做法都是採用**純量 (scalar)**的計算方法。
- 在資料科學的計算中，以純量作為運算單位還是略嫌有些麻煩。
- Python 的 NumPy 套件以較有效率的方式解決問題。

In [10]:
dist_in_km = [3, 5, 10, 21.1, 42.195]

# 將 dist_in_km 的 list 型態轉換為 Numpy 的  array
dist_in_km = np.array(dist_in_km)

# 直接計算 dist_in_km 的所有元素後轉換
dist_in_mile = dist_in_km / 0.62137  

print('轉換後的英里: ', dist_in_mile)

轉換後的英里:  [ 4.82804126  8.04673544 16.09347088 33.95722355 67.90640037]


In [12]:
# 檢視兩者的資料型態
dist_in_km = [3, 5, 10, 21.1, 42.195]
print('轉換前 dist_in_km 的型態', type(dist_in_km))

dist_in_km = np.array(dist_in_km)
print('轉換後 dist_in_km 的型態', type(dist_in_km))

轉換前 dist_in_km 的型態 <class 'list'>
轉換後 dist_in_km 的型態 <class 'numpy.ndarray'>


## 練習題一: 攝氏和華氏溫度轉換

- 如果有一筆串列資料 celsius=[21, 15, 2, 4, 35, 0] ，有 6 筆攝氏溫度資料，如果你想要將 celsius 轉換為華氏溫度，你該如何做?
- 請先用上述四種方法試試看
    - 1.使用 for loop 方法
    - 2.list comprehension 方法
    - 3.利用自建函數轉換
    - 4.用 map 搭配 lambda 函數
- 使用 Numpy 直接計算

#### 溫度轉換公式: 華氏 = (攝氏 * 9) / 5 + 32 ####

In [13]:
celsius = np.array([21, 15, 2, 4, 35, 0])
fahrenheit = (celsius * 9)/5 + 32
fahrenheit

array([69.8, 59. , 35.6, 39.2, 95. , 32. ])

<hr style='border-color:brown; border-width:3px'>

## 一些經常用的 Numpy 語法

### 1. Numpy 的 arange 
- 語法: arange(start, stop, by)
- 與 range() 函數用法相同，只是產出的 iterable 型別為 ndarray 而非原生 list。
- 參數的使用慣例也與 range() 函數相同，start 包含 (inclusive)，但不包含 stop (exclusive)。

In [14]:
ndr1 = np.arange(1, 10, 1)
print('type of tmp:', type(ndr1))
print(list(ndr1))

type of tmp: <class 'numpy.ndarray'>
[1, 2, 3, 4, 5, 6, 7, 8, 9]


### 2. Numpy 的 linspace
- 語法: linspace(start, stop, num, dtype)
- 在介於 start（inclusive）與 stop（inclusive）之間產生長度為 num 的 ndarray。
- 等距間隔故預設的型別設為浮點數。

In [15]:
s1 = np.linspace(1, 10, 10)
print(s1)
s2 = np.linspace(1, 5, 10)
print(s2)

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
[1.         1.44444444 1.88888889 2.33333333 2.77777778 3.22222222
 3.66666667 4.11111111 4.55555556 5.        ]


### 3. Numpy 的 random.randint()

In [16]:
# 建立 3 個 Numpy array，分別是 1 維, 2 維和 3 維
npx1 = np.random.randint(1, 11, size=6)  # 1 維 array
npx2 = np.random.randint(1, 11, size=(3,4))  # 2 維 (3 x 4) array
npx3 = np.random.randint(1, 11, size=(3, 4, 5))  # 3 維 (3 x 4 x 5) array

print('npx1:', npx1)
print('npx2:\n', npx2)
print('npx3:\n', npx3)

npx1: [5 5 7 1 3 2]
npx2:
 [[ 2  2  5 10]
 [ 4 10  2  7]
 [ 6  6  8 10]]
npx3:
 [[[ 5  1  1  6  3]
  [ 4  2  2  5  1]
  [ 9  9  1  2 10]
  [ 2  4  4  5  9]]

 [[ 5  2  6  7  7]
  [ 1  8  7 10 10]
  [ 1  9  4  8  5]
  [ 2  2  6  7  2]]

 [[ 6  3  9  7  4]
  [ 9  4  7  8  4]
  [ 4 10  1  5  3]
  [ 7  1  1  3  3]]]


### 4. Numpy 的 random.randn()
- 常態分布亂數

In [17]:
nd = np.random.randn(10)
nd

array([ 1.39812726, -0.96033962,  0.93770242,  0.58362248,  0.90399955,
        2.6866037 ,  0.31518319,  0.27611916, -0.18983273,  0.9687484 ])

### 5. Numpy 的 random.normal()
- 設定平均數與標準差後的常態分佈亂數

In [18]:
nd2 = np.random.normal(5, 10, 100)
#print(nd2)
print('nd2.mean():', nd2.mean())
print('nd2.std():', nd2.std())

nd2.mean(): 5.200171061239782
nd2.std(): 10.574980040745992


### 6. Numpy 的常用屬性
- **.ndim**: numpy 的維度
- **shape**: numpy 的各維度的大小
- **size**: numpy 的元素個數
- **dtype**: 資料型態
- **itemsize**: 每一個元素佔據的記憶體大小
- **nbytes**: 總更占用的記憶體大小

<hr style='border-color:brown; border-width:3px'>

## 向量、陣列與矩陣

### 1. 建立向量 (Vector)
- 使用 `np.array()` 建立向量。

In [19]:
# 建立一維的向量
v1 = np.array([1, 2, 3])        # 直接建立一個向量
v2 = np.array(list([4, 5, 6]) ) # 轉換串列 (list) 成為向量
v3 = np.array(range(7, 10))     # 轉換 range 產生的連續值成為向量
v4 = np.arange(10, 20)          # 使用 numpy 的 arange() 方法

In [20]:
print(v1)
print(v2)
print(v3)
print(v4)

[1 2 3]
[4 5 6]
[7 8 9]
[10 11 12 13 14 15 16 17 18 19]


### 2. 建立二維以上的陣列 (Array)
- 使用 `np.array()` 建立二維陣列。

In [22]:
# 建立一個 2 x 3 的二維陣列
dim2 = np.array([[1,3,4], [2,4,6]])
print('陣列 dim2:\n', dim2)
print('型態:', type(dim2))
print(dim2.shape)

陣列 dim2:
 [[1 3 4]
 [2 4 6]]
型態: <class 'numpy.ndarray'>
(2, 3)


In [23]:
# 建立一個 2 x 3 x 2 的三維陣列
dim3 = np.random.randint(0, 101, size=(2, 3, 2))
print('陣列 dim2:\n', dim3)
print('型態:', type(dim3))
print(dim3.shape)

陣列 dim2:
 [[[61 77]
  [57  1]
  [17  6]]

 [[60 86]
  [56 93]
  [48 65]]]
型態: <class 'numpy.ndarray'>
(2, 3, 2)


### 3. 建立矩陣 (Matrix)
- 方法1. 使用 `np.array()`
- 方法2. 使用 `np.matrix()` 或 `np.mat()` 建立矩陣。

PS: 目前在 Numpy 使用 matrix() 建立矩陣很方便，但未來可能會取消此功能，只能使用 array() 建立陣列後再轉換為矩陣。

In [27]:
# 建立一個一維向量
dim1 = np.array([2, 4, 6, 8, 10, 12])
print('dim1:', dim1)

# reshape 轉換為 2 x 3 ndarray 陣列
dim2 = dim1.reshape(2,3)
print('dim2型態:', type(dim2))

# 使用 np.matrix() 轉換
dim2 = np.matrix(dim2)
print('dim2:\n', dim2)
print('dim2型態:', type(dim2))

dim1: [ 2  4  6  8 10 12]
dim2型態: <class 'numpy.ndarray'>
dim2:
 [[ 2  4  6]
 [ 8 10 12]]
dim2型態: <class 'numpy.matrix'>


#### 直接建立矩陣 (Matrix)

In [28]:
dim2_2 = np.matrix('2 4 6; 1 3 5')  # 建立一個 2 x 3 的矩陣
print('m3 矩陣:\n', dim2_2)

# 使用 np.mat() 建立矩陣
dim2_3 = np.mat('1 3 5; 2 4 6; 7 8 9')  # 建立一個 3  x 3 的矩陣
print('m4 矩陣:\n', dim2_3)

m3 矩陣:
 [[2 4 6]
 [1 3 5]]
m4 矩陣:
 [[1 3 5]
 [2 4 6]
 [7 8 9]]


## 陣列 v.s. 矩陣
- 陣列 (array) 陣列乘法和矩陣 (matrix)乘法方式不相同。
- 陣列 (array) 相乘是是兩個陣列`對應相乘`。
- 矩陣 (matrix) 預設的乘法方式是`內積(點積)`。

### 1. 陣列相乘 
- 陣列相乘，預設是對應元素相乘

In [29]:
dim1 = np.array([[1,2],[3,4]])
dim2 = np.array([[1,0],[0,1]])
print('dim1 陣列: \n', dim1)
print('dim2 陣列: \n', dim2)
print('dim1*dim2 矩陣: \n', dim1*dim2)

dim1 陣列: 
 [[1 2]
 [3 4]]
dim2 陣列: 
 [[1 0]
 [0 1]]
dim1*dim2 矩陣: 
 [[1 0]
 [0 4]]


### 2.矩陣相乘
- 矩陣相乘，預設是**內積 (點積)**。
- max1 矩陣大小為 r1 列數 x c1 欄位數(r1 x c1); max2 矩陣大小為 r2 列數 x c2 欄位數(r2 x c2)。
- max1 矩陣和 max2 矩陣相乘 (max1 矩陣 $\cdot$ max2 矩陣) 前提是 `max1 矩陣的欄位數 (c1) 必須相等與 max2 矩陣的列數 (r2)`。
- max3 矩陣(r1 x c2) = max1 矩陣(r1 x c1) $\cdot$ max2 矩陣(r2 x c2)，亦即 `max3 矩陣大小為 r1 列數 x c2 欄位數(r1 x c2)`。

#### 矩陣的相乘 (max1 與 max2 進行內積)
$max1 * max2 = 
\begin{bmatrix}
1 & 2 \\ 3 & 4
\end{bmatrix} \times
\begin{bmatrix}
1 & 0 \\ 0 & 1
\end{bmatrix} = $
$
\begin{bmatrix}
1 \times 1 + 2 \times 0 & 1 \times 0 + 2 \times 1 \\
3 \times 1 + 4 \times 0 & 3 \times 0 + 4 \times 1
\end{bmatrix} = 
\begin{bmatrix}
1 & 2 \\ 3 & 4
\end{bmatrix}$

### 說明:
- Numpy **matrices** are strictly 2-dimentional, while numpy **arrays (ndarrays)** are N-dimentional. Matrix objects are a subclass of ndarray, so they inherit all the attributes and methods of ndarrays.
- The main advantage of numpy matrices is that they provide a convinent notation for $\boxed {matrix\,\,multiplication}$ if **a** and **b** are matrices, then $\boxed{a * b}$ is their matrix product.

### 3. 以陣列進行內積
- 若要以 ndarray 陣列進行點積，使用 Numpy 的 `dot` 方法。

In [30]:
# 陣列相乘 (dim1 與 dim2)
dim1 = np.array([[1, 2], [3, 4]])
dim2 = np.array([[1, 0], [0, 1]])  # b 是 identity matrix 
print('dim1:\n', dim1)
print('dim2:\n', dim2)
print('dim1.dot(dim2):\n', dim1.dot(dim2))

dim1:
 [[1 2]
 [3 4]]
dim2:
 [[1 0]
 [0 1]]
dim1.dot(dim2):
 [[1 2]
 [3 4]]


那麼，究竟該使用 array 或是 matrix？根據官方文件 <a href='https://docs.scipy.org/doc/numpy-1.14.0/user/numpy-for-matlab-users.html'>NumPy for Matlab users 的建議</a>，<b>使用 ndarray！</b> 因為有著以下幾個優點：<p>

- 能夠表示向量、矩陣與張量。
- 許多 NumPy 的函數輸出型別為 ndarray 而非 matrix。
- ndarray 進行元素級別運算與線性代數運算時使用的運算符號有明顯區隔。