## 環境初始化

In [None]:
# 資料處理套件
import pandas as pd

# 高效能數學計算套
import numpy as np

# 資料視覺化套件
import matplotlib.pyplot as plt

In [None]:
# 下載資料及與上課套件
!git clone https://github.com/leeivan1007/NTU-PGPT-training-program.git
!cp NTU-PGPT-training-program/NN/* .

from units import get_cats_image
import cv2

## 1. Numpy 教學



### 關於資料的，詞彙說明

1. 純量：0 階資料，表示單一數值，計算機使用的維度。
2. 向量：1 階資料，表示1維數據，如聲音、文字皆為1為數據。
3. 矩陣：2 階資料，表示2維數據，財報&月份的圖圖表。
4. 張量：3 階或以上資料，如圖片為3維度資料。

In [None]:
# 0 維資料 純量(Scalar)
# data = n
scalar = np.array(7)
print(f'純量 資料階數：{scalar.ndim}')

In [None]:
# 純量相加
s_1 = np.array(12)
s_2 = np.array(7)
print(s_1 + s_2)

In [None]:
# 純量相乘
s_3 = np.array(55)
s_4 = np.array(2)
print(s_3 * s_4)

In [None]:
# 1 維資料 向量(Vector)
# data = [ n, n ]

vector = np.array([7, 4])
print(f'向量 資料階數：{vector.ndim}')

In [None]:
# 向量相加
v_1 = np.array([1, 4, 5, 12, -3])
print(f'向量 1：{v_1}')

v_2 = np.arange(5)
print(f'向量 2：{v_2}')

# 維度一樣，向量可直接加減乘除
result = v_1 + v_2
print(f'向量 總和：{result}')

In [None]:
# 文字訊息
text_data = np.array([7592, 1010, 1045, 2572, 6159]) # "Hello, I am Wayne"
print(text_data)

| Hello | , | I | am | Wayne |
|:-----:|:--:|:-:|:--:|:-----:|
| 7592  |1010|1045|2572| 6159 |


In [None]:
# 2 維度資料 矩陣(Matrix)
# data = [[ n, n ],
#         [ n, n ]]
matrix = np.array([[7, 4],[1, 4]])
print(f'矩陣 資料階數：{matrix.ndim}')

|    Category   | January | February |  March  | April  |   May   |  June  |
|:-------------:|:-------:|:--------:|:-------:|:------:|:-------:|:------:|
|     Revenue     |  80902  |   75193  |  58681  | 84437  |  91138  | 55607  |
|  Store Costs  |  48033  |   21182  |  38496  | 40789  |  46733  | 43351  |
|  Labor Costs  |  39160  |   12392  |  48639  | 49537  |  42860  | 25015  |


In [None]:
# 3 維度資料 張量(Tensor)
# data = [[[ n , n ] , [ n , n ]] , [[ n , n ] , [ n , n ]]]
tensor = np.array([[[7, 4],[1, 4]], [[9, 7], [6, 4]]])
print(f'張量 資料階數：{tensor.ndim}')

## 2. 3維資料

1. RGB影像 (寬, 高, RGB)

![貓咪照片](https://upload.wikimedia.org/wikipedia/commons/thumb/2/2d/Mystica_from_British_Empire_Cattery.jpg/200px-Mystica_from_British_Empire_Cattery.jpg)

2. 深度影像 (寬, 高, RGBD) D -> Depth

![深度影像](https://rgbd-dataset.cs.washington.edu/imgs/rgbd.png)

3. 深度相機

![深度相機](https://www.intel.com.tw/content/dam/www/central-libraries/us/en/images/d455.png.rendition.intel.web.576.324.png)

## 3. 圖片操作

In [None]:
# 取得貓咪們的照片
img_array = get_cats_image()
print(f'圖片的資料為度：{img_array.shape}')

In [None]:
# 顯示圖片
plt.imshow(img_array)

In [None]:
# 從 row, column 切圖塊的範圍
plt.imshow(img_array[0:120,0:120]) # row 0~120 | column 0~120

In [None]:
# 閾值處理，超過128為255，不超過則為0
gray_img = cv2.cvtColor(img_array, cv2.COLOR_BGR2GRAY) # 轉灰階
gray_img = np.where(gray_img > 128, 255, 0)
plt.imshow(gray_img, cmap='gray')

In [None]:
# 高斯模糊法
blurred_img = cv2.GaussianBlur(img_array, (15, 15), 0)
plt.imshow(blurred_img)

In [None]:
# 邊緣偵測方法
gray_img = cv2.cvtColor(img_array, cv2.COLOR_BGR2GRAY)
edges = cv2.Canny(gray_img, 100, 200)

plt.imshow(edges, cmap='gray')

In [None]:
# 亮度調整
brightness = 100

img = np.uint16(img_array)
img = img + brightness
bright_img = np.clip(img, 0, 255)

plt.imshow(bright_img)

## 4. 溢出 (Overflow)

In [None]:
# 正常資料
uint8_data = np.array([250, 255, 5], dtype=np.uint8)

print("uint8 資料：")
print(uint8_data)

In [None]:
# 加 5 發生溢位
overflow_add = uint8_data + np.array([5, 5, 5], dtype=np.uint8)

print("+5 後 資料：")
print(overflow_add)

### uint8 範圍



#### 十進制 vs 二進制
| 十進制 (Decimal) | 二進制 (Binary)  |
|-----------------|------------------|
| 0               | 0000 0000        |
| 1               | 0000 0001        |
| 8               | 0000 1000        |
| 128             | 1000 0000        |
| 255             | 1111 1111        |

In [None]:
#   1111 1111
#   0000 0101
# 1 0000 0100 <- overflow

## 隨堂練習 A

In [None]:
#@title 練習 1：Numpy 加法器
### 練習：做一個整數(int)的減法器
# (1). 請使用 numpy 的數字資料，來做相減
# (2). 單純的數字加減，可用純量的維度表示
# (3). 輸入、輸出皆為整數
# 參考：(1. Numpy 教學)：(0 維度資料 純量(Scalar))

def np_subtract(number_1, number_2):

  int_to_np_1 = ?
  int_to_np_2 = ?

  subtraction = int_to_np_1 - int_to_np_2
  subtraction = int(subtraction) # 型態轉換

  return subtraction

subtraction = np_subtract(17, 5)
print(f'相減後的結果：{subtraction}')
### 練習結果
# 相減後的結果：12

In [None]:
#@title 練習 2：週年慶活動的點數發送
### 情境：商店週年慶的點數大放送，每人免費贈送 100 點
# 右邊是會員目前有的點數：王伯伯有 300點，肯爺爺有 350點， 麥叔叔有180點
# 參考：（1. Numpy 教學）：(向量相加）

### 實作練習 ###

points = ?
free_points = ?
final_points = ?

### 實作練習 ###

print(f'增加大放送後，會員的點數：{final_points}\n(依序：王伯伯、肯爺爺、麥叔叔)')

### 練習結果
# 增加大放送後，會員的點數：[400 450 280]
# (依序：王伯伯、肯爺爺、麥叔叔)

In [None]:
#@title 練習 3：貓咪個人特寫
### 情境：請用 row 與 column 的方式，
# 請給右上角的橘色貓咪來做個人特寫
# 參考：（3. 圖片操作）：（從 row, column 切圖塊的範圍）

### 實作練習 ###
plt.imshow(img_array[:,:])
### 實作練習 ###

### 練習結果
# 畫面中僅出現右上的橘貓

## 5. Pandas

In [None]:
# 情境：半年的商店收入、店面成本與員工成本
import pandas as pd

data = {
    'Category': ['Revenue', 'Store Costs', 'Labor Costs'],
    'January': [80902, 48033, 39160],
    'February': [75193, 21182, 12392],
    'March': [58681, 38496, 48639],
    'April': [84437, 40789, 49537],
    'May': [91138, 46733, 42860],
    'June': [55607, 43351, 25015]
}

# 創建DataFrame
df = pd.DataFrame(data)
df.set_index('Category', inplace=True)

# 顯示DataFrame
df

In [None]:
# df.loc[row , column]
# row -> 橫坐標
# column -> 縱座標

In [None]:
# 查看所有收入，從 row 撈資料
revenue = df.loc['Revenue' , :]
print(f'收入資料：{revenue}')

In [None]:
# 查看三月的資料，從colum撈資料
March_data = df.loc[: , 'March']
print(f'三月的資料：{March_data}')

In [None]:
# 查看三月時的收入，從 row 跟 column 撈資料
March_revenue = df.loc['Revenue' , 'March']
print(f'三月的收入：{March_revenue}')

In [None]:
# 單純找 row 的資料，可以省略 column 的填寫
revenue = df.loc['Revenue' , :]
# revenue = df.loc['Revenue']
print(f'收入資料：{revenue}')

In [None]:
# 加總與平均值
total_revenus = df.loc['Revenue'].sum()
print(f'半年總收益：{total_revenus}')

total_revenus = df.loc['Revenue'].mean()
print(f'半年總收益：{total_revenus}')

In [None]:
# 情境：新增營業收益的資料
# 營業利益 = 收入 - 店面成本 - 人力成本

df.loc['Profit'] = df.loc['Revenue'] - df.loc['Store Costs'] - df.loc['Labor Costs']
df

In [None]:
# 維度交換：使用情況，某些 functions 只能從 Row 方向使用，或做矩陣乘法需要
df.T

In [None]:
# 統計分析
df.T.describe()

In [None]:
# 情境：查找收入的資料，從最高的收入排到最低的收入
df.T.sort_values(by='Revenue', ascending=False) # 排序以 row 的方向排序

In [None]:
# 情境：製作折線圖的營業狀況報表
df.T.plot()

## 隨堂練習 B

In [None]:
#@title 練習 1：五月的營收表現
### 情境：公司在母親節辦了行銷活動，行銷部門想查看，五月的收入狀況，
### 請提供這個數字給他，可以直接打印出來
### 參考：（5. Pandas）-（查看三月時的收入，從 row 跟 column 撈資料）

data = {
    'Category': ['Revenue', 'Store Costs', 'Labor Costs'],
    'January': [80902, 48033, 39160],
    'February': [75193, 21182, 12392],
    'March': [58681, 38496, 48639],
    'April': [84437, 40789, 49537],
    'May': [91138, 46733, 42860],
    'June': [55607, 43351, 25015]
}

df = pd.DataFrame(data)
df.set_index('Category', inplace=True)

### 實作練習 ###
revenue_May = ?
### 實作練習 ###

print(f'五月營收為：{revenue_May}')
### 練習結果：
# 五月營收為：91138

In [None]:
#@title 練習 2：人力成本的資料視覺化
### 情境：公司總裁想在人事成本較貴月份，找尋工讀生來降成本
### 他想看營業的報表，並以人力成本(Labor Costs)的數字，從高到低排列
### 參考：（5. Pandas）-（情境：查找收入的資料，從最高的收入排到最低的收入）
### 參考：（5. Pandas）-（情境：製作折線圖的營業狀況報表）

data = {
    'Category': ['Revenue', 'Store Costs', 'Labor Costs'],
    'January': [80902, 48033, 39160],
    'February': [75193, 21182, 12392],
    'March': [58681, 38496, 48639],
    'April': [84437, 40789, 49537],
    'May': [91138, 46733, 42860],
    'June': [55607, 43351, 25015]
}

df = pd.DataFrame(data)
df.set_index('Category', inplace=True)

### 實作練習 ###
df.?.?.? # 先轉置 -> 對資料做高低處理 -> 視覺化
### 實作練習 ###

### 練習結果：
# Labor 的折線圖，從左到右，會是遞減的狀況

In [None]:
#@title 練習 3：新增營業總成本的資料
### 情境：計算半年的營業總成本，加入到原本的DataFrame ###
# 營業總成本 = 商店成本 + 員工成本
# 營業總成本 的欄位，名稱用 Total Costs 表示
### 參考：（5. Pandas）-（情境：新增營業收益的資料）

data = {
    'Category': ['Revenue', 'Store Costs', 'Labor Costs'],
    'January': [80902, 48033, 39160],
    'February': [75193, 21182, 12392],
    'March': [58681, 38496, 48639],
    'April': [84437, 40789, 49537],
    'May': [91138, 46733, 42860],
    'June': [55607, 43351, 25015]
}

df = pd.DataFrame(data)
df.set_index('Category', inplace=True)

# 營業總成本 = 營業成本 + 員工成本

### 實作練習 ###
df.loc['Total Costs'] = ?
df
### 實作練習 ###

### 練習結果：
# datafram 增加一行 Total Costs -> 87193	33574	87135	90326	89593	68366

## 6. 線性代數
線性代數是關於向量空間和線性映射的一個數學分支，可以用在材料學、經濟學、商業管理以及計算機科學。

In [None]:
# 矩陣相加、矩陣相減、矩陣逐項相乘
import numpy as np

array_first = np.array([[ 0, 0],
                        [10,10],
                        [20,20]])

array_second = np.array([[ 1, 1],
                         [ 2, 2],
                         [ 3, 3]])

In [None]:
# 矩陣相加
array_first + array_second

In [None]:
# 矩陣相減
array_first - array_second

In [None]:
# 矩陣逐項相乘
array_first * array_second

In [None]:
# 矩陣逐項相除
array_first / array_second

In [None]:
# 維度沒有對齊
array_third = np.array([[ 1, 1],
                        [ 2, 2],
                        [ 3, 3],
                        [ 4, 4]])

print(f'新的矩陣維度：{array_third.shape}')
array_first + array_third

## 7. 廣播 (Broadcasting)

In [None]:
# 第一個矩陣
array_first = np.array([[ 0, 0],
                        [10,10],
                        [20,20],
                        [30,30]])

print(f'First array shape：{array_first.shape}')

In [None]:
# 第二個矩陣
array_second = np.array([[1,2]])

print(f'Second array shape：{array_second.shape}')

In [None]:
# 矩陣相加
print('矩陣相加後的結果：')
print(array_first + array_second)

In [None]:
# (4, 2) vs (4, 1)

array_second = np.array([[1],[2],[3],[4]])

print(f'Second array shape：{array_second.shape}')
print('矩陣相加後的結果：')
print(array_first + array_second)

In [None]:
# (4, 2) + (1, 1) ：使用 tile
array_second = np.array([[3]])
print(f'矩陣內容：')
print(array_second)
print(f'Array shape：{array_second.shape}')

array_second = np.tile(array_second, (4,2))
print(f'矩陣內容：')
print(array_second)
print(f'Array shape：{array_second.shape}')

In [None]:
### 情境：報名美商的財物公司報稅，需要台幣轉美金
import pandas as pd

data = {
    'Category': ['Revenue', 'Store Costs', 'Labor Costs'],
    'January': [80902, 48033, 39160],
    'February': [75193, 21182, 12392],
    'March': [58681, 38496, 48639],
    'April': [84437, 40789, 49537],
    'May': [91138, 46733, 42860],
    'June': [55607, 43351, 25015]
}

df = pd.DataFrame(data)
df.set_index('Category', inplace=True)

In [None]:
### 檢查兩個矩陣的維度
revenue_and_cost = df.to_numpy()
print(f'半年營業的資料維度：{revenue_and_cost.shape}')

NTD_to_USD = np.array([[0.03]])
print(f'台幣轉美幣匯率的資料維度：{NTD_to_USD.shape}')

In [None]:
# 矩陣的逐項相乘
revenue_and_cost = np.multiply(revenue_and_cost, NTD_to_USD)
print(f'矩陣乘上匯率後的結果：\n{revenue_and_cost}')

## 8. 矩陣乘法



以下是兩個矩陣 (1x2) 和 (2x3) 的矩陣相乘的例子：

### 範例

假設有兩個矩陣 A 和 B：

矩陣 A（1x2）：

\\[ A = \begin{pmatrix} a_{11} & a_{12} \end{pmatrix} \\]

矩陣 B（2x3）：

\\[ B = \begin{pmatrix} b_{11} & b_{12} & b_{13} \\ b_{21} & b_{22} & b_{23} \end{pmatrix} \\]



這兩個矩陣相乘的結果是矩陣 C（1x3）：

\\[ C = A \times B \\]

### 計算方法

矩陣 C 的元素 \\( c_{ij} \\) 由以下公式計算：

\\[ c_{ij} = \sum_{k=1}^{2} a_{ik} \times b_{kj} \\]

### 實例計算

假設：

\\[ A = \begin{pmatrix} 1 & 2 \end{pmatrix} \\]

\\[ B = \begin{pmatrix} 3 & 4 & 5 \\ 6 & 7 & 8 \end{pmatrix} \\]

我們計算矩陣 C：

\\[ C = \begin{pmatrix} c_{11} & c_{12} & c_{13} \end{pmatrix} \\]

其中：

\\[ c_{11} = 1 \times 3 + 2 \times 6 = 3 + 12 = 15 \\]

\\[ c_{12} = 1 \times 4 + 2 \times 7 = 4 + 14 = 18 \\]

\\[ c_{13} = 1 \times 5 + 2 \times 8 = 5 + 16 = 21 \\]


所以，矩陣 C 是：

\\[ C = \begin{pmatrix} 15 & 18 & 21 \end{pmatrix} \\]


In [None]:
#                         水果的營養成分
#              vitamins_A, vitamins_C,  Moisture
watermelon =  (  418,          8,          93   )
guava      =  (  50,           81,         89   )
banana     =  (  5,            10,         74   )

In [None]:
# 建立矩陣
fruit_nutrient_array = np.array([watermelon, guava, banana])
print('水果的營養成分矩陣')
print(fruit_nutrient_array)

In [None]:
# 水果數量
w_quantity = 1
g_quantity = 0
b_quantity = 2

print('水果的數量矩陣')
fruit = (w_quantity, g_quantity, b_quantity)
fruit_quantity_array = np.array([fruit])
print(fruit_quantity_array)

In [None]:
# 確定兩個矩陣可以做相乘
print(fruit_quantity_array.shape)
print(fruit_nutrient_array.shape)

In [None]:
# 矩陣相乘
total_nutrient = np.dot(fruit_quantity_array, fruit_nutrient_array)
print(f'總攝取營養：{total_nutrient}')
print(f'資料的維度：{total_nutrient.shape}')

## 隨堂練習 C

練習用網址： [財政部 113年度累進稅率](https://www.ntbt.gov.tw/multiplehtml/1b82b380e1a34de9afd204d39b007db2)

In [None]:
#@title 練習 1：計算所得稅 -> [113年度累進稅率](https://www.ntbt.gov.tw/multiplehtml/1b82b380e1a34de9afd204d39b007db2)
### 情境：接到一個財部部的專案，要計算小明、小王、小李的年收、稅率與所得稅矩陣
# 小明的年收：48萬，小王的年收：150萬，小李的年收：86萬
# 公式：全年稅額 = 所得 * 稅率 - 差額
# 參考：（6. 線性代數）-（矩陣逐項相乘、相減）

### 實作練習 ###

revenue_martix = np.array([ ? ]) # 數字的單位以萬元來計算，revenue = 10 ,代表 10萬
rate_martix = np.array([ ? ]) # 稅率的值： 100% = 1,  5% = 0.05
difference_martix = np.array([ ? ]) # 數字的單位以萬元來計算，difference = 4.1 代表 4萬1千

tax_martix = ?

### 實作練習 ###

print(f'三人應繳所得稅為：{tax_martix}')
### 練習結果
# 三人應繳所得稅為：[[ 2.4  15.23  6.19]]

In [125]:
#@title 練習 2：計算文具成本
### 情境：老闆想想知道每種文具、在每個月的成本，以此作去調整進貨決策
# 商品的成本比例 Pen: 0.7, Ruler: 0.5, Eraser: 0.6
#
# (1) 製作成本矩陣，選擇下列兩個，其中一個方式
#     a. 使用 np.tile() 取得相同大小的矩陣 -> np.tile(array, (?,?))
#     b. 藉由 boardcast的特性，其中一個維度的數量值，必須為 1
# (2) 注意中括號的擺放位置，與 row, colum 構成的維度有關
#     a. np.array([[0,1]]).shape -> (1, 2)
#     n. np.array([[0],[1]]).shape -> (2, 1)
# (3) 收入矩陣與成本矩陣，做逐項相乘

data = {
    'Product': ['Pen', 'Ruler', 'Eraser'],
    'January': [10000, 9000, 8500],
    'February': [10500, 9500, 8700],
    'March': [11000, 9200, 9000],
    'April': [11500, 9300, 8800],
    'May': [12000, 9400, 8600],
    'June': [12500, 9600, 8900]
}

df = pd.DataFrame(data)
df.set_index('Product', inplace=True)
revenue_martix = df.to_numpy()
print(revenue_martix.shape) # shape -> (3, 6)

### 實作練習 ###

cost_martix = np.array(?) # 實作一個 numpy 2維矩陣 ｜ 注意 [] 位置跟數量
result_martix = ? # 矩陣逐項乘法

### 實作練習 ###

print(f'每個月的商品成本表：')
print(result_martix)

### 實作結果：
# 每個月的商品成本表：
# [[7000. 7350. 7700. 8050. 8400. 8750.]
#  [4500. 4750. 4600. 4650. 4700. 4800.]
#  [5100. 5220. 5400. 5280. 5160. 5340.]]

SyntaxError: invalid syntax (<ipython-input-125-f94f3291eb7e>, line 30)

### 練習 3：計算訂單的成本

In [None]:
# 情境：水果老闆想知道，八月以及九月訂單的成本矩陣
#      商品成本 運費成本   商品稅
apple  = [3,   0.5,  0.3]
orange = [2.5, 0.4,  0.2]
banana = [1,   0.2,  0.1]
# 矩陣的資料本質 (水果種類, 成本種量)

product_cost_martix  = np.array([apple, orange, banana])
print('商品的成本矩陣')
print(product_cost_martix )
print(f'成本矩陣的維度：{product_cost_martix.shape}')
print(f'')

In [None]:
# 取得水果的數量矩陣
#         蘋果數量, 橘子數量, 香蕉數量
# 八月訂單：  10,      5,      20
# 九月訂單：  3,       7,      12

### 實作練習 ###

product_quantity_array = ?  # 提示：數據的本質 (數量, 水果種類) ｜ 注意：[] 的位置以及數量

### 實作練習 ###

print('商品的數量矩陣')
print(product_quantity_array)
print(f'數量矩陣的維度：{product_quantity_array.shape}')

### 實作結果
# 商品的數量矩陣
# [[10  5 20]
#  [ 3  7 12]]
# 數量矩陣的維度：(2, 3)

In [None]:
# 情境：計算每個產品半年的總成本 - 實作
# 提示：矩陣相乘的規範 (n, m) dot (m, k) -> (n, k)
# 第一個矩陣的 row 數量與 第二個矩陣的 column 數量，需一致。
# 參考：（8. 矩陣乘法）：（矩陣乘法）

### 實作練習 ###
cost_array = ? # 矩陣相乘，注意兩個矩陣的前後位置
### 實作練習 ###

print('訂單x成本矩陣(商品成本、運費成本、商品稅金)：')
print(f'{cost_array}')
print(f'資料的維度：{cost_array.shape}')

### 練習結果：
# 訂單x成本矩陣(商品成本、運費成本、商品稅金)：
# [[62.5 11.   6. ]
#  [38.5  6.7  3.5]]
# 資料的維度：(2, 3)

## 9. 鳶尾花資料集

In [None]:
# 匯入訓練與測試資料
from units import show_sigmoid_function, show_tanh_function, show_cross_entropy_loss

data_set = pd.read_csv('iris_training.csv', header=None)
data_test = pd.read_csv('iris_test.csv', header=None)

In [None]:
data_set[:5] # 抽取前五筆

In [None]:
data_set[:1] # 萼片長度, 萼片寬度, 花瓣長度, 花瓣寬度, 是否為山鳶尾, 是否為變色鳶尾, 是否為維吉尼亞鴛尾

In [None]:
# 種類類別：純數字 vs one-hot encoding
# 類別為1： 1 vs 0 1 0
# 類別為0： 0 vs 1 0 0
# 類別為2： 2 vs 0 0 1

In [None]:
# 訓練與測試資料數量
print(f'訓練資料數量：{len(data_set)}')
print(f'測試資料數量：{len(data_test)}')

In [None]:
# 資料抽取：特徵與標籤
print(f'(特徵,資料量) | {data_set.values.T.shape}')

In [None]:
# 資料抽取：特徵與標籤，做分離
train_data = data_set.iloc[:, 0:4].values.T
label_data = data_set.iloc[:, 4:].values.T

label_data = label_data.astype('uint8')
print(f'(特徵,資料量) | {train_data.shape}')
print(f'(特徵,資料量) | {label_data.shape}')

## 10. 建立類神經模型

In [None]:
# 隨機 random 產值
data = np.random.randn(2, 5) # 常態分佈
print(data)

In [None]:
# 設定參數
feature_quantity = 4 # 特徵
weights_quantity = 10 # weights 10
class_quantity = 3 # 種類

In [None]:
# 建立神經網路
w1 = np.random.randn(weights_quantity, feature_quantity) # (10, 4)
b1 = np.zeros(shape=(weights_quantity, 1))  # (10, 1)

w2 = np.random.randn(class_quantity, weights_quantity)   # (3, 10)
b2 = np.zeros(shape=(class_quantity, 1))    # (3, 1)

parameters = {'w1': w1, 'b1': b1, 'w2': w2, 'b2': b2}

In [None]:
# 參數維度
print('第一次層數')
print(f'參數量：weights {w1.shape}')
print(f'參數量：bias {b1.shape}')

print('第二次層數')
print(f'參數量：weights {w2.shape}')
print(f'參數量：bias {b2.shape}')

In [None]:
# 資料流變化

#  (4, 120) 特徵數量, 資料數量

#  第一層計算
#  (10, 4) (4, 120) -> (10, 120) 特徵數量, 資料數量

#  第二層計算
#  (3, 10) (10,120) -> (3, 120)  種類數量, 資料數量

#  (3, 120) 種類數量，資料數量

## 11. 前向傳播

In [None]:
# 取出參數值
# y = ax + b
w1 = parameters['w1']
b1 = parameters['b1']

w2 = parameters['w2']
b2 = parameters['b2']

In [None]:
# 第一層矩陣計算
z1 = np.dot(w1, train_data) + b1
a1 = np.tanh(z1)
print(a1.shape)

In [None]:
# show tanh function
from units import show_tanh_function
show_tanh_function()

In [None]:
# 經過第二層
z2 = np.dot(w2, a1) + b2
a2 = 1 / (1 + np.exp(-z2)) # sigmoid
print(a2.shape)

In [None]:
# sigmoid function
show_sigmoid_function()

In [None]:
# 儲存中間的計算值
cache = {'z1': z1, 'a1': a1, 'z2': z2, 'a2': a2}

## 12. 計算損失函數： 交叉熵 (Cross entropy)



交叉熵 (Cross entropy) 損失函數：
\\[ L = -\sum_{i=1}^{C} y_i \log(\hat{y}_i) \\]

其中：
- \\( y_i \\) 是真實標籤
- \\( \hat{y}_i \\) 是預測機率
- \\( \sum_{i} \\) 表示對所有類別進行求和
- \\(\log\\) 是對數函數


第一個樣本，真實標籤為 [1, 0, 0]，預測概率為 [0.7, 0.2, 0.1]：

\\[ L_1 = -[1 \cdot \log(0.7) + 0 \cdot \log(0.2) + 0 \cdot \log(0.1)] = -\log(0.7) \\]


In [None]:
# 計算 Loss

y_true = [1, 0, 0]
y_pred = [0.7, 0.2, 0.1]

loss_0 = -(y_true[0] * np.log(y_pred[0]))
loss_1 = -(y_true[1] * np.log(y_pred[1]))
loss_2 = -(y_true[2] * np.log(y_pred[2]))

total_loss = loss_0 + loss_1 + loss_2
print("Loss for sample:", total_loss)

In [None]:
show_cross_entropy_loss()

## 13. 反向傳播 (損失函數的微分)

In [None]:
# 取出要計算的資料
m = label_data.shape[1]

w2 = parameters['w2']
a1 = cache['a1']
a2 = cache['a2']

In [None]:
# 計算梯度
dz2 = a2 - label_data
dw2 = (1 / m) * np.dot(dz2, a1.T)
db2 = (1 / m) * np.sum(dz2, axis=1, keepdims=True)

dz1 = np.multiply(np.dot(w2.T, dz2), 1 - np.power(a1, 2))
dw1 = (1 / m) * np.dot(dz1, train_data.T)
db1 = (1 / m) * np.sum(dz1, axis=1, keepdims=True)

grads = {'dw1': dw1, 'db1': db1, 'dw2': dw2, 'db2': db2}

## 14. 更新模型參數

In [None]:
## 設置學習率
learning_rate = 0.4

In [None]:
w1 = parameters['w1']
b1 = parameters['b1']
w2 = parameters['w2']
b2 = parameters['b2']

dw1 = grads['dw1']
db1 = grads['db1']
dw2 = grads['dw2']
db2 = grads['db2']

# 使用梯度來更新参数
w1 = w1 - dw1 * learning_rate
b1 = b1 - db1 * learning_rate
w2 = w2 - dw2 * learning_rate
b2 = b2 - db2 * learning_rate

parameters = {'w1': w1, 'b1': b1, 'w2': w2, 'b2': b2}

## 15. Gradient descent (梯度下降)

### 15.1 範例：簡單的二次函式



1. 函式 : f(x)

$$
f(x) = (x - 3)^2
$$

2. 導數 : f'(x)

$$
f'(x) = 2(x - 3)
$$

In [None]:
# 函式 與 導數
def f(x):
    return (x - 3) ** 2

def df(x):
    return 2 * (x - 3)

In [None]:
# 模型初始化與超參數
x = 0
learning_rate = 0.1
num_iterations = 20

In [None]:
# 儲存初始參數
x_values = [x]
f_values = [f(x)]

# 梯度下降
for _ in range(num_iterations):
    x = x - learning_rate * df(x)  # 更新x
    x_values.append(x)
    f_values.append(f(x))

In [None]:
# 資料視覺化
print(f"最終的x值: {x}")
print(f"最終的f(x)值: {f(x)}")

x_range = np.linspace(-1, 7, 100)
y_range = f(x_range)

plt.plot(x_range, y_range, label='f(x) = (x - 3)^2')
plt.scatter(x_values, f_values, color='red')
for i in range(num_iterations):
    plt.annotate(f'{i+1}', (x_values[i], f_values[i]))

plt.xlabel('x')
plt.ylabel('f(x)')
plt.title('Gradient Descent')
plt.legend()
plt.show()

In [None]:
# 情境：身為條參工程師的你，透過超參數控制損失的收斂狀況
from units import test_diff_learning_rate

x = 0
learning_rate = 0.1 # 0.1
num_iterations = 20

test_diff_learning_rate(x, learning_rate, num_iterations)

### 15.2 Momentum 梯度下降公式



Momentum 梯度下降通過在更新方向中引入動量，來加速收斂並避免陷入局部最小值。


1. 權重更新
\\[ \theta_t = \theta_{t-1} - \alpha \nabla f(\theta_{t-1}) \\]

2. 權重更新（帶入動量項）
\\[ \theta_t = \theta_{t-1} - \alpha (\beta v_{t-1} + \nabla f(\theta_{t-1})) \\]


符號說明
- \\( v_t \) 是第 \( t \\) 步的動量項。
- \\( \beta \) 是動量參數，範圍通常在 \( 0.8 \) 到 \( 0.99 \\) 之間。
- \\( \nabla f(\theta_{t-1}) \\) 是損失函數對參數的梯度。
- \\( \theta_t \) 是第 \( t \\) 步的參數值。
- \\( \alpha \\) 是學習率。
- \\( t \\) 是時間步數。



```python
# 添加 momentum
for i in range(num_iterations):

    # gradient without momeentum
    grad = gradient(x_gd)
    x_gd = x_gd - (learning_rate * grad)
    
    # gradient with momeentum
    v = momentum * v + gradient(x_gd_momentum)
    x_gd_momentum = x_gd_momentum - (learning_rate * v)

```

In [None]:
from units import gd_and_gd_with_momentum

x_init = -0.8  # 參數初始化
learning_rate = 0.01
num_iterations = 30
momentum = 0.9

gd_and_gd_with_momentum(x_init, learning_rate, num_iterations, momentum)

### 15.3 第一次的模型評估

In [None]:
# 評估模型的準確率
from units import evaluate_accuracy

evaluate_accuracy(data_test, parameters)

### 15.4 模型訓練

In [None]:
# 載入套件
from units import forward_propagation
from units import compute_cost
from units import backward_propagation
from units import update_parameters

In [None]:
# 建立神經網路
w1 = np.random.randn(weights_quantity, feature_quantity)  # (10, 4)
b1 = np.zeros(shape=(weights_quantity, 1))  # (10, 1)

w2 = np.random.randn(class_quantity, weights_quantity)  # (3, 10)
b2 = np.zeros(shape=(class_quantity, 1)) # (3, 1)

parameters = {'w1': w1, 'b1': b1, 'w2': w2, 'b2': b2}

In [None]:
# 訓練次數
num_iterations = 10000

for i in range(0, num_iterations):
    # 1. 前向傳播
    a2, cache = forward_propagation(train_data, parameters)
    # 2. 計算損失值
    cost = compute_cost(a2, label_data)
    # 3. 反向傳播
    grads = backward_propagation(parameters, cache, train_data, label_data)
    # 4. 更新參數
    parameters = update_parameters(parameters, grads)

    # print loss
    if i % 1000 == 0:
        print(f'訓練第 {i} 次，損失值：{cost}')

In [None]:
# 評估模型的準確率
from units import evaluate_accuracy

evaluate_accuracy(data_test, parameters)

## How to make it better?



1. 數據擴增
2. 模型疊更深
3. 增加更多模態的資料 -> [範例研究](https://arxiv.org/abs/1705.07750)
---------------------
4. 定義與識別化挑戰
5. 嘗試不同的超參數
6. 修改模型
7. 調整優化器、設計損失函數
8. 4~7 不斷進行迴圈，直到模型的表現達到業務需求


## 隨堂練習 D

In [None]:
#@title 練習 1：調整參數，找到局部最小值
### 情境：演算法開發，嘗試條超參數，使得模型收斂至局部最小點
from units import test_gradient_descent

### 實作練習 ###

learning_rate = 0.05 # <- 挑整數值，調整策略：10倍、1/10倍、5倍、1/5倍調整
test_gradient_descent(0, learning_rate, 30)

### 實作練習 ###

### 練習結果
# 使得圖表中紅點，從一個方向平滑地下落到，局部最小值即可
# 可能出現 'Numerical result out of range' 代表值變無窮大，學習率可拉小試試

### 練習 2：預測乳癌機率


Breast cancer wisconsin (diagnostic) dataset
資料集介紹 -> [連結](https://scikit-learn.org/stable/datasets/toy_dataset.html#breast-cancer-wisconsin-diagnostic-dataset)

In [None]:
### 情境：使用類神經網路，做乳癌的症狀分析
from sklearn.datasets import load_breast_cancer

data = load_breast_cancer()
X = data.data
print(X.shape) # (資料數量, 特徵數量)
print('輸出類別維度為 2：正常 or 異常')

# print('資料特徵：')
# print(X[0, :]) # 第0筆的資料特徵，可參照上方連結

In [None]:
### 情境：使用類神經網路，做乳癌的症狀分析
### 參考：(10. 建立類神經模型)
from units import build_and_train

### 實作練習 ###

feature_quantity = ?
weights_quantity = ?
class_quantity = ?

# first_layer : (weights_quantity, feature_quantity)
# second_layer : (class_quantity, weights_quantity)

learning_rate = 0.01
epochs = ? # 試著不斷往上增加

### 實作練習 ###

loss_list = build_and_train(feature_quantity, weights_quantity, class_quantity, epochs, learning_rate)

### 實作結果
# 正常狀況 Test Accuracy 會超過 0.95

### 練習 3：使用動量調整超參數

In [None]:

# 情境：你現在是一為調參工程師，請試著調整參數，訓練你的類神經模型。
# x_init：不能修改
# learning_rate, num_iterations, momentum：可以修改
from units import test_gd_with_momentum

### 實作練習 ###

x_init = 5  # 參數初始化
learning_rate = 0.1
num_iterations = 30
momentum = 0.9

### 實作練習 ###

test_gd_with_momentum(x_init, learning_rate, num_iterations, momentum)
### 實作結果 -> 開啟左側的 gd_vs_gd_momentum_sine.gif 觀測結果
# 動量梯度下降法(綠色)，可以從右側 x = 5，優化到 x=-1.7 的局部極小值

## 附錄

### 交叉熵損失函數的微分推導

假設我們有一個二分類問題，真實標籤為 \\(y\\)，預測概率為 \\(\hat{y}\\)。

#### 1. 交叉熵損失函數

交叉熵損失函數定義為：

\\[ L = -[ y \log(\hat{y}) + (1 - y) \log(1 - \hat{y}) ] \\]

#### 2. Sigmoid 函數

Sigmoid 函數定義為：

\\[ \sigma(z) = \frac{1}{1 + e^{-z}} \\]

預測概率 \\(\hat{y}\\) 可以表示為：

\\[ \hat{y} = \sigma(z) = \frac{1}{1 + e^{-z}} \\]

#### 3. 交叉熵損失函數對 logits \\( z \\) 的導數

##### 3.1 交叉熵損失函數對 \\(\hat{y}\\) 的導數

\\[ \frac{\partial L}{\partial \hat{y}} = -\frac{y}{\hat{y}} + \frac{1 - y}{1 - \hat{y}} \\]

##### 3.2 Sigmoid 函數對 \\( z \\) 的導數

\\[ \frac{\partial \hat{y}}{\partial z} = \sigma(z) (1 - \sigma(z)) = \hat{y} (1 - \hat{y}) \\]

##### 3.3 使用鏈式法則

\\[ \frac{\partial L}{\partial z} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z} \\]

將前面的導數結果代入，得到：

\\[ \frac{\partial L}{\partial z} = \left(-\frac{y}{\hat{y}} + \frac{1 - y}{1 - \hat{y}}\right) \cdot \hat{y} (1 - \hat{y}) \\]

簡化後：

\\[ \frac{\partial L}{\partial z} = -y (1 - \hat{y}) + (1 - y) \hat{y} \\]

\\[ \frac{\partial L}{\partial z} = -y + y \hat{y} + \hat{y} - y \hat{y} \\]

\\[ \frac{\partial L}{\partial z} = \hat{y} - y \\]

### 結論

通過上述推導，我們得到了交叉熵損失函數對 logits \\( z \\) 的導數：

\\[ \frac{\partial L}{\partial z} = \hat{y} - y \\]
