<a href="https://colab.research.google.com/github/yunn333/AI/blob/main/HW0225.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 打造自己的神經網路：手寫辨識AI

### 1. 讀入套件

#### 1.1 基本四件套

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#### 1.2 神經網路相關套件

In [2]:
import tensorflow as tf
from tensorflow.keras.datasets import mnist
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, BatchNormalization, ReLU, Input, Flatten
from tensorflow.keras.optimizers import RMSprop

#### 1.3 其餘額外套件

In [3]:
%matplotlib inline

from PIL import Image
from ipywidgets import interact_manual

#### 1.4 Gradio 套件

In [4]:
!pip install gradio
import gradio as gr



### 2. 讀取 MNIST 數據庫

#### 2.1 將資料存入 x 和 y

In [5]:
(x_train, y_train), (x_test, y_test) = mnist.load_data()

#### 2.2 檢查資料筆數是否正確（訓練60000/測試10000）

In [6]:
print(f'訓練資料總筆數為 {len(x_train)} 筆資料')
print(f'測試資料總筆數為 {len(x_test)} 筆資料')

訓練資料總筆數為 60000 筆資料
測試資料總筆數為 10000 筆資料


#### 2.3 檢查資料內容（使用圖片）

In [7]:
def show_xy(n=0):
    ax = plt.gca()
    X = x_train[n]
    plt.xticks([], [])
    plt.yticks([], [])
    plt.imshow(X, cmap = 'Greys')
    print(f'數字為{y_train[n]}')

In [8]:
interact_manual(show_xy, n=(0,59999));

interactive(children=(IntSlider(value=0, description='n', max=59999), Button(description='Run Interact', style…

#### 2.4 檢查資料內容（使用矩陣）

In [9]:
def show_data(n = 100):
    X = x_train[n]
    print(X)

In [10]:
interact_manual(show_data, n=(0,59999));

interactive(children=(IntSlider(value=100, description='n', max=59999), Button(description='Run Interact', sty…

### 3. 資料預處理

#### 3.1 輸入格式處理

In [11]:
x_train = x_train.reshape(-1, 28, 28, 1) / 255.0
x_test = x_test.reshape(-1, 28, 28, 1) / 255.0

#### 3.2 輸出格式處理

In [12]:
y_train = to_categorical(y_train, 10)
y_test = to_categorical(y_test, 10)

#### 3.3 輸出格式檢查

In [13]:
n = 100
y_train[n]

array([0., 0., 0., 0., 0., 1., 0., 0., 0., 0.])

### 4. 開始打造神經網路

#### 4.1 設定各層神經元

In [14]:
N1 = 1024
N2 = 512
N3 = 256
N4 = 128

#### 4.2 建立神經網路架構

In [15]:
model = Sequential([
    Input(shape=(28, 28, 1)),  # 改為 CNN 樣式的輸入，適合影像數據
    Flatten(),  # 展平 28x28 圖片

    Dense(N1),  # 第一層
    ReLU(),
    BatchNormalization(),
    Dropout(0.4),

    Dense(N2),  # 第二層
    ReLU(),
    BatchNormalization(),
    Dropout(0.3),

    Dense(N3),  # 第三層
    ReLU(),
    BatchNormalization(),
    Dropout(0.2),

    Dense(N4),  # 第四層
    ReLU(),
    BatchNormalization(),

    Dense(10, activation='softmax')  # 輸出層
])

#### 4.3 編譯模型

In [16]:
model.compile(loss='categorical_crossentropy', optimizer=RMSprop(learning_rate=0.0005), metrics=['accuracy'])

#### 4.4 訓練模型

In [17]:
model.fit(x_train, y_train, batch_size=256, epochs=25, validation_split=0.2)

Epoch 1/25
[1m188/188[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m18s[0m 32ms/step - accuracy: 0.8160 - loss: 0.5937 - val_accuracy: 0.8642 - val_loss: 0.3896
Epoch 2/25
[1m188/188[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 5ms/step - accuracy: 0.9528 - loss: 0.1504 - val_accuracy: 0.9655 - val_loss: 0.1144
Epoch 3/25
[1m188/188[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 5ms/step - accuracy: 0.9658 - loss: 0.1115 - val_accuracy: 0.9745 - val_loss: 0.0864
Epoch 4/25
[1m188/188[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 5ms/step - accuracy: 0.9756 - loss: 0.0766 - val_accuracy: 0.9781 - val_loss: 0.0782
Epoch 5/25
[1m188/188[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 5ms/step - accuracy: 0.9808 - loss: 0.0623 - val_accuracy: 0.9801 - val_loss: 0.0750
Epoch 6/25
[1m188/188[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 5ms/step - accuracy: 0.9838 - loss: 0.0520 - val_accuracy: 0.9786 - val_loss: 0.0766
Epoch 7/25
[1m188/188[0m

<keras.src.callbacks.history.History at 0x7afd9fbb1ed0>

#### 4.5 模型架構展示

In [18]:
model.summary()

### 5. 成果展示

#### 5.1 模型正確率

In [19]:
loss, acc = model.evaluate(x_test, y_test)
print(f"測試資料正確率 {acc*100:.2f}%")

[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 4ms/step - accuracy: 0.9814 - loss: 0.0807
測試資料正確率 98.48%


#### 5.2 印出所有預測結果

In [20]:
predict = np.argmax(model.predict(x_test), axis=-1)
predict

[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step


array([7, 2, 1, ..., 4, 5, 6])

#### 5.3 印出各別預測結果

In [21]:
def test(code):
    plt.imshow(x_test[code], cmap='Greys')
    print('神經網路判斷為:', predict[code])
interact_manual(test, code=(0, 9999));

interactive(children=(IntSlider(value=4999, description='code', max=9999), Button(description='Run Interact', …

#### 5.4 印出模型整體表現

In [22]:
score = model.evaluate(x_test, y_test)
print('loss:', score[0])
print('正確率', score[1])

[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.9814 - loss: 0.0807
loss: 0.0676255151629448
正確率 0.9847999811172485


#### 5.5. 用 Gradio 來展示

In [None]:
def resize_image(inp):
    image = np.array(inp["layers"][0], dtype=np.float32)
    image = image.astype(np.uint8)
    image_pil = Image.fromarray(image)
    background = Image.new("RGB", image_pil.size, (255, 255, 255))
    background.paste(image_pil, mask=image_pil.split()[3])
    image_pil = background
    image_gray = image_pil.convert("L")
    img_array = np.array(image_gray.resize((28, 28), resample=Image.LANCZOS))
    img_array = 255 - img_array
    img_array = img_array.reshape(1, 28, 28, 1) / 255.0
    return img_array


def recognize_digit(inp):
    img_array = resize_image(inp)
    prediction = model.predict(np.array(img_array)).flatten()
    labels = list('0123456789')
    return {labels[i]: float(prediction[i]) for i in range(10)}

iface = gr.Interface(
    fn=recognize_digit,
    inputs=gr.Sketchpad(),
    outputs=gr.Label(num_top_classes=3),
    title="MNIST 手寫辨識",
    description="請在畫板上繪製數字，系統將進行辨識。"
)

iface.launch(share=True, debug=True)

Colab notebook detected. This cell will run indefinitely so that you can see errors and logs. To turn off, set debug=False in launch().
* Running on public URL: https://2a985e0e536166973a.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 52ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 31ms/step


### 6. ChatGPT 幫忙部分

#### 6.1 神經網路架構建立

##### **Prompt:** <br>
---
>```python
>model = Sequential([ <br>
    Input(shape=(28, 28, 1)),  # 確保輸入形狀與模型一致 <br>
    Flatten(),  # 展平 28x28 圖片
>    
    Dense(1024),  # 第一層
    ReLU(),
    BatchNormalization(),
    Dropout(0.4),
>    
    Dense(512),  # 第二層
    ReLU(),
    BatchNormalization(),
    Dropout(0.3),
>    
    Dense(256),  # 第三層
    ReLU(),
    BatchNormalization(),
    Dropout(0.2),
>    
    Dense(128),  # 第四層
    ReLU(),
    BatchNormalization(),
>    
    Dense(10, activation='softmax')  # 輸出層
])
>
>解釋一下這段程式
>```

---
<br>

##### **ChatGPT 的回覆如下:** <br>
---

>這段程式碼使用 **Keras 的 `Sequential` API** 建立了一個 **4 層的全連接（Dense）神經網路**，適用於 **MNIST 手寫數字辨識**。讓我們逐層解析這個模型的結構和各個組件的作用。
>
>---
>
>## **📌 逐行解析**
>```python
>model = Sequential([
>    Input(shape=(28, 28, 1)),  # 確保輸入形狀與模型一致
>    Flatten(),  # 展平 28x28 圖片
>```
>### **🔹 `Input(shape=(28, 28, 1))`**
>- 指定模型的 **輸入形狀**：
>  - `28 × 28` 是 **MNIST 圖像的尺寸**。
>  - `1` 代表 **單通道灰階圖** （如果是彩色圖片則為 3 通道 `RGB`）。
>- `Input()` 這樣的寫法 **不需要在第一個 Dense 層額外指定** `input_shape`。
>### **🔹 `Flatten()`**
>- **作用**：把 **28×28 的 2D 圖片攤平成 1D 向量（784 維）**。
>- 這樣後面的 **`Dense` 全連接層** 就可以處理數據了。
>
>---
>
>```python
    Dense(1024),  # 第一層
    ReLU(),
    BatchNormalization(),
    Dropout(0.4),
>```
>### **🔹 `Dense(1024)`**
>- 這是一個 **全連接層（Fully Connected Layer）**，有 **1024 個神經元**。
>- 作用：從 784 維的輸入中提取 **深度特徵**。
>
>### **🔹 `ReLU()`**
- **ReLU（Rectified Linear Unit）** 是一種非線性激活函數：
  \[
  f(x) = \max(0, x)
  \]
- **作用**：
  - 讓模型 **學習複雜的非線性模式**。
  - **比 sigmoid 或 tanh 更適合深度學習**，因為它不會導致梯度消失問題。
>
>### **🔹 `BatchNormalization()`**
- **批次正規化（Batch Normalization, BN）**：
  - 讓神經網路在每一層的輸出保持 **穩定的數據分佈**，防止梯度爆炸或消失。
  - **加速訓練**，並且減少對初始權重的敏感性。
>
>### **🔹 `Dropout(0.4)`**
- **隨機丟棄 40%（0.4） 的神經元**，防止過擬合。
- 讓模型不會過度記住訓練數據，而是學習 **泛化特徵**。
>
>---
>
>```python
    Dense(512),  # 第二層
    ReLU(),
    BatchNormalization(),
    Dropout(0.3),
>```
- 這是 **第二個全連接層**，有 **512 個神經元**，用來學習更高層次的特徵。
- **Dropout(0.3)** 代表 **30% 的神經元隨機失效**，確保模型泛化能力。
>
>---
>
>```python
    Dense(256),  # 第三層
    ReLU(),
    BatchNormalization(),
    Dropout(0.2),
>```
- **第三層**，有 **256 個神經元**，讓模型進一步學習模式。
- `Dropout(0.2)`：這層丟棄 **20% 的神經元**，比前面少，因為此時已經過濾掉較多的特徵了。
>
>---
>
>```python
    Dense(128),  # 第四層
    ReLU(),
    BatchNormalization(),
>```
- **第四層**，有 **128 個神經元**，模型在這裡 **學習更細緻的特徵**。
- **不加 Dropout**：因為這是最後一層隱藏層，保留更多資訊來進行分類。
>
>---
>
>```python
    Dense(10, activation='softmax')  # 輸出層
])
>```
>### **🔹 `Dense(10, activation='softmax')`**
- 這是 **輸出層**，有 **10 個神經元**，對應數字 `0~9`（共 10 類）。
- 使用 **`softmax`**：
  - 把 10 個輸出的數值轉換成機率分佈：
    \[
    y_i = \frac{e^{z_i}}{\sum_{j=1}^{10} e^{z_j}}
    \]
  - 例如模型的輸出可能是：
    ```
    [0.01, 0.02, 0.05, 0.02, 0.06, 0.70, 0.04, 0.03, 0.02, 0.05]
    ```
    **表示模型認為數字 `5` 的機率最大（0.70）**，所以預測 `5`。
>
>---
>
>## **📌 總結**
這個模型的架構如下： <br><br>
1️⃣ **輸入層**：
   - 28×28 灰階圖（轉換為 `shape=(28,28,1)`）。
   - `Flatten()` 將圖片展平成 **784 維的向量**。
>
>2️⃣ **隱藏層**：
   - **第一層**：`Dense(1024)` + `ReLU()` + `BatchNormalization()` + `Dropout(0.4)`
   - **第二層**：`Dense(512)` + `ReLU()` + `BatchNormalization()` + `Dropout(0.3)`
   - **第三層**：`Dense(256)` + `ReLU()` + `BatchNormalization()` + `Dropout(0.2)`
   - **第四層**：`Dense(128)` + `ReLU()` + `BatchNormalization()`
>
>3️⃣ **輸出層**：
   - `Dense(10, activation='softmax')`，輸出 0~9 的機率。
>
>---
>
>## **📌 這個設計的優勢**
✅ **比傳統三層神經網路更深**，能學習 **更多高階特徵**。  
✅ **使用 `BatchNormalization()`**，加速訓練並提升準確率。  
✅ **使用 `Dropout()`**，有效 **防止過擬合**。  
✅ **`ReLU()` 作為激活函數**，讓梯度不會消失，提升訓練效率。  
✅ **輸出層使用 `softmax`**，確保模型輸出是機率分佈，可解釋性高。  
>
>這個架構適合 MNIST，也適用於其他影像分類任務！

#### 6.2 Gradio 程式調整

##### **Prompt:** <br>

---
>```python
def resize_image(inp):
    image = np.array(inp["layers"][0], dtype=np.float32)
    image = image.astype(np.uint8)
    image_pil = Image.fromarray(image)
    background = Image.new("RGB", image_pil.size, (255, 255, 255))
    background.paste(image_pil, mask=image_pil.split()[3])
    image_pil = background
    image_gray = image_pil.convert("L")
    img_array = np.array(image_gray.resize((28, 28), resample=Image.LANCZOS))
    img_array = 255 - img_array
    img_array = img_array.reshape(1, 28, 28, 1) / 255.0
    return img_array
>
>def recognize_digit(inp):
    img_array = resize_image(inp)
    prediction = model.predict(np.array(img_array)).flatten()
    labels = list('0123456789')
    return {labels[i]: float(prediction[i]) for i in range(10)}
>
>iface = gr.Interface(
    fn=recognize_digit,
    inputs=gr.Sketchpad(),
    outputs=gr.Label(num_top_classes=3),
    title="MNIST 手寫辨識（新版本）",
    description="請在畫板上繪製數字，系統將進行辨識。"
)
>
>iface.launch(share=True, debug=True)
>
>可以解釋一下這段程式比起老師寫的原版本
有什麼差別以及為什麼要這麼改嗎
以下是老師的原版本：
>
>def resize_image(inp):
>   # 圖在 inp["layers"][0]
    image = np.array(inp["layers"][0], dtype=np.float32)
    image = image.astype(np.uint8)
>
>   # 轉成 PIL 格式
    image_pil = Image.fromarray(image)
>
>   # Alpha 通道設為白色, 再把圖從 RGBA 轉成 RGB
    background = Image.new("RGB", image_pil.size, (255, 255, 255))
    background.paste(image_pil, mask=image_pil.split()[3]) # 把圖片粘貼到白色背景上，使用透明通道作為遮罩
    image_pil = background
>
>   # 轉換為灰階圖像
    image_gray = image_pil.convert("L")
>
>   # 將灰階圖像縮放到 28x28, 轉回 numpy array
    img_array = np.array(image_gray.resize((28, 28), resample=Image.LANCZOS))
>
>   # 配合 MNIST 數據集
    img_array = 255 - img_array
>
>   # 拉平並縮放
    img_array = img_array.reshape(1, 784) / 255.0
>
>   return img_array
>
>def recognize_digit(inp):
    img_array = resize_image(inp)
    prediction = model.predict(img_array).flatten()
    labels = list('0123456789')
    return {labels[i]: float(prediction[i]) for i in range(10)}
>
>iface = gr.Interface(
    fn=recognize_digit,
    inputs=gr.Sketchpad(),
    outputs=gr.Label(num_top_classes=3),
    title="MNIST 手寫辨識",
    description="請在畫板上繪製數字"
)
>
>iface.launch(share=True, debug=True)
>```
---
<br>

##### **ChatGPT的回覆如下:** <br>

---

>你的版本與老師的原版本在幾個關鍵點上有所不同，主要的改動包括：
>
>---
>
>## **📌 差異分析**
>
>### **1️⃣ `resize_image()`**
>這個函數負責 **將手繪輸入圖像轉換成 MNIST 模型可識別的格式**。
>
>|  | **你的版本** | **老師的版本** |
|---|------------|---------------|
| **輸入影像形狀** | `(28, 28, 1)` | `784`（展平） |
| **轉換過程** | **保持影像 2D 結構**，符合 CNN 訓練格式 | **展平為 1D 向量**，適用於 MLP（多層感知機） |
| **影像正規化** | `img_array.reshape(1, 28, 28, 1) / 255.0` | `img_array.reshape(1, 784) / 255.0` |
>
>### **🔹 你的版本：**
```python
img_array = img_array.reshape(1, 28, 28, 1) / 255.0
```
- 這個版本 **保留 2D 圖像結構** (`28x28x1`)，適用於 **卷積神經網路（CNN）**。
- 你的神經網路使用的是 **`Input(shape=(28, 28, 1))`**，這需要 **3D（高度, 寬度, 通道數）輸入**，因此這裡 **不能展平成 `784` 維的向量**。
>
>### **🔹 老師的版本：**
```python
img_array = img_array.reshape(1, 784) / 255.0
```
- 這個版本將圖像 **展平為 1D 向量**（784 維）。
- 這適用於 **全連接神經網路（MLP, Multi-Layer Perceptron）**，因為 MLP 不能直接處理 2D 圖像。
>
>**✅ 為什麼你的版本需要這樣改？**
- **你的神經網路架構** 期待的是 **CNN 格式** 的輸入（`28x28x1`），所以 **不能展平成 `784` 維**，而是要 **保留 2D 結構**。
- **老師的版本適用於全連接神經網路（DNN/MLP）**，所以它會把輸入 **攤平成 1D 向量**，以便能夠送入 `Dense()` 層。
>
>---
>
>### **2️⃣ `recognize_digit()`**
這個函數負責 **讓模型對處理後的圖片進行預測**。
>
>|  | **你的版本** | **老師的版本** |
|---|------------|---------------|
| **輸入格式** | `(1, 28, 28, 1)`（適用 CNN） | `(1, 784)`（適用 MLP） |
| **預測處理** | `model.predict(np.array(img_array)).flatten()` | `model.predict(img_array).flatten()` |
>
>### **🔹 你的版本：**
```python
prediction = model.predict(np.array(img_array)).flatten()
```
- **你這樣寫是為了確保 `img_array` 是 NumPy 陣列**，因為 `Gradio` 可能會傳回 List 而不是 NumPy 陣列。
- 這是 **額外的保險措施**，確保 `img_array` 進入模型時格式正確。
>
>### **🔹 老師的版本：**
```python
prediction = model.predict(img_array).flatten()
```
- 這樣的寫法 **適用於 MLP（輸入已經是展平的 1D 向量）**。
- **但如果 `img_array` 不是 NumPy 陣列，可能會出錯**。
>
>**✅ 為什麼你的版本需要這樣改？**
- 你的 CNN **期望的輸入格式是 `(1, 28, 28, 1)`**，確保 `img_array` 轉為 `NumPy` 陣列是安全做法。
- 老師的版本不需要這樣做，因為 **MLP 的 `Dense` 層可以直接處理 `784` 維的輸入向量**。
>
>---
>
>## **📌 總結**
你的版本 **針對 CNN 做了以下優化**：
1. **保留輸入影像的 2D 結構（`28x28x1`）**
   - CNN 需要這種格式，而 MLP 需要 `784` 維向量。
2. **確保 `img_array` 是 NumPy 陣列**
   - 避免 `Gradio` 傳回 List 導致錯誤。
3. **界面上的標題與描述調整**
   - 只是界面上的微調，不影響功能。
>
>✅ **這些修改讓你的程式碼適用於 CNN，而不是 MLP（全連接神經網路）。**  
✅ **如果你的模型使用的是 `Flatten()` + `Dense()` 層（MLP），那就應該用老師的寫法；如果使用 CNN，那就用你的寫法！**
>
>如果你還有其他問題，請告訴我！🚀😊