<a href="https://colab.research.google.com/github/jaylin0418/2025-IM-Camp/blob/main/intro_AI_knn_example_stu.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 人工智慧導論 - K-Nearest Neighbors (KNN) 實作（監督式學習）

In [None]:
!pip install sklearn
!pip install matplotlib
!pip install numpy

### 1. 載入手寫數字數據集

我們將使用 ```sklearn``` 提供的手寫數字數據集，這個數據集包含 1797 張手寫的數字圖片，每張圖片是 8x8 的大小，經過展平後變成 64 維的向量。

In [None]:
from sklearn.datasets import load_digits

# 下載手寫數字數據集
digits = load_digits()

# 數字圖片的數據 (1797, 64)，每個數字是一個 8x8 的圖像展平為 64 維
data = digits.data

# 真實標籤 (0-9)，每張圖片對應的真實數字
labels = digits.target

這段程式碼會將數據集中的圖片數據 (data) 和對應的標籤 (labels) 分別存儲在 `data` 和 `labels` 變數中。

### 2. 使用 KNN 進行分類

KNN 是一種常見的分類方法。在這裡，我們會將數據集分成兩部分：訓練集（用來訓練模型）和測試集（用來測試模型的表現）。

In [None]:
# TODO: 從 sklearn.model_selection 匯入 ________
# from ________ import ________

# 將數據集分為訓練集和測試集，請使用變數名 X_train, X_test, y_train, y_test
# TODO
# ________ = ________(______ , ______ , test_size=0.3, random_state=42)

在這裡，我們使用 ```train_test_split``` 函數將數據分成 70% 的訓練集和 30% 的測試集。

然後，我們定義 KNN 模型，並使用訓練集來進行訓練。這裡的 `k=3` 表示每次分類時會參考最近的 3 個鄰居。

In [None]:
# TODO: 從 sklearn.neighbors 匯入 ________
# from ________ import ________

# 定義 KNN 模型，選擇適當的 k 值，並將變數名設為 knn
# TODO
# knn = ________(n_neighbors=3)

# 訓練 KNN 模型，請使用變數 knn 來進行訓練
# TODO
# knn.fit(______ , ______)

這段程式碼建立了 KNN 模型並用訓練集數據來訓練它。

### 3. 預測結果並視覺化分類結果

一旦模型訓練完成，我們可以用測試集數據來進行預測。這裡的 ```predict``` 函數會返回模型對測試集每一張圖片的預測結果。

In [None]:
# 預測測試集的標籤，請使用變數 predicted_labels
# TODO
# predicted_labels = ________.predict(______ )

接下來，我們會隨機選擇 10 張測試集中的數字圖片，並顯示它們的分類結果。

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# 定義顯示數字圖片的函數
def plot_digits(data, predicted_labels, true_labels, title):
    fig, axes = plt.subplots(1, 10, figsize=(10, 3))
    for i, ax in enumerate(axes):
        ax.set_axis_off()  # 關閉坐標軸
        ax.imshow(data[i].reshape(8, 8), cmap='gray')  # 顯示圖片
        ax.set_title(f"P:{predicted_labels[i]}\nT:{true_labels[i]}")  # 顯示預測結果與真實標籤
    plt.suptitle(title)
    plt.tight_layout()
    plt.show()

# 隨機選擇 10 個數字，顯示其分類結果
rng = np.random.default_rng()
indices = rng.choice(len(X_test), size=10, replace=False)
plot_digits(X_test[indices], predicted_labels[indices], y_test[indices], "KNN Classification")

在這段程式碼中，我們隨機選擇 10 張圖片並顯示它們的預測標籤（`P`）和真實標籤（`T`）。這有助於我們理解模型的表現。

In [None]:
# 顯示預測標籤與真實標籤的比較
print("Predicted labels: ", predicted_labels[indices])
print("True labels:      ", y_test[indices])

Predicted labels:  [5 2 3 5 6 0 7 9 9 4]
True labels:       [5 2 3 5 6 0 7 9 9 4]


### 4. 計算分類準確率

最後，我們計算模型的準確率，即預測正確的數字佔總數字的比例。

In [None]:
# TODO: 從 sklearn.metrics 匯入 ________
# from ________ import ________

# 計算 KNN 分類準確率，並將結果儲存在變數 accuracy 中
# TODO
# accuracy = ________(______ , ______ )

# 輸出準確率
print(f"KNN 分類準確率: {accuracy * 100:.2f}%")

這段程式碼計算並顯示模型的準確率，告訴我們模型在測試集上的表現。