<a href="https://colab.research.google.com/github/roberthsu2003/machine_learning/blob/main/%E8%B2%9D%E6%B0%8F%E5%88%86%E9%A1%9E/sklearn%E5%AF%A6%E4%BD%9C1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
%%capture
%pip install wget

In [None]:
#下載字型
import wget
wget.download("https://github.com/roberthsu2003/machine_learning/raw/refs/heads/main/source_data/ChineseFont.ttf")

### 如何使用 scikit-learn 的 `GaussianNB` 模型來進行分類。
- 我們將使用一個簡單的數據集，其中包含兩個特徵（例如，花瓣長度和花瓣寬度），並預測鳶尾花的種類（0、1 或 2）。

### Iris 資料集中每一筆資料長這樣：
特徵：
- 花萼長度
- 花萼寬度
- 花瓣長度
- 花瓣寬度

目標類別：
- 山鳶尾 / 變色鳶尾 / 維吉尼亞鳶尾

### 條件獨立假設意思是：
在已知花的品種（例如：Setosa）的情況下:

→ 花萼長度和花瓣長度的機率是獨立的。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
import matplotlib as mlp
from matplotlib.font_manager import fontManager

fontManager.addfont('ChineseFont.ttf')
mlp.rc('font', family='ChineseFont')

# 1. 載入數據集
iris = load_iris()
X = iris.data[:, :2]  # 花萼長度和花萼寬度
y = iris.target

# 2. 分割訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. 建立高斯樸素貝葉斯模型
model = GaussianNB()

# 4. 訓練模型
model.fit(X_train, y_train)

# 5. 進行預測
y_pred = model.predict(X_test)

# 6. 評估模型
accuracy = accuracy_score(y_test, y_pred)
print(f"模型準確度：{accuracy:.2f}")

# 7. 可視化決策邊界
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02), np.arange(y_min, y_max, 0.02))
Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, alpha=0.3)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor='k')
plt.xlabel(iris.feature_names[0])
plt.ylabel(iris.feature_names[1])
plt.title('高斯樸素貝葉斯分類邊界')
plt.show()

### 以下範例有包含
- Q-Q圖
- 準確率
- 混淆矩陣(熱力圖)
- 分類報告

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import seaborn as sns
import matplotlib as mlp
from matplotlib.font_manager import fontManager

# 設置中文字體（確保圖表顯示中文）
fontManager.addfont('ChineseFont.ttf')
mlp.rc('font', family='ChineseFont')

# 1. 載入 Iris 數據集
iris = load_iris()
X = iris.data  # 特徵：花萼長度、花萼寬度、花瓣長度、花瓣寬度
y = iris.target  # 類別：0, 1, 2（三種鳶尾花品種）
feature_names = ['花萼長度', '花萼寬度', '花瓣長度', '花瓣寬度']  # 特徵名稱改為中文
class_names = ['山鳶尾', '變色鳶尾', '維吉尼亞鳶尾']  # 類別名稱改為中文

# 2. 檢查特徵是否符合高斯分佈，使用 Q-Q 圖
plt.figure(figsize=(12, 8))
for i in range(X.shape[1]):
    plt.subplot(2, 2, i+1)
    stats.probplot(X[:, i], dist="norm", plot=plt)
    plt.title(f'{feature_names[i]} 的 Q-Q 圖')
    plt.xlabel('理論分量')
    plt.ylabel('樣本分量')
plt.tight_layout()
plt.show()

# 3. 將數據分為訓練集和測試集（80% 訓練，20% 測試）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. 訓練 GaussianNB 模型
model = GaussianNB()
model.fit(X_train, y_train)

# 5. 預測測試集
y_pred = model.predict(X_test)

# 6. 評估模型
# 計算準確率
accuracy = accuracy_score(y_test, y_pred)
print(f"模型準確率: {accuracy:.2f}")

# 繪製混淆矩陣
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(6, 4))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=class_names, yticklabels=class_names)
plt.title('混淆矩陣')
plt.xlabel('預測類別')
plt.ylabel('實際類別')
plt.show()

# 輸出分類報告（精確率、召回率、F1 分數）
print("\n分類報告:")
report = classification_report(y_test, y_pred, target_names=class_names)
print(report)

為了幫助您向學生展示 **GaussianNB** 在真實體數據上的應用，我將提供一個完整的範例，包含使用 Python 的 `scikit-learn` 庫來訓練模型、評估模型表現，並檢查特徵是否符合高斯分佈假設。這個範例將使用一個公開的真實數據集（**Iris 數據集**），因為它簡單、易懂，且特徵是連續數據，非常適合 GaussianNB 和教學用途。範例將包括程式碼、Q-Q 圖檢查、模型訓練與評估，並以清晰、正式的語氣撰寫，確保學生能夠快速理解。

---

### 範例目標
- **數據集**：Iris 數據集，包含 150 個樣本，每個樣本有 4 個連續特徵（花萼長度、花萼寬度、花瓣長度、花瓣寬度）和 3 個類別（三種鳶尾花品種）。
- **任務**：使用 GaussianNB 進行分類，預測花的品種。
- **步驟**：
  1. 檢查特徵是否近似高斯分佈（使用 Q-Q 圖）。
  2. 訓練 GaussianNB 模型。
  3. 評估模型表現（使用準確率、混淆矩陣和分類報告）。
- **教學目標**：讓學生理解 GaussianNB 的應用、特徵分佈的重要性，以及如何評估分類模型。

---

### 程式碼範例
以下是完整的 Python 程式碼，包含數據載入、Q-Q 圖檢查、模型訓練與評估。程式碼使用 `scikit-learn`、`numpy`、`matplotlib` 和 `scipy`，並附有詳細註釋以便學生理解。

```python
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import seaborn as sns

# 1. 載入 Iris 數據集
iris = load_iris()
X = iris.data  # 特徵：花萼長度、花萼寬度、花瓣長度、花瓣寬度
y = iris.target  # 類別：0, 1, 2（三種鳶尾花品種）
feature_names = iris.feature_names

# 2. 檢查特徵是否符合高斯分佈，使用 Q-Q 圖
plt.figure(figsize=(12, 8))
for i in range(X.shape[1]):
    plt.subplot(2, 2, i+1)
    stats.probplot(X[:, i], dist="norm", plot=plt)
    plt.title(f'Q-Q Plot for {feature_names[i]}')
plt.tight_layout()
plt.show()

# 3. 將數據分為訓練集和測試集（80% 訓練，20% 測試）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. 訓練 GaussianNB 模型
model = GaussianNB()
model.fit(X_train, y_train)

# 5. 預測測試集
y_pred = model.predict(X_test)

# 6. 評估模型
# 計算準確率
accuracy = accuracy_score(y_test, y_pred)
print(f"模型準確率: {accuracy:.2f}")

# 繪製混淆矩陣
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(6, 4))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=iris.target_names, yticklabels=iris.target_names)
plt.title('Confusion Matrix')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.show()

# 輸出分類報告（精確率、召回率、F1 分數）
print("\n分類報告:")
print(classification_report(y_test, y_pred, target_names=iris.target_names))
```

---

### 程式碼解釋
1. **載入數據**：
   - 使用 `load_iris()` 載入 Iris 數據集，包含 4 個連續特徵和 3 個類別。
   - 特徵是連續值（例如花萼長度 5.1 cm），適合 GaussianNB。

2. **檢查高斯分佈**：
   - 使用 Q-Q 圖（`stats.probplot`）檢查每個特徵是否近似高斯分佈。
   - 每個特徵生成一個 Q-Q 圖，如果點接近對角線，則特徵分佈接近高斯分佈。
   - 這一步讓學生理解 GaussianNB 的假設（特徵符合高斯分佈）。

3. **數據分割**：
   - 將數據分為訓練集（80%）和測試集（20%），確保模型在未見數據上評估泛化能力。

4. **訓練模型**：
   - 使用 `GaussianNB` 訓練模型，假設特徵符合高斯分佈，計算每個類別的均值和標準差。

5. **模型評估**：
   - **準確率**：計算預測正確的比例。
   - **混淆矩陣**：視覺化顯示每個類別的預測結果，幫助學生理解哪些類別容易混淆。
   - **分類報告**：提供精確率（precision）、召回率（recall）和 F1 分數，全面評估模型表現。

---

### 預期輸出
運行程式碼後，學生將看到：
1. **Q-Q 圖**：
   - 4 個特徵的 Q-Q 圖，顯示每個特徵的分佈是否接近高斯分佈。
   - 例如，花瓣長度可能接近對角線（近似高斯分佈），而花萼寬度可能略有偏離（輕微偏態）。

2. **準確率**：
   - 輸出類似「模型準確率: 0.97」，表示模型在測試集上的表現（Iris 數據集通常有高準確率）。

3. **混淆矩陣**：
   - 一個 3x3 的熱圖，顯示每個類別的預測結果。例如：
     ```
     [[10  0  0]
      [ 0  9  1]
      [ 0  0 10]]
     ```
     表示大多數預測正確，少數錯誤（如 1 個 versicolor 被誤分類）。

4. **分類報告**：
   - 顯示每個類別的精確率、召回率和 F1 分數，例如：
     ```
     分類報告:
                  precision    recall  f1-score   support
     setosa          1.00      1.00      1.00        10
     versicolor      0.90      0.90      0.90        10
     virginica       0.91      0.91      0.91        10
     ```

---

### 教學建議
1. **引導學生理解 Q-Q 圖**：
   - 展示 Q-Q 圖後，問學生：「如果點偏離對角線，會對 GaussianNB 的表現有什麼影響？」（答：可能降低模型準確性，因為假設不完全成立）。
   - 解釋即使特徵不完全符合高斯分佈，GaussianNB 仍可能表現良好（Iris 數據集是一個例子）。

2. **強調泛化能力**：
   - 說明測試集的準確率反映模型的泛化能力，問學生：「為什麼我們不用訓練集來評估模型？」（答：因為模型可能過擬合訓練數據）。

3. **視覺化效果**：
   - 混淆矩陣的熱圖能直觀展示模型的錯誤，幫助學生理解哪些類別容易混淆（例如 versicolor 和 virginica）。
   - 鼓勵學生檢查混淆矩陣中的錯誤，思考是否與特徵分佈有關。

4. **互動練習**：
   - 讓學生修改程式碼，例如：
     - 只使用 2 個特徵（例如花瓣長度和寬度）重新訓練模型，觀察準確率變化。
     - 改變 `test_size`（例如 0.3），看看測試集大小如何影響結果。
   - 問學生：「如果我們用一個非高斯分佈的數據集，GaussianNB 會表現如何？」引導他們思考模型假設的局限性。

5. **連繫真實應用**：
   - 說明 Iris 數據集雖然簡單，但類似的連續特徵（例如醫療數據中的血壓、體重）在真實世界中很常見，GaussianNB 適用於這些場景。

---

### 為什麼選擇 Iris 數據集？
- **簡單易懂**：4 個特徵，3 個類別，數據量小（150 個樣本），適合初學者。
- **連續特徵**：特徵是連續值，符合 GaussianNB 的假設。
- **公開可用**：內建於 `scikit-learn`，無需額外下載。
- **高準確率**：GaussianNB 在 Iris 數據集上通常表現良好（準確率約 95%），讓學生對模型有信心，同時可以討論少數錯誤的原因。

---

### 總結
- 這個範例使用 Iris 數據集展示了 GaussianNB 的完整應用流程：檢查特徵分佈（Q-Q 圖）、訓練模型、評估表現（準確率、混淆矩陣、分類報告）。
- 程式碼簡單且有詳細註釋，適合學生學習，並可作為課堂演示或作業基礎。
- 通過視覺化（Q-Q 圖、混淆矩陣）和問題引導，學生能深入理解 GaussianNB 的假設和應用。

如果您需要調整範例（例如使用其他數據集、增加交叉驗證、或更詳細的數學解釋），或希望提供給學生的講義版本，請隨時告知！