<a href="https://colab.research.google.com/github/roberthsu2003/machine_learning/blob/main/%E8%B2%9D%E6%B0%8F%E5%88%86%E9%A1%9E/sklearn%E5%AF%A6%E4%BD%9C1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
%%capture
%pip install wget

In [None]:
#下載字型
import wget
wget.download("https://github.com/roberthsu2003/machine_learning/raw/refs/heads/main/source_data/ChineseFont.ttf")

### 如何使用 scikit-learn 的 `GaussianNB` 模型來進行分類。
- 我們將使用一個簡單的數據集，其中包含兩個特徵（例如，花瓣長度和花瓣寬度），並預測鳶尾花的種類（0、1 或 2）。

### Iris 資料集中每一筆資料長這樣：
特徵：
- 花萼長度
- 花萼寬度
- 花瓣長度
- 花瓣寬度

目標類別：
- 山鳶尾 / 變色鳶尾 / 維吉尼亞鳶尾

### 條件獨立假設意思是：
在已知花的品種（例如：Setosa）的情況下:

→ 花萼長度和花瓣長度的機率是獨立的,花萼長度和花瓣長度2個沒有關聯性

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
import matplotlib as mlp
from matplotlib.font_manager import fontManager

fontManager.addfont('ChineseFont.ttf')
mlp.rc('font', family='ChineseFont')

# 1. 載入數據集
iris = load_iris()
X = iris.data[:, :2]  # 花萼長度和花萼寬度
y = iris.target

# 2. 分割訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. 建立高斯樸素貝葉斯模型
model = GaussianNB()

# 4. 訓練模型
model.fit(X_train, y_train)

# 5. 進行預測
y_pred = model.predict(X_test)

# 6. 評估模型
accuracy = accuracy_score(y_test, y_pred)
print(f"模型準確度：{accuracy:.2f}")

# 7. 可視化決策邊界
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02), np.arange(y_min, y_max, 0.02))
Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, alpha=0.3)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor='k')
plt.xlabel(iris.feature_names[0])
plt.ylabel(iris.feature_names[1])
plt.title('高斯樸素貝葉斯分類邊界')
plt.show()

### 以下範例有包含
- Q-Q圖
- 準確率
- 混淆矩陣(熱力圖)
- 分類報告

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import seaborn as sns
import matplotlib as mlp
from matplotlib.font_manager import fontManager

# 設置中文字體（確保圖表顯示中文）
fontManager.addfont('ChineseFont.ttf')
mlp.rc('font', family='ChineseFont')

# 1. 載入 Iris 數據集
iris = load_iris()
X = iris.data  # 特徵：花萼長度、花萼寬度、花瓣長度、花瓣寬度
y = iris.target  # 類別：0, 1, 2（三種鳶尾花品種）
feature_names = ['花萼長度', '花萼寬度', '花瓣長度', '花瓣寬度']  # 特徵名稱改為中文
class_names = ['山鳶尾', '變色鳶尾', '維吉尼亞鳶尾']  # 類別名稱改為中文

# 2. 檢查特徵是否符合高斯分佈，使用 Q-Q 圖
plt.figure(figsize=(12, 8))
for i in range(X.shape[1]):
    plt.subplot(2, 2, i+1)
    stats.probplot(X[:, i], dist="norm", plot=plt)
    plt.title(f'{feature_names[i]} 的 Q-Q 圖')
    plt.xlabel('理論分量')
    plt.ylabel('樣本分量')
plt.tight_layout()
plt.show()

# 3. 將數據分為訓練集和測試集（80% 訓練，20% 測試）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. 訓練 GaussianNB 模型
model = GaussianNB()
model.fit(X_train, y_train)

# 5. 預測測試集
y_pred = model.predict(X_test)

# 6. 評估模型
# 計算準確率
accuracy = accuracy_score(y_test, y_pred)
print(f"模型準確率: {accuracy:.2f}")

# 繪製混淆矩陣
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(6, 4))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=class_names, yticklabels=class_names)
plt.title('混淆矩陣')
plt.xlabel('預測類別')
plt.ylabel('實際類別')
plt.show()

# 輸出分類報告（精確率、召回率、F1 分數）
print("\n分類報告:")
report = classification_report(y_test, y_pred, target_names=class_names)
print(report)