# 分類模型

模型預測的結果以離散結果為主

1. 支持向量機（Support Vector Machine, SVM）：

    * SVM是一種用於二元分類和多元分類的分類算法，通過找到最優的超平面來區分不同類別的數據點。
    * from sklearn.svm import SVC
    * 參數：
    * kernel: 核函數，可選擇'linear'（線性核函數）、'rbf'（高斯核函數）等。
    * C: 正則化參數，控制模型的複雜度，C值越小，正則化越強。
    * 超參數：
    * gamma: 核函數的參數，影響核函數的彎曲程度。
---
2. 決策樹（Decision Tree）：決策樹是一種用於二元分類和多元分類的非線性分類算法，通過樹狀結構進行分類。

    * 決策樹是一種用於二元分類和多元分類的非線性分類算法，通過樹狀結構進行分類。
    * from sklearn.tree import DecisionTreeClassifier
    * 參數：
    * criterion: 分割節點的標準，可選擇'gini'（基尼係數）或'entropy'（信息熵）。
    * max_depth: 樹的最大深度，控制樹的複雜度。
    * 超參數：
    * min_samples_split: 分裂內部節點所需的最小樣本數。
---
3. 隨機森林（Random Forest）：

    * 隨機森林是一種集成學習算法，結合多個決策樹進行分類，通常可以提高模型的準確率。
    * from sklearn.ensemble import RandomForestClassifier
    * 參數：
    * n_estimators: 森林中樹的數量，越多越好，但也會增加計算成本。
    * max_features: 每個決策樹使用的最大特徵數，可以控制模型的複雜度。
    * 超參數：
    * min_samples_split: 分裂內部節點所需的最小樣本數。
---
4. K近鄰算法（K-Nearest Neighbors, KNN）：

    * KNN是一種基於距離的分類算法，通過找到最近的K個鄰居來進行分類。
    * from sklearn.neighbors import KNeighborsClassifier
    * 參數：
    * n_neighbors: 鄰居數量K，控制分類的精確程度。
    * metric: 距離度量方法，可選擇'euclidean'（歐氏距離）等。
---
5. 朴素貝葉斯（Naive Bayes）：

    * 朴素貝葉斯是一種基於貝葉斯定理的分類算法，假設特徵之間是獨立的，通常用於文本分類等問題。
    * from sklearn.naive_bayes import GaussianNB
    * 參數：無。
    * 超參數：無。
---

### python

#### SVM


In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import SVC

# 載入 iris 數據集
iris = load_iris()
X, y = iris.data, iris.target

# 將數據集分為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 建立支持向量機分類器
svm = SVC()

# 定義超參數網格，包含 C 和 kernel 兩個超參數
param_grid = {
    'C': [0.1, 1, 10],
    'kernel': ['linear', 'rbf', 'poly']
}

# 使用 5 折交叉驗證進行網格搜索
grid_search = GridSearchCV(svm, param_grid, scoring='accuracy', cv=5)
grid_search.fit(X_train, y_train)

print("最佳超參數組合:", grid_search.best_params_)
print("交叉驗證準確率:", grid_search.best_score_)

最佳超參數組合: {'C': 1, 'kernel': 'linear'}
交叉驗證準確率: 0.9583333333333334


In [2]:
# 使用最佳超參數組合來訓練支持向量機模型
best_svm = SVC(C=grid_search.best_params_['C'], kernel=grid_search.best_params_['kernel'])
best_svm.fit(X_train, y_train)

# 使用測試集來評估模型的性能
accuracy = best_svm.score(X_test, y_test)
print("最終模型的準確率:", accuracy)

最終模型的準確率: 1.0


#### 決策樹 和 隨機森林

In [3]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier #決策樹
from sklearn.ensemble import RandomForestClassifier #隨機森林
from sklearn.metrics import accuracy_score

# 載入鳶尾花數據集
iris = load_iris()
X, y = iris.data[:, 2:], iris.target

# 將數據集分為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [4]:
# 建立決策樹分類器
decision_tree = DecisionTreeClassifier(random_state=42)

# 訓練模型
decision_tree.fit(X_train, y_train)

# 在測試集上進行預測
y_pred_decision_tree = decision_tree.predict(X_test)

# 計算準確率
accuracy_decision_tree = accuracy_score(y_test, y_pred_decision_tree)
print("決策樹分類器的準確率：", accuracy_decision_tree) # decision_tree.score(X_test, y_test)


決策樹分類器的準確率： 1.0


In [5]:
# 建立隨機森林分類器
random_forest = RandomForestClassifier(random_state=42)

# 訓練模型
random_forest.fit(X_train, y_train)

# 在測試集上進行預測
y_pred_random_forest = random_forest.predict(X_test)

# 計算準確率
accuracy_random_forest = accuracy_score(y_test, y_pred_random_forest)
print("隨機森林分類器的準確率：", accuracy_random_forest) # random_forest.score(X_test, y_test)


隨機森林分類器的準確率： 1.0


#### KNN

In [6]:
import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# 創建一個簡單的資料集
X, y = make_classification(n_samples=100, n_features=2, n_classes=2, n_clusters_per_class=1, n_redundant=0, random_state=42)

# 將資料集分為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [7]:
# 建立KNN分類器，指定鄰居數為3
knn = KNeighborsClassifier(n_neighbors=3) # n_neighbors 為超參數, 這裡直接帶了

# 訓練KNN分類器
knn.fit(X_train, y_train)

# 使用測試集進行預測
y_pred = knn.predict(X_test)

# 計算模型的準確性
accuracy = accuracy_score(y_test, y_pred)
print("準確性：", accuracy)

準確性： 1.0


#### Naive Bayes

In [8]:
import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

# 創建一個簡單的資料集
X, y = make_classification(n_samples=100, n_features=2, n_classes=2, n_clusters_per_class=1, n_redundant=0, random_state=42)

# 將資料集分為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [9]:
# 建立Naive Bayes分類器
naive_bayes = GaussianNB()

# 訓練Naive Bayes分類器
naive_bayes.fit(X_train, y_train)

# 使用測試集進行預測
y_pred = naive_bayes.predict(X_test)

# 計算模型的準確性
accuracy = accuracy_score(y_test, y_pred)
print("準確性：", accuracy)

準確性： 0.9
