In [22]:
from sklearn.ensemble import RandomForestClassifier  # 匯入隨機森林分類器
from sklearn.datasets import load_iris  # 匯入內建的鳶尾花資料集
from sklearn.model_selection import train_test_split  # 匯入資料切分工具

# 讀入鳶尾花資料
# 鳶尾花資料集是一個常用的分類資料集，包含 150 筆資料，每筆資料有 4 個特徵
iris = load_iris()
iris_data = iris.data  # 特徵資料 (花萼長度、花萼寬度、花瓣長度、花瓣寬度)
iris_label = iris.target  # 標籤資料 (0: setosa, 1: versicolor, 2: virginica)

# 切分訓練與測試資料
# 將資料分為訓練集和測試集，測試集佔 30%，訓練集佔 70%
train_data, test_data, train_label, test_label = train_test_split(iris_data, iris_label, test_size=0.3)

# 建立隨機森林分類器
# n_estimators: 樹的數量
# max_depth: 每棵樹的最大深度
clf = RandomForestClassifier(n_estimators=30, max_depth=4)

# 使用訓練資料進行模型訓練
iris_clf = clf.fit(train_data, train_label)

# 計算並輸出訓練資料的正確率
print("訓練資料正確率:", clf.score(train_data, train_label))  # 使用訓練資料評估模型準確度

# 計算並輸出測試資料的正確率
print("測試資料正確率:", clf.score(test_data, test_label))  # 使用測試資料評估模型準確度

# 使用測試資料進行預測
predict = clf.predict(test_data)  # 對測試資料進行分類預測

# 輸出測試資料的標準答案 (實際的標籤) 與模型預測的結果
print("標準答案:", test_label)  # 測試資料的實際標籤
print("預測答案:", predict)  # 測試資料的預測標籤

訓練資料正確率: 1.0
測試資料正確率: 0.9333333333333333
標準答案: [1 0 0 2 0 0 0 2 1 1 1 1 2 1 1 0 2 2 1 2 0 0 0 0 1 2 1 2 0 1 1 2 1 1 1 2 0
 0 2 1 1 2 0 0 1]
預測答案: [1 0 0 2 0 0 0 2 1 1 1 1 2 1 1 0 2 2 1 2 0 0 0 0 2 2 1 2 0 1 2 2 1 1 2 2 0
 0 2 1 1 2 0 0 1]
