# 隨機森林(Random Forests)

為 Decision tree 使用 bagging

步驟 :
1. 從原始數據中隨機有放回地抽取多個樣本，用這些樣本來構建一棵決策樹。
2. 隨機選擇一部分特徵，用這些特徵來構建決策樹的分支。
3. 重複上述步驟多次，建立多棵決策樹。
4. 對於新的數據，讓每棵決策樹進行預測，最後透過投票（分類問題）或平均（回歸問題）來得到整體的預測結果。

## python code

```python
from sklearn.tree import DecisionTreeClassifier
...
random_forest = RandomForestClassifier(n_estimators=10, max_depth=3)  # 可以調整參數
random_forest.fit(X_train, y_train)
...
```

* n_estimators（預設值=100）：指定隨機森林中的決策樹數量。

* criterion（預設值="gini"）：用於測量分割質量的指標。可以是 "gini"（基尼不純度）或 "entropy"（信息熵）。

* max_depth（預設值=None）：單棵決策樹的最大深度。如果不指定，則樹會生長到所有葉節點都是純的或包含 min_samples_split 個樣本。

* min_samples_split（預設值=2）：分割內部節點所需的最小樣本數。

* min_samples_leaf（預設值=1）：每個葉節點所需的最小樣本數。

* max_features（預設值="auto"）：在分割節點時要考慮的特徵數量。

* bootstrap（預設值=True）：是否在建立每棵樹時進行 bootstrap 抽樣（隨機抽樣）。

* random_state（預設值=None）：隨機種子，用於控制隨機性。

* n_jobs（預設值=None）：並行處理的作業數量。設置為 -1 可以使用所有 CPU 核心。

* class_weight（預設值=None）：用於平衡不均衡類別的權重。

## Python

使用 Decision tree 製作 Random Forests

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
import numpy as np

# 載入 iris 數據集
iris = load_iris()
X, y = iris.data, iris.target

# 建立多棵 Decision Tree
num_trees = 10
trees = []

for _ in range(num_trees):
    # 隨機抽樣創建新的訓練集
    indices = np.random.choice(len(X), size=len(X), replace=True) # 抽樣大小不一定要是全長, 通常於50%~80%間, 可以使用交叉驗證去調整
    X_sampled = X[indices]
    y_sampled = y[indices]
    
    # 建立 Decision Tree 分類器
    tree = DecisionTreeClassifier()
    tree.fit(X_sampled, y_sampled)
    trees.append(tree)

# 進行預測
predictions = np.array([tree.predict(X) for tree in trees])

# 進行投票，取最多票的類別為最終預測結果
# np.apply_along_axis: 這是 NumPy 提供的函數，用於在指定的軸上應用特定的函數。
'''
lambda x: np.bincount(x).argmax(): 這是一個使用 Lambda 函數定義的操作，該操作對傳入的每一列進行處理。
在每一列中，它首先使用 np.bincount(x) 函數計算每個元素的出現次數，
然後使用 argmax() 函數找出出現次數最高的元素的索引，即最常見的元素。換句話說，它找到該列中出現最多的元素。
'''
# axis=0: 這個參數指定了在哪個軸上應用函數。在這個例子中，它是指應用在每一col上。
# arr=predictions: 這是要應用操作的輸入陣列。predictions 是一個二維陣列，每一col代表一個預測值。
final_predictions = np.apply_along_axis(lambda x: np.bincount(x).argmax(), axis=0, arr=predictions)

# 計算準確率
accuracy = np.mean(final_predictions == y)
print("準確率:", accuracy)


準確率: 0.9866666666666667


## Python

使用 Random Forest 的函數

In [24]:
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 載入 Iris 數據集
iris = load_iris()
X = iris.data
y = iris.target

# 分割數據集為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 創建 Random Forest 分類器
random_forest = RandomForestClassifier(n_estimators=10, max_depth=3)  # 可以調整參數
random_forest.fit(X_train, y_train)

# 進行預測
predictions = random_forest.predict(X_test)

# 計算準確率
accuracy = accuracy_score(y_test, predictions)
print("Random Forest Accuracy:", accuracy)


Random Forest Accuracy: 1.0
