In [114]:
#!pip install scikit-learn pydotplus -q

# 決策樹 (Decision Tree)

決策樹是一種常見的監督式學習演算法，適用於分類與回歸問題。它透過樹狀結構來模擬人類的決策過程，將資料逐步劃分成不同的類別或數值範圍。

## 主要特點
- **易於理解與解釋**：決策樹的結構直觀，易於可視化。
- **可處理數值與類別型資料**：適用於各類型資料。
- **不需要特徵標準化**：不受特徵尺度影響，無需進行標準化處理。

## 工作原理
決策樹透過遞迴地將數據集分割成子集，目標是使每個子集在目標變數上盡可能純淨。常見的分裂準則包括：

1. **基尼不純度 (Gini Impurity)**：
   - 衡量數據集中不同類別的混雜程度，公式如下：
     \[
     Gini = 1 - \sum_{i=1}^{n} p_i^2
     \]
   - 當 Gini 值越小，表示數據越純。

2. **信息增益 (Information Gain)**：
   - 基於熵 (Entropy) 的概念，表示分裂前後的不確定性降低程度：
     \[
     Entropy = -\sum_{i=1}^{n} p_i \log_2 p_i
     \]
   - 信息增益越大，表示分裂效果越好。

3. **均方誤差 (Mean Squared Error, MSE)**：
   - 在回歸問題中，透過 MSE 衡量節點內的均方誤差，降低誤差來選擇最佳分裂。

## 優點
- **可視化能力強**：可以透過圖形化展示決策過程，方便解釋。
- **無需過多數據前處理**：不需要特徵縮放或標準化。
- **適用於特徵交互較強的問題**：能夠自動發現特徵間的交互作用。

## 缺點
- **容易過擬合 (Overfitting)**：若不進行適當修剪，可能對訓練數據擬合過度，影響泛化能力。
- **對噪聲敏感**：容易受到資料異常值影響，導致不穩定的結果。
- **計算成本高**：當特徵數過多時，樹的構建可能會較慢。

## 過擬合的處理方式
1. **剪枝 (Pruning)**：
   - 預剪枝 (Pre-pruning)：在樹生成時限制深度、最小樣本數等。
   - 後剪枝 (Post-pruning)：生成完整樹後，去除貢獻較小的分支。

2. **設定最大深度 (Max Depth)**：限制樹的最大深度，防止過度擬合。

3. **最小樣本數 (Min Samples Split)**：設定節點進行分裂所需的最小樣本數。

## 應用範圍
- **分類問題**：垃圾郵件分類、疾病診斷等。
- **回歸問題**：房價預測、銷售額預測等。
- **特徵選擇**：透過決策樹的特徵重要性來進行特徵篩選。

In [115]:
from sklearn import tree
from sklearn.model_selection import train_test_split
from sklearn import datasets
import pydotplus

In [116]:
iris = datasets.load_iris()
# iris

In [117]:
X = iris.data
y = iris.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.3, random_state=33)

In [118]:
clf = tree.DecisionTreeClassifier(criterion='entropy', random_state=33).fit(X_train,y_train)

In [119]:
clf.score(X_train, y_train)

1.0

In [120]:
clf.predict(X_test)

array([1, 1, 0, 1, 1, 2, 0, 0, 2, 2, 2, 0, 2, 1, 2, 1, 1, 0, 1, 2, 0, 0,
       2, 0, 1, 1, 1, 1, 2, 2, 1, 1, 2, 2, 2, 2, 2, 1, 1, 0, 1, 1, 1, 0,
       0])

In [121]:
clf.score(X_test, y_test)

0.9111111111111111

In [122]:
dot_data = tree.export_graphviz(clf, out_file=None)
graph = pydotplus.graph_from_dot_data(dot_data)
graph.write_pdf('iris.pdf')

True

看起來似乎有點 “overfitting”

使用限制樹的大小來試試去會不會改善

In [123]:
clf3 = tree.DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=33).fit(X_train, y_train)

In [124]:
clf3.score(X_train, y_train)

0.9809523809523809

In [125]:
clf3.predict(X_test)

array([1, 1, 0, 1, 2, 2, 0, 0, 2, 2, 2, 0, 2, 1, 2, 1, 1, 0, 1, 2, 0, 0,
       2, 0, 1, 1, 1, 1, 2, 2, 1, 1, 2, 2, 2, 2, 2, 1, 1, 0, 1, 1, 1, 0,
       0])

In [126]:
clf3.score(X_test, y_test)

0.9333333333333333

In [127]:
dot_data = tree.export_graphviz(clf, out_file=None)
graph = pydotplus.graph_from_dot_data(dot_data)
graph.write_pdf('iris_max3.pdf')

True

使用gini


In [128]:
clf_gini = tree.DecisionTreeClassifier(criterion='gini', max_depth=3, random_state=33).fit(X_train, y_train)

In [129]:
clf_gini.predict(X_test)

array([1, 1, 0, 1, 2, 2, 0, 0, 2, 2, 2, 0, 2, 1, 2, 1, 1, 0, 1, 2, 0, 0,
       2, 0, 1, 1, 1, 1, 2, 2, 1, 1, 2, 2, 2, 2, 2, 1, 1, 0, 1, 1, 1, 0,
       0])

In [130]:
clf_gini.score(X_test, y_test)

0.9333333333333333

決策模型輸出


In [131]:
dot_data = tree.export_graphviz(clf_gini, out_file=None)
graph = pydotplus.graph_from_dot_data(dot_data)
graph.write_pdf('iris_gini_max3.pdf')

True