## [作業重點]
目前你應該已經要很清楚資料集中，資料的型態是什麼樣子囉！包含特徵 (features) 與標籤 (labels)。因此要記得未來不管什麼專案，必須要把資料清理成相同的格式，才能送進模型訓練。
今天的作業開始踏入決策樹這個非常重要的模型，請務必確保你理解模型中每個超參數的意思，並試著調整看看，對最終預測結果的影響為何

## 作業

1. 試著調整 DecisionTreeClassifier(...) 中的參數，並觀察是否會改變結果？

2. 改用其他資料集 (boston, wine)，並與回歸模型的結果進行比較

1.試著調整 DecisionTreeClassifier(...) 中的參數，並觀察是否會改變結果？

決策樹就是追求不純度相關指標的最優化。

> class sklearn.tree.DecisionTreeClassifier (criterion=’gini’, splitter=’best’, max_depth=None, 
min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, 
max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

**重要參數**

- criterion
	
    對分類樹來說，找出最佳節點及分枝的指標稱為『不純度』，不純度越低，決策樹對訓練集得的擬合越好。
	決策樹就是追求不純度相關指標的最優化。
    
	樹中的每個節點都會有一個不純度。
    
	子節點的不純度定低於父節點。
    
	葉子節點的不純度是最低的。
    
	- entropy(信息熵)
		
        信息熵對不純度叫基尼係數強(對不純度懲罰最強)。
		
        容易過擬合。
        
	- gini(基尼係數)
		
        適用於數據維度大，噪音很大的數據。

*實際使用中兩者效果基本一樣。

**隨機性參數**

- random_state
	
    設置分枝中隨機模式的參數，預設為None。
    
	使用同一批訓練集(Xtrain)進行訓練，得到的準確度仍有差異，原因決策樹本身就具有隨機性。
    
	輸入任意整數，會針對特定模型選定的feature，長出同一顆樹讓模型穩定下來(固定隨機性)。
    
	調參優化時通常會固定random_state。

- splitter
	
    用作控制決策樹的隨機性。
	
    - best
		
        決策樹雖然本身就具有隨機性，但會優先選擇更重要的特徵進行分枝。
        
	- random
		
        決策樹在分枝時會更為隨機。
		
        樹深度更深。
		
        對訓練集的擬合會降低(防止過擬合的一種方式)。

**剪枝參數**

決策樹會生長到衡量不純度最優，或者沒有更多特徵可用為止。

這樣決策樹往往會過擬合。

會在訓練集上表現很好，測試集卻很糟糕。

為了決策樹有更好的泛化性，須對決策樹進行剪枝。

剪枝策略對決策樹的影響巨大，正確的剪枝策略是優化決策樹算法的核心。

- max_depth
	
    限制樹的最大深度，超過設定深度的樹枝全部剪掉。
	
    用的最廣泛的剪枝參數。
	
    在高維度、低樣本量時非常有效。
	
    在集成算法中也非常實用。
	
    建議從= 3開始嘗試。

- min_samples_leaf
	
    一個節點在分枝後每個子節點都必須包含至少min_samples_leaf個訓練樣本；
	
    分枝會朝著滿足每個子節點都包含min_samples_leaf個樣本的方向去發展。
	
    一般搭配max_depth使用，建議從= 5開始使用。
	
    如果葉節點中含有的樣本量變化很大，建議輸入浮點樹作為樣本量的百分比使用。

- min_samples_split
	
    一個中間節點必須包含至少min_samples_split個訓練樣本，這個節點在允許被分枝，否則分枝不會發生。

- max_features
	
    限制分枝時考慮的特徵個數，超過限制個數的特徵都會被捨棄。
	
    和max_depth異曲同工。
	
    在不知道決策樹中的各個特徵的重要性情況下，設定這個參數會導致學習不足。

- min_impurity_decrease
	
    限制信息增益的大小。
	
    信息增益小於設定數值的分枝不會發生。
    
其餘參數請參考
https://zhuanlan.zhihu.com/p/39780305

2.改用其他資料集 (boston, wine)，並與回歸模型的結果進行比較

參考Day_038_HW

> 一般線性回歸-Mean squared error: 0.66

In [1]:
from sklearn import datasets, metrics
# 如果是分類問題，請使用 DecisionTreeClassifier，若為回歸問題，請使用 DecisionTreeRegressor
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.model_selection import train_test_split

In [2]:
##DecisionTreeRegressor()
wine = datasets.load_wine()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.25, random_state=4)

# 建立模型
dtr = DecisionTreeClassifier()

# 將訓練資料丟進去模型訓練
dtr.fit(x_train, y_train)

# 將測試資料丟進模型得到預測結果
y_pred = dtr.predict(x_test)

In [3]:
acc = metrics.accuracy_score(y_test, y_pred)
print("Acuuracy: ", acc)

Acuuracy:  0.9111111111111111


In [4]:
#???MSE<1, 合理嗎？
# from sklearn.metrics import mean_squared_error, r2_score
#print('Mean squared error:%2f'
#     % mean_squared_error(y_test, y_pred))
#Mean squared error:0.222222

In [5]:
print(wine.feature_names)

['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']


In [6]:
print("Feature importance: ", dtr.feature_importances_)

Feature importance:  [0.01364138 0.03076567 0.         0.         0.         0.
 0.12455196 0.         0.         0.39953541 0.         0.04285558
 0.38865   ]


參考Day_040_HW

> 一般線性回歸-Mean squared error:25.419587

> Lasso回歸-Mean squared error:28.950512

> Ridgec回歸-Mean squared error:25.743684

In [7]:
##DecisionTreeRegressor()
# 讀取資料集
boston = datasets.load_boston()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, test_size=0.2, random_state=1)

# 建立模型
dtr = DecisionTreeRegressor()

# 訓練模型
dtr.fit(x_train, y_train)

# 預測測試集
y_pred = dtr.predict(x_test)

In [8]:
from sklearn.metrics import mean_squared_error, r2_score
print('Mean squared error:%2f'
     % mean_squared_error(y_test, y_pred))

Mean squared error:16.473824


In [9]:
print(boston.feature_names)

['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']


In [10]:
print("Feature importance: ", dtr.feature_importances_)

Feature importance:  [2.33348449e-02 1.31195879e-04 8.75407883e-03 2.81303344e-03
 3.01981113e-02 2.54939815e-01 1.17507051e-02 8.14804473e-02
 1.17640364e-03 2.47822144e-02 2.09263383e-02 5.59063924e-03
 5.34122173e-01]
