## [作業重點]
確保你了解隨機森林模型中每個超參數的意義，並觀察調整超參數對結果的影響

## 作業

1. 試著調整 RandomForestClassifier(...) 中的參數，並觀察是否會改變結果？
2. 改用其他資料集 (boston, wine)，並與回歸模型與決策樹的結果進行比較

1.試著調整 RandomForestClassifier(...) 中的參數，並觀察是否會改變結果？

  
> RandomForestClassifier(n_estimators=’warn’, criterion=’gini’, 
max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, 
max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, 
bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, 
class_weight=None)

其大部分的參數幾乎與決策樹一致。

**重要參數**

其是使用bagging的集成算法都會有的重要參數。

- n_estimators
    
    森林中樹木的數量(base estimator的數量)。
    
    通常此值越大，模型效果往往越好。
    
    任何模型都有決策邊界，其值達到一定程度時，精確性往往不在上升或開始波動。
    
    其值越大，計算量與內存消耗量越大，訓練時間越長。
    
    渴望在訓練難度和模型效果之間取得平衡。

- random_state
    
    隨機森林中的random_state，其控制的是森林生成的模式(生成一片固定的森林)，而非讓一個森林之中只有一棵樹固定生成的每棵樹的random_state；但是森林中樹跟樹之間還是不一樣，不像決策樹的random_state都是生成同一棵樹。

- bootstrap
    
    bagging是通過樣本抽取後有放回的隨機抽樣技術來型成不同的訓練集。
    
    bootstrap就是用來控制抽樣技術的參數。
    
    參數默認為True：有放回的隨機採樣技術。
    
    通常這個參數不會被我們設置為False。
    
    由於是有放回的抽樣技術，樣本可能在新的自助集中出現多次，其他樣本可能被忽略。
    
    自助集大約平均會包含63%的原始數據。
    
    表示會有37%的數據集被浪費掉，沒有參與建模，其被稱為袋外數據(out of bag data;oob)。
    
    亦可以被用來作為集成算法的測試集使用。
    
    亦指在使用隨機森林時，我們可以不劃分測試集和訓練集，只需要用袋外數據來測試模型。
    
    當原始樣本數及n_estimators不夠大的時候，也很可能沒有數據落在袋外，便無法使用oob數據來測試模型。

- oob_score
    
    若希望用袋外數據測試，實例化時將oob_score設為True。
        
        RF_classifier = RandomForestClassifier(n_estimators=25, random_state=2, oob_score=True)
    
    為True時無須再劃分訓練集及測試集。
    
其餘參數請參考
http://www.taroballz.com/2019/05/25/ML_RandomForest_Classifier/

2.改用其他資料集 (boston, wine)，並與回歸模型與決策樹的結果進行比較

參考Day_040_HW/Day_042_HW

> 一般線性回歸-Mean squared error:25.419587

> Lasso回歸-Mean squared error:28.950512

> Ridgec回歸-Mean squared error:25.743684

> DecisionTreeRegressor-Mean squared error:28.950512

In [1]:
from sklearn import datasets, metrics
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.model_selection import train_test_split

In [2]:
# 讀取資料集
boston = datasets.load_boston()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, test_size=0.25, random_state=4)

#boston為回歸問題, 須將RandomForestClassifier()改為RandomForestRegressor()
# 建立模型 (使用 20 顆樹，每棵樹的最大深度為 4)
rfr = RandomForestRegressor(n_estimators=20, max_depth=4)

# 訓練模型
rfr.fit(x_train, y_train)

# 預測測試集
y_pred = rfr.predict(x_test)

In [3]:
#準確度計算
#acc = metrics.accuracy_score(y_test, y_pred)
#print("Accuracy: ", acc)
##ValueError: continuous is not supported

acc = rfr.score(x_test, y_test)
print("Accuracy: ", acc)
##Accuracy:  0.813687399658405

Accuracy:  0.793132951004119


In [4]:
print(boston.feature_names)

['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']


In [5]:
print("Feature importance: ", rfr.feature_importances_)

Feature importance:  [0.05394426 0.00062869 0.00230565 0.00191397 0.01316012 0.52461315
 0.00102931 0.0502181  0.0012122  0.01051316 0.01523787 0.00301732
 0.32220621]


In [6]:
from sklearn.metrics import mean_squared_error, r2_score
print('Mean squared error:%2f'
     % mean_squared_error(y_test, y_pred))
##Mean squared error:20.148271

Mean squared error:20.755700
