## [作業重點]
目前你應該已經要很清楚資料集中，資料的型態是什麼樣子囉！包含特徵 (features) 與標籤 (labels)。因此要記得未來不管什麼專案，必須要把資料清理成相同的格式，才能送進模型訓練。
今天的作業開始踏入決策樹這個非常重要的模型，請務必確保你理解模型中每個超參數的意思，並試著調整看看，對最終預測結果的影響為何

## 建立模型四步驟

在 Scikit-learn 中，建立一個機器學習的模型其實非常簡單，流程大略是以下四個步驟

1. 讀進資料，並檢查資料的 shape (有多少 samples (rows), 多少 features (columns)，label 的型態是什麼？)
    - 讀取資料的方法：
        - **使用 pandas 讀取 .csv 檔：**pd.read_csv
        - **使用 numpy 讀取 .txt 檔：**np.loadtxt 
        - **使用 Scikit-learn 內建的資料集：**sklearn.datasets.load_xxx
    - **檢查資料數量：**data.shape (data should be np.array or dataframe)
2. 將資料切為訓練 (train) / 測試 (test)
    - train_test_split(data)
3. 建立模型，將資料 fit 進模型開始訓練
    - clf = DecisionTreeClassifier()
    - clf.fit(x_train, y_train)
4. 將測試資料 (features) 放進訓練好的模型中，得到 prediction，與測試資料的 label (y_test) 做評估
    - clf.predict(x_test)
    - accuracy_score(y_test, y_pred)
    - f1_score(y_test, y_pred)

## 作業

1. 試著調整 DecisionTreeClassifier(...) 中的參數，並觀察是否會改變結果？
2. 改用其他資料集 (boston, wine)，並與回歸模型的結果進行比較

In [1]:
from sklearn import datasets, metrics

# 如果是分類問題，請使用 DecisionTreeClassifier，若為回歸問題，請使用 DecisionTreeRegressor
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.model_selection import train_test_split

import pandas as pd

# 作業1
- 試著調整 DecisionTreeClassifier(...) 中的參數，並觀察是否會改變結果？

In [2]:
# 讀取鳶尾花資料集
iris = datasets.load_iris()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.25, random_state=4)

In [3]:
# 建立模型
clf = DecisionTreeClassifier(criterion='gini', max_depth=3, min_samples_split=4, min_samples_leaf=2, random_state=42)

# 訓練模型
clf.fit(x_train, y_train)

# 預測測試集
y_pred = clf.predict(x_test)

acc = metrics.accuracy_score(y_test, y_pred)
print("Acuuracy: ", acc)

print(iris.feature_names)

print("Feature importance: ", clf.feature_importances_)

Acuuracy:  0.9736842105263158
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
Feature importance:  [0.         0.         0.55828357 0.44171643]


In [4]:
# 查看欄位重要性
pd.concat( (pd.DataFrame(iris.feature_names, columns=['variable']),
           pd.DataFrame(clf.feature_importances_, columns=['importance'])),
         axis=1).sort_values(by='importance', ascending=False)

Unnamed: 0,variable,importance
2,petal length (cm),0.558284
3,petal width (cm),0.441716
0,sepal length (cm),0.0
1,sepal width (cm),0.0


## 使用不同參數

In [5]:
# 建立模型
clf = DecisionTreeClassifier(criterion='entropy', max_depth=3, min_samples_split=4, min_samples_leaf=2, random_state=42)

# 訓練模型
clf.fit(x_train, y_train)

# 預測測試集
y_pred = clf.predict(x_test)


acc = metrics.accuracy_score(y_test, y_pred)
print("Acuuracy: ", acc)

print(iris.feature_names)

print("Feature importance: ", clf.feature_importances_)

Acuuracy:  0.9736842105263158
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
Feature importance:  [0.         0.         0.67124791 0.32875209]


In [6]:
# 查看欄位重要性
pd.concat( (pd.DataFrame(iris.feature_names, columns=['variable']),
           pd.DataFrame(clf.feature_importances_, columns=['importance'])),
         axis=1).sort_values(by='importance', ascending=False)

Unnamed: 0,variable,importance
2,petal length (cm),0.671248
3,petal width (cm),0.328752
0,sepal length (cm),0.0
1,sepal width (cm),0.0


## 將決策樹匯出圖檔

[decision_tree.dot的文字貼上這](http://webgraphviz.com/)

In [7]:
from sklearn.tree import export_graphviz
export_graphviz(
    clf, # 模型
    out_file='decision_tree.dot', 
    feature_names=iris.feature_names
)

# 作業2
- 改用其他資料集 (boston, wine)，並與回歸模型的結果進行比較

In [8]:
# 讀取鳶尾花資料集
boston = datasets.load_boston()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, test_size=0.25, random_state=4)

## 決策樹

In [9]:
# 建立模型
regr = DecisionTreeRegressor(criterion='friedman_mse', max_depth=5, min_samples_split=4, min_samples_leaf=2, random_state=42)

# 訓練模型
regr.fit(x_train, y_train)

# 預測測試集
y_pred = regr.predict(x_test)

In [10]:
mse = metrics.mean_squared_error(y_test, y_pred)
print(f"Mean squared error: {mse:.2f}")

Mean squared error: 25.64


In [11]:
# 查看欄位重要性
pd.concat( (pd.DataFrame(boston.feature_names, columns=['variable']),
           pd.DataFrame(regr.feature_importances_, columns=['importance'])),
         axis=1).sort_values(by='importance', ascending=False)

Unnamed: 0,variable,importance
5,RM,0.59052
12,LSTAT,0.234173
7,DIS,0.0568
0,CRIM,0.043647
10,PTRATIO,0.031575
4,NOX,0.024446
11,B,0.01092
6,AGE,0.007565
8,RAD,0.000354
1,ZN,0.0


## 回歸

In [12]:
from sklearn.linear_model import LinearRegression
# 建立模型
regr = LinearRegression()

# 訓練模型
regr.fit(x_train, y_train)

# 預測測試集
y_pred = regr.predict(x_test)

In [13]:
mse = metrics.mean_squared_error(y_test, y_pred)
print(f"Mean squared error: {mse:.2f}")

Mean squared error: 26.95
