## [範例重點]
了解機器學習建模的步驟、資料型態以及評估結果等流程

In [1]:
from sklearn import datasets, metrics

# 如果是分類問題，請使用 DecisionTreeClassifier，若為回歸問題，請使用 DecisionTreeRegressor
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.model_selection import train_test_split

## 建立模型四步驟

在 Scikit-learn 中，建立一個機器學習的模型其實非常簡單，流程大略是以下四個步驟

1. 讀進資料，並檢查資料的 shape (有多少 samples (rows), 多少 features (columns)，label 的型態是什麼？)
    - 讀取資料的方法：
        - **使用 pandas 讀取 .csv 檔：**pd.read_csv
        - **使用 numpy 讀取 .txt 檔：**np.loadtxt 
        - **使用 Scikit-learn 內建的資料集：**sklearn.datasets.load_xxx
    - **檢查資料數量：**data.shape (data should be np.array or dataframe)
2. 將資料切為訓練 (train) / 測試 (test)
    - train_test_split(data)
3. 建立模型，將資料 fit 進模型開始訓練
    - clf = DecisionTreeClassifier()
    - clf.fit(x_train, y_train)
4. 將測試資料 (features) 放進訓練好的模型中，得到 prediction，與測試資料的 label (y_test) 做評估
    - clf.predict(x_test)
    - accuracy_score(y_test, y_pred)
    - f1_score(y_test, y_pred)

In [2]:
# 讀取鳶尾花資料集
iris = datasets.load_iris()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.25, random_state=4)

# 建立模型
clf = DecisionTreeClassifier()

# 訓練模型
clf.fit(x_train, y_train)

# 預測測試集
y_pred = clf.predict(x_test)

In [3]:
print (y_pred)

[2 0 2 2 2 1 2 0 0 2 0 0 0 1 2 0 1 0 0 2 0 2 1 0 0 0 0 0 0 2 1 0 2 0 1 2 2
 1]


In [4]:
acc = metrics.accuracy_score(y_test, y_pred)
print("Acuuracy: ", acc)

Acuuracy:  0.9736842105263158


In [5]:
print(iris.feature_names)

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [6]:
print("Feature importance: ", clf.feature_importances_)

Feature importance:  [0.01796599 0.         0.05992368 0.92211033]


## 作業

1. 試著調整 DecisionTreeClassifier(...) 中的參數，並觀察是否會改變結果？
2. 改用其他資料集 (boston, wine)，並與回歸模型的結果進行比較

[作業重點]
目前你應該已經要很清楚資料集中，資料的型態是什麼樣子囉！包含特徵 (features) 與標籤 (labels)。因此要記得未來不管什麼專案，必須要把資料清理成相同的格式，才能送進模型訓練。 今天的作業開始踏入決策樹這個非常重要的模型，請務必確保你理解模型中每個超參數的意思，並試著調整看看，對最終預測結果的影響為何

In [7]:
# 讀取 Scikit-learn 內建的資料集
wine = datasets.load_wine()
boston = datasets.load_boston()
breast_cancer = datasets.load_breast_cancer()

In [8]:
# 使用葡萄酒資料
wine = datasets.load_wine()

# 觀察該資料集,共有13個 feature
X = wine .data
print("Data shape: ", X.shape)

Data shape:  (178, 13)


In [9]:
# 使用 pandas 套件將資料欄位印出
import pandas as pd
df_X = pd.DataFrame(X)
df_X.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


In [10]:
print(wine.feature_names)

['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']


使用分類模型

In [11]:
# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.25, random_state=4)

# 建立模型
# 使用分類模型，使用 DecisionTreeClassifier
# criterion='gini', 衡量資料相似程度
# splitter='best', 建造樹時，選擇節點的原则，預設是splitter='best'，選擇最好的特徵點分類
# max_depth=None, 樹能生長的最深限制
# min_samples_split=2, ⾄少要多少樣本以上才進⾏切分
# min_samples_leaf=1, 最終的葉⼦ (節點) 上⾄少要有多少樣本
# min_weight_fraction_leaf=0.0, 如果是0，則表示所有樣本的權重是一樣的
# max_features=None, 劃分数據集時考虑的最多的特徵值数量
# random_state=None,
# max_leaf_nodes=None,
# min_impurity_split=1e-07, 樹增長停止 threshold
# class_weight=None,
# presort=False, 在進行擬合前，是否預分数據來加快樹的建構

clf = DecisionTreeClassifier(criterion='gini', max_depth=1, min_samples_split=2, min_samples_leaf=1 )

# 訓練模型
clf.fit(x_train, y_train)
# 出現 error: Unknown label type: 'continuous' 因此後方加上 .astype('int')
# clf.fit(x_train, y_train.astype('int'))

# 預測測試集
y_pred = clf.predict(x_test)

print (y_pred)

[1 1 0 0 1 0 0 0 0 1 1 0 1 1 0 1 0 1 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 1 0
 0 0 1 1 0 0 1 1]


In [12]:
acc = metrics.accuracy_score(y_test, y_pred)
print("Acuuracy: ", acc)

Acuuracy:  0.6444444444444445


In [13]:
print("Feature importance: ", clf.feature_importances_)

Feature importance:  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]


In [14]:
clf = DecisionTreeClassifier()

# 訓練模型
clf.fit(x_train, y_train)
# 出現 error: Unknown label type: 'continuous' 因此後方加上 .astype('int')
# clf.fit(x_train, y_train.astype('int'))

# 預測測試集
y_pred = clf.predict(x_test)

print (y_pred)

[2 1 0 0 1 2 0 1 0 1 1 0 2 2 0 1 0 1 1 2 1 2 1 2 0 2 1 1 1 2 0 1 0 1 2 1 0
 0 0 2 2 0 0 2 1]


In [15]:
acc = metrics.accuracy_score(y_test, y_pred)
print("Acuuracy: ", acc)

Acuuracy:  0.9111111111111111


In [16]:
print("Feature importance: ", clf.feature_importances_)

Feature importance:  [0.04440705 0.         0.         0.         0.         0.04296585
 0.10004551 0.         0.         0.38107601 0.         0.04285558
 0.38865   ]


使用回歸模型

In [17]:
# 使用回歸模型，使用 DecisionTreeRegressor
Reg = DecisionTreeRegressor()

# 訓練模型
Reg.fit(x_train, y_train)
# 出現 error: Unknown label type: 'continuous' 因此後方加上 .astype('int')
# clf.fit(x_train, y_train.astype('int'))

# 預測測試集
y_pred = Reg .predict(x_test)

print (y_pred)

[2. 2. 0. 0. 1. 2. 0. 0. 0. 1. 1. 0. 2. 2. 0. 1. 0. 1. 1. 2. 1. 2. 1. 2.
 0. 2. 1. 1. 2. 2. 0. 1. 0. 1. 2. 2. 0. 0. 0. 2. 2. 0. 0. 2. 1.]


In [18]:
acc = metrics.accuracy_score(y_test, y_pred)
print("Acuuracy: ", acc)

Acuuracy:  0.9555555555555556


In [19]:
print("Feature importance: ", Reg.feature_importances_)

Feature importance:  [0.01285659 0.         0.         0.         0.03685556 0.
 0.61367513 0.         0.         0.08462354 0.         0.
 0.25198917]


ans: 1. 改變樹的參數會影響預測結果
     2. 以wine的case來說,用DecisionTreeRegressor的結果會比DecisionTreeClassifier來的好