### 引入模組

In [1]:
# 引入 numpy、pd 和 sklearn(scikit-learn) 模組
import numpy as np
import pandas as pd
from sklearn import datasets
# 引入 train_test_split 分割方法，
# 注意在 sklearn v0.18 後 train_test_split 從 sklearn.cross_validation 子模組搬到 sklearn.model_selection 中
from sklearn.model_selection import train_test_split
# 引入 KNeighbors 模型
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import LinearSVC

### 2. 引入資料集(load)並進行探索性資料分析(Exploratory data analysis)

In [2]:
# 引入 iris 資料集
raw_iris = datasets.load_iris()

# 探索性分析：了解資料集內容
# 先印出 key 值，列出有哪些值：['data', 'target', 'target_names', 'DESCR', 'feature_names']
# ‘data’, the data to learn -- X
# ‘target’, the classification labels -- y 分類標籤(目標值)
# ‘target_names’, the meaning of the labels -- 分類的標籤名稱
# ‘feature_names’, the meaning of the features -- 特徵
# ‘DESCR’, the full description of the dataset -- 資料及內容描述
print(raw_iris.keys())

# 印出 feature 值
print(raw_iris['data'])

# 印出目標值，分別對應的是三種花的類別：['setosa 山鳶尾' 'versicolor 變色鳶尾' 'virginica 維吉尼亞鳶尾']
print(raw_iris['target'])

# 印出目標標籤，三種花的類別：['setosa' 'versicolor' 'virginica']
print(raw_iris['target_names'])

# 印出屬性名稱，
# ['sepal length 花萼長度 (cm)', 'sepal width 花萼寬度 (cm)', 'petal length 花蕊長度 (cm)', 'petal width 花蕊寬度 (cm)']
print(raw_iris['feature_names'])

# 印出資料集內容描述
print(raw_iris['DESCR'])

# 類別種類
# https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.unique.html
# https://www.tutorialspoint.com/numpy/numpy_unique.htm
print(np.unique(raw_iris.target))

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])
[[ 5.1  3.5  1.4  0.2]
 [ 4.9  3.   1.4  0.2]
 [ 4.7  3.2  1.3  0.2]
 [ 4.6  3.1  1.5  0.2]
 [ 5.   3.6  1.4  0.2]
 [ 5.4  3.9  1.7  0.4]
 [ 4.6  3.4  1.4  0.3]
 [ 5.   3.4  1.5  0.2]
 [ 4.4  2.9  1.4  0.2]
 [ 4.9  3.1  1.5  0.1]
 [ 5.4  3.7  1.5  0.2]
 [ 4.8  3.4  1.6  0.2]
 [ 4.8  3.   1.4  0.1]
 [ 4.3  3.   1.1  0.1]
 [ 5.8  4.   1.2  0.2]
 [ 5.7  4.4  1.5  0.4]
 [ 5.4  3.9  1.3  0.4]
 [ 5.1  3.5  1.4  0.3]
 [ 5.7  3.8  1.7  0.3]
 [ 5.1  3.8  1.5  0.3]
 [ 5.4  3.4  1.7  0.2]
 [ 5.1  3.7  1.5  0.4]
 [ 4.6  3.6  1.   0.2]
 [ 5.1  3.3  1.7  0.5]
 [ 4.8  3.4  1.9  0.2]
 [ 5.   3.   1.6  0.2]
 [ 5.   3.4  1.6  0.4]
 [ 5.2  3.5  1.5  0.2]
 [ 5.2  3.4  1.4  0.2]
 [ 4.7  3.2  1.6  0.2]
 [ 4.8  3.1  1.6  0.2]
 [ 5.4  3.4  1.5  0.4]
 [ 5.2  4.1  1.5  0.1]
 [ 5.5  4.2  1.4  0.2]
 [ 4.9  3.1  1.5  0.1]
 [ 5.   3.2  1.2  0.2]
 [ 5.5  3.5  1.3  0.2]
 [ 4.9  3.1  1.5  0.1]
 [ 4.4  3.   1.3  0.2]
 [ 5.1  3.4  1.5  0.2]
 [ 5.   

### 3. 資料預處理與特徵工程 (Data Clean/Preprocessing & Feature Engineering)
良好的資料輸入 取決於資料預處理與特徵工程，

而好的輸入 將大大影響到模型是否可以發揮其理論正常水準。

以下把資料轉成 DataFrame 格式方便進行操作。

真正在進行機器學習工作流程的時候資料預處理往往是最花時間的部份。

同時為了方便模型的校調，我們這邊把資料集分為 70% 訓練資料，30% 驗證資料。

In [3]:
# 將資料轉為 pandas DataFrame

# data 為觀察目標變數
df_X = pd.DataFrame(raw_iris.data)

# target 為預測變數
df_y = pd.DataFrame(raw_iris.target)


# 將資料切分為 training data 和 testing data，

# 其中 random_state 若設為 0 或不設則即便實例不同但因種子相同產生同樣隨機編號，若設為 1 則每次隨機產生不同編號
# test_size 為切分 training data 和 testing data 的比例
X_train, X_test, y_train, y_test = train_test_split(df_X, df_y, test_size=0.3)

In [4]:
# 印出所有資料集筆數
print(len(df_y))

150


In [5]:
# 印出切分 y_train 的數量為所有資料集的 70%，共 105 筆
print(y_train)
print(len(y_train))

     0
127  2
99   1
22   0
8    0
7    0
72   1
114  2
44   0
45   0
148  2
49   0
48   0
120  2
140  2
91   1
42   0
59   1
35   0
113  2
112  2
132  2
68   1
116  2
28   0
2    0
54   1
124  2
50   1
9    0
138  2
..  ..
126  2
137  2
66   1
3    0
67   1
39   0
93   1
69   1
133  2
83   1
149  2
12   0
121  2
58   1
71   1
29   0
77   1
129  2
105  2
55   1
46   0
144  2
1    0
102  2
95   1
37   0
110  2
101  2
85   1
90   1

[105 rows x 1 columns]
105


In [6]:
# 印出切分的 y_test 資料為所有資料集的 30%，共 45 筆
print(y_test)
print(len(y_test))

     0
106  2
51   1
24   0
64   1
136  2
47   0
103  2
57   1
36   0
142  2
146  2
16   0
19   0
76   1
108  2
4    0
13   0
92   1
6    0
75   1
119  2
130  2
38   0
84   1
70   1
61   1
73   1
74   1
11   0
115  2
109  2
128  2
23   0
104  2
139  2
40   0
135  2
118  2
134  2
107  2
33   0
86   1
79   1
81   1
96   1
45


### 4. 訓練模型與校調 (Model Training)
1. 樣本資料是否大於 50 筆：範例資料集總共有 150 筆資料，大於 50
2. 是否為分類問題：Iris 花朵類別預測是多類別分類問題
3. 是否有標籤好的資料：已經有 label 資料
4. 樣本資料是否小於 100K：資料小於 100K
5. 選擇 Linear SVC 模型（第一個選擇的模型）
6. 是否是文字資料：不是
7. 選擇 KNeighborsClassifier 模型（第二個選擇的模型）
8. 後續優化 / SVC / Ensemble

#### Linear SVC 模型（第一個選擇的模型）

In [None]:
# 初始化 LinearSVC 實例
lin_clf = LinearSVC()
# 使用 fit 來建置模型，其參數接收 training data matrix, testing data array，所以進行 y_train.values.ravel() Data Frame 轉換
lin_clf.fit(X_train, y_train.values.ravel())

#### KNeighborsClassifier 模型（第二個選擇的模型）

#### 後續優化 / SVC / Ensemble