# Python 機器學習

## 郭耀仁

## 大綱

- 課程目標
- 能力盤點
- 建立開發環境
- ndarray 簡介
- DataFrame 簡介
- `sklearn` 快速上手
- 繪製 Decision Region Plot
- 預處理
- 分類
- 第一次上傳
- 網格搜尋
- 整體學習
- 第二次上傳

## 課程目標

- 讓學員學會使用 Python 的機器學習相關套件
- 讓學員能參與 **Kaggle** 的分類模型競賽

## 能力盤點

- 基本能力：
    - 建立開發環境
    - `NumPy` 套件的 **ndarray**
    - `Pandas` 套件的 **DataFrame**
    - 繪製 **Decision Region Plot**

## 能力盤點（2）

- `Scikit-Learn` 模組：
    - 預處理
    - 分類
    - 模型評估
    - 整體學習

## 建立開發環境

- 為什麼選擇 [Anaconda](https://www.continuum.io/downloads)？
    - 同時安裝 Python 主程式
    - 同時安裝機器學習應用套件
    - 同時安裝編輯器 Jupyter Notebook
    - 同時安裝套件與環境管理工具 conda

## 建立開發環境（2）

- 選擇 Python 3.6 版本安裝
- 安裝完成後在命令列輸入：

```
$ jupyter notebook
```

- 新增一個 Python 3 notebook

![day0102](https://storage.googleapis.com/2017_ithome_ironman/day0102.png)

## 建立開發環境（3）

- 在 cell 中執行以下指令：

```python
import numpy as np
import pandas as pd
import matplotlib
import sklearn

print(np.__version__)
print(pd.__version__)
print(matplotlib.__version__)
print(sklearn.__version__)
```

## 建立開發環境（4）

- 如果執行後出現下圖，**恭喜您**，我們的開發環境建立完畢了！

![midterm_01](https://storage.googleapis.com/py_ds_basic/midterm_01.png)

## 建立開發環境（5）

- 學員亦可直接使用 [Project Jupyter](http://jupyter.org/) 建立好的瀏覽器環境
- 點選 **Try it in your browser**

## `ndarray` 簡介

- [Numpy 簡介](https://yaojenkuo.github.io/py_ds_advanced/ch2.slides)

## `DataFrame` 簡介

- [DataFrame 簡介](https://yaojenkuo.github.io/py_ds_advanced/ch3.slides)

## `sklearn` 快速上手

- `sklearn` 簡介
- 如何使用 `sklearn`

## `sklearn` 簡介

- Python 的機器學習套件
- 有六大功能模組：
    - 預處理
    - 降維
    - 迴歸
    - 分群
    - 分類
    - 模型評估

Source: <http://scikit-learn.org/stable/>

## 預處理模組（Preprocessing）

> 在進行機器學習演算法之前，對資料進行轉換、遺漏值填補或標準化的前置作業。

|常見應用|方法|
|-------|---|
|類別值轉換|`LabelEncoder()`、`OneHotEncoder()`|
|遺漏值填補|`Imputer()`|
|標準化|`StandardScaler()`、`MinMaxScaler()`|

## 降維模組（Dimensionality reduction）

> 將多維資料的特徵映射到低維度的空間，目的在保留最多特徵的資訊。

|常見應用|方法|
|-------|---|
|主成份分析|`PCA()`|
|線性判別分析|`LDA()`|
|核主成份分析|`KernelPCA()`|

## 迴歸模組（Regression）

> 用來預測目標變數為連續型（數值）的學習演算法。

|常見應用|方法|
|-------|---|
|線性迴歸|`LinearRegression()`|
|決策樹迴歸|`DecisionTreeRegressor()`|
|隨機森林迴歸|`RandomForestRegressor()`|

## 分群模組（Clustering）

> 在不知道答案的情況下洞察資料潛藏樣式的學習演算法

|常見應用|方法|
|-------|---|
|k-means|`KMeans()`|
|階層分群|`AgglomerativeClustering()`|
|DBSCAN|`DBSCAN()`|

## 分類模組（Classification）

> 用來預測目標變數為離散型（類別）的學習演算法。

|常見應用|方法|
|-------|---|
|感知器|`Perceptron()`|
|羅吉斯迴歸|`LogisticRegression()`|
|支持向量機|`SVC()`|
|決策樹|`DecisionTreeClassifier()`|
|KNN|`KNeighborsClassifier()`|

## 模型評估模組（Model selection）

> 評估模型效能、微調機器學習模型參數與切割訓練測試資料。

|常見應用|方法|
|-------|---|
|切割訓練測試資料|`train_test_split()`|
|模型效能指標|`accuracy_score()`|
|微調參數|`GridSearchCV()`|
|k-fold 交叉驗證|`StratifiedKFold()`|

## 如何使用 `sklearn`

- 範例一：讀入內建玩具資料集

```python
from sklearn import datasets

iris = datasets.load_iris()
print(iris.feature_names)
print(iris.target_names)
print(iris.data.shape)
print(iris.target.shape)
```

## 如何使用 `sklearn`（2）

- 範例二：切割訓練測試資料

```python
from sklearn import datasets, model_selection

iris = datasets.load_iris()
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size = 0.3, random_state = 0)
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)
```

## 如何使用 `sklearn`（3）

- 範例三：標準化維度

```python
from sklearn import datasets, preprocessing

iris = datasets.load_iris()
X = iris.data
std_scaler = preprocessing.StandardScaler()
std_scaler.fit(X)
X_std = std_scaler.transform(X)
print(X_std[0:5, :])
print(X[0:5, :])
```

## 繪製 Decision Region Plot

- 為什麼要繪製決策區域圖？
    - 利用視覺化暸解學習演算法的分類方法
    - 兩個特徵方便視覺化

## 繪製 Decision Region Plot（2）

- 準備只有兩個特徵的資料

```python
from sklearn import datasets

iris = datasets.load_iris()
X = iris.data[:, 0:2] # sepal length(cm) 與 sepal width(cm)
y = iris.target
```

## 繪製 Decision Region Plot（3）

- 標準化兩個特徵

```python
from sklearn.preprocessing import StandardScaler

std_scaler = StandardScaler()
std_scaler.fit(X)
X_std = std_scaler.transform(X)
```

## 繪製 Decision Region Plot（4）

- 切割訓練測試資料集

```python
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_std, y, test_size = 0.3, random_state = 0)
```

## 繪製 Decision Region Plot（5）

- 訓練感知器模型

```python
from sklearn.linear_model import Perceptron

ppn = Perceptron(n_iter = 40, eta0 = 0.1, random_state = 87)
ppn.fit(X_train, y_train)
```

## 繪製 Decision Region Plot（6）

- 預測並檢視評估指標：**分類正確率**

```python
from sklearn.metrics import accuracy_score

y_pred = ppn.predict(X_test)
print("分類正確率：%.2f" % accuracy_score(y_test, y_pred))
```

## 繪製 Decision Region Plot（7）

- 三種鳶尾花品種的標點樣式
    - square(s)
    - cross(x)
    - circle(o)
- 三種鳶尾花品種的填滿區域顏色

```python
from matplotlib.colors import ListedColormap

markers = ('x', 'o', 's')
colors = ('red', 'blue', 'green')
color_map = ListedColormap(colors)
```

## 繪製 Decision Region Plot（8）

- 定義 X 軸與 Y 軸的上下限

```python
x1_min, x1_max = X_std[:, 0].min() - 1, X_std[:, 0].max() + 1
x2_min, x2_max = X_std[:, 1].min() - 1, X_std[:, 1].max() + 1
```

## 繪製 Decision Region Plot（9）

- 在 x1 與 x2 的上下限每隔 0.02 就點一個點製造出網格陣列
- 使用 NumPy 的 `meshgrid()` 函數

```python
import numpy as np

xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, 0.02), np.arange(x2_min, x2_max, 0.02))
```

## 繪製 Decision Region Plot（10）

- 預測網格陣列中每個點的品種
- 用 `matplotlib` 的 `contourf()` 函數來畫等高線圖

```python
import numpy as np
import matplotlib.pyplot as plt

Z = ppn.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
Z = Z.reshape(xx1.shape)
plt.contourf(xx1, xx2, Z, alpha = 0.4, cmap = color_map)
plt.xlim(xx1.min(), xx1.max())
plt.ylim(xx2.min(), xx2.max())
plt.show()
```

## 繪製 Decision Region Plot（11）

- 把資料點放上去

```python
for i in np.unique(y):
    plt.scatter(x = X_std[y == i, 0], y = X_std[y == i, 1], marker = markers[i], alpha = 0.7, c = colors[i], label = i)
```

## 繪製 Decision Region Plot（12）

- 整理繪製 Decision Region Plot 的程式

```python
# 載入套件
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Perceptron
import numpy as np
from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt

# 讀入資料集
iris = datasets.load_iris()
X = iris.data[:, 0:2] # sepal length(cm) 與 sepal width(cm)
y = iris.target

# 標準化
std_scaler = StandardScaler()
std_scaler.fit(X)
X_std = std_scaler.transform(X)

# 切分訓練測試資料
X_train, X_test, y_train, y_test = train_test_split(X_std, y, test_size = 0.3, random_state = 0)

# 訓練模型
ppn = Perceptron(n_iter = 40, eta0 = 0.1, random_state = 0)
ppn.fit(X_train, y_train)

# 準備標點的樣式與網格顏色
markers = ('x', 'o', 's')
colors = ('red', 'blue', 'green')
color_map = ListedColormap(colors)

# 定義 X 軸與 Y 軸的上下限
x1_min, x1_max = X_std[:, 0].min() - 1, X_std[:, 0].max() + 1
x2_min, x2_max = X_std[:, 1].min() - 1, X_std[:, 1].max() + 1

# 網格陣列
xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, 0.02), np.arange(x2_min, x2_max, 0.02))

# 繪圖
Z = ppn.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
Z = Z.reshape(xx1.shape)
plt.contourf(xx1, xx2, Z, alpha = 0.2, cmap = color_map)
plt.xlim(xx1.min(), xx1.max())
plt.ylim(xx2.min(), xx2.max())
for i in np.unique(y):
    plt.scatter(x = X_std[y == i, 0], y = X_std[y == i, 1], marker = markers[i], alpha = 0.7, c = colors[i], label = i)
plt.xlabel('sepal length(standardized)')
plt.ylabel('sepal width(standardized)')
plt.legend(loc = 'upper left')
plt.show()
```

## 預處理

- 填補遺漏值
- 轉換類別值
- 標準化數值

> The `sklearn.preprocessing` package provides several common utility functions and transformer classes to change raw feature vectors into a representation that is more suitable for the downstream estimators.

## 填補遺漏值

- 使用 `Imputer()` 函數
- 可以指定 `strategy` 參數修改填補的方法
- 可以指定 `axis` 參數指定 `strategy` 參數參考的維度

```python
from sklearn.preprocessing import Imputer
import numpy as np

imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
arr_before_imputed = np.array([
    [1, 2, np.NaN, 4],
    [5, np.NaN, 6, 7],
    [8, 9, 10, 11]
])
imputer = imputer.fit(arr_before_imputed)
imputed_arr = imputer.transform(arr_before_imputed)
imputed_arr
```

## 轉換類別值

- 將類別標籤轉換為整數值
- 使用 `LabelEncoder()` 方法

```python
from sklearn import preprocessing

label_encoder = preprocessing.LabelEncoder()
label_encoder.fit(["female", "male"])
print(label_encoder.transform(["female", "male", "male", "female"]))
label_encoder.fit(["Q", "S", "C"])
print(label_encoder.transform(["Q", "S", "C", "C", "S"]))
```

## 轉換類別值（2）

- 將類別標籤利用 **One Hot Encoding** 轉換為 **dummy variables**
- 使用 `pandas.get_dummies()` 方法

```python
import pandas as pd

gender_df = pd.DataFrame({
    "gender": ["Male", "Female", "Male"]
})
gender_df_dummies = pd.get_dummies(gender_df)
gender_df_dummies
```

## 標準化數值

- 以資料之間距離作為根據的演算法（例如 **knn**）必須要讓數值資料的尺度一致
- 有兩種常見的方法：
    - `MinMaxScaler()`
    - `StandardScaler()`

## 標準化數值（2）

```python
import numpy as np
from sklearn.preprocessing import MinMaxScaler, StandardScaler

simple_arr = np.arange(6, dtype = 'float64').reshape(6, 1)
min_max_scaler = MinMaxScaler()
std_scaler = StandardScaler()

min_max_arr = min_max_scaler.fit_transform(simple_arr)
print(min_max_arr)
std_arr = std_scaler.fit_transform(simple_arr)
print(std_arr)
```

## 標準化數值（3）

|輸入|最小最大化|標準化|
|---|---------|-----|
|0.0|0.0|-1.46385011|
|1.0|0.2|-0.87831007|
|2.0|0.4|-0.29277002|
|3.0|0.6|0.29277002|
|4.0|0.8|0.87831007|
|5.0|1.0|1.46385011|

## 分類

> 藉由過去觀測到的分類類別來標籤、預測新數據的類別。

- 資料點線性可分
    - 感知器
    - 羅吉斯迴歸
    - 線性支持向量機
- 資料點非線性可分
    - 核心支持向量機
    - 決策樹
    - knn

## 感知器

> 透過單位階梯函數轉換成特徵（X）與權重（w）內積的輸出為 1 與 -1。

![ppn](https://storage.googleapis.com/py_ml_images/ppn.png)

Source: [Python Machine Learning](https://www.amazon.com/Python-Machine-Learning-Sebastian-Raschka-ebook/dp/B00YSILNL0)

## 感知器（2）

- 使用 `sklearn` 實作感知器分類

![](https://storage.googleapis.com/py_ml_images/ppn_iris_plot.png)

[程式連結](https://github.com/yaojenkuo/py_ds_advanced/blob/master/py_ml_ppn.py)

## 羅吉斯迴歸

> 透過 sigmoid 函數轉換成變數與權重內積的輸出，再利用單位階梯函數轉換為二元的分類結果；或利用 OvR 轉換為多元的分類結果。

![logistic regression](https://storage.googleapis.com/py_ml_images/logistic_regression.png)

Source: [Python Machine Learning](https://www.amazon.com/Python-Machine-Learning-Sebastian-Raschka-ebook/dp/B00YSILNL0)

## 羅吉斯迴歸（2）

- 使用 `sklearn` 實作羅吉斯迴歸分類

![](https://storage.googleapis.com/py_ml_images/lr_iris_plot.png)

[程式連結](https://github.com/yaojenkuo/py_ds_advanced/blob/master/py_ml_lr.py)

## 線性支持向量機

> 感知器的延伸，追求決策邊界的最大化。在實務上應用時與羅吉斯迴歸的表現相似，但是在處理極端值的能力上面較為優秀。

![svc](https://storage.googleapis.com/py_ml_images/svc.png)

Source: [Python Machine Learning](https://www.amazon.com/Python-Machine-Learning-Sebastian-Raschka-ebook/dp/B00YSILNL0)

## 線性支持向量機（2）

- 使用 `sklearn` 實作線性支持向量機分類

![](https://storage.googleapis.com/py_ml_images/svc_iris_plot.png)

[程式連結](https://github.com/yaojenkuo/py_ds_advanced/blob/master/py_ml_svc.py)

## 核心支持向量機

> 藉由映射函數將資料投影到另一個特徵空間，再利用分離超平面進行分類。

![](https://storage.googleapis.com/py_ml_images/svm.png)

Source: [Support Vector Machines: A Simple Explanation](http://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html)

## 核心支持向量機（2）

- 使用 `sklearn` 實作核心支持向量機分類

![](https://storage.googleapis.com/py_ml_images/svc_kernel_iris_plot.png)

[程式連結](https://github.com/yaojenkuo/py_ds_advanced/blob/master/py_ml_kernel_svc.py)

## 決策樹

> 依據特徵值將數據分割，並且在分割時選擇讓訊息增益最大的分割方式。

![tree](https://storage.googleapis.com/py_ml_images/tree.png)

Source: [Python Machine Learning](https://www.amazon.com/Python-Machine-Learning-Sebastian-Raschka-ebook/dp/B00YSILNL0)

## 決策樹（2）

- 使用 `sklearn` 實作決策樹分類

![](https://storage.googleapis.com/py_ml_images/tree_iris_plot.png)

[程式連結](https://github.com/yaojenkuo/py_ds_advanced/blob/master/py_ml_tree.py)

## knn

> 在一個固定距離中選擇 k 個臨近資料點再依據多數決決定資料點的類別。

![knn](https://storage.googleapis.com/py_ml_images/knn.png)

Source: [Python Machine Learning](https://www.amazon.com/Python-Machine-Learning-Sebastian-Raschka-ebook/dp/B00YSILNL0)

## knn（2）

- 使用 `sklearn` 實作 knn 分類

![](https://storage.googleapis.com/py_ml_images/knn_iris_plot.png)

[程式連結](https://github.com/yaojenkuo/py_ds_advanced/blob/master/py_ml_knn.py)

## 第一次上傳

- 我們要練習的是預測 **test.csv** 資料集中的 **survival** 變數
- 用來訓練與測試的資料即是 **test.csv** 資料集
- 這是來自 [Kaggle](https://www.kaggle.com/) 的分類模型競賽 [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic)
- 資料集的變數：

|變數|描述|
|---|----|
|survival|存活與否，	0 = 歿、1 = 存|
|pclass|社經地位，1 = 高、2 = 中、3 = 低|
|sex|性別|
|Age|年齡|
|sibsp|船上旁系親屬的人數|
|parch|船上直系親屬的人數|
|ticket|船票編號|
|fare|船票價格|
|cabin|船艙編號|
|embarked|登船港口，C = Cherbourg、Q = Queenstown、S = Southampton|

## 第一次上傳（2）

- 流程：

|步驟|內容|
|---|----|
|第一步|暸解資料外觀與內容|
|第二步|資料預處理|
|第三步|切割訓練測試資料|
|第四步|分類器|
|第五步|預測、模型評估|
|第六步|應用預測資料|
|第七步|上傳|

## 第一次上傳（3）

- 第一步：暸解資料外觀與內容

```python
import pandas as pd

train_url = "https://storage.googleapis.com/py_ml_datasets/train.csv"
train = pd.read_csv(train_url)
print("前五個觀測值：")
print(train.head())
print("-----")
print("外觀：", train.shape)
print("-----")
print("遺漏值：")
print(train.isnull().sum())
```

## 第一次上傳（4）

- 第二步：資料預處理
    - 選取有意義的特徵變數（剔除編號、姓名與遺漏值過多的變數）
    
```python
# 選取有意義的特徵變數
train = train.ix[:, ["Survived", "Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]]
train.head()
```

## 第一次上傳（5）

- 第二步：資料預處理
    - 填補遺漏值（`Age` 與 `Embarked`）

```python
import numpy as np

# Embarked 以出現最多的填補
print(train.Embarked.value_counts())
imputed_embarked = np.where(train.Embarked.isnull(), train.Embarked.value_counts().index[0], train.Embarked)
train.Embarked = imputed_embarked # 完成 Embarked 的填補

# 依照 Pclass 的平均年齡填補
grouped = train.ix[:, ["Pclass", "Age"]]
grouped = grouped.groupby("Pclass")
mean_age_by_Pclass = grouped.mean().round(0)
train_P_1 = train[train.Pclass == 1].fillna(mean_age_by_Pclass.ix[1, "Age"])
train_P_2 = train[train.Pclass == 2].fillna(mean_age_by_Pclass.ix[2, "Age"])
train_P_3 = train[train.Pclass == 3].fillna(mean_age_by_Pclass.ix[3, "Age"])
imputed_train = pd.concat([train_P_1, train_P_2, train_P_3]) # 完成 Age 的填補
```

## 第一次上傳（6）

- 第二步：資料預處理
    - 轉換類別變數（`Sex` 與 `Embarked`）

```python
sex_embarked_df_dummies = pd.get_dummies(imputed_train.ix[:, ["Sex", "Embarked"]])
sex_embarked_df_dummies
```

## 第一次上傳（7）

- 第二步：資料預處理
    - 把預處理過的資料整理起來

```python
preproc_train = pd.DataFrame([
   imputed_train.Survived,
   imputed_train.Pclass,
   imputed_train.Age,
   imputed_train.SibSp,
   imputed_train.Parch,
   imputed_train.Fare,
   sex_embarked_df_dummies.Sex_female,
   sex_embarked_df_dummies.Sex_male,
   sex_embarked_df_dummies.Embarked_C,
   sex_embarked_df_dummies.Embarked_Q,
   sex_embarked_df_dummies.Embarked_S
]).T
print(preproc_train.shape)
preproc_train.head()
```

## 第一次上傳（8）

- 第三步：切割訓練測試資料

```python
from sklearn.model_selection import train_test_split

preproc_train_y = preproc_train.ix[:, 0]
preproc_train_X = preproc_train.ix[:, 1:]
train_X, test_X, train_y, test_y = train_test_split(preproc_train_X, preproc_train_y, test_size = 0.3)
```

## 第一次上傳（6）

- 第四步：分類器

```python
from sklearn import tree

# 建立模型
decison_clf = tree.DecisionTreeClassifier(criterion = 'entropy', max_depth = 5, random_state = 0)
decison_clf.fit(train_X, train_y)
```

## 第一次上傳（7）

- 第五步：預測、模型評估

```python
from sklearn import metrics

# 預測
test_y_predicted = decison_clf.predict(test_X)

# 準確率
accuracy = metrics.accuracy_score(test_y, test_y_predicted)
print(accuracy)
```

## 第一次上傳（8）

- 第六步：應用預測資料
    - 讀入預測資料

```python
test_url = "https://storage.googleapis.com/py_ml_datasets/test.csv"
test = pd.read_csv(test_url)
print("前五個觀測值：")
print(test.head())
print("-----")
print("外觀：", test.shape)
print("-----")
print("遺漏值：")
print(test.isnull().sum())
```

## 第一次上傳（9）

- 第六步：應用預測資料
    - 選取有意義的特徵變數（剔除編號、姓名與遺漏值過多的變數）

```python
# 選取有意義的特徵變數
test = test.ix[:, ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]]
test.head()
```

## 第一次上傳（10）

- 第六步：應用預測資料
    - 填補遺漏值（`Age` 與 `Fare`）

```python
import numpy as np

# Fare 以平均數填補
imputed_fare = np.where(test.Fare.isnull(), test.Fare.mean(), test.Fare)
test.Fare = imputed_fare # 完成 Fare 的填補

# 依照 Pclass 的平均年齡填補
grouped = test.ix[:, ["Pclass", "Age"]]
grouped = grouped.groupby("Pclass")
mean_age_by_Pclass = grouped.mean().round(0)
test_P_1 = test[test.Pclass == 1].fillna(mean_age_by_Pclass.ix[1, "Age"])
test_P_2 = test[test.Pclass == 2].fillna(mean_age_by_Pclass.ix[2, "Age"])
test_P_3 = test[test.Pclass == 3].fillna(mean_age_by_Pclass.ix[3, "Age"])
imputed_test = pd.concat([test_P_1, test_P_2, test_P_3]) # 完成 Age 的填補
```

## 第一次上傳（11）

- 第六步：應用預測資料
    - 轉換類別變數（`Sex` 與 `Embarked`）

```python
sex_embarked_df_dummies = pd.get_dummies(imputed_test.ix[:, ["Sex", "Embarked"]])
sex_embarked_df_dummies
```

## 第一次上傳（12）

- 第六步：應用預測資料
    - 把預處理過的資料整理起來

```python
preproc_test_X = pd.DataFrame([
   imputed_test.Pclass,
   imputed_test.Age,
   imputed_test.SibSp,
   imputed_test.Parch,
   imputed_test.Fare,
   sex_embarked_df_dummies.Sex_female,
   sex_embarked_df_dummies.Sex_male,
   sex_embarked_df_dummies.Embarked_C,
   sex_embarked_df_dummies.Embarked_Q,
   sex_embarked_df_dummies.Embarked_S
]).T
print(preproc_test_X.shape)
preproc_test_X.head()
```

## 第一次上傳（13）

- 第六步：應用預測資料
    - 預測

```python
# 預測
prediction = decison_clf.predict(preproc_test_X)
```

## 第一次上傳（14）

- 第七步：
    - 參考 [Submission File Format](https://www.kaggle.com/c/titanic#evaluation) 整理一下上傳檔案

```python
test_url = "https://storage.googleapis.com/py_ml_datasets/test.csv"
test = pd.read_csv(test_url)

# 跟 PassengerId 合併
prediction_series = pd.Series(prediction, index = preproc_test_X.index)
prediction_series = prediction_series.astype(int)
submission_df = pd.concat([test.PassengerId, prediction_series], axis = 1)
submission_df.columns = ["PassengerId", "Survived"]

# 輸出成 csv
submission_df.to_csv("submission.csv", index = False)
```

## 第一次上傳（15）

- 第七步：
    - 上傳

![First Submission](https://storage.googleapis.com/py_ml_images/first_submission.png)

- 我們對這個結果不太滿意！可以怎麼樣精進？

## 精進方式

- 網格搜尋
- 整體學習

## 網格搜尋

> 透過代入大量參數來驗證什麼樣的參數設定最佳。

- 在使用分類器的時候都會遭遇到**參數調校**的問題
- 我們可以藉由**網格搜尋（Grid Search）**來找一組合適的參數

## 網格搜尋（2）

- 透過 `sklearn.grid_search` 實作網格搜尋

```python
# 載入套件
from sklearn.svm import SVC
from sklearn.grid_search import GridSearchCV

# 初始化分類器
svm = SVC(random_state = 0)

# 建立網格
param_grid = [
    {'C': [1, 10, 100, 1000, 10000],
     'kernel': ['linear']
    },
    {'C': [1, 10, 100, 1000, 10000],
     'gamma': [0.1, 0.01, 0.001, 0.0001],
     'kernel': ['rbf']
    }
]

# 初始化網格搜索
gs = GridSearchCV(estimator = svm,
    param_grid = param_grid,
    scoring = 'accuracy',
    cv = 10,
    n_jobs = -1
)
gs.fit(X_train, y_train)
print(gs.best_score_)
print(gs.best_params_)

# 使用最佳參數套用到測試資料
clf = gs.best_estimator_
clf.fit(X_train, y_train)
print(clf.score(X_test, y_test))
```

## 整體學習

> 讓多個分類器結合多數決、袋裝法或權重投票等決策方式來提高模型預測的準確度。

![ensemble](https://storage.googleapis.com/py_ml_images/ensemble.png)

Source: [Python Machine Learning](https://www.amazon.com/Python-Machine-Learning-Sebastian-Raschka-ebook/dp/B00YSILNL0)

## 整體學習（2）

- 透過 `sklearn.ensemble` 實作整體學習：`VotingClassifier`

```python
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import VotingClassifier

# 初始化分類器
clf1 = LogisticRegression(random_state = 0)
clf2 = DecisionTreeClassifier(random_state = 0, max_depth = 3, criterion = 'entropy')
clf3 = KNeighborsClassifier(n_neighbors = 5, p = 2, metric = 'minkowski')

# 初始化整體學習
e_clf = VotingClassifier(estimators = [('lr', clf1), ('tree', clf2), ('knn', clf3)], voting = 'hard')
for clf, label in zip([clf1, clf2, clf3, e_clf], ['Logistic Regression', 'Decision Tree', 'KNN', 'Ensembled']):
    scores = cross_val_score(clf, X = X_train, y = y_train, cv = 10, scoring = 'accuracy')
    print("Accuracy: %0.2f [%s]" % (scores.mean(), label))
```

## 整體學習（3）

- 將網格搜尋與整體學習結合：

```python
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import VotingClassifier
from sklearn.grid_search import GridSearchCV

# 初始化分類器
clf1 = LogisticRegression(random_state = 0)
clf2 = DecisionTreeClassifier(random_state = 0, criterion = 'entropy')
clf3 = KNeighborsClassifier(p = 2, metric = 'minkowski')

# 初始化整體學習
e_clf = VotingClassifier(estimators = [('lr', clf1), ('tree', clf2), ('knn', clf3)], voting = 'hard')

# 網格搜尋
params = {'lr__C': [1.0, 10.0, 100.0],
          'tree__max_depth': [1, 2, 3, 4, 5],
          'knn__n_neighbors': [3, 5, 7],
}
gs = GridSearchCV(estimator = e_clf, param_grid = params, cv = 10, n_jobs = -1)
gs.fit(X_train, y_train)
clf = gs.best_estimator_
clf.fit(X_train, y_train)
print(clf.score(X_test, y_test))
```

## 第二次上傳

- 修正一下流程：

|步驟|內容|
|---|----|
|第一步|資料預處理（train.csv、test.csv）|
|第二步|分類器|
|第三步|預測|
|第四步|上傳|

## 第二次上傳（2）

- 第一步：資料預處理

```python
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

train_url = "https://storage.googleapis.com/py_ml_datasets/train.csv"
train = pd.read_csv(train_url)

# 選取有意義的特徵變數
train = train.ix[:, ["Survived", "Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]]

# Embarked 以出現最多的填補
imputed_embarked = np.where(train.Embarked.isnull(), train.Embarked.value_counts().index[0], train.Embarked)
train.Embarked = imputed_embarked # 完成 Embarked 的填補

# 依照 Pclass 的平均年齡填補
grouped = train.ix[:, ["Pclass", "Age"]]
grouped = grouped.groupby("Pclass")
mean_age_by_Pclass = grouped.mean().round(0)
train_P_1 = train[train.Pclass == 1].fillna(mean_age_by_Pclass.ix[1, "Age"])
train_P_2 = train[train.Pclass == 2].fillna(mean_age_by_Pclass.ix[2, "Age"])
train_P_3 = train[train.Pclass == 3].fillna(mean_age_by_Pclass.ix[3, "Age"])
imputed_train = pd.concat([train_P_1, train_P_2, train_P_3]) # 完成 Age 的填補

# 轉換類別變數
sex_embarked_df_dummies = pd.get_dummies(imputed_train.ix[:, ["Sex", "Embarked"]])
sex_embarked_df_dummies

# 預處理完成的資料
preproc_train = pd.DataFrame([
   imputed_train.Survived,
   imputed_train.Pclass,
   imputed_train.Age,
   imputed_train.SibSp,
   imputed_train.Parch,
   imputed_train.Fare,
   sex_embarked_df_dummies.Sex_female,
   sex_embarked_df_dummies.Sex_male,
   sex_embarked_df_dummies.Embarked_C,
   sex_embarked_df_dummies.Embarked_Q,
   sex_embarked_df_dummies.Embarked_S
]).T
preproc_train_y = preproc_train.ix[:, 0]
preproc_train_X = preproc_train.ix[:, 1:]

# 切割訓練測試資料
train_X, test_X, train_y, test_y = train_test_split(preproc_train_X, preproc_train_y, test_size = 0.3)

# 標準化 preproc_train_X
stdsc = StandardScaler()
train_X_std = stdsc.fit_transform(train_X)
test_X_std = stdsc.fit(test_X)

# test.csv
test_url = "https://storage.googleapis.com/py_ml_datasets/test.csv"
test = pd.read_csv(test_url)
test = test.ix[:, ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]]

# Fare 以平均數填補
imputed_fare = np.where(test.Fare.isnull(), test.Fare.mean(), test.Fare)
test.Fare = imputed_fare # 完成 Fare 的填補

# 依照 Pclass 的平均年齡填補
grouped = test.ix[:, ["Pclass", "Age"]]
grouped = grouped.groupby("Pclass")
mean_age_by_Pclass = grouped.mean().round(0)
test_P_1 = test[test.Pclass == 1].fillna(mean_age_by_Pclass.ix[1, "Age"])
test_P_2 = test[test.Pclass == 2].fillna(mean_age_by_Pclass.ix[2, "Age"])
test_P_3 = test[test.Pclass == 3].fillna(mean_age_by_Pclass.ix[3, "Age"])
imputed_test = pd.concat([test_P_1, test_P_2, test_P_3]) # 完成 Age 的填補

# 轉換類別資料
sex_embarked_df_dummies = pd.get_dummies(imputed_test.ix[:, ["Sex", "Embarked"]])
sex_embarked_df_dummies

# 預處理完成的資料
preproc_test_X = pd.DataFrame([
   imputed_test.Pclass,
   imputed_test.Age,
   imputed_test.SibSp,
   imputed_test.Parch,
   imputed_test.Fare,
   sex_embarked_df_dummies.Sex_female,
   sex_embarked_df_dummies.Sex_male,
   sex_embarked_df_dummies.Embarked_C,
   sex_embarked_df_dummies.Embarked_Q,
   sex_embarked_df_dummies.Embarked_S
]).T

# 標準化 preproc_test_X
stdsc = StandardScaler()
preproc_test_X_std = stdsc.fit_transform(preproc_test_X)
preproc_test_X_std = stdsc.fit_transform(preproc_test_X_std)
```

## 第二次上傳（3）

- 第二步：分類器

```python
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import VotingClassifier
from sklearn.grid_search import GridSearchCV

# 訓練
clf1 = RandomForestClassifier(n_estimators = 500)
clf2 = KNeighborsClassifier(p = 2, metric = 'minkowski', n_neighbors = 11)
clf3 = SVC(kernel='rbf', C = 1, gamma = 1000, random_state = 0)
clf4 = SVC(kernel='linear', C = 1, gamma = 1000, random_state = 0)
clf5 = LogisticRegression(C = 100, random_state = 0)

e_clf = VotingClassifier(estimators = [('rf', clf1), ('knn', clf2), ('svc_k', clf3), ('svc_l', clf4), ('lr', clf5)], voting = 'hard')
scores = cross_val_score(e_clf, train_X_std, train_y, cv = 10, scoring='accuracy')
scores.mean()
```

## 第二次上傳（4）

- 第三步：預測

```python
# 預測
e_clf = e_clf.fit(train_X_std, train_y)
prediction = e_clf.predict(preproc_test_X_std)
```

## 第二次上傳（5）

- 第四步：上傳

```python
test_url = "https://storage.googleapis.com/py_ml_datasets/test.csv"
test = pd.read_csv(test_url)

# 跟 PassengerId 合併
prediction_series = pd.Series(prediction, index = preproc_test_X.index)
prediction_series = prediction_series.astype(int)
submission_df = pd.concat([test.PassengerId, prediction_series], axis = 1)
submission_df.columns = ["PassengerId", "Survived"]

# 輸出成 csv
submission_df.to_csv("submission.csv", index = False)
```

## 第二次上傳（6）

![](https://storage.googleapis.com/py_ml_images/second_submission.png)

- 這次的結果比第一次上傳還好！（示意，試圖得到更好的結果）

# End of Slides