#  <span style="color:orange">CNC機台銑刀磨損偵測</span>


**使用版本: PyCaret 2.2.1** <br />

# 1.0 學習目標

XXXXXX


## 1.1 安裝 PyCaret 函式庫
`!pip install pycaret`


## 1.2 Pre-Requisites
- Python 3.6 或更新版本
- PyCaret 2.2.1 或更新版本
- 二元分類的基礎知識

## 1.3 For Google colab users:
若是要在 Google colab 執行，可使用下列程式碼開啟 notebook 圖形互動功能。<br/>
<br/>
`from pycaret.utils import enable_colab` <br/>
`enable_colab()`


In [1]:
!pip install pycaret





In [2]:
from pycaret.utils import enable_colab
enable_colab()

KeyboardInterrupt: 

# 4.0 資料及說明

此課程，將使用來自UCI的名為“信用卡客戶資料集”的資料集，此資料可看出台灣客戶的違約支付情況。 該資料集包含有關2005年4月至2005年9月台灣地區信用卡客戶的信用額度、個人資料、付款歷史記錄和帳單等資訊。有24,000筆樣本和25筆特徵。<br>
每列的簡短描述如下：
- **ID:** 每個客戶的識別碼
- **LIMIT_BAL:** 新台幣的信用額度（包括個人和家庭/補充信用）
- **SEX:** 性別（1 =男性，2 =女性）
- **EDUCATION:** 教育程度（1=碩士，2=大學，3=高中，4=其他，5=未知，6=未知）
- **MARRIAGE:** 婚姻狀況（1 =已婚，2 =單身，3 =其他）
- **AGE:** 年齡
- **PAY_0 to PAY_6:** n個月前的還款狀態（PAY_0=上個月 .. PAY_6 = 6個月前）（標籤：-1=正常付款，1=延遲一個月付款，2=延遲兩個月付款 .. 8=延遲八個月付款，9=延遲九個月及以上的付款）
- **BILL_AMT1 to BILL_AMT6:** n個月前的賬單金額（BILL_AMT1=上個月 .. BILL_AMT6=6個月前）
- **PAY_AMT1 to PAY_AMT6:** n個月前的付款金額（BILL_AMT1=上個月 .. BILL_AMT6=6個月前）
- **default：** 正常付款（1 =是，0 =否）“目標列(target column)”

#### 資料集來源 :
Lichman, M. (2013). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science.<br>
__[資料來源](https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients)__ 

# 5.0 獲取資料

可以從__[此處](https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients)__找到的原始下載資料，然後使用pandas進行載入（了解操作方法）。

In [None]:
import pandas as pd
import io
import requests
frames = list()

url="https://raw.githubusercontent.com/y-s-liu/machine-learning-tutorial/master/datasets/CNC_Mill_Tool_Wear/train.csv"
results = pd.read_csv(url)
for i in range(1,19):
  exp = '0' + str(i) if i < 10 else str(i)
  frame = pd.read_csv("https://raw.githubusercontent.com/y-s-liu/machine-learning-tutorial/master/datasets/CNC_Mill_Tool_Wear/experiment_{}.csv".format(exp))
  row = results[results['No'] == i]
  frame['target'] = 1 if row.iloc[0]['tool_condition'] == 'worn' else 0
  frames.append(frame)
dataset = pd.concat(frames, ignore_index = True)
dataset.head()

In [None]:
#check the shape of data
dataset.shape

為了用於`predict_model`函式的測試資料集，已從原始資料集中保留了1200筆資料的樣本以用於預測。不應將訓練/測試資料集混淆，執行資料集分割是為了模擬現實生活場景。因此，在進行機器學習實驗時，不應用到1200筆資料。

In [None]:
data = dataset.sample(frac=0.95, random_state=786)
data_unseen = dataset.drop(data.index)
data.reset_index(inplace=True, drop=True)
data_unseen.reset_index(inplace=True, drop=True)
print('Data for Modeling: ' + str(data.shape))
print('Unseen Data For Predictions: ' + str(data_unseen.shape))

# 6.0 設定 PyCaret 環境

In [None]:
from pycaret.classification import *

In [None]:
exp_clf101 = setup(data = data, target = 'target', session_id=123) 

# 7.0 比較所有模型(Comparing All Models)

In [None]:
best_model = compare_models()

In [None]:
print(best_model)

# 8.0 建立模型(Create a Model)

In [None]:
models()

### 8.1 決策樹分類器(Decision Tree Classifier)

In [None]:
dt = create_model('dt')

In [None]:
#trained model object is stored in the variable 'dt'. 
print(dt)

### 8.2 (Extreme Gradient Boosting)

In [None]:
xgboost = create_model('xgboost')

### 8.3 (Light Gradient Boosting Machine	)

In [None]:
lightgbm = create_model('lightgbm')

# 9.0 調整模型(Tune a Model)

### 9.1 決策樹分類器(Decision Tree Classifier)

In [None]:
tuned_dt = tune_model(dt)

In [None]:
#tuned model object is stored in the variable 'tuned_dt'. 
print(tuned_dt)

### 9.2 (Extreme Gradient Boosting)

In [None]:
import numpy as np
tuned_xgboost = tune_model(xgboost)

In [None]:
print(tuned_xgboost)

### 9.3 (Light Gradient Boosting Machine )

In [None]:
tuned_lightgbm = tune_model(lightgbm)

# 10.0 各種圖形分析模型性能(Plot a Model)

在模型完成之前，`plot_model`函式可用於分析不同方面的性能，例如AUC、混淆矩陣、決策邊界等。共有[15種不同的繪圖](https://pycaret.org/plot-model/)可用。

### 10.1 AUC Plot

In [None]:
plot_model(tuned_xgboost, plot = 'auc')

### 10.2 Precision-Recall Curve

In [None]:
plot_model(tuned_xgboost, plot = 'pr')

### 10.3 Feature Importance Plot

In [None]:
plot_model(tuned_xgboost, plot='feature')

### 10.4 Confusion Matrix

In [None]:
plot_model(tuned_xgboost, plot = 'confusion_matrix')

分析模型性能的另一種方法是使用`valuate_model`函式，該函式顯示給定模型的所有可用圖形的使用者界面。它在內部是使用`plot_model`函式。

In [None]:
evaluate_model(tuned_xgboost)

# 11.0 預測測試資料樣本(Predict on test Sample)

在最終確定模型之前，建議透過預測測試資料集並查看評估指標來執行最終檢查。如果看一下上面第6節中的資訊網格，將看到30％（6,841筆資料樣本）的資料已被分離為測試資料樣本。上面看到的所有評估指標都是使用訓練集70％(15,959筆資料樣本）的交叉驗證結果。現在，使用儲存在tuned_rf變數中的最終訓練模型，將針對測試樣本進行預測並評估指標。

In [None]:
predict_model(tuned_xgboost);

測試資料集的準確率為 **`0.8135`** ，而 tuned_rf 變數的結果準確率為 **`0.8225`**（在上面的9.3節中）。 這不是顯著差異。 如果測試和訓練資料集預測結果之間存在較大差異，則通常表示過度擬合(over-fitting)，但也可能是由於其他因素所致，需要進一步研究。在這種情況下，將繼續進行模型的最終確定和對看不見的數據進行預測（一開始就分離出的5％，從未暴露給PyCaret的實驗過程）。

# 12.0 部署模型確定(Finalize Model for Deployment)

模型確定是模型訓練實驗的最後一步。在PyCaret中，正常的機器學習工作流程從`setup`函式開始，然後使用`compare_models`函式比較所有模型，並從一些候選模型中篩選出待調整模型，以執行建立模型的方法，例如超參數調整，集合，堆疊等。該工作流程最終將引導您找到最佳模型，用於對新數據和看不見的數據進行預測。`finalize_model`函式將模型適應到完整的資料集上，包括測試資料樣本（在這種情況下為30％）。該功能的目的是在將模型部署到生產中之前，在完整的資料集中對其進行訓練。

In [None]:
final_rf = finalize_model(tuned_xgboost)

In [None]:
#Final Random Forest model parameters for deployment
print(final_rf)

In [None]:
predict_model(final_rf);

請注意，為何，AUC如何從 **`0.7563`** 增加到 **`0.8222`**。 這是因為`finalize_model`函式完成模型確定後，將使用包括測試資料集的整個資料集進行訓練。而`finalize_model`函式之後將模型用於對保留集的預測。。

# 13.0 預測未見過的資料集(Predict on unseen data)

`predict_model`函式還用於在未見過的資料集上進行預測。與上面第11節的唯一區別，是這次我們將傳遞data_unseen參數。data_unseen是在教學開始時建立的變數，包含從未公開給PyCaret的原始數據集的5％（1200個樣本）。

In [None]:
unseen_predictions = predict_model(final_rf, data=data_unseen)
unseen_predictions.head()

Label和Score變數將自動增加到data_unseen資料集中。label是預測結果，分數是預測的機率。注意，將預測結果連接到原始資料集，而所有轉換都在後台自動執行。此外，還可以檢查指標，因為有實際的目標預設值。為此，將使用pycaret.utils模組來計算平均準確率。可參考下列範例：

In [None]:
from pycaret.utils import check_metric
check_metric(unseen_predictions.target, unseen_predictions.Label, 'Accuracy')

# 14.0 模型儲存(Saving the model)

現在，透過完成tuned_rf變數模型的儲存來完成實驗，該模型現在儲存在final_rf變數中。還使用了儲存在final_rf中的模型來預測data_unseen。這將帶到實驗的終點，但是仍然有一個問題要問：<br>當有更多新資料可以預測時會發生什麼？是否需要重新進行整個實驗？答案是不需要，PyCaret內建的函式`save_model`允許將模型與整個轉換管道一起保存以備後用。

In [None]:
save_model(final_rf,'Final RF Model 08Feb2020')

（提示：保存模型時，最好在文件名中使用日期，這對於版本控制很有用。）

# 15.0 載入和保存模型(Loading the saved model)

為了將來在相同或替代環境中載入保存的模型，將使用PyCaret的`load_model`函式，輕鬆地將保存的模型應用於之前保留的新資料以進行預測。

In [None]:
saved_final_rf = load_model('Final RF Model 08Feb2020')

將模型載入到環境中後，可以使用相同的`predict_model`函式簡單地使用它來預測任何新 資料。之後，應用載入的模型來預測與上文第13節中使用的相同的data_unseen。

In [None]:
new_prediction = predict_model(saved_final_rf, data=data_unseen)

In [None]:
new_prediction.head()

注意，unseen_predictions和new_prediction帶有預測結果的資料集變數的結果相同。

In [None]:
from pycaret.utils import check_metric
check_metric(new_prediction.target, new_prediction.Label, 'Accuracy')

# 16.0 總結

本次教學涵蓋了從獲取資料，前處理，模型訓練，超參數調整，預測和保存模型以供以後使用的整個機器學習管道。 且用不到10條程式碼就可以完成所有這些步驟，而這些命令還很容易記住，例如`create_model`，`tune_model`和`compare_models`函式。 在沒有PyCaret的情況下重新實作整個實驗在大多數的函示庫需花費超過100行程式碼。

此教學僅介紹了 pycaret.classification 模組使用的基礎知識。 在接下來的教學中，我們將更深入地進行高級前處理，組合，通用堆疊和其他技術，這些技術可讓您完全自行定義機器學習管道，並且是任何資料科學家都必須知道的。

接下來的教學文件請參考 [二元分類教學（CLF102）- 中級](https://github.com/pycaret/pycaret/blob/master/tutorials/Binary%20Classification%20Tutorial%20Level%20Intermediate%20-%20CLF102.ipynb)