In [1]:
from sklearn import metrics, datasets
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

import matplotlib.pyplot as plt
from matplotlib.pylab import rcParams
import numpy as np
%matplotlib inline

## 回歸問題
常見的評估指標有
- MAE
- MSE
- R-square

## 補充
* [精確率、召回率、F1 值、ROC、AUC 各自的優缺點是什麼？](https://www.getit01.com/p2017112511680/)
  * 精確率（Precision）為TP/(TP+FP)。被分類器挑選(selected)出來的正體樣本，究竟有多少是真正的樣本。
  * 召回率（Recall）為TP/(TP+FN)。在全部真正的樣本裡，分類器選了多少個！
* [決定係數R2之判斷標準](http://amebse.nchu.edu.tw/new_page_535.htm)
  * R2 的定義代表迴歸模式之變異值與所有yi變異量之比例，R2愈大，代表此迴歸模式能夠解釋全體yi變異量的比例愈大。因此R2愈接近1.0，代表此模式愈有解釋能力。

我們隨機生成(X, y)資料，然後使用線性回歸模型做預測，再使用 MAE, MSE, R-square 評估

In [2]:
X, y = datasets.make_regression(n_features=1, random_state=42, noise=4) # 生成資料
model = LinearRegression() # 建立回歸模型
model.fit(X, y) # 將資料放進模型訓練
prediction = model.predict(X) # 進行預測
mae = metrics.mean_absolute_error(prediction, y) # 使用 MAE 評估
mse = metrics.mean_squared_error(prediction, y) # 使用 MSE 評估
r2 = metrics.r2_score(prediction, y) # 使用 r-square 評估
print("MAE: ", mae)
print("MSE: ", mse)
print("R-square: ", r2)

MAE:  2.8417972525655673
MSE:  12.488680067398239
R-square:  0.9916581036260311


## 分類問題
常見的評估指標有
- AUC
- F1-Score (Precision, Recall)

In [3]:
cancer = datasets.load_breast_cancer() # 我們使用 sklearn 內含的乳癌資料集
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=50, random_state=0)

In [4]:
print(y_test) # 測試集中的 label

[0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 0 0 0 1 1 0 1 1 0 1 0 1 0 1 0 1 0 1
 0 1 0 0 1 0 1 1 0 1 1 1 0]


In [5]:
y_pred = np.random.random((50,)) # 我們先隨機生成 50 筆預測值，範圍都在 0~1 之間，代表機率值

In [6]:
print(y_pred)

[0.90346527 0.72207334 0.23661361 0.14876057 0.64313477 0.20157039
 0.00178062 0.67416828 0.29299972 0.03101206 0.41773534 0.0945608
 0.03378926 0.36260442 0.62695085 0.73325898 0.74063324 0.84887977
 0.91934152 0.71385856 0.0690919  0.46009149 0.50935662 0.93853141
 0.03065896 0.78744429 0.27525457 0.60091871 0.89980215 0.89545154
 0.56593003 0.26695348 0.53002041 0.2005576  0.21950316 0.78337413
 0.11540894 0.42681455 0.91686529 0.30246826 0.71439745 0.12697931
 0.99835655 0.89886577 0.3305072  0.87429789 0.73126894 0.34966392
 0.90915659 0.49262911]


### AUC

In [7]:
auc = metrics.roc_auc_score(y_test, y_pred) # 使用 roc_auc_score 來評估。 **這邊特別注意 y_pred 必須要放機率值進去!**
print("AUC: ", auc) # 得到結果約 0.5，與亂猜的結果相近，因為我們的預測值是用隨機生成的

AUC:  0.3887945670628183


## F1-Score

In [8]:
threshold = 0.5 
y_pred_binarized = np.where(y_pred>threshold, 1, 0) # 使用 np.where 函數, 將 y_pred > 0.5 的值變為 1，小於 0.5 的為 0
f1 = metrics.f1_score(y_test, y_pred_binarized) # 使用 F1-Score 評估
precision = metrics.precision_score(y_test, y_pred_binarized) # 使用 Precision 評估
recall  = metrics.recall_score(y_test, y_pred_binarized) # 使用 recall 評估
print("F1-Score: ", f1) 
print("Precision: ", precision)
print("Recall: ", recall)

F1-Score:  0.5263157894736842
Precision:  0.5769230769230769
Recall:  0.4838709677419355


## 作業
請參考 F1-score 的公式與[原始碼](https://github.com/scikit-learn/scikit-learn/blob/bac89c2/sklearn/metrics/classification.py#L620)，試著寫出 F2-Score 的計算函數