# 學習 sklearn 中，各種評估指標的使用與意義

In [1]:
from sklearn import metrics, datasets
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

import matplotlib.pyplot as plt
from matplotlib.pylab import rcParams
import numpy as np
%matplotlib inline

# 回歸問題

常見的評估指標有

MAE
MSE
R-square

In [4]:
X, y = datasets.make_regression(n_features=1, random_state=42, noise=4) # 生成資料
model = LinearRegression() # 建立回歸模型
model.fit(X, y) # 將資料放進模型訓練
prediction = model.predict(X) # 進行預測
mae = metrics.mean_absolute_error(prediction, y) # 使用 MAE 評估
mse = metrics.mean_squared_error(prediction, y) # 使用 MSE 評估
r2 = metrics.r2_score(prediction, y) # 使用 r-square 評估
print("MAE: ", mae)
print("MSE: ", mse)
print("R-square: ", r2)

MAE:  2.8417972525655664
MSE:  12.488680067398237
R-square:  0.9916581036260311


# 分類問題

常見的評估指標有

AUC
F1-Score (Precision, Recall)

In [5]:
cancer = datasets.load_breast_cancer() # 我們使用 sklearn 內含的乳癌資料集
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=50, random_state=0)

In [8]:
print(y_test) # 測試集中的 label

[0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 0 0 0 1 1 0 1 1 0 1 0 1 0 1 0 1 0 1
 0 1 0 0 1 0 1 1 0 1 1 1 0]


In [9]:
y_pred = np.random.random((50,)) # 我們先隨機生成 50 筆預測值，範圍都在 0~1 之間，代表機率值

In [10]:
print(y_pred)

[0.68558721 0.93332484 0.35310591 0.06262862 0.86924599 0.84440612
 0.68951721 0.63614162 0.56707252 0.09261233 0.18689032 0.0438376
 0.25683203 0.33091216 0.89584354 0.73392786 0.6975289  0.02019185
 0.40391819 0.24370716 0.20752411 0.55472326 0.14622762 0.99846489
 0.80172805 0.03099874 0.83940347 0.99186895 0.41884408 0.64761433
 0.69185207 0.66208781 0.74181528 0.33521694 0.05807542 0.27377427
 0.89759295 0.9360397  0.71361829 0.88082942 0.30181386 0.84102777
 0.61459749 0.41836461 0.5613306  0.77418987 0.22243076 0.86294423
 0.62005896 0.29947308]


# AUC

In [11]:
auc = metrics.roc_auc_score(y_test, y_pred) # 使用 roc_auc_score 來評估。 **這邊特別注意 y_pred 必須要放機率值進去!**
print("AUC: ", auc) # 得到結果約 0.5，與亂猜的結果相近，因為我們的預測值是用隨機生成的

AUC:  0.5008488964346349


# F1-Score

In [12]:
threshold = 0.5 
y_pred_binarized = np.where(y_pred>threshold, 1, 0) # 使用 np.where 函數, 將 y_pred > 0.5 的值變為 1，小於 0.5 的為 0
f1 = metrics.f1_score(y_test, y_pred_binarized) # F1-score 越高，说明分类模型越稳健
precision = metrics.precision_score(y_test, y_pred_binarized) # precision 体现了模型对负样本的区分能力，precision越高，说明模型对负样本的区分能力越强
recall  = metrics.recall_score(y_test, y_pred_binarized) # recall 体现了分类模型对正样本的识别能力，recall 越高，说明模型对正样本的识别能力越强
print("F1-Score: ", f1) 
print("Precision: ", precision)
print("Recall: ", recall)

F1-Score:  0.6000000000000001
Precision:  0.6206896551724138
Recall:  0.5806451612903226


https://www.ycc.idv.tw/confusion-matrix.html