## 1.分类模型评估

### 1.1 准确率

In [1]:
# 准确率sklearn.metrics.accuracy_score(y_true, y_pred, normalize=True, sample_weight=None)：预测值与真实值相同的数量比上样本总数。
import numpy as np  
from sklearn.metrics import accuracy_score  
y_pred = [0, 2, 1, 3]  
y_true = [0, 1, 2, 3]  
accuracy_score(y_true, y_pred)

0.5

In [2]:
# 设置accuracy_score函数的参数normalize=False，返回真实值与预测值相同的个数。
accuracy_score(y_true, y_pred, normalize=False)

2

### 1.2 平均准确率

In [3]:
# 平均准确率average_precision_score：针对不平衡数据，对n个类，计算每个类别i的准确率，然后求平均
import numpy as np  
from sklearn.metrics import average_precision_score  
y_true = np.array([0, 0, 1, 1])  
y_scores = np.array([0.1, 0.4, 0.35, 0.8])  
average_precision_score(y_true, y_scores)

0.8333333333333333

### 1.3 f1_score

In [4]:
# f1_score值：F1-score = 2 * (precision * recall) / (precision + recall)，其中，precision（精确率）：所有分正确的正样本比上所有预测为正类的样本数，recall（召回率）：所有分正确的正样本比上所有的正类样本数。函数f1_score中的参数average=’micro'，
# 表示通过先计算总体的TP，FP和FN的数量，然后计算F1 score。
from sklearn.metrics import f1_score  
y_true = [0, 1, 2, 0, 1, 2]  
y_pred = [0, 2, 1, 0, 0, 1]  
f1_score(y_true, y_pred, average='micro')

0.3333333333333333

In [5]:
# 设置参数average=‘ macro'：表示分布计算每个类别的F1，然后做平均（各类别F1的权重相同）
f1_score(y_true, y_pred, average='macro')

0.26666666666666666

In [6]:
# 设置参数average=‘ weighted'：表示分布计算每个类别的F1，然后做平均(各类别F1的权重为该类别样本数占总样本数的比例)。
f1_score(y_true, y_pred, average='weighted')

0.26666666666666666

In [7]:
# 设置参数average=None：表示返回每个类别的F1值。
f1_score(y_true, y_pred, average=None)

array([0.8, 0. , 0. ])

### 1.4 对数损失

In [8]:
# 对数损失（Log-loss）：针对分类输出的不是类别而是类别的概率，使用对数损失函数进行评价类别的概率。
from sklearn.metrics import log_loss  
log_loss(["spam", "ham", "ham", "spam"],[[.1, .9], [.9, .1], [.8, .2], [.35, .65]])

0.21616187468057912

## 1.5 精确率

In [9]:
# 精确率(precision_score)：所有分正确的正样本/所有预测为正类的样本数，即Precision=TP/(TP+FP)。
# 设置参数average=’macro'，表示先计算每个类别的精确率，然后求平均（权重相等）。
from sklearn.metrics import precision_score  
y_true = [0, 1, 2, 0, 1, 2]  
y_pred = [0, 2, 1, 0, 0, 1]  
precision_score(y_true, y_pred, average='macro')

0.2222222222222222

In [10]:
# 设置参数average=‘micro'，表示通过先计算总体的TP，FP和FN的数量，然后计算精确率。
precision_score(y_true, y_pred, average='micro')

0.3333333333333333

In [11]:
# 设置参数average=‘weighted’，表示先计算每个类别的精确率，然后求平均（各个类别精确度的权重为该类别样本数占总样本数的比例）
precision_score(y_true, y_pred, average='weighted')

0.2222222222222222

In [12]:
# 设置参数average=None：表示返回每个类别的精确率值。
precision_score(y_true, y_pred, average=None)

array([0.66666667, 0.        , 0.        ])

### 1.6 召回率

In [13]:
# 召回率（recall）：所有分正确的正样本/所有正类的样本数，即Precision=TP/(TP+FN)。
# 设置参数average=’macro'，表示先计算每个类别的召回率，然后求平均（权重相等）。
from sklearn.metrics import recall_score  
y_true = [0, 1, 2, 0, 1, 2]  
y_pred = [0, 2, 1, 0, 0, 1]  
recall_score(y_true, y_pred, average='macro')

0.3333333333333333

In [14]:
# 设置参数average=‘micro'，表示通过先计算总体的TP，FP和FN的数量，然后计算召回率。
recall_score(y_true, y_pred, average='micro')

0.3333333333333333

In [15]:
# 设置参数average=‘weighted'，表示先计算每个类别的召回率，然后求平均（各个类别精确度的权重为该类别样本数占总样本数的比例）
recall_score(y_true, y_pred, average='weighted')

0.3333333333333333

### 1.7 混合矩阵/混淆矩阵

In [16]:
# 混合矩阵(confusion_matrix)：被称为错误矩阵，通过它可以直观地观察到算法的效果。
# 它的每一列是样本的预测分类，每一行是样本的真实分类（反过来也可以），
# 它反映了分类结果的混淆程度。混淆矩阵i行j列的原本是类别i却被分为类别j的样本个数，计算完之后还可以对之进行可视化。
from sklearn.metrics import confusion_matrix  
y_true=[2,0,2,2,0,1]  
y_pred=[0,0,2,2,0,2]  
confusion_matrix(y_true,y_pred)

array([[2, 0, 0],
       [0, 0, 1],
       [1, 0, 2]], dtype=int64)

In [17]:
# 分类报告（classification_report）：返回precision/recall/fi-score/均值/分类个数。
from sklearn.metrics import classification_report  
y_true = [0, 1, 2, 2, 2]  
y_pred = [0, 0, 2, 2, 1]  
target_names = ['class 0', 'class 1', 'class 2']  
print(classification_report(y_true, y_pred, target_names=target_names))

              precision    recall  f1-score   support

     class 0       0.50      1.00      0.67         1
     class 1       0.00      0.00      0.00         1
     class 2       1.00      0.67      0.80         3

    accuracy                           0.60         5
   macro avg       0.50      0.56      0.49         5
weighted avg       0.70      0.60      0.61         5



### 1.8 受试者工作特征曲线

In [18]:
# 受试者工作特征曲线（roc_curve）：其实是多个混淆矩阵的结果组合，这里的roc_curve函数只适合做二分类模型评估。
import numpy as np  
from sklearn import metrics  
y=np.array([1,1,2,2])  
scores=np.array([0.1,0.4,0.35,0.8])  
fpr, tpr, thresholds = metrics.roc_curve(y, scores, pos_label=2)  
# 返回fpr，tpr，阀值这三个值：
print(fpr,tpr,thresholds)

[0.  0.  0.5 0.5 1. ] [0.  0.5 0.5 1.  1. ] [1.8  0.8  0.4  0.35 0.1 ]


### 1.9 ROC曲线下面的面积(roc_auc_score)

In [19]:
# ROC曲线下面的面积(roc_auc_score)：面积值越大，模型越精确，在二分类和多分类模型评估中可以用。
import numpy as np  
from sklearn.metrics import roc_auc_score  
y_true = np.array([0, 0, 1, 1])  
y_scores = np.array([0.1, 0.4, 0.35, 0.8])  
roc_auc_score(y_true, y_scores)

0.75

### 1.10 Cohen’s kappa统计量

In [20]:
# Cohen’s kappa统计量（cohen_kappa_score）：值是介于-1—1之间，当值大于0.8时，普遍认为模型很好，、
# 一般可用在二分类和多分类问题中，但不能用在多标签问题。
from sklearn.metrics import cohen_kappa_score  
y_true = [2, 0, 2, 2, 0, 1]  
y_pred = [0, 0, 2, 2, 0, 2]  
cohen_kappa_score(y_true,y_pred)

0.4285714285714286

### 1.11 Hamming Loss

In [21]:
# Hamming Loss：计算两个样本集合之间的平均汉明损失
from sklearn.metrics import hamming_loss  
y_pred=[1,2,3,4]  
y_true=[2,2,3,4]  
print(hamming_loss(y_true,y_pred))

0.25


### 1.12 0-1损失

In [22]:
# 0-1损失（zero_one_loss）：该函数计算nsample个样本上的0-1分类损失（L0-1)的和或者平均值。
# 默认情况下，返回的是所以样本上的损失的平均损失，把参数normalize设置为False，就可以返回损失值的和。
from sklearn.metrics import zero_one_loss  
import numpy as np  
#二分类问题  
y_pred=[1,2,3,4]  
y_true=[2,2,3,4]  
print(zero_one_loss(y_true,y_pred))  
print(zero_one_loss(y_true,y_pred,normalize=False))  
#多分类标签问题  
print(zero_one_loss(np.array([[0,1],[1,1]]),np.ones((2,2))))  
print(zero_one_loss(np.array([[0,1],[1,1]]),np.ones((2,2)),normalize=False))

0.25
1
0.5
1


### 1.13 杰卡德相似系数

In [23]:
# 杰卡德相似系数（Jaccard）:Jaccard相似度分函数jaccard_similarity_score，计算平均（默认）或Jaccard相似系数的总和，也称为Jaccard指数，在一对(两个)标签集之间。
import numpy as np  
# from sklearn.metrics import jaccard_similarity_score
from sklearn.metrics import jaccard_score
y_pred = [0, 2, 1, 3, 4]  
y_true = [0, 1, 2, 3, 4]  
# jaccard_similarity_score(y_true, y_pred)
# 二分类时average参数默认是binary；多分类时，可选参数有None,binary、micro、macro、weighted 和 samples。
# 修改：将jaccard_score(y_true, y_pred)改为jaccard_score(y_true, y_pred,average='macro')
# jaccard_score(y_true, y_pred)
# 输出每一个系数
jaccard_score_array = jaccard_score(y_true, y_pred,average=None)
jaccard_score_array

array([1., 0., 0., 1., 1.])

In [24]:
# 计算杰卡德相似系数的平均值
jaccard_score_array.mean()
# 设置jaccard_similarity_score函数的参数normalize=False，表示计算样本集中jaccard相似度的和。
# jaccard_score(y_true, y_pred, normalize=False)
# 计算杰卡德相似系数的和
jaccard_score_array.sum()

0.6

3.0

## 2. 回归评价指标

### 2.1 可释方差值

In [25]:
# 可释方差值（Explained variance score），值取1时回归效果最好，取值越小回归模型效果越差。
from sklearn.metrics import explained_variance_score  
y_true = [3, -0.5, 2, 7]  
y_pred = [2.5, 0.0, 2, 8]  
explained_variance_score(y_true, y_pred)

0.9571734475374732

In [26]:
# 当输入数据为多维时，设置explained_variance_score函数中参数multioutput=‘raw_values’，表示在多输出多输入的情况下返回一组完整的方差值。
y_true = [[0.5, 1], [-1, 1], [7, -6]]  
y_pred = [[0, 2], [-1, 2], [8, -5]]  
explained_variance_score(y_true, y_pred, multioutput='raw_values')

array([0.96774194, 1.        ])

In [27]:
# 设置explained_variance_score函数中参数multioutput=‘uniform_average’，表示先计算每个的可解释方差值，然后求平均。
explained_variance_score(y_true, y_pred, multioutput='uniform_average')

0.9838709677419355

In [28]:
# 设置explained_variance_score函数中参数multioutput=‘variance_weighted’，表示在先计算每个的可解释方差值，然后由每个单独的输出的方差来加权平均。
explained_variance_score(y_true, y_pred, multioutput='variance_weighted')

0.9830508474576269

### 2.2 平均绝对误差

In [29]:
# 平均绝对误差（Mean absolute error）：平均绝对误差函数计算的是绝对误差，
# 这是一种与绝对误差损失或1-范数损失的期望值相对应的风险指标。
from sklearn.metrics import mean_absolute_error  
y_true = [3, -0.5, 2, 7]  
y_pred = [2.5, 0.0, 2, 8]  
mean_absolute_error(y_true, y_pred)

0.5

In [30]:
# 在多输出多输入的情况下，设置mean_absolute_error函数中参数multioutput=‘raw_values’，表示在多输出多输入的情况下返回一组完整的误差值。
y_true = [[0.5, 1], [-1, 1], [7, -6]]  
y_pred = [[0, 2], [-1, 2], [8, -5]]  
mean_absolute_error(y_true,y_pred,multioutput='raw_values')

array([0.5, 1. ])

In [31]:
# 在多输出多输入的情况下，设置mean_absolute_error函数中参数multioutput=‘uniform_average’，表示先计算各自的平均绝对误差值，然后求平均。
mean_absolute_error(y_true,y_pred,multioutput='uniform_average')

0.75

In [32]:
# 在多输出多输入的情况下，设置mean_absolute_error函数中参数multioutput=[0.3, 0.7]，表示先计算各自的平均绝对误差值，然后求按参数multioutput中的值进行加权求平均。
mean_absolute_error(y_true,y_pred,multioutput=[0.3,0.7])

0.85

### 2.3 均方误差

In [33]:
# 均方误差（Mean squared error）：均方误差函数计算均方误差，这是与平方（二次）误差或损失的期望值相对应的风险度规。
from sklearn.metrics import mean_squared_error  
y_true = [3, -0.5, 2, 7]  
y_pred = [2.5, 0.0, 2, 8]  
mean_squared_error(y_true, y_pred)

0.375

In [34]:
# 在多输出多输入的情况下，mean_squared_error函数中参数multioutput='raw_values'，表示在多输出多输入的情况下返回一组完整的误差值。
y_true = [[0.5, 1],[-1, 1],[7, -6]]  
y_pred = [[0, 2],[-1, 2],[8, -5]]  
mean_squared_error(y_true,y_pred,multioutput='raw_values')

array([0.41666667, 1.        ])

In [35]:
# 在多输出多输入的情况下，mean_squared_error函数中参数multioutput=[0.3, 0.7]，表示先计算各自的均方误差值，然后求按参数multioutput中的值进行加权求平均。
mean_squared_error(y_true, y_pred, multioutput=[0.3, 0.7])

0.825

### 2.4 中值绝对误差

In [36]:
# 中值绝对误差（Median absolute error）：中值绝对误差特别有趣，因为它对异常值很健壮。损失是通过计算目标和预测之间的所有绝对差异的中值来计算的。
from sklearn.metrics import median_absolute_error  
y_true = [3, -0.5, 2, 7]  
y_pred = [2.5, 0.0, 2, 8]  
median_absolute_error(y_true, y_pred)

0.5

### 2.5 R2方值

In [37]:
# R2方值：r2_score函数计算R的值，即确定系数。
# 它提供了一种衡量未来样本可能被模型预测的程度的方法。最好的分数是1.0，它可以是负的（因为模型可能会更糟）。
# 一个总是预测y的期望值的常数模型，不管输入的特征是什么，都会得到R2的0.0。
from sklearn.metrics import r2_score  
y_true = [3, -0.5, 2, 7]  
y_pred = [2.5, 0.0, 2, 8]  
r2_score(y_true, y_pred)

0.9486081370449679

## 3. 聚类指标

### 3.1 兰德指数（adjusted_rand_score）

In [38]:
from sklearn.metrics.cluster import adjusted_rand_score  
adjusted_rand_score([0, 0, 1, 1], [0, 0, 1, 1])

1.0

In [39]:
# ARI是一个对称的测量方法：adjusted_rand_score(a, b) == adjusted_rand_score(b, a)
adjusted_rand_score([0, 0, 1, 1], [1, 1, 0, 0])

1.0

In [40]:
# 如果类成员在不同的集群中完全分开，那么分配是完全不完整的，因此ARI非常低
adjusted_rand_score([0, 0, 0, 0], [0, 1, 2, 3])

0.0

### 3.2 调整互信息（Adjusted mutual information）

In [41]:
from sklearn.metrics.cluster import adjusted_mutual_info_score  
adjusted_mutual_info_score([0, 0, 1, 1], [0, 0, 1, 1])

1.0

In [42]:
# 如果类成员在不同的集群中完全分裂，那么分配是完全不完整的，因此AMI非常低。
adjusted_mutual_info_score([0, 0, 0, 0], [0, 1, 2, 3])

0.0

### 3.3 轮廓系数（Silhouette Coefficient）

In [43]:
# 轮廓系数（Silhouette Coefficient）：一组样本的轮廓系数作为每个样本的轮廓系数的平均值
from sklearn import metrics  
from sklearn.metrics import pairwise_distances  
from sklearn import datasets  
import numpy as np  
from sklearn.cluster import KMeans  
 
#导入iris数据  
dataset = datasets.load_iris()  
X = dataset.data  
y = dataset.target  
 
#创建k-means聚类模型  
kmeans_model = KMeans(n_clusters=3, random_state=1).fit(X)  
labels = kmeans_model.labels_  
 
#模型评估：在正常使用中，轮廓系数应用于集群分析的结果。  
metrics.silhouette_score(X, labels, metric='euclidean')

0.5528190123564095

### 3.4 Homogeneity, completeness and V-measure

In [44]:
# 同质性homogeneity：每个群集只包含单个类的成员。
from sklearn import metrics  
labels_true = [0, 0, 0, 1, 1, 1]  
labels_pred = [0, 0, 1, 1, 2, 2]  
  
metrics.homogeneity_score(labels_true, labels_pred)

0.6666666666666669

In [45]:
# 完整性completeness：给定类的所有成员都分配给同一个群集。
metrics.completeness_score(labels_true, labels_pred)

0.420619835714305

In [46]:
# 两者的调和平均V-measure：
metrics.v_measure_score(labels_true, labels_pred)  

0.5158037429793889

### 3.5 Fowlkes-Mallows指数（fowlkes_mallows_score）

In [47]:
# Fowlkes-Mallows指数（fowlkes_mallows_score）：是针对训练集和验证集数据之间求得的查全率和查准率的几何平均值
from sklearn import metrics  
labels_true = [0, 0, 0, 1, 1, 1]  
labels_pred = [0, 0, 1, 1, 2, 2]  
metrics.fowlkes_mallows_score(labels_true, labels_pred)

0.4714045207910317

# 以上！