# 3.3. Model evaluation: quantifying the quality of predictions

有三种不同的方法来评估模型预测的质量：
* **Estimator score method**: **Estimators**的*score*方法提供了默认的评估准则。
* **Scoring parameter**: 模型评估工具使用的cv（如model_selection.cross_val_score和model_selection.GridSearchCV)依赖内部的*scoring*方法。
* **Metric functions**: **Metrics**模块为了特定的目的实现了评估预测误差的函数。

最后，**Dummy estimators** 对得到这些metrics随机预测的基准值很有用。

## 3.3.1 The *scoring* parameter:defining model evaluation rules

模型选择和评估使用的工具，如*model_selection.cross_val_score*和*model_selection.GridSearchCV*，采用*scoring*参数来控制将哪个matric应用到评估的estimators上。

### 3.3.1.1 Common cases:predifined values

对最常用的情况来说，可以设计一个带有*scoring*参数的scorer目标；下面的表展示了所有可能的值。所有的scorer目标遵循**高返回值优于低返回值**的惯例。因此，度量模型和数据之间距离的metrics，如*metrics.mean_squared_error*是可用的因为neg_mean_squared_error返回metric的负值。

|Scoring|	Function	|Comment|
|-------|:------:|:---------:|
|**Classification**	| | | 	 
|‘accuracy’|	metrics.accuracy_score	 | |
|‘average_precision’|	metrics.average_precision_score	| | 
|‘f1’|	metrics.f1_score|	for binary targets|
|‘f1_micro’	|metrics.f1_score	|micro-averaged|
|‘f1_macro’|	metrics.f1_score|	macro-averaged|
|‘f1_weighted’|	metrics.f1_score	|weighted average|
|‘f1_samples’|	metrics.f1_score	|by multilabel sample|
|‘neg_log_loss’|	metrics.log_loss	|requires predict_proba support|
|‘precision’ etc.|	metrics.precision_score	|suffixes apply as with ‘f1’|
|‘recall’ etc.|	metrics.recall_score|	suffixes apply as with ‘f1’|
|‘roc_auc’|	metrics.roc_auc_score	| | 
|**Clustering**	| 	 | |
|‘adjusted_rand_score’|	metrics.adjusted_rand_score	 | |
|**Regression	 **	 | | |
|‘neg_mean_absolute_error’|	metrics.mean_absolute_error	 | |
|‘neg_mean_squared_error’|	metrics.mean_squared_error	| | 
|‘neg_median_absolute_error’|	metrics.median_absolute_error| |	 
|‘r2’|	metrics.r2_score| |

示例：

In [1]:
from sklearn import svm,datasets
from sklearn.model_selection import cross_val_score
iris=datasets.load_iris()
X,y=iris.data,iris.target
clf=svm.SVC(probability=True,random_state=0)
cross_val_score(clf,X,y,scoring='neg_log_loss')

array([-0.0757138 , -0.16816241, -0.07091847])

### 3.3.1.2 Defining your scoring strategy from metric functions

**sklearn.metric**模块提出了一系列简单的函数来测量预测误差。
* 以**_score**结尾的函数返回最大值，越大越好。
* 以**_error**或**_loss**结尾的函数返回最小值，越小越好。用**make_scorer**转换成scorer目标时，将**great_is_better**参数设成*False*（默认的是True）。

很多metrics作为*scoring*值时没有给定名字，有时候是因为他们需要额外的参数，如**fbeta_score**。在这种情况，需要产生一个合适的scoring目标。这个函数将metrics变成可调用的以用来模型评估。

一个典型的例子是从库中包含现有的metric函数，其参数为非默认值，如**fbeta_score**函数中的**beta**参数。

In [2]:
from sklearn.metrics import fbeta_score,make_scorer
ftwo_scorer=make_scorer(fbeta_score,beta=2)
from sklearn.model_selection import GridSearchCV
from sklearn.svm import LinearSVC
grid=GridSearchCV(LinearSVC(),param_grid={'C':[1,10]},scoring=ftwo_scorer)

第二个例子是用*make_scorer*从一个简单的python函数构建一个完全自定义的scorer目标，可以采用很多个参数：
* 想要用的python函数（如下面的*my_custom_loss_func*)
* 函数返回的是score（*greater_is_better=True*，默认）或者loss（*greater_is_better=False*）。如果是loss，函数的输出被scorer目标取负值。
* 只对分类的metrics：函数是否需要连续的确定性边界（**needs_threshold=True**),默认值是False。
* 任意额外的参数，例如**f1_score**中的*beta*或*labels*。

In [3]:
import numpy as np
def my_custom_loss_func(ground_truth,predictions):
    diff=np.abs(ground_truth-predictions).max()
    return np.log(1+diff)

# loss_func will negate the return value of my_custom_loss_func,
#  which will be np.log(2), 0.693, given the values for ground_truth
#  and predictions defined below.
loss =make_scorer(my_custom_loss_func,greater_is_better=False)
score=make_scorer(my_custom_loss_func,greater_is_better=True)
ground_truth=[[1,1]]
predictions=[0,1]
from sklearn.dummy import DummyClassifier
clf=DummyClassifier(strategy='most_frequent',random_state=0)
clf=clf.fit(ground_truth,predictions)
loss(clf,ground_truth,predictions)

-0.69314718055994529

In [4]:
score(clf,ground_truth,predictions)

0.69314718055994529

### 3.3.1.3 Implementing your own scoring object

通过从头创建自己的scoring目标不使用**make_scorer**，可以产生更自由的目标scorer。需要满足以下两个规则指定的协议：
* 可以通过参数（estimator,X,y)被调用，其中*estimator*是要被评估的模型，*X*是数据，*y*是*X*的目标值（对于监督学习）或者*None*（非监督学习）。
* 返回estimator对与*y*相关的*X*的评估质量---浮点数。默认值越大越好，如果scorer返回loss，值需要取负数。

## 3.3.2 Classification matrics

**sklearn.metrics**模块提供了很多测量分类表现的loss，score函数。有些metrics可能需要正例/置信度/二分值的可能性评估。大部分都允许每个样本对整体score提供一个加权的贡献，通过**sample_weight**参数。

### 3.3.2.1 From binary to multiclass and multilabel

一些metrics基本是为二分类任务定义的（如**f1_score**,**roc_auc_score**)。在这种情况下，默认时只有正标签被评估，假设默认正例被标为1。

将二分类metric拓展到多分类或多标签问题时，数据被当作二分问题的集合，每一个对应相应的类别。有很多方法来对类别集合的二分类metric计算取均值。可能的话，应该通过**average**参数来选择。
* '**macro**'计算二分metrics的均值，每个类别的权重都相等。在少见的类别很重要时，macro平均可能时一种突出表现的手段。另一方面，假设所有类别都一样重要很多情况是错的，所以macro平均会高估少见类别的典型低表现。
* '**weighted**'通过每个类别在样本中出现的频率来得到权重，从而在计算二分metrics的均值是考虑类别的不均衡。
* '**micro**'认为每个样本类别对整体的metric具有同样的作用。对每个类别metric的股息和除数进行求和得到整个商，而不是对每个类别的metric进行求和。在多标签设置中，micro平均可能是首选的，包括要忽略多数类的多分类。
* '**samples**'只应用于多标签问题。它不计算单个类别的度量，而是计算评估值中正类和预测类的metric，返回他们的（**sample_weight**-weight）平均。
* **average=None**会返回每个类别的分数array。

### Accuracy score

**accuracy_score**函数计算准确度--正确预测的比例或者计数（normalize=False)。

在多标签分类中，函数返回子集的准确度。如果一个样本预测的标签的整个集合完全匹配标签的真正集合，那么子集的准确度就是1.0，否则是0.0。

如果y^\_i是第i个样本的预测值，y_i是对应的真实值，那么n个样本中预测正确的比例定义为：
![accuracy](http://scikit-learn.org/stable/_images/math/cd4bea15b385d15cceb8e24f68976da7d8510290.png)
其中，1（x)是指示函数。

In [5]:
import numpy as np
from sklearn.metrics import accuracy_score
y_pred=[0,2,1,3]
y_true=[0,1,2,3]
accuracy_score(y_true,y_pred)

0.5

In [6]:
accuracy_score(y_true,y_pred,normalize=False)

2

在二分标签指示的多标签情况下：

In [7]:
accuracy_score(np.array([[0,1],[1,1]]),np.ones((2,2)))

0.5

### 3.3.2.3 Cohen's kappa

**cohen_kappa_score**函数计算**Cohen's kappa**。这个方法旨在比较不同人类注释的标签，而不是分类器和真实值。

kappa分数在-1和1之间。大于0.8就认为符合很好；0或者低于就不符合。
kappa分数可以用来计算二分或多个分类的问题，但不能用于多标签和多于两个注释者的问题。

![kappa](https://wikimedia.org/api/rest_v1/media/math/render/svg/d45fc75d4d1a8d672083492fd147f75e8ba374bd)
其中P_o是观察吻合的概率，P_e是偶然吻合的概率。
对于k个分类，有N个物体，n_ki是第i个评分者预测分类k的次数。
![pe](https://wikimedia.org/api/rest_v1/media/math/render/svg/408205fbf33b446ddca56631d529256e98d36066)
例：
![ex](https://d3dr1ze7164817.cloudfront.net/items/1M2f3k011I1H0e0b250m/Image%202017-04-02%20at%201.38.42%20PM.png?X-CloudApp-Visitor-Id=2737026&v=045639af)

![po1](https://wikimedia.org/api/rest_v1/media/math/render/svg/13e1e01bfdb6a280ee496596f72b98e93e4757fb)

![pyes](https://wikimedia.org/api/rest_v1/media/math/render/svg/2eee764496580e743b17bf3b84ffedef543623b1)

![pno](https://wikimedia.org/api/rest_v1/media/math/render/svg/ca9fa34ea66a2a8f204fa17d705b3d5637796fa3)

![pee](https://wikimedia.org/api/rest_v1/media/math/render/svg/ea11f70a3b9422816c7d7ff2f7e32bf4f1ca464c)

![kappa](https://wikimedia.org/api/rest_v1/media/math/render/svg/6ad837b8e9b0e106226463189d006b8dd2d5ccfc)

In [8]:
from sklearn.metrics import cohen_kappa_score
y_true=[2,0,2,2,0,1]
y_pred=[0,0,2,2,0,2]
cohen_kappa_score(y_true,y_pred)

0.4285714285714286

### 3.3.2.4 Confusion matrix

**confusion_matrix**函数通过计算混淆矩阵来评估分类的准确度。

混淆矩阵中的输入i，j是观察的实际在i组中却被预测在j组中的数量。

In [9]:
from sklearn.metrics import confusion_matrix
y_true=[2,0,2,2,0,1]
y_pred=[0,0,2,2,0,2]
confusion_matrix(y_true,y_pred)

array([[2, 0, 0],
       [0, 0, 1],
       [1, 0, 2]])

下面是这个混淆矩阵的一个可视化模型。
![cm](http://scikit-learn.org/stable/_images/sphx_glr_plot_confusion_matrix_0011.png)

对二分类问题，可以得到真反例，假正例，假反例，真正例的个数：

In [11]:
y_true=[0,0,0,1,1,1,1,1]
y_pred=[0,1,0,1,0,1,0,1]
tn,fp,fn,tp=confusion_matrix(y_true,y_pred).ravel()
tn,fp,fn,tp

(2, 1, 2, 3)

## 3.3.2.5 Classification report

**classification_report**函数建立一个文字报告展示主分类metrics。

In [12]:
from sklearn.metrics import classification_report
y_true=[0,1,2,2,0]
y_pred=[0,0,2,1,0]
target_names=['class 0','class1','class2']
print classification_report(y_true,y_pred,target_names=target_names)

             precision    recall  f1-score   support

    class 0       0.67      1.00      0.80         2
     class1       0.00      0.00      0.00         1
     class2       1.00      0.50      0.67         2

avg / total       0.67      0.60      0.59         5



### 3.3.2.6 Hamming loss

**hamming_loss**计算平均hamming损失或者两个样本集间的hamming距离。

如果y^\_j是给定样本第j个标签的预测值，y_j是对应的真实值，n_labels是类别或者标签的数量，hamming损失可定义为：

![hl](http://scikit-learn.org/stable/_images/math/6a15d9b4a1ede2fbf477ef2d0c8e0308a4effde5.png)

In [13]:
from sklearn.metrics import hamming_loss
y_pred=[1,2,3,4]
y_true=[2,2,3,4]
hamming_loss(y_true,y_pred)

0.25

在二分类标签指示的多标签情况下：

In [14]:
hamming_loss(np.array([[0,1],[1,1]]),np.zeros((2,2)))

0.75

### 3.3.2.7 Jaccard similarity coefficient score

第i个样本集，真实标签y_i集，预测标签集y^\_i，的Jaccard相似系数定义为：
![jsc](http://scikit-learn.org/stable/_images/math/ecdfdb71ca3b0a1ca1d6c8d90031fceb7f15337a.png)

在二分和多分类中，Jaccard相似系数和分类准确度相等。

In [15]:
import numpy as np
from sklearn.metrics import jaccard_similarity_score
y_pred=[0,2,1,3]
y_true=[0,1,2,3]
jaccard_similarity_score(y_true,y_pred)

0.5

In [16]:
jaccard_similarity_score(y_true,y_pred,normalize=False)

2

在二分类标签指示的多标签情况下：

In [17]:
jaccard_similarity_score(np.array([[0, 1], [1, 1]]), np.ones((2, 2)))

0.75

### 3.3.2.8 Precision,recall and F-measures

**查准率（precision)**:预测正例中真实正例的比重
**查全率（recall）**：真实正例中预测正例的比重

**F-measure(F_beta,F1)**是查准率和查全率的加权平均。

|function|compute|
|:-------:|:-------:|
|**average_precision_score**(y_true, y_score[, ...])	|Compute average precision (AP) from prediction scores|
|**f1_score**(y_true, y_pred[, labels, ...])|	Compute the F1 score, also known as balanced F-score or F-measure|
|**fbeta_score**(y_true, y_pred, beta[, labels, ...])|	Compute the F-beta score|
|**precision_recall_curve**(y_true, probas_pred)	|Compute precision-recall pairs for different probability thresholds|
|**precision_recall_fscore_support**(y_true, y_pred)|	Compute precision, recall, F-measure and support for each class|
|**precision_score**(y_true, y_pred[, labels, ...])|	Compute the precision|
|**recall_score**(y_true, y_pred[, labels, ...])|	Compute the recall|

#### 3.3.2.8.1 Binary classification

![ta](https://d3dr1ze7164817.cloudfront.net/items/2Y0h0p0m1F0k2D2b0e46/Image%202017-04-02%20at%202.41.36%20PM.png?X-CloudApp-Visitor-Id=2737026&v=d6c05101)

![pr](http://scikit-learn.org/stable/_images/math/637351e847345d86a46a213f2fff922fc455fe08.png)

![re](http://scikit-learn.org/stable/_images/math/9639aa98a3d2c0e7060c2615f43e309d2c99bc20.png)

![fbeta](http://scikit-learn.org/stable/_images/math/76893efa73d77b28f765ac1ad8482d2bdbfa94c5.png)

In [18]:
from sklearn import metrics
y_pred=[0,1,0,0]
y_true=[0,1,0,1]
metrics.precision_score(y_true,y_pred)

1.0

In [19]:
metrics.recall_score(y_true, y_pred)

0.5

In [20]:
metrics.f1_score(y_true, y_pred)

0.66666666666666663

In [21]:
metrics.fbeta_score(y_true, y_pred, beta=0.5)

0.83333333333333337

In [22]:
metrics.fbeta_score(y_true, y_pred, beta=1)

0.66666666666666663

In [23]:
metrics.precision_recall_fscore_support(y_true, y_pred, beta=0.5)

(array([ 0.66666667,  1.        ]),
 array([ 1. ,  0.5]),
 array([ 0.71428571,  0.83333333]),
 array([2, 2], dtype=int64))

In [25]:
import numpy as np
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import average_precision_score
y_true=np.array([0,0,1,1])
y_scores=np.array([0.1,0.4,0.35,0.8])
precision,recall,threshold=precision_recall_curve(y_true,y_scores)
precision

array([ 0.66666667,  0.5       ,  1.        ,  1.        ])

In [26]:
recall

array([ 1. ,  0.5,  0.5,  0. ])

In [27]:
threshold

array([ 0.35,  0.4 ,  0.8 ])

In [28]:
average_precision_score(y_true,y_scores)

0.79166666666666663

### 3.3.2.9 Hinge loss

如果标签被编码为正负1，y是真实值，w是决策函数，则：
![hl](http://scikit-learn.org/stable/_images/math/18b27be9c519c22dfb55f3a65dcde38245397824.png)

如果有多于两个的标签，y_w是真实标签的决策函数，y_t是其他标签的最大决策函数，则：
![hml](http://scikit-learn.org/stable/_images/math/c781d9ee3aa41c461ca53926adbb94537a600c77.png)

In [29]:
from sklearn import svm
from sklearn.metrics import hinge_loss
X=[[0],[1]]
y=[-1,1]
est=svm.LinearSVC(random_state=0)
est.fit(X,y)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='squared_hinge', max_iter=1000,
     multi_class='ovr', penalty='l2', random_state=0, tol=0.0001,
     verbose=0)

In [30]:
pred_decision=est.decision_function([[-2],[3],[0.5]])
pred_decision

array([-2.18177262,  2.36361684,  0.09092211])

In [31]:
hinge_loss([-1,1,1],pred_decision)

0.30302596368764928

### 3.3.2.10 Log loss

二分类：
![bll](http://scikit-learn.org/stable/_images/math/8ce451ce7acd5831ec645bc0007b6c6566c568f1.png)

多分类问题：
![mll](http://scikit-learn.org/stable/_images/math/8ce451ce7acd5831ec645bc0007b6c6566c568f1.png)

In [32]:
from sklearn.metrics import log_loss
y_true=[0,0,1,1]
y_pred=[[.9,.1],[.8,.2],[.3,.7],[.01,.99]]
log_loss(y_true,y_pred)

0.17380733669106749

pred中[.9,.1]表示第一个样本有90%的概率是0。

### 3.3.2.11 Matthews correlation coefficient

检验二分类，输出1表示预测完美，0表示一般预测，-1表示垃圾预测。

![mcc](http://scikit-learn.org/stable/_images/math/4fb43b97dd34c1359f59d616613af2d236ff25ee.png)

In [33]:
from sklearn.metrics import matthews_corrcoef
y_true=[1,1,1,-1]
y_pred=[1,-1,1,1]
matthews_corrcoef(y_true,y_pred)

-0.33333333333333331

### Receiver operating characteristic(ROC)

**roc_curve**函数计算ROC。

ROC曲线的纵轴是**真正例率（True Positive Rate,TPR)**,横轴是**假正例率（False Positive Rate,FPR)。

![roc](http://scikit-learn.org/stable/_images/sphx_glr_plot_roc_0011.png)

**roc_auc_score**函数计算roc曲线下的面积，即**AUC**。

In [34]:
import numpy as np
from sklearn.metrics import roc_auc_score
y_true=np.array([0,0,1,1])
y_scores=np.array([0.1,0.4,0.35,0.8])
roc_auc_score(y_true,y_scores)

0.75

和子集准确度，hamming误差或者F1分数相比，ROC不需要为每个标签优化阈值。

![auc](http://scikit-learn.org/stable/_images/sphx_glr_plot_roc_0021.png)

### 3.3.2.13 Zero one loss

**zero_one_loss**函数计算0，1分类的总和或均值。默认情况下是均值，要求总和的话，将*normalize*设为*False*。

![zol](http://scikit-learn.org/stable/_images/math/99a78b8e380d522470d2a5a5a9b157d3ea141e98.png)

In [35]:
from sklearn.metrics import zero_one_loss
y_pred=[1,2,3,4]
y_true=[2,2,3,4]
zero_one_loss(y_true,y_pred)

0.25

In [36]:
zero_one_loss(y_true, y_pred, normalize=False)

1

在多标签情况下，当第一个标签集有错：

In [37]:
zero_one_loss(np.array([[0, 1], [1, 1]]), np.ones((2, 2)))

0.5

In [38]:
zero_one_loss(np.array([[0, 1], [1, 1]]), np.ones((2, 2)),  normalize=False)

1L

### 3.3.2.14 Brier score loss

**brier_score_loss**函数计算二分类的Brier分数，代表可能结果的预测概率和实际输出的均方差。实际输出的1或0，但预测的概率在0到1之间。分数越低越好。

![bs](http://scikit-learn.org/stable/_images/math/b07ae4679df25059236ca14d0760c0a30095c698.png)

N是预测的总数，f_t是实际输出o_t的预测概率。

In [39]:
import numpy as np
from sklearn.metrics import brier_score_loss
y_true=np.array([0,1,1,0])
y_true_categorical=np.array(['spam','ham','ham','spam'])
y_prob=np.array([0.1,0.9,.8,.4])
y_pred=np.array([0,1,1,0])
brier_score_loss(y_true,y_prob)

0.055

In [40]:
brier_score_loss(y_true, 1-y_prob, pos_label=0)

0.055

In [41]:
brier_score_loss(y_true_categorical, y_prob, pos_label="ham")

0.055

## 3.3.4 Regression metrics

### 3.3.4.1 Explained variance score

**explained_variance_score**函数计算了解释方差回归分数(explained variance regression score)。

若y^是预测的目标输出，y是对应的正确目标输出，Var是方差，则解释方差如下：
![evs](http://scikit-learn.org/stable/_images/math/494cda4d8d05a44aa9aa20de549468e4d121e04c.png)

最好的分数是1.0，越低越差。

In [43]:
from sklearn.metrics import explained_variance_score
y_true=[3,-0.5,2,7]
y_pred=[2.5,0,2,8]
explained_variance_score(y_true,y_pred)

0.95717344753747324

In [44]:
y_true = [[0.5, 1], [-1, 1], [7, -6]]
y_pred = [[0, 2], [-1, 2], [8, -5]]
explained_variance_score(y_true, y_pred, multioutput='raw_values')#返回每个输出的方差

array([ 0.96774194,  1.        ])

In [45]:
explained_variance_score(y_true, y_pred, multioutput=[0.3, 0.7])
#返回每个输出方差加权之后的方差，即'raw_value'方差加权后的结果。

0.99032258064516121

### 3.3.4.2 Mean absolute error

**mean_absolute_error**函数计算绝对均值误差。

若y^\_i是第i个样本预测的值，y\_i是对应的真实值，那么n个样本的绝对均值误差(MAE)定义为：

![mae](http://scikit-learn.org/stable/_images/math/c38d771fb5eb121916c06cf8c651363583d17794.png)

In [46]:
from sklearn.metrics import mean_absolute_error
y_true=[3,-0.5,2,7]
y_pred=[2.5,0,2,8]
mean_absolute_error(y_true,y_pred)

0.5

In [47]:
y_true = [[0.5, 1], [-1, 1], [7, -6]]
y_pred = [[0, 2], [-1, 2], [8, -5]]
mean_absolute_error(y_true, y_pred)

0.75

In [48]:
mean_absolute_error(y_true, y_pred, multioutput='raw_values')

array([ 0.5,  1. ])

In [49]:
mean_absolute_error(y_true, y_pred, multioutput=[0.3, 0.7])

0.84999999999999998

### 3.3.4.3 Mean squared error

**mean_squared_error**函数计算均方差。

![mse](http://scikit-learn.org/stable/_images/math/44f36557fef9b30b077b21550490a1b9a0ade154.png)

In [50]:
from sklearn.metrics import mean_squared_error
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
mean_squared_error(y_true, y_pred)

0.375

In [51]:
y_true = [[0.5, 1], [-1, 1], [7, -6]]
y_pred = [[0, 2], [-1, 2], [8, -5]]
mean_squared_error(y_true, y_pred)  

0.70833333333333337

### 3.3.4.4 Median absolute error

**median_absolute_error**计算所有目标和预测值差值的绝对值的中位数。不支持多个输出。

![medae](http://scikit-learn.org/stable/_images/math/9252f9de0d8c2043cf34a26e6f2643a6e66540b9.png)

In [52]:
from sklearn.metrics import median_absolute_error
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
median_absolute_error(y_true, y_pred)

0.5

### 3.3.4.5 R^2 score,the coefficient of determination

**r2_score**函数计算R^2,判定系数。提供了模型在未见的样本上能表现的多好的判断方法。最好的分数是1，可以是负数。常数模型不管输入的特征是啥，R^2分数是0。

![r2](http://scikit-learn.org/stable/_images/math/bdab7d608c772b3e382e2822a73ef557c80fbca2.png)

其中![ym](http://scikit-learn.org/stable/_images/math/4b4e8ee0c1363ed7f781ed3a12073cfd169e3f79.png)

In [53]:
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
r2_score(y_true, y_pred) 

0.94860813704496794

In [54]:
y_true = [[0.5, 1], [-1, 1], [7, -6]]
y_pred = [[0, 2], [-1, 2], [8, -5]]
r2_score(y_true, y_pred, multioutput='variance_weighted')

0.93825665859564167

In [55]:
y_true = [[0.5, 1], [-1, 1], [7, -6]]
y_pred = [[0, 2], [-1, 2], [8, -5]]
r2_score(y_true, y_pred, multioutput='uniform_average')

0.93680052666227787

In [56]:
r2_score(y_true, y_pred, multioutput='raw_values')

array([ 0.96543779,  0.90816327])

In [57]:
r2_score(y_true, y_pred, multioutput=[0.3, 0.7])

0.92534562211981564