# 機器學習_\ML\_metrics.r2\_score
## 說明
r2又有人稱為決定系數([國家教育研究院](http://terms.naer.edu.tw/detail/1305857/))  

r2\_score是應用於迴歸效能評估的一個指標，在談r2\_score之前我們先看兩個指標。
1. $SS_{res}$  
    * $SS_{res}=\sum(y-\hat{y})^2$
    * 殘差總和

2. $SS_{tot}$  
    * $SS_{tot}=\sum(y-\overline{y})^2$
        * 它以$y$本身均值來做計算
    * 共平方和
        
r2\_score=$1-\frac{SS_{res}}{SS_{tot}}$     
r2理論上介於0~1之間，數值愈高代表模型效能愈好，但是會有可能有負值的存在，不過有負值存在情況下，該模型應該也不會列入考量才是。

## Import
```python
from sklearn.metrics import r2_score
```

## Class
```
sklearn.metrics.r2_score(y_true, y_pred, sample_weight=None,
                         multioutput='uniform_average')
```

## 參數說明
### y_true
真實的label
### y_pred
預測的label
### sample_weight 
權重
### multioutput
default:uniform_average  
* raw_values
    * 以(n_output, )的格式輸出
* uniform_average
    * 以相同重權來加總平均
* variance_weighted
    * 多輸出情況下才能使用
    * 平均之後以方差做加權計算
    * 可見[sklearn_git](https://github.com/scikit-learn/scikit-learn/blob/a24c8b46/sklearn/metrics/regression.py#L540)上第540行與560行

## 範例

In [30]:
from sklearn.metrics import r2_score
import numpy as np

In [2]:
y_true = [1, 2, 3]
y_pred = [2, 3, 4]

In [13]:
r2_score(y_true, y_pred, multioutput='raw_values')

array([-0.5])

In [14]:
r2_score(y_true, y_pred, multioutput='raw_values').shape

(1,)

In [4]:
r2_score(y_true, y_pred, multioutput='uniform_average')

-0.5

In [5]:
r2_score(y_true, y_pred, multioutput='variance_weighted')

-0.5

In [41]:
y_true = [[1, 0.5], [2, 1.5], [3, 2.5]]
y_pred = [[20, 1.5], [3, 2.5], [4, 3.5]]

In [42]:
r2_score(y_true, y_pred, multioutput='raw_values')

array([-180.5,   -0.5])

In [43]:
r2_score(y_true, y_pred, multioutput='raw_values').shape

(2,)

In [44]:
r2_score(y_true, y_pred, multioutput='uniform_average')

-90.5

In [45]:
r2_score(y_true, y_pred, multioutput='variance_weighted')

-90.5

In [49]:
r2_score(y_true, y_pred, multioutput=[0.5, 0.5])

-90.5

In [50]:
y_true = [[0.5, 1], [-1, 1], [7, -6]]
y_pred = [[0, 2], [-1, 2], [8, -5]]

In [51]:
r2_score(y_true, y_pred, multioutput='variance_weighted')

0.9382566585956417

In [52]:
r2_score(y_true, y_pred, multioutput='uniform_average')

0.9368005266622779

## 延伸閱讀\_Adjusted $R^2$
在計算r2\_score的時候可能會發現一件事，隨著你的特徵(自變量)愈多，r2會愈見增長，不會下降，簡單的思考，最壞的情況就是學習參數為0，為0的話就是持平。直觀來看$y=b_0+w_1*x_1$的r2會相等於$y=b_0+w_1*x_1+0*x_2$，也因此，單純的透過r2\_score搭配[反向淘汱特徵工程](https://github.com/shaoeChen/sklearn_api_resource/blob/master/sklearn_api/feature_selection/backward_elimination.ipynb)可能會有將有效特徵刪除機率，這時候我們可以利用懲罰項目來達成迴歸評估，稱為『**Adjusted $R^2$**』，廣義的r2。

廣義的r2：  
Adj $R^2=1-(1-R^2)*\frac{m-1}{m-n-1}$  
忽略掉m不看，當n變多的時候，分母會變小，即後面的項目值會變大，而當n變多的時候，我們的$R^2$也會增多，$R^2$變大，即(1-$R^2$)變小，這樣就造成了雙方的拔河，一個新的特徵的加入就看它造成了那一邊的波動較大，自然廣義的r2就會有增減。

註：m指資料樣本數，n指特徵(自變量)數