# 评价回归算法 R Square

公式：$R^2 = 1 - \frac{SS_{residual}}{SS_{total}} = 1 - \frac{\sum_{i}({\hat{y}}^{i} - y^i)^2}{$\sum_{i}({\bar{y}}^{i} - y^i)^2} = 1 - \frac{(\sum_{i}({\hat{y}}^{i} - y^i)^2)/m}{($\sum_{i}({\bar{y}}^{i} - y^i)^2)/m} = 1 -\frac{MSE(\hat{y} , y)}{Var(y)} $

分子 $\sum_{i}({\hat{y}}^{i} - y^i)^2$ 表示使用我们的模型预测产生的错误。

分母：$\sum_{i}({\bar{y}}^{i} - y^i)^2$ 表示在不考虑x时，直接使用y的均值作为预测值。此中情况为模型最差的情况。

1 - ：说明我们的模型的拟合程度

- $R^2<=1$
- $R^2<=1$越大越好。当我们的预测模型不犯任何错误时，说明预测值$ \hat{y}^{i}$与真实值$y^i$完全相等，使得$\sum_{i}({\hat{y}}^{i} - y^i)^2$ 为0，则$R^2$得到最大值1
- 当我们的模型等于基准模型时，则$R^2=0$。说明$\sum_{i}({\hat{y}}^{i} - y^i)^2$与$\sum_{i}({\bar{y}}^{i} - y^i)^2$相等
- 如果$R^2 < 0$，说明我们学习到的模型还不如基准模型。此时，很有可能我们的数据不存在任何线性关系。

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error

In [2]:
boston = datasets.load_boston()

In [3]:
x = boston.data[:,5] # 只使用房间数量这个特征
y = boston.target

In [4]:
x = x[y < 50.0]
y = y[y < 50.0]

In [5]:
from sklearn.model_selection import train_test_split

In [6]:
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=666)

In [7]:
from sklearn.linear_model import LinearRegression

In [8]:
reg = LinearRegression()
reg.fit(x_train.reshape(-1,1), y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [9]:
y_predict = reg.predict(x_test.reshape(-1,1))

**手动实现r2_score**

In [10]:
1 - mean_squared_error(y_test, y_predict) / np.var(y_test)

0.5682464825049472

In [14]:
from playML.metrics import r2_score

In [15]:
r2_score(y_test,y_predict)

0.5682464825049472

**使用模型自身的score函数**

In [11]:
reg.score(x_test.reshape(-1,1), y_test)

0.5682464825049472

**使用sklearn的r2_score**

In [12]:
from sklearn.metrics import r2_score

In [13]:
r2_score(y_test, y_predict)

0.5682464825049472