# 6、最好的衡量“线性回归”法的指标：R Squared

之前介绍的不管是 MSE 、 RMSE 、MAE 只能纵向比较，不能横向比较，没有基准。这一节介绍的 R Squared 使用了 y 的平均值作为基准，来衡量模型的好坏，更科学。


$$
\begin{aligned} 
R^2 &= 1 - \cfrac{\sum_i(\hat y^{(i)} - y^{(i)})^2}{\sum_i(\bar y^{(i)} - y^{(i)})^2}\\
R^2 &= 1 - \cfrac{\sum_i(\hat y^{(i)} - y^{(i)})^2/m}{\sum_i(\bar y^{(i)} - y^{(i)})^2/m} = 1 - \frac{MSE(\hat y,y)}{Var(y)} 
\end{aligned} 
$$

+ $R^2$ 越靠近 1 越好

也叫做 R 方，是回归算法中一个非常重要的评测指标。

$$
R^2 = 1 - \cfrac{\sum_{i}(\hat y^{(i)}-y^{(i)})^2}{\sum_i(\overline{y}-y^{(i)})} = 1 - \cfrac{\cfrac{\sum_{i}(\hat y^{(i)}-y^{(i)})^2}{m}}{\cfrac{\sum_i(\overline{y}-y^{(i)})}{m}} = 1 - \cfrac{MSE(\hat y,y)}{Var(y)}
$$

对于 $R^2$ 的理解：

-  $R^2 \le 1$；
- $R^2$ 越大越好。当我们的模型不犯任何错误的时候，$R^2$ 得到最大值，当我们的模型等于基准模型的时候，$R^2 = 0$；
- **当 $R^2 <0$ 这种情况出现的时候，说明我们学习到的模型还不如基准的模型。此时，很可能我们的数据不存在任何的线性关系**。

## 记结论的时候记住下面这个更好记
$$
R^2 = 1 - \frac{MSE(\hat y,y)}{Var(y)} 
$$

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from playML.model_selection import train_test_split
from playML.SimpleLinearRegression import SimpleLinearRegression

boston = datasets.load_boston()
x = boston.data[:, 5]  # 只使用房间数量这个特征
y = boston.target

x = x[y < 50.0]
y = y[y < 50.0]

x_train, x_test, y_train, y_test = train_test_split(x, y, seed=666)

reg = SimpleLinearRegression()
reg.fit(x_train, y_train)
y_predict = reg.predict(x_test)

## R Squared

In [2]:
from playML.metrics import mean_squared_error

1 - mean_squared_error(y_test, y_predict) / np.var(y_test)

0.61293168039373236

In [3]:
from playML.metrics import r2_score

r2_score(y_test, y_predict)

0.61293168039373236

## 在 scikit-learn 中使用 r2_score

In [4]:
from sklearn.metrics import r2_score

r2_score(y_test, y_predict)

0.61293168039373247

In [5]:
# 我们自己写的 SimpleLinearRegression2.py 下的评分方法
# 先得到预测数据，然后再评分
reg.score(x_test, y_test)

0.61293168039373236