回归模型的评估指标:

    均方误差: MSE 
    
    均方根误差: RMSE

    平均绝对误差: MAE

    R平方(可决系数) R Square: R^2

# 波士顿房价回归预测数据集

In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn import metrics # 评估指标
import matplotlib.pyplot as plt
%matplotlib inline

import warnings
warnings.filterwarnings('ignore') 

In [2]:
housing_data = pd.read_csv('boston_house_price_english.csv')

In [3]:
print(np.isnan(housing_data).any())

crim       False
zn         False
indus      False
chas       False
nox        False
rm         False
age        False
dis        False
rad        False
tax        False
ptratio    False
b          False
lstat      False
medv       False
dtype: bool


In [4]:
# train.dropna(inplace=True) # 删除有缺失值的行
# train.fillna(‘100’) # 对缺失值进行填充处理

In [5]:
housing_data.head()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,b,lstat,medv
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


In [6]:
X = housing_data.drop(['medv'],axis = 1)

In [7]:
y = housing_data['medv']

In [8]:
# random_state就是为了保证程序每次运行都分割一样的训练集和测试集。否则，同样的算法模型在不同的训练集和测试集上的效果不一样。
# 当你用sklearn分割完测试集和训练集，确定模型和初始参数以后，你会发现程序每运行一次，都会得到不同的准确率，无法调参。
# 这个时候就是因为没有加random_state。加上以后就可以调参了。

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0) # 随机数种子：random_state

In [9]:
model = LinearRegression()

In [10]:
model.fit(X_train, y_train)  #用这个模型去fit(拟合) 训练集上的特征与标签,这样就产生了一个线性回归模型

LinearRegression()

In [11]:
y_pred_class = model.predict(X_test)

In [12]:
y_pred_class

array([24.95233283, 23.61699724, 29.20588553, 11.96070515, 21.33362042,
       19.46954895, 20.42228421, 21.52044058, 18.98954101, 19.950983  ,
        4.92468244, 16.09694058, 16.93599574,  5.33508402, 39.84434398,
       32.33549843, 22.32772572, 36.54017819, 31.03300611, 23.32172503,
       24.92086498, 24.26106474, 20.71504422, 30.45072552, 22.45009234,
        9.87470006, 17.70324412, 17.974775  , 35.69932012, 20.7940972 ,
       18.10554174, 17.68317865, 19.71354713, 23.79693873, 29.06528958,
       19.23738284, 10.97815878, 24.56199978, 17.32913052, 15.20340817,
       26.09337458, 20.87706795, 22.26187518, 15.32582693, 22.85847963,
       25.08887173, 19.74138819, 22.70744911,  9.66708558, 24.46175926,
       20.72654169, 17.52545047, 24.45596997, 30.10668865, 13.31250981,
       21.52052342, 20.65642932, 15.34285652, 13.7741129 , 22.07429287,
       17.53293957, 21.60707766, 32.91050188, 31.32796114, 17.64346364,
       32.69909854, 18.56579207, 19.32110821, 18.81256692, 23.04

In [13]:
y_pred_class.shape

(127,)

# Mean Absolute error  平均绝对误差 

计算预测值与真实值之间的绝对值之差 

In [14]:
metrics.mean_absolute_error(y_test, y_pred_class)

3.668330148135727

 # Mean Squared error  均方误差 

计算MSE之前必须去掉所有缺失值

In [15]:
metrics.mean_squared_error(y_test, y_pred_class)

29.7822450923024

# RMSE  均方根误差 

```
·RMSE时MSE的平方根
·RMSE通常比MAE大
·RMSE的量纲与原始数据量纲相同
·RMSE便于求导,因此通常作为回归模型的评估指标
```

In [16]:
from math import sqrt
print(sqrt(metrics.mean_squared_error(y_test, y_pred_class)))

5.457311159564058


# Root Mean Squared Logarithmic Error 均方根对数误差

```
使用RMSLE的优点
1.RMSLE惩罚欠预测大于过预测，适用于某些需要欠预测损失更大的场景，如预测共享单车需求，欠预测会导致共享单车供应量不足。

假如真实值为1000，若预测值为600，那么RMSE=400，RMSLE=0.510

假如真实值为1000，若预测值为1400，那么RMSE=400，RMSLE=0.336

在RMSE相同的情况下，预测值比真实值小这种情况的RMSLE比较大，即对于预测值小这种情况惩罚较大。

2.如果预测的值的范围很大，RMSE会被一些大的值主导。这样即使很多较小的值预测准了，但是有一个非常大的值预测的不准确，RMSE就会很大。相应的，如果另外一个比较差的算法对这一个大的值准确一些，但是很多小的值都有偏差，可能RMSE会比前一个小(即实际的预测表现没有数据表现的那么好, 对被评估数据所迷惑,所以要对其进行惩罚)。先取log再求RMSE，可以稍微解决这个问题。RMSE一般对于固定的平均分布的预测值才合理。

直观的经验是这样的，当数据当中有少量的值和真实值差值较大的时候，使用log函数能够减少这些值对于整体误差的影响。
```

In [17]:
metrics.mean_squared_log_error(y_test, y_pred_class)

0.10011074434043886

# R_squared R平方(可决系数)

```
在分类问题中，我们经常将随机分类器作为基准模型，随机分类器的准确率是0.5。

在回归问题中，我们将输出平均值的回归器作为基准模型。

将一个回归模型的MSE除以基准模型的MSE，就可以计算R平方了。

如果一个回归模型与基准模型一样差，那么R平方是0。

如果一个回归模型完全预测正确，那么R平方是1。

如果一个回归模型比基准模型还差，那么R平方是负数。
```

In [18]:
metrics.r2_score(y_test, y_pred_class)

0.6354638433202124

# Adjusted R-Squared 修正R平方

```
在其他变量不变的情况下，引入新的变量，总能提高模型的准确度，但增加特征却让模型变的更加复杂，这种准确度提升也是虚假的。修正R平方相当于给特征的个数加惩罚项。
换句话说，如果两个模型，样本数一样，R平方一样，使用变量个数少的那个模型更优，这正是奥卡姆剃刀原理的思想。如无必要，勿增实体。

```

# 修正R平方与RMSE的比较

```
Absolute value of RMSE does not actually tell how good/bad a model is. lt can only be used to compare across two modelswhereas Adjusted R3 easily does that. For example, if a model has adjusted R3 equal to 0.05 then it is definitely bad.

However, if we care only about prediction accuracy then RMSE is best.lt is computationally simple, easilydifferentiable andpresent as default metric for most of the models.

RMSE的大小仅仅反映模型预测值与真实值的偏差，不能反映模型真正的好坏，也许一个算命先生胡谄的预测值，RMSE确实很小，但瞎猫碰上死耗子不能说明什么。

但如果一个模型的修正R平方是0.05，那这个模型肯定很烂。

RMSE的好处在于便于微分求导，也便于比较不同模型的偏差，所以各类数据科学竞赛都经常把RMSE作为默认的评估指标。
```