# 波士顿房价数据案例分析
   * 1.波士顿地区房价数据获取
   * 2.波士顿地区房价数据分割
   * 3.**训练与测试数据标准化处理**
   * 4.使用最简单的线性回归模型LinearRegression和梯度下降估计SGRegressor对房价进行预测

In [8]:
from sklearn.datasets import load_boston  #波士顿房价数据
from sklearn.linear_model import LinearRegression #最小二乘法（正规方程）
from sklearn.linear_model import  SGDRegressor #最小二乘法（梯度下降法）
from sklearn.linear_model import Ridge #岭回归
from sklearn.model_selection import train_test_split #分割训练集和测试集
from sklearn.preprocessing import StandardScaler  #特征标准化处理
from sklearn.metrics import mean_squared_error #回归性能评估
from sklearn.externals import joblib #模型的导入和保存
import numpy as np



In [9]:
def mylinear():
    """
    线性回归直接预测房价价格
    """
    
    #获取数据
    lb = load_boston()
    
    #分割数据集到训练集和测试集
    x_train,x_test,y_train,y_test = train_test_split(lb.data,lb.target,test_size=0.25)
    
    #进行标准化处理(目标值也需要标准化处理==》处理后需要转回来inverse_transform)
    
    #特征值标准化
    std_x = StandardScaler()
    x_train = std_x.fit_transform(x_train)
    x_test = std_x.transform(x_test)
    
    #目标值
    std_y = StandardScaler()
    y_train = std_y.fit_transform(y_train.reshape(-1,1)) #传入参数必须二维
    y_test = std_y.transform(y_test.reshape(-1,1))
    
    
    
    #estimator预测
    
    #1.正规方程求解方式预测结果 - - - - - - - 
    lr = LinearRegression()
    lr.fit(x_train,y_train)
    print("正规方程回归系数：",lr.coef_)
    
    #保存正规方程训练好的模型
    joblib.dump(lr,'./lr.pkl')
    
    #预测测试集的房价价格
    y_predict = lr.predict(x_test)
    y_lr_predict = std_y.inverse_transform(y_predict)  #把标准化数据转到正常值
    print('正规方程测试集中每个房子的预测价格:',y_lr_predict)
    print('正规方程的均方误差:',mean_squared_error(
                                    std_y.inverse_transform(y_test),
                                    y_lr_predict
                                         ))
    
    #2.梯度下降求解方式预测结果 - - - - - - - - 
    sgd = SGDRegressor()
    sgd.fit(x_train,y_train)
    print("梯度下降回归系数：",sgd.coef_)
    
    #预测测试集的房价价格
    y_predict = sgd.predict(x_test)
    y_sgd_predict = std_y.inverse_transform(y_predict)  #把标准化数据转到正常值
    print('梯度下降测试集中每个房子的预测价格:',y_sgd_predict)
    print('梯度下降的均方误差:',mean_squared_error(
                                std_y.inverse_transform(y_test),
                                y_sgd_predict
                                     ))
    
    #3.岭回归去进行房价预测 - - - - - - - - 
    rd = Ridge(alpha=1.0)
    
    rd.fit(x_train,y_train)
    print('岭回归的回归系数：',rd.coef_)
    
    #预测测试集的房价价格
    y_rd_predict = sgd.predict(x_test)
    y_rd_predict = std_y.inverse_transform(y_rd_predict)  #把标准化数据转到正常值
    print('岭回归测试集中每个房子的预测价格:',y_rd_predict)
    print('岭回归的均方误差:',mean_squared_error(
                                std_y.inverse_transform(y_test),
                                y_rd_predict
                                     ))
    
    return None

mylinear()

正规方程回归系数： [[-0.09520404  0.11562588 -0.00492871  0.06530557 -0.20228754  0.31621286
  -0.00073169 -0.32478726  0.27506182 -0.24683723 -0.21694372  0.07896558
  -0.38449933]]
正规方程测试集中每个房子的预测价格: [[27.39157897]
 [31.42492501]
 [14.55420941]
 [22.63721204]
 [31.53757816]
 [13.86424055]
 [15.9016761 ]
 [32.87805178]
 [21.91242841]
 [20.36655009]
 [22.86452539]
 [19.33550227]
 [18.30709887]
 [18.60898037]
 [40.33923179]
 [20.57393671]
 [15.78043646]
 [25.14833076]
 [ 5.76061462]
 [20.13294281]
 [11.10346858]
 [16.09922174]
 [28.55244405]
 [20.02199676]
 [15.021254  ]
 [19.2353377 ]
 [21.1743108 ]
 [18.0652947 ]
 [10.57217051]
 [20.31814638]
 [35.12871179]
 [21.85838804]
 [13.41524549]
 [27.18822448]
 [32.88545388]
 [17.72089515]
 [22.4424427 ]
 [25.22284318]
 [24.0990119 ]
 [41.59017105]
 [27.04060184]
 [35.78217175]
 [28.69873684]
 [36.80055204]
 [25.08128913]
 [17.81442008]
 [28.7791078 ]
 [25.64363222]
 [28.39667501]
 [27.11675282]
 [ 5.06141506]
 [21.03459494]
 [19.50222241]
 [18.355778 

  y = column_or_1d(y, warn=True)
