# Boston house price predict

波士顿房价数据集（Boston House Price Dataset）（下载地址：http://t.cn/RfHTAgY）

使用sklearn.datasets.load_boston即可加载相关数据，该数据集是一个回归问题，需要根据房屋特征预测房屋价格。每个类的观察值数量是均等的，共有 506 个观察，13 个输入变量和1个输出变量。

每条数据包含房屋以及房屋周围的详细信息，包括：

CRIM：城镇人均犯罪率。

ZN：住宅用地超过 25000 sq.ft. 的比例。

INDUS：城镇非零售商用土地的比例。

CHAS：查理斯河空变量（如果边界是河流，则为1；否则为0）。

NOX：一氧化氮浓度。

RM：住宅平均房间数。

AGE：1940 年之前建成的自用房屋比例。

DIS：到波士顿五个中心区域的加权距离。

RAD：辐射性公路的接近指数。

TAX：每 10000 美元的全值财产税率。

PTRATIO：城镇师生比例。

B：1000（Bk-0.63）^ 2，其中 Bk 指代城镇中黑人的比例。

LSTAT：人口中地位低下者的比例。

MEDV：自住房的平均房价，以千美元计。

# 0.import工具库

In [1]:
import pandas as pd
from sklearn import preprocessing
from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import load_boston

# 1.加载数据

In [31]:
boston_house = load_boston()
type(boston_house)

sklearn.utils.Bunch

In [32]:
boston_feature_name = boston_house.feature_names
boston_features = boston_house.data
boston_target = boston_house.target

In [33]:
boston_feature_name

array(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
       'TAX', 'PTRATIO', 'B', 'LSTAT'], dtype='<U7')

In [34]:
print(boston_house.DESCR)

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

In [35]:
boston_features[:2,:]

array([[6.3200e-03, 1.8000e+01, 2.3100e+00, 0.0000e+00, 5.3800e-01,
        6.5750e+00, 6.5200e+01, 4.0900e+00, 1.0000e+00, 2.9600e+02,
        1.5300e+01, 3.9690e+02, 4.9800e+00],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, 0.0000e+00, 4.6900e-01,
        6.4210e+00, 7.8900e+01, 4.9671e+00, 2.0000e+00, 2.4200e+02,
        1.7800e+01, 3.9690e+02, 9.1400e+00]])

In [36]:
boston_target[:5]

array([24. , 21.6, 34.7, 33.4, 36.2])

# 将数据拆分为训练集和测试集

In [45]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(boston_features, boston_target, test_size = 0.2, random_state = 0)

# 构建模型

## 随机森林模型

In [46]:
rgs = RandomForestRegressor(n_estimators=15)
rgs = rgs.fit(X_train, y_train)

In [47]:
rgs

RandomForestRegressor(n_estimators=15)

In [48]:
from sklearn.metrics import mean_squared_error
y_pred = rgs.predict(X_test)
mean_squared_error(y_test, y_pred)


20.21385098039216

## 回归树模型 

In [50]:
from sklearn import tree
rgs2 = tree.DecisionTreeRegressor()           ##决策树模型，比较两个模型的预测结果！
rgs2.fit(X_train, y_train)

DecisionTreeRegressor()

In [51]:
from sklearn.metrics import mean_squared_error
y_pred = rgs2.predict(X_test)
mean_squared_error(y_test, y_pred)   # 注意MSE=0，决策树回归模型容易过拟合。

33.473333333333336

随机森林模型到效果更好一点，回归树模型极容易过拟合，即在训练集上到误差远远小于测试机

In [54]:
print(mean_squared_error(y_train, rgs.predict(X_train))) # 随机森林训练集上误差
print(mean_squared_error(y_train, rgs2.predict(X_train))) # 回归树训练集上误差

1.6904429042904296
0.0
