## 更多关于线性回归模型的讨论

In [1]:
import numpy as np
from sklearn import datasets

boston = datasets.load_boston()

X = boston.data
y = boston.target

X = X[y < 50.0]
y = y[y < 50.0]

In [2]:
from sklearn.linear_model import LinearRegression

这里不需要进行 train_test_split，因为接下来要做的不是进行预测，所以我们也不需要看预测准确度，那么我们就不需要测试数据集。我们直接对整个数据进行拟合。

In [4]:
lin_reg = LinearRegression()
lin_reg.fit(X, y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [5]:
lin_reg.coef_ # 系数

array([-1.05574295e-01,  3.52748549e-02, -4.35179251e-02,  4.55405227e-01,
       -1.24268073e+01,  3.75411229e+00, -2.36116881e-02, -1.21088069e+00,
        2.50740082e-01, -1.37702943e-02, -8.38888137e-01,  7.93577159e-03,
       -3.50952134e-01])

我们看见这些系数有正有负，正负代表的就是样本的特征和我们最终要预测的那个目标也就是房价他们之间是正相关还是负相关。如果系数为正，说明是正相关，换句话说，这个特征越大，最终得到的房价就越高；而如果这个系数为负的话，相应的就是负相关，也就是这个特征越大，我们的房价就越便宜。而系数的绝对值的大小就决定了这个影响的程度。

因此，我们在这里对系数进行一下排序。

In [7]:
np.argsort(lin_reg.coef_) #默认从小到大排序，最小的为负相关程度最大的，最大值为正相关程度最大的

array([ 4,  7, 10, 12,  0,  2,  6,  9, 11,  1,  8,  3,  5], dtype=int64)

In [8]:
boston.feature_names # 存放特征相应的名称

array(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
       'TAX', 'PTRATIO', 'B', 'LSTAT'], dtype='<U7')

In [9]:
boston.feature_names[np.argsort(lin_reg.coef_)]

array(['NOX', 'DIS', 'PTRATIO', 'LSTAT', 'CRIM', 'INDUS', 'AGE', 'TAX',
       'B', 'ZN', 'RAD', 'CHAS', 'RM'], dtype='<U7')

通过上述排序结果，我们发现NOX负相关的程度最大，RM正相关的程度最大

下面我们查看 NOX，RM 的分别表示什么？

In [10]:
print(boston.DESCR) # 查看特征代表的意思

Boston House Prices dataset

Notes
------
Data Set Characteristics:  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive
    
    :Median Value (attribute 14) is usually the target

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pupil-teacher ratio by town
      

1. 我们发现RM代表的房间的数量。那么我们可以得出房间数量越多的房 间房价越高。
2. NOX 代表一氧化氮浓度，那么我们得到一氧化氮浓度越高，我们的房价就越低。
3. 负相关第二大为DIS，DIS代表距离5个波士顿劳务雇佣中心相应的加权平均的距离，它和房价是负相关的，说明距离越小，房价越高，距离越大，房价越低。
...


  那么就可以使用这种方式来一一对应来看这些特征与房价之间的关系，这就是所说的线性回归对我们的数据有可解释性，更重要的是，让我们获得了这种可解释性后，我们可以有针对性地去采集更多地特性来更好地描述我们的这个房价，比如说，我们知道了房间的数量和我们的房价是正相关的，很大程度上房间的数量也决定了我们房子的大小包括它有多少平米，房子有多少层，它的院子有多大，那么我们是不是也可以采集这些特征进一步来看会不会得到一个更好的预测波士顿房价这样一个模型，那么相应的，NOX也就是一种有害的化学气体它的浓度和房价呈负相关，我们进一步是不是就可以采集房子周边是不是有生成这种有害气体的化工厂等等这些特征来进一步更好的判断波士顿的房价，这就是线性回归法对数据的可解释性的威力。


