### 案例研究

在这个案例研究中，你将使用在上一课中看到的同样的波士顿房屋数据。但是，你现在可以更好地处理此数据集中实际存在的复杂性。

首先，让我们设定库和数据。

In [None]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import r2_score
from patsy import dmatrices
import matplotlib.pyplot as plt
%matplotlib inline

np.random.seed(42)

boston_data = load_boston()
df = pd.DataFrame()
df['MedianHomePrice'] = boston_data.target
df2 = pd.DataFrame(boston_data.data)
df2.columns = boston_data.feature_names
df = df.join(df2)
df.head()

你将要用到 notebook 的 **df** 数据帧。你可以在 [这里](https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html) 找到数据集中关于特征的描述。具体而言，你将尝试使用数据集中的其他变量来构建最佳模型以预测平均房价。 

`1.` 使用 [train test_split](http://scikit-learn.org/stable/modules/cross_validation.html) 创建一个 training 数据集与一个 test 数据集，其中20％的数据在 test 数据集中。无序状态设为0。将结果存储在 `X_train, X_test, y_train, y_test` 中。

除非指定，否则只能使用 `X_train` 与 `y_train` 变量来回答以下问题。

`2.` 首先，获取数据集中每个特征的汇总。使用汇总的结果回答下面的第一个与第二个测试题目。同样，使用 [corr](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.corr.html) 方法对每个变量进行相互比较。

`2.` 接下来，使用 [StandardScaler](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler) 来缩放数据集中的所有 x 变量。将结果存储在 `X_scaled_train` 中。 创建一个 pandas 数据帧并存储缩放的 x 变量以及 training 响应。把该数据帧命名为 `training_data` 。

`3.` 接下来，记得用 **所有的** 缩放特征来拟合线性模型，以预测此响应（平均房价）。不要忘记添加一个截距。使用你的线性模型的结果来回答下面的第三个测试题目。

`4.` 现在，使用下面的函数来计算数据集中每个 x_variable 的 vif，并使用该函数的结果来回答下面的第四个测试题目。

In [None]:
def vif_calculator(df, response):
    '''
    INPUT:
    df - a dataframe holding the x and y-variables
    response - the column name of the response as a string
    OUTPUT:
    vif - a dataframe of the vifs
    '''
    df2 = df.drop(response, axis = 1, inplace=False)
    features = "+".join(df2.columns)
    y, X = dmatrices(response + ' ~' + features, df, return_type='dataframe')
    vif = pd.DataFrame()
    vif["VIF Factor"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
    vif["features"] = X.columns
    vif = vif.round(1)
    return vif

`5.` 根据查看 p 值和 VIF 的结果，确定删除 `AGE`、 `NOX` 与 `TAX` ，删掉这些特征之后，用剩余的特征拟合一个新的线性模型。使用这个线性模型和先期模型的结果来回答下面的第五个测试题目。

`6.` 给出之前的线性回归模型的结果，从模型中删除 `RAD` 变量。然后仔细检查所有的 VIF 是否小于4。所有的变量现在应该显示与响应的具有的线性关系，并且与先前模型相比，Rsquared 值没有发生变化。

`6.` 因为使用线性模型通过 statsmodels 扩展到 test 数据有点乏味，所以我们将使用 [sklearn 这样去做 ](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)。 以下是将完整模型拟合到我们的数据的一个例子。

正如你可以在文档中看到的那样，你需要注意一点，该数据默认使用 sklearn 的线性模型进行缩放。  

我在模型下面的单元格中创建了剩余的 X 矩阵。使用这些来修改并查看哪个模型在 test 集上的效果最好。使用你的结果回答下面的最后一个测试题目。

In [None]:
X_data = df.drop('MedianHomePrice', axis=1, inplace=False)
X_train, X_test, y_train, y_test = train_test_split(
                 X_data, df['MedianHomePrice'], test_size=0.2, random_state=0)


lm_full = LinearRegression()
lm_full.fit(X_train, y_train)
lm_full.score(X_test, y_test)

In [None]:
X_train_red = X_train.drop(['AGE','NOX','TAX'] , axis=1, inplace=False)
X_test_red = X_test.drop(['AGE','NOX','TAX'] , axis=1, inplace=False)


X_train_red2 = X_train.drop(['AGE','NOX','TAX','RAD'] , axis=1, inplace=False)
X_test_red2 = X_test.drop(['AGE','NOX','TAX','RAD'] , axis=1, inplace=False)


In [None]:
lm_red = LinearRegression()
lm_red.fit(X_train_red, y_train)
print(lm_red.score(X_test_red, y_test))

lm_red2 = LinearRegression()
lm_red2.fit(X_train_red2, y_train)
print(lm_red2.score(X_test_red2, y_test))
