# 多元线性回归/对数线性回归（二选一）

## 对数线性回归
这部分的内容是要求大家完成对数线性回归，我们会先带着大家使用sklearn做一元对数线性回归的十折交叉验证，(多元)对数线性回归大家可以仿照着完成

### 1. 读取数据

In [None]:
import numpy as np

In [None]:
import pandas as pd

# 读取数据
data = pd.read_csv('data/kaggle_house_price_prediction/kaggle_hourse_price_train.csv')

# 丢弃有缺失值的特征（列）
data.dropna(axis = 1, inplace = True)

# 只保留整数的特征
data = data[[col for col in data.dtypes.index if data.dtypes[col] == 'int64']]

In [None]:
data.info()

### 2. 引入模型

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import cross_val_predict

### 3. 使用sklearn完成一元对数线性回归的十折交叉验证验证

#### 创建模型

In [None]:
model = LinearRegression()

#### 选取数据
因为我们要做对数线性回归，所以需要先将标记y取对数

In [None]:
features = ['LotArea']
x = data[features]
y = np.log(data['SalePrice'])

#### 做十折交叉验证的预测
注意，我们的模型是对数线性回归
$$\tag{1}
\ln{y} = WX + b
$$
这个模型要求，$y$的值一定是大于0的，所以这个模型是有它的适用范围的。我们这个任务是房价预测，房价通常来说是大于等于0的，所以在使用这个模型的时候，一定要确定$y > 0$。

我们在使用sklearn进行实现的时候，会将$y$先取对数，然后使用普通的一元线性回归对$\ln{y}$进行拟合。  
**需要注意的是，当我们的模型训练完成后，模型的预测值应该做$e$的指数运算，才能输出模型预测出的房价，否则输出值就是"$ln$房价"**

In [None]:
prediction = np.exp(cross_val_predict(model, x, y, cv = 10))

这十折交叉验证是按顺序做的，会先将前10%的数据作为测试集，然后会往后顺延到10%到20%，最后将这十份的预测值按顺序拼接后返回

In [None]:
prediction.shape

### 4. 计算评价指标

#### MAE

In [None]:
mean_absolute_error(prediction, data['SalePrice'])

#### RMSE

In [None]:
mean_squared_error(prediction, data['SalePrice']) ** 0.5

### 5. 请你选择多种特征进行组合，完成对数线性回归，并对比不同的特征组合，它们训练出的模型在十折交叉验证上MAE与RMSE的差别，至少完成3组

###### 扩展：多项式回归（一元线性回归的扩展），尝试对部分特征进行变换，如将其二次幂，三次幂作为特征输入模型，观察模型在预测能力上的变化
###### 提示：多元线性回归，只要将上方的features这个list中，加入其他特征的名字就可以

In [None]:
# YOUR CODE HERE






1. 模型1使用的特征：
2. 模型2使用的特征：
3. 模型3使用的特征:

模型|MAE|RMSE
-|-|-
模型1 | 0.0 | 0.0
模型2 | 0.0 | 0.0
模型3 | 0.0 | 0.0