# 波士顿房价预测案例——特征工程

通过数据探索，我们了解了数据集的特点。接下来进行特征工程：对原始特征做必要的数据预处理和特征编码，使得变换后的特征符合模型要求。

## 1、导入必要的工具包

In [1]:
import numpy as np  # 矩阵操作
import pandas as pd # SQL数据处理

## 2. 读取数据
该数据集很简单，可以直接送入回归模型；
一般而言，我们通常先对原始特征进行必要的特征编码和处理（特征工程），编码后的特征再送入模型。

In [2]:
# path to where the data lies
#dpath = './data/'
df = pd.read_csv("boston_housing.csv")

#通过观察前5行，了解数据每列（特征）的概况
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18,2.31,0,0.538,6.575,65.2,4.09,1,296,15,396.9,4.98,24.0
1,0.02731,0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17,396.9,9.14,21.6
2,0.02729,0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17,392.83,4.03,34.7
3,0.03237,0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18,394.63,2.94,33.4
4,0.06905,0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18,396.9,5.33,36.2


###  数据基本信息
样本数目、特征维数
每个特征的类型、空值样本的数目、数据类型

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
CRIM       506 non-null float64
ZN         506 non-null int64
INDUS      506 non-null float64
CHAS       506 non-null int64
NOX        506 non-null float64
RM         506 non-null float64
AGE        506 non-null float64
DIS        506 non-null float64
RAD        506 non-null int64
TAX        506 non-null int64
PTRATIO    506 non-null int64
B          506 non-null float64
LSTAT      506 non-null float64
MEDV       506 non-null float64
dtypes: float64(9), int64(5)
memory usage: 55.4 KB


## 3. 特征工程

### 3.1. 数据去噪

In [4]:
# 删除y大于等于50的样本（保留小于50的样本）
#df = df[df.MEDV < 50]

#输出样本数和特征维数
#print(df.shape)

去掉了16个样本

### 3.2 数据分离
从原始数据中分离输入特征X和标签y

In [15]:
# 从原始数据中分离输入特征x和输出y
y = df['MEDV']
X = df.drop('MEDV', axis = 1)

# 尝试对y（房屋价格）做log变换，对log变换后的价格进行估计
log_y = np.log1p(y)
print log_y

0      3.218876
1      3.117950
2      3.575151
3      3.538057
4      3.616309
5      3.391147
6      3.173878
7      3.335770
8      2.862201
9      2.990720
10     2.772589
11     2.990720
12     3.122365
13     3.063391
14     2.954910
15     3.039749
16     3.182212
17     2.917771
18     3.054001
19     2.954910
20     2.681022
21     3.025291
22     2.785011
23     2.740840
24     2.809403
25     2.701361
26     2.867899
27     2.760010
28     2.965273
29     3.091042
         ...   
476    2.873565
477    2.564949
478    2.747271
479    3.109061
480    3.178054
481    3.206803
482    3.258097
483    3.126761
484    3.072693
485    3.100092
486    3.000720
487    3.072693
488    2.785011
489    2.079442
490    2.208274
491    2.681022
492    3.049273
493    3.126761
494    3.238678
495    3.182212
496    3.030134
497    2.960105
498    3.100092
499    2.917771
500    2.879198
501    3.152736
502    3.072693
503    3.214868
504    3.135494
505    2.557227
Name: MEDV, Length: 506,

### 3.3 离散型特征编码

离散特征可以通过独热编码（one-hot encode），将原来有K种取值的离散型特征变成K维0-1编码特征，这K维特征中只有一个是1（独热），其余维均为0.
独热编码可以用pandas的get_dummies方法（哑编码）或者Scikit-Learn中的OneHotEncoder类来实现。

get_dummies方法要求输入特征的类型是非数值型（"object"）；
而OneHotEncoder要求输入是整数。如果是字符串要先用LabelEncoder变成整数。（但LabelEncoder输出是一维（1D）数组，而OneHotEncoder要求输出是2D数组，需要在二者之间进行格式转换）。

另外如果训练数据和测试数据不能同时获得的话，需要用OneHotEncoder，用训练集训练编码器，然后对训练集和测试集进行编码；
而get_dummies是依赖于DataFrame，只适用于一个数据集情况。

更多学习，推荐阅读：[scikit-learn] 特征二值化编码函数的一些坑
https://ask.hellobi.com/blog/DataMiner/4897

In [6]:
# RAD的含义是距离高速公路的便利指数。虽然给的数值是数值型，但实际是索引，可换成离散特征/类别型特征编码试试。
X["RAD"].astype("object")
X_cat = X["RAD"]
X_cat = pd.get_dummies(X_cat, prefix="RAD")

X = X.drop("RAD", axis = 1)

#特征名称，用于保存特征工程结果
feat_names = X.columns

In [7]:
X_cat.head()

Unnamed: 0,RAD_1,RAD_2,RAD_3,RAD_4,RAD_5,RAD_6,RAD_7,RAD_8,RAD_24
0,1,0,0,0,0,0,0,0,0
1,0,1,0,0,0,0,0,0,0
2,0,1,0,0,0,0,0,0,0
3,0,0,1,0,0,0,0,0,0
4,0,0,1,0,0,0,0,0,0


###  3.4. 数值型特征预处理
scikit learn中提供的数据预处理功能：
http://scikit-learn.org/stable/modules/preprocessing.html

Boston房价数据集特征均为数值型特征。在数据探索阶段发现，发现各特征差异较大，需要进行数据标准化预处理。
标准化的目的在于避免原始特征值差异过大，导致训练得到的参数权重单位不一致，无法比较各特征的重要性。
另外，一些优化算法（如随机梯度下降及其改进版本）只在各特征尺度差不多的情况下才能保证收敛。

#### 数值特征标准化

In [9]:
# 数据标准化
from sklearn.preprocessing import StandardScaler

# 分别初始化对特征和目标值的标准化器
ss_X = StandardScaler()
ss_y = StandardScaler()

ss_log_y = StandardScaler()

# 分别对训练和测试数据的特征以及目标值进行标准化处理
# 对训练数据，先调用fit方法训练模型，得到模型参数；然后对训练数据和测试数据进行transform
X = ss_X.fit_transform(X)

#对y做标准化不是必须
#对y标准化的好处是不同问题的w差异不太大，同时正则参数的范围也有限
y = ss_y.fit_transform(y.reshape(-1, 1))
log_y = ss_y.fit_transform(log_y.reshape(-1, 1))

## 数据特征最小最大缩放化

In [14]:
# 数据最小最大缩放化
from sklearn.preprocessing import MinMaxScaler

# 分别初始化对特征和目标值的最小最大缩放器
ss_X = MinMaxScaler()
ss_y = MinMaxScaler()

ss_log_y = MinMaxScaler()

# 分别对训练和测试数据的特征以及目标值进行最小最大缩放处理
# 对训练数据，先调用fit方法训练模型，得到模型参数；然后对训练数据和测试数据进行transform
X = ss_X.fit_transform(X)


y = ss_y.fit_transform(y)
log_y = ss_y.fit_transform(log_y)

ValueError: Expected 2D array, got 1D array instead:
array=[24.  21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 15.  18.9 21.7 20.4
 18.2 19.9 23.1 17.5 20.2 18.2 13.6 19.6 15.2 14.5 15.6 13.9 16.6 14.8
 18.4 21.  12.7 14.5 13.2 13.1 13.5 18.9 20.  21.  24.7 30.8 34.9 26.6
 25.3 24.7 21.2 19.3 20.  16.6 14.4 19.4 19.7 20.5 25.  23.4 18.9 35.4
 24.7 31.6 23.3 19.6 18.7 16.  22.2 25.  33.  23.5 19.4 22.  17.4 20.9
 24.2 21.7 22.8 23.4 24.1 21.4 20.  20.8 21.2 20.3 28.  23.9 24.8 22.9
 23.9 26.6 22.5 22.2 23.6 28.7 22.6 22.  22.9 25.  20.6 28.4 21.4 38.7
 43.8 33.2 27.5 26.5 18.6 19.3 20.1 19.5 19.5 20.4 19.8 19.4 21.7 22.8
 18.8 18.7 18.5 18.3 21.2 19.2 20.4 19.3 22.  20.3 20.5 17.3 18.8 21.4
 15.7 16.2 18.  14.3 19.2 19.6 23.  18.4 15.6 18.1 17.4 17.1 13.3 17.8
 14.  14.4 13.4 15.6 11.8 13.8 15.6 14.6 17.8 15.4 21.5 19.6 15.3 19.4
 17.  15.6 13.1 41.3 24.3 23.3 27.  50.  50.  50.  22.7 25.  50.  23.8
 23.8 22.3 17.4 19.1 23.1 23.6 22.6 29.4 23.2 24.6 29.9 37.2 39.8 36.2
 37.9 32.5 26.4 29.6 50.  32.  29.8 34.9 37.  30.5 36.4 31.1 29.1 50.
 33.3 30.3 34.6 34.9 32.9 24.1 42.3 48.5 50.  22.6 24.4 22.5 24.4 20.
 21.7 19.3 22.4 28.1 23.7 25.  23.3 28.7 21.5 23.  26.7 21.7 27.5 30.1
 44.8 50.  37.6 31.6 46.7 31.5 24.3 31.7 41.7 48.3 29.  24.  25.1 31.5
 23.7 23.3 22.  20.1 22.2 23.7 17.6 18.5 24.3 20.5 24.5 26.2 24.4 24.8
 29.6 42.8 21.9 20.9 44.  50.  36.  30.1 33.8 43.1 48.8 31.  36.5 22.8
 30.7 50.  43.5 20.7 21.1 25.2 24.4 35.2 32.4 32.  33.2 33.1 29.1 35.1
 45.4 35.4 46.  50.  32.2 22.  20.1 23.2 22.3 24.8 28.5 37.3 27.9 23.9
 21.7 28.6 27.1 20.3 22.5 29.  24.8 22.  26.4 33.1 36.1 28.4 33.4 28.2
 22.8 20.3 16.1 22.1 19.4 21.6 23.8 16.2 17.8 19.8 23.1 21.  23.8 23.1
 20.4 18.5 25.  24.6 23.  22.2 19.3 22.6 19.8 17.1 19.4 22.2 20.7 21.1
 19.5 18.5 20.6 19.  18.7 32.7 16.5 23.9 31.2 17.5 17.2 23.1 24.5 26.6
 22.9 24.1 18.6 30.1 18.2 20.6 17.8 21.7 22.7 22.6 25.  19.9 20.8 16.8
 21.9 27.5 21.9 23.1 50.  50.  50.  50.  50.  13.8 13.8 15.  13.9 13.3
 13.1 10.2 10.4 10.9 11.3 12.3  8.8  7.2 10.5  7.4 10.2 11.5 15.1 23.2
  9.7 13.8 12.7 13.1 12.5  8.5  5.   6.3  5.6  7.2 12.1  8.3  8.5  5.
 11.9 27.9 17.2 27.5 15.  17.2 17.9 16.3  7.   7.2  7.5 10.4  8.8  8.4
 16.7 14.2 20.8 13.4 11.7  8.3 10.2 10.9 11.   9.5 14.5 14.1 16.1 14.3
 11.7 13.4  9.6  8.7  8.4 12.8 10.5 17.1 18.4 15.4 10.8 11.8 14.9 12.6
 14.1 13.  13.4 15.2 16.1 17.8 14.9 14.1 12.7 13.5 14.9 20.  16.4 17.7
 19.5 20.2 21.4 19.9 19.  19.1 19.1 20.1 19.9 19.6 23.2 29.8 13.8 13.3
 16.7 12.  14.6 21.4 23.  23.7 25.  21.8 20.6 21.2 19.1 20.6 15.2  7.
  8.1 13.6 20.1 21.8 24.5 23.1 19.7 18.3 21.2 17.5 16.8 22.4 20.6 23.9
 22.  11.9].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

## 4. 保存特征工程的结果到文件，供机器学习模型使用

In [None]:
fe_data = pd.DataFrame(data = X, columns = feat_names, index = df.index)
fe_data = pd.concat([fe_data, X_cat], axis = 1, ignore_index=False)

#加上标签y
fe_data["MEDV"] = y
fe_data["log_MEDV"] = log_y

#保存结果到文件
fe_data.to_csv('FE_boston_housing.csv', index=False)

In [None]:
fe_data.head()

In [None]:
fe_data.info()