# 机器学习私房手册-特征工程

In [2]:
import numpy
import pandas as pd
from numpy import arange
from matplotlib import pyplot
from pandas.plotting import scatter_matrix
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, KFold, cross_val_score, GridSearchCV
from sklearn.linear_model import LinearRegression, Lasso, ElasticNet
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, ExtraTreesRegressor, AdaBoostRegressor
from sklearn.metrics import mean_squared_error

## 特征工程

类别数据需要映射成数字类型，比如一个`street_name`的特征，其中的选项包含`{'Charleston Road', 'North Shoreline Boulevard', 'Shorebird Way', 'Rengstorff Avenue'}`。我们可以这样映射：
```python
{ 
  'Charleston Road': 0,
  'North Shoreline Boulevard': 1,
  'Shorebird Way': 2,
  'Rengstorff Avenue':3
}
```
这里会有一个问题，世界上的每条街道并非都会出现在我们的数据集中，因此可以将所有其它街道分组为一个全部包罗的“其他”类别，这被称为称为 OOV（词汇表外）分桶：
```python
{ 
  'Charleston Road': 0,
  'North Shoreline Boulevard': 1,
  'Shorebird Way': 2,
  'Rengstorff Avenue':3,
  'OOV':4
}
```
<font color="red">**疑问：如果特征中没有所谓的其它街道，全部都是具体的街道名称，当数据中包含训练数据中没有的街道名称怎么办？**</font>

但是对街道名称进行整数的编号，会默认街道名称是有序的，对于线性回归这样的算法，会用`权重*属性值`，这潜在的给街道名称增加了信息，会假设街道名称按照平均房价进行了排序，如果是神经网络的话，模型就需要为不同的街道学习不同的权重，并且这些权重会添加到利用其它特征估算的房价中。

<font color="red">**疑问：简单的线性回归没有隐藏层，街道名称最终只会有一个权重，此时如果街道名称本身不存在任何顺序，感觉这个属性会成为噪声，降低模型的准确率？**</font>

此时需要将分类数据转换为独热编码，注意独热编码和哑变量的区别，哑变量比独热编码少一维，使用0来表示最后一维。
- [Ordinal and One-Hot Encodings for Categorical Data](https://machinelearningmastery.com/one-hot-encoding-for-categorical-data/)

## 良好特征的特点

### 避免很少使用的特征值

避免很少使用的离散特征值，良好的特征值应该在数据集中出现大约5次以上，这样模型才能学习特征与标签是如何关联的，避免使用那种独一无二的特征值，比如id编号之类的，没有任何意义。

### 最好具有清晰明确的定义

比如年龄，`age: 27`，但是如果使用一个编号来表示，`age: m00327`，容易造成的结果是，无法检查它是否恰当---大于120的年龄或者小于1的年龄肯定是有问题的。

### 实际数据中不要参入特殊值

比如没有输入年龄，可能会用`-1`或者`999`表示，这显然是不合理的。

为解决特殊值的问题，需将该特征转换为两个特征：
1. 一个特征只存储质量评分，不含特殊值。
2. 一个特征存储布尔值，表示是否提供了 quality_rating。为该布尔值特征指定一个名称，例如 is_quality_rating_defined。

<font color="red">**疑问：具体如何操作？？比如，就算分成两个特征，存储质量评分的特征列仍然存在未定义的值啊？**</font>

## 清理特征

### 缩放特征值

缩放的原因有3：
1. 帮助梯度下降法更快速地收敛。
2. 帮助避免“NaN 陷阱”。在这种陷阱中，模型中的一个数值变成 NaN（例如，当某个值在训练期间超出浮点精确率限制时），并且模型中的所有其他数值最终也会因数学运算而变成 NaN。
3. 帮助模型为每个特征确定合适的权重。如果没有进行特征缩放，则模型会对范围较大的特征投入过多精力。

不需要对每个浮点特征进行完全相同的缩放。即使特征 A 的范围是 -1 到 +1，同时特征 B 的范围是 -3 到 +3，也不会产生什么恶劣的影响。不过，如果特征 B 的范围是 5000 到 100000，您的模型会出现糟糕的响应。

### 处理极端离群值

#### 方法1：取对数

比如加利福尼亚住房数据集的`roomsPerPerson`的特征，计算方法是`roomsPerPerson = totalRooms / population`，人均房间数。取对数变成：
```
roomsPerPerson = log((totalRooms / population) + 1)
```

#### 将特征值限制到某个阈值

对于人均房间这个指标，最大到4比较合理，因此可以把这个指标限制在4以内：
```
roomsPerPerson = min((totalRooms / population), 4)
```

### 分箱

比如住房数据集中的纬度，纬度可能和标签有关，但是纬度的数值和标签之间并不存在明确的线性关系，此时可以进行分箱，然后再转换成独热编码，比如分成11份，此时维度37.4就表示为：
```
[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0]
```
此时模型就可以为每个纬度学习完全不同的权重。

## 特征组合

### 对非线性规律进行编码

特征组合最大的好处，是可以将非线性的特征转化成可以用线性来判断，比如：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)
x1和x2相乘后，第1和第3象限的值全部为正，第2和第4象限的值为负，此时就变得线性可分。

### 组合独热矢量

在实践中，机器学习模型很少会组合连续特征，像上面的数据，如果不是符合这种特殊的分布，组合未必有用。但是，机器学习模型却经常组合独热特征矢量，将独热特征矢量的特征组合视为逻辑连接，比如对经度和维度进行分箱以后：
```
binned_latitude(lat) = [
  0  < lat <= 10
  10 < lat <= 20
  20 < lat <= 30
]

binned_longitude(lon) = [
  0  < lon <= 15
  15 < lon <= 30
]
```
现在一共5列数据，组合`[binned_latitude(lat) X binned_longitude(lon)]`以后，就生成具有以下含义的合成特征：
```
binned_latitude_X_longitude(lat, lon) = [
  0  < lat <= 10 AND 0  < lon <= 15
  0  < lat <= 10 AND 15 < lon <= 30
  10 < lat <= 20 AND 0  < lon <= 15
  10 < lat <= 20 AND 15 < lon <= 30
  20 < lat <= 30 AND 0  < lon <= 15
  20 < lat <= 30 AND 15 < lon <= 30
]
```

<font color="red">**疑问：关键是，如何在python里面实现呢？**</font>