# 特征工程

上一节虽然介绍了机器学习的基本理念，但是所有示例都假设已经拥有一个干净的 `[n_samples, n_features]` 特征矩阵。其实在现实工作中，数据很少会这么干净。  
因此，机器学习实践中更重要的步骤之一是**特征工程**（`feature engineering`）——找到与问题有关的任何信息，把它们转换成特征矩阵的数值。

本节将介绍特征工程的一些常见示例：表示**分类数据**的特征、表示**文本**的特征和表示**图像**的特征。  
另外，还会介绍提高模型复杂度的**衍生特征**和处理缺失数据的**填充**方法。  
这个过程通常被称为**向量化**，因为它把任意格式的数据转换成具有良好特性的向量形式。

## 1. 分类特征

一种常见的非数值数据类型是**分类**数据。  
例如，浏览房屋数据的时候，除了看到“房价”（price）和“面积”（rooms）之类的数值特征，还会有“地点”（neighborhood）信息，数据可能像这样：

In [1]:
data = [
    {'price': 850000, 'rooms': 4, 'neighborhood': 'Queen Anne'},
    {'price': 700000, 'rooms': 3, 'neighborhood': 'Fremont'},
    {'price': 650000, 'rooms': 3, 'neighborhood': 'Wallingford'},
    {'price': 600000, 'rooms': 2, 'neighborhood': 'Fremont'}
]

你可能会把分类特征用映射关系编码成整数：

In [2]:
{'Queen Anne': 1, 'Fremont': 2, 'Wallingford': 3}

{'Queen Anne': 1, 'Fremont': 2, 'Wallingford': 3}

但是，在 `Scikit-Learn` 中这么做并不是一个好办法：这个程序包的所有模块都有一个基本假设，那就是数值特征可以反映代数量（`algebraic quantities`）。  
因此，这样映射编码可能会让人觉得存在 `Queen Anne < Fremont < Wallingford`，甚至还有 `Wallingford - Queen Anne = Fremont`，这显然是没有意义的。

面对这种情况，常用的解决方法是**独热编码**。它可以有效增加额外的列，让 `0` 和 `1` 出现在对应的列分别表示每个分类值有或无。  
当你的数据是像上面那样的字典列表时，用 `Scikit-Learn` 的 `DictVectorizer` 类就可以实现：

In [3]:
from sklearn.feature_extraction import DictVectorizer

vec = DictVectorizer(sparse=False, dtype=int)
vec.fit_transform(data)

array([[     0,      1,      0, 850000,      4],
       [     1,      0,      0, 700000,      3],
       [     0,      0,      1, 650000,      3],
       [     1,      0,      0, 600000,      2]])

你会发现，`neighborhood` 字段转换成三列来表示三个地点标签，每一行中用 `1` 所在的列对应一个地点。当这些分类特征编码之后，你就可以和之前一样拟合 `Scikit-Learn` 模型了。  
如果要看每一列的含义，可以用下面的代码查看特征名称：

In [5]:
# FutureWarning: Function get_feature_names is deprecated; get_feature_names is deprecated in 1.0 and will be removed in 1.2. Please use get_feature_names_out instead.
# vec.get_feature_names()
vec.get_feature_names_out()

array(['neighborhood=Fremont', 'neighborhood=Queen Anne',
       'neighborhood=Wallingford', 'price', 'rooms'], dtype=object)

但这种方法也有一个显著的缺陷：如果你的分类特征有许多枚举值，那么数据集的维度就会急剧增加。然而，由于被编码的数据中有许多 `0`，因此用稀疏矩阵表示会非常高效：

In [6]:
vec = DictVectorizer(sparse=True, dtype=int)
vec.fit_transform(data)

<4x5 sparse matrix of type '<class 'numpy.int64'>'
	with 12 stored elements in Compressed Sparse Row format>

在拟合和评估模型时，`Scikit-Learn` 的许多（并非所有）评估器都支持稀疏矩阵输入。  
`sklearn.preprocessing.OneHotEncoder` 和 `sklearn.feature_extraction.FeatureHasher` 是 `Scikit-Learn` 另外两个为分类特征编码的工具。

## 2. 文本特征

In [None]:
另一种常见的特征工程需求是将文本转换成一组数值。例如，绝大多数
社交媒体数据的自动化采集，都是依靠将文本编码成数字的技术手段。
数据采集最简单的编码方法之一就是 单词统计：给你几个文本，让你
统计每个词出现的次数，然后放到表格中。

## 3. 图像特征

## 4. 衍生特征

## 5. 缺失值填充

## 6. 特征管道