### 什么是特征工程
使用**专业背景知识和技巧处理数据，以使特征在机器学习上发挥更好的作用**

### 特征工程的位置与数据处理的比较
* pandas: 一个数据读取非常方便以及基本的处理格式的工具
* sklearn: 对于特征的处理提供了强大的接口

#### 特征工程包含内容：
* 特征抽取
* 特征预处理
* 特征降维

## 特征抽取/特征提取
机器学习算法 - 统计方法 - 数学公式  
文本类型 -> 数值

1. 将任意数据转换为机器学期可用的数字特征
  * 字典特征提取
  * 文本特征提取
  * 图像特征提取
2. 特征提取API  
`sklearn.feature_extraction`  
   1. 字典特征提取 -> 类别 -> ont-hot编码
      * sklearn.feature_extraction.DictVectorizer(space=True, ...)
         * DictVectorizer.fit_transform(X) X:字典或包含字典的迭代器 返回值：返回sparse 稀疏矩阵
         * DictVectorizer.inverse_transform(X) X:array数组或sparse矩阵 返回值：转换之前的数据格式
         * DictVectorizer.get_feature_names() 返回类别名称  
         * 父类：transformer 转换器

   矩阵 matrix 二维数组  
   向量 vector 一维数组
  

In [9]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer

def dict_demo():
    """
    字典特征抽取
    :return:
    """
    data = [{'city':'上海', 'temperature':100}, {'city':'北京', 'temperature':60}, {'city':'深圳', 'temperature':30}]
    # 1. 实例化一个转化器类
    transferT = DictVectorizer()
    # 2. 调用fit_transform()
    data_new = transferT.fit_transform(data)
    print(data_new)

    print("\n")
    transferF = DictVectorizer(sparse=False)
    data_new = transferF.fit_transform(data)
    print(data_new)
    print('特征属性：', transferF.get_feature_names())

    return None

if __name__ == "__main__":
    dict_demo()

  (0, 0)	1.0
  (0, 3)	100.0
  (1, 1)	1.0
  (1, 3)	60.0
  (2, 2)	1.0
  (2, 3)	30.0


[[  1.   0.   0. 100.]
 [  0.   1.   0.  60.]
 [  0.   0.   1.  30.]]
特征属性： ['city=上海', 'city=北京', 'city=深圳', 'temperature']


sparse 稀疏矩阵：
* 将非零值按左边元祖所示位置表示出来
* 节省内存：提高加载效率

## 应用场景
1. 数据集当中类别特征比较多
   1. 将数据集的特征 -》 字典类型
   2. DictVectorizer转换
2. 本身拿到的数据就是字典类型