# 特征工程
> 特征工程的处理流程位**首先去掉无用特征**，接着**去除冗余的特征**，如共线特征，并利用存在的特征、转换特征、内容中的特征以及其他数据源**生成新特征**，然后**对特征进行转换**（数值化、类别转换、归一化等），最后对**特征进行处理**（异常值、最大值、最小值、缺失值等）以符合模型的使用。
> 简单来说，特征工程的处理一般包括**数据预处理**、**特征处理**、**特征选择**等工作

In [1]:
#1. 数据预处理：数据采集、数据清洗、数据采样

In [2]:
#2. 特征处理：标准化、区间缩放法、归一化

In [14]:
#标准化 是依照特征矩阵的列处理数据，即通过求标准分数的方法，将特征转换位标准正态分布，并和整体样本分布相关。每个样本点都能对标准化产生影响。
#标准化需要计算特征的均值和标准差
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris

iris = load_iris()
#标准化
print(iris.data[0:5])
print("=====标准化=====")
StandardScaler().fit_transform(iris.data)[0:5]

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
=====标准化=====


array([[-0.90068117,  1.01900435, -1.34022653, -1.3154443 ],
       [-1.14301691, -0.13197948, -1.34022653, -1.3154443 ],
       [-1.38535265,  0.32841405, -1.39706395, -1.3154443 ],
       [-1.50652052,  0.09821729, -1.2833891 , -1.3154443 ],
       [-1.02184904,  1.24920112, -1.34022653, -1.3154443 ]])

In [12]:
# 区间缩放法
from sklearn.preprocessing import MinMaxScaler
# 区间缩放，返回值为缩放到[0,1]区间的数据
MinMaxScaler().fit_transform(iris.data)[0:5]


array([[0.22222222, 0.625     , 0.06779661, 0.04166667],
       [0.16666667, 0.41666667, 0.06779661, 0.04166667],
       [0.11111111, 0.5       , 0.05084746, 0.04166667],
       [0.08333333, 0.45833333, 0.08474576, 0.04166667],
       [0.19444444, 0.66666667, 0.06779661, 0.04166667]])

In [13]:
# 归一化
# 归一化是将样本的特征值转换到同一量纲下，把数据映射到[0,1]或者[a,b]区间内，由于其仅由变量的极值
# 决定，因此区间缩放法是归一化的一种
# 归一区间会改变数据的原始距离、分布和信息，但标准化不会
from sklearn.preprocessing import Normalizer
Normalizer().fit_transform(iris.data)[0:5]

array([[0.80377277, 0.55160877, 0.22064351, 0.0315205 ],
       [0.82813287, 0.50702013, 0.23660939, 0.03380134],
       [0.80533308, 0.54831188, 0.2227517 , 0.03426949],
       [0.80003025, 0.53915082, 0.26087943, 0.03478392],
       [0.790965  , 0.5694948 , 0.2214702 , 0.0316386 ]])

# 总结一下
归一化与标准化的使用场景
* 如果对输出结果范围有要求，则用归一化
* 如果数据较为稳定，不存在极端的最大值或最小值，则用归一化
* 如果数据存在异常值和较多噪声，则用标准化，这样可以通过中心化间接避免异常值和极端值的影响
* 支持向量机、K近邻、主成分分析等模型都必须进行归一化或标准化操作

In [17]:
# 定量特征二值化
from sklearn.preprocessing import Binarizer
Binarizer(threshold=3).fit_transform(iris.data)[0:5]

array([[1., 1., 0., 0.],
       [1., 0., 0., 0.],
       [1., 1., 0., 0.],
       [1., 1., 0., 0.],
       [1., 1., 0., 0.]])

In [19]:
# 定量特征哑编码
from sklearn.preprocessing import OneHotEncoder
OneHotEncoder(categories='auto').fit_transform(iris.target.reshape(-1,1))

<1x3 sparse matrix of type '<class 'numpy.float64'>'
	with 1 stored elements in Compressed Sparse Row format>

In [21]:
# 缺失值处理
from numpy import vstack, array, nan
from sklearn.impute import SimpleImputer
# 参数strategy 为缺失值的填充方式，默认为mean（均值）
SimpleImputer().fit_transform(vstack((array([nan,nan,nan,nan]),iris.data)))

array([[5.84333333, 3.05733333, 3.758     , 1.19933333],
       [5.1       , 3.5       , 1.4       , 0.2       ],
       [4.9       , 3.        , 1.4       , 0.2       ],
       [4.7       , 3.2       , 1.3       , 0.2       ],
       [4.6       , 3.1       , 1.5       , 0.2       ],
       [5.        , 3.6       , 1.4       , 0.2       ],
       [5.4       , 3.9       , 1.7       , 0.4       ],
       [4.6       , 3.4       , 1.4       , 0.3       ],
       [5.        , 3.4       , 1.5       , 0.2       ],
       [4.4       , 2.9       , 1.4       , 0.2       ],
       [4.9       , 3.1       , 1.5       , 0.1       ],
       [5.4       , 3.7       , 1.5       , 0.2       ],
       [4.8       , 3.4       , 1.6       , 0.2       ],
       [4.8       , 3.        , 1.4       , 0.1       ],
       [4.3       , 3.        , 1.1       , 0.1       ],
       [5.8       , 4.        , 1.2       , 0.2       ],
       [5.7       , 4.4       , 1.5       , 0.4       ],
       [5.4       , 3.9       ,

In [22]:
# 数据转换
# 常见的数据转换有基于多项式的、指数函数的和对数函数的转换方式
from sklearn.preprocessing import PolynomialFeatures
# 多项式转换
# 参数degree为度 默认为2
PolynomialFeatures().fit_transform(iris.data)

array([[ 1.  ,  5.1 ,  3.5 , ...,  1.96,  0.28,  0.04],
       [ 1.  ,  4.9 ,  3.  , ...,  1.96,  0.28,  0.04],
       [ 1.  ,  4.7 ,  3.2 , ...,  1.69,  0.26,  0.04],
       ...,
       [ 1.  ,  6.5 ,  3.  , ..., 27.04, 10.4 ,  4.  ],
       [ 1.  ,  6.2 ,  3.4 , ..., 29.16, 12.42,  5.29],
       [ 1.  ,  5.9 ,  3.  , ..., 26.01,  9.18,  3.24]])

In [26]:
#对数变换
from numpy import log1p
from sklearn.preprocessing import FunctionTransformer
FunctionTransformer(log1p,validate=False).fit_transform(iris.data)

array([[1.80828877, 1.5040774 , 0.87546874, 0.18232156],
       [1.77495235, 1.38629436, 0.87546874, 0.18232156],
       [1.74046617, 1.43508453, 0.83290912, 0.18232156],
       [1.7227666 , 1.41098697, 0.91629073, 0.18232156],
       [1.79175947, 1.5260563 , 0.87546874, 0.18232156],
       [1.85629799, 1.58923521, 0.99325177, 0.33647224],
       [1.7227666 , 1.48160454, 0.87546874, 0.26236426],
       [1.79175947, 1.48160454, 0.91629073, 0.18232156],
       [1.68639895, 1.36097655, 0.87546874, 0.18232156],
       [1.77495235, 1.41098697, 0.91629073, 0.09531018],
       [1.85629799, 1.54756251, 0.91629073, 0.18232156],
       [1.75785792, 1.48160454, 0.95551145, 0.18232156],
       [1.75785792, 1.38629436, 0.87546874, 0.09531018],
       [1.66770682, 1.38629436, 0.74193734, 0.09531018],
       [1.91692261, 1.60943791, 0.78845736, 0.18232156],
       [1.90210753, 1.68639895, 0.91629073, 0.33647224],
       [1.85629799, 1.58923521, 0.83290912, 0.33647224],
       [1.80828877, 1.5040774 ,

# 总结一下
