# 特征缩放
特征缩放是用来统一资料中的自变项或特征范围的方法. 数据标准化就是特征缩放的一种.

特征缩放将数据集中各特征的缩放尺度标准化, 如特征A缩放尺度为千(即变化幅度多以千为单位), 特征B缩放尺度为十,
标准化后, 缩放范围都为 `[-1,1]`.

特征缩放后, 多维特征将具有相近的相似度, 对于 梯度下降/线性回归 等算法, 有助于提升收敛速度.

具体可参考 [为什么要对特征进行缩放](https://zhuanlan.zhihu.com/p/25234554), 源自
[梯度下降_Andrew Ng的机器学习课程](https://www.coursera.org/lecture/machine-learning/gradient-descent-in-practice-i-feature-scaling-xx3Da)

## 数据标准化
数据的标准化(normalization)是将数据按比例缩放, 使之落入一个小的特定区间. 去除数据的单位限制, 将其转化为无量纲的纯数值, 便于不同单位或量级的指标能够进行比较和加权.

常用的标准化方法有
1. 归一化: 将数据映射到 `[0,1]` 区间. 常见的归一化方法有
    - 离差标准化: 对原始数据的线性变换, 使结果落到 `[0,1]` 区间.
2. 标准差标准化(Z标准化): 经过处理的数据符合标准正态分布, 即均值为0, 标准差为1.

## 数据中心化
数据中心化, 又称零均值化, 数据集经处理后, 各特征的平均值为0, 对标准差无要求.


## 特征缩放的工具
可以借助 scikit-learn 库实现.

In [4]:
from sklearn import preprocessing
import numpy as np
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])

In [6]:
X_scaled = preprocessing.scale(X_train)
X_scaled
# preprocessing.scale??

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [None]:
# StandardScaler 去除均值并且将数据缩放到方差
preprocessing.StandardScaler().fit(X_train)

## 参考
- [数据标准化、归一化、中心化处理](https://zhuanlan.zhihu.com/p/33727799)
- [为什么要对特征进行缩放](https://zhuanlan.zhihu.com/p/25234554)