# 特征缩放
特征缩放用于统一数据集中各特征的值的范围, 如多个特征使用的不同的量纲, 数据缩放后, 数据集变为无量纲值.
- 量纲, 即单位.

---
特征缩放的意义

对数据集进行缩放后, 多个特征将具有相近的相似度, 有助于提升 梯度下降/线性回归 等算法的收敛速度.
这也称为 数据标准化.
- 问: 特征缩放如何加快收敛速度的.
- 答: (个人猜测, 需要证实) 当某个特征变化范围明显大于其他值时, 对于线性回归算法, 进行收敛计算时, 该系数的变化过于影响整体结果,
    需要注意的是, 需要对训练集,测试集进行相同的数据处理.

具体可参考 [为什么要对特征进行缩放](https://zhuanlan.zhihu.com/p/25234554), 源自
[梯度下降_Andrew Ng的机器学习课程](https://www.coursera.org/lecture/machine-learning/gradient-descent-in-practice-i-feature-scaling-xx3Da)

---
特征缩放的使用

数据标准化常用的方法有 标准化(Z标准化), 归一化等. 大多数标准化方法不是将数据都是尽量在缩放特征值范围的同时, 尽量保证数据分布的一致性.
但是, 数据中 极值/异常值 的情况会影响特征缩放的效果, 使标准化后的数据分布与原数据差异较大, 所以建议在数据标准化前优先对数据进行预处理.

标准化算法的公式参考下文.
不同标准化对数据的影响参考下文 
[不同缩放器对数据的影响 sklearn](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html#sphx-glr-auto-examples-preprocessing-plot-all-scaling-py)

## 数据标准化
数据的标准化(normalization)是将数据按比例缩放, 使之落入一个小的特定区间. 去除数据的单位限制, 将其转化为无量纲的纯数值, 便于不同单位或量级的指标能够进行比较和加权.

标准化和最大最小值归一化是常用的方法.

具体API参考 [sklearn.preprocessing API](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing)

### 标准化
标准化, 又称 Z标准化, 经过处理的数据符合标准正态分布. 即 每个特征(每一列) 均值为0, 标准差为1.

假设 u 为平均值, SD 为标准差

$ Z = \frac{X-\mu}{SD} $

In [6]:
from sklearn import preprocessing
import numpy as np
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])

In [5]:
# 借助 scikit-learn 库实现Z标准化
X_scaled = preprocessing.scale(X_train)
print(X_scaled)
mean = X_scaled.mean(axis=0)
print('mean: ', mean)
std = X_scaled.std(axis=0)
print('std: ', std)

[[ 0.         -1.22474487  1.33630621]
 [ 1.22474487  0.         -0.26726124]
 [-1.22474487  1.22474487 -1.06904497]]
mean:  [0. 0. 0.]
std:  [1. 1. 1.]


`preprocessing.scale` 用于只需要缩放一次的数据集. 通常情况下我们需要同时缩放 训练集和测试集, 
此时可以使用`preprocessing.StandardScaler`

用法如下
1. 使用 `StandardScaler()` 创建 缩放器(scaler)
2. 使用 `scaler.fit(data)` 获取数据集的方差和平均值等信息, 存储备用
3. 使用 `scaler.transform(data)` 执行缩放.

具体参考 [StandardScaler API](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html_

In [14]:
scaler = preprocessing.StandardScaler().fit(X_train)
print('scaler: ', scaler)
print('mean: ', scaler.mean_)
print('variance: ', scaler.var_)
scaler.transform(X_train)

scaler:  StandardScaler(copy=True, with_mean=True, with_std=True)
mean:  [1.         0.         0.33333333]
variance:  [0.66666667 0.66666667 1.55555556]


array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

### 归一化
归一化也可以将有量纲经过转换变为无量纲.

一般而言, 归一化通过对数据的缩放和位移实现.

常见的归一化方法有
1. 最大最小归一化, 将数据缩放到 `[0,1]` 或者 `[-1,1]`.
2. 均值归一化.

---
最大最小归一化

$ x' = \frac{x-min(x)} {max(x)-min(x)} $

缩放到任意 `[a,b]` 区间

$ x' = a + \frac{(x-min(x)) * (b-a)} {max(x)-min(x)} $

---
均值归一化

$ x' = \frac{x-mean(x)}{max(x)-min(x)}  $

标准化(Z标准化)形式与平均归一化类似, 将分母换位标准差即是 标准化.

In [16]:
# preprocessing.MinMaxScaler
min_max_scaler = preprocessing.MinMaxScaler()
# fit_transform 收集数据信息, 然后执行缩放. 
X_train_minmax = min_max_scaler.fit_transform(X_train)
X_train_minmax

array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

### 正则化
正则化用于缩放特征向量的分量, 使整个向量长度为1.

暂时不学习这个.

## 数据中心化
数据中心化, 又称零均值化, 数据集经处理后, 各特征的平均值为0, 对标准差无要求.

## 参考
- [数据标准化、归一化、中心化处理](https://zhuanlan.zhihu.com/p/33727799)
- [为什么要对特征进行缩放](https://zhuanlan.zhihu.com/p/25234554)