数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

常见的标准化方法，可以大体上分为三个类别：
* 中心化（Centering）：将所有数据减去均值，让数据分布在 0 值左右而非均值左右，聚焦于数据的差异；
* 缩放（Scaling）：将数据统一乘或者除一个因子，消除量级差异，有多种缩放方法适应不同需求；
* 转换（Transformation）：进行 Log 或者 Power 变换，消除异质性；

## Centering
公式： $\widetilde{x}_i=x_i-\overline{x}$

常被称为**中心化**，将数据从均值附近变换到0附近，对存在异方差的数据处理效果不佳。

## AutoScaling
公式: $\widetilde{x}_i=\frac{x_i-\overline{x}}{s}$

其中s是数据的标准差。常被称为**标准化**(Standardization)。将数据变为均值为0，方差为1的数据集。

## Min-Max Scaling
公式：$\widetilde{x}_i=\frac{x_i-x_{min}}{x_{max}-x_{min}}$

离差标准化，常被翻译为**归一化**(Normalization)，将数据缩放到[0,1]区间。对异常值敏感。

## L-Normalization
这类标准化将每个样本缩放到单位范数，主要有L1-normalization（L1范数），L2-normalization（L2范数）等。其主要思想是对每个样本计算其p范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的p范数等于1.

${\Vert X \Vert}_p = \sqrt[p]{{\vert x_1 \vert}^p + {\vert x_2 \vert}^p + ... + {\vert x_n \vert}^p}$

该方法主要应用于文本分类和聚类中。

## RangeScaling
公式：$\widetilde{x}_i=\frac{x_i-\overline{x}}{x_{max}-x_{min}}$

比较变化量相对于变化范围的比例以及变化方向；对异常值敏感。

## ParetoScaling
公式: $\widetilde{x}_i=\frac{x_i-\overline{x}}{\sqrt{s}}$

相对于AutoScaling保留了更多的原始值变化，对大的倍数差异敏感。

## VastScaling
公式: $\widetilde{x}_i=\frac{x_i-\overline{x}}{s} \cdot \frac{\overline{x}}{s}$

关注变动小的变量。

## LevelScaling
公式: $\widetilde{x}_i=\frac{x_i-\overline{x}}{\overline{x}}$

比较变化量相对均值的比例，适合用来发现生物标志物。

## LogTransformation
公式：

$\widetilde{x}_i=\log{x_i}$

$\widetilde{x}_i = \widetilde{x}_i - \overline{\widetilde{x}}$

消除异方差以及大的倍数差异影响，使数据线性化。

## PowerTransformation
公式：

$\widetilde{x}_i=\sqrt{x_i}$

$\widetilde{x}_i = \widetilde{x}_i - \overline{\widetilde{x}}$

消除异方差的影响，使数据线性化。选择合适的根次很重要。


## 参考资料
https://zhuanlan.zhihu.com/p/222331894
https://scikit-learn.org/stable/modules/preprocessing.html

In [2]:
from sklearn import preprocessing
import numpy as np

# scikit-learn中的preprocessing模块提供了一些标准化的方法

# 1. Standardization
X_train = np.array([[ 1., -1.,  2.], [ 2.,  0.,  0.], [ 0.,  1., -1.]])
# 这里fit其实没有做转换，相当于只是约定了一个后续transform操作的数据形状
scaler = preprocessing.StandardScaler().fit(X_train)

X_scaled = scaler.transform(X_train)
print(X_scaled)
print(X_scaled.mean(axis=0))
print(X_scaled.std(axis=0))

[[ 0.         -1.22474487  1.33630621]
 [ 1.22474487  0.         -0.26726124]
 [-1.22474487  1.22474487 -1.06904497]]
[0. 0. 0.]
[1. 1. 1.]


In [3]:
# 缩放到[0,1]之间
min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
print(X_train_minmax)

[[0.5        0.         1.        ]
 [1.         0.5        0.33333333]
 [0.         1.         0.        ]]


In [4]:
# 缩放到[-1,1]之间，每个特征除以最大值的绝对值
max_abs_scaler = preprocessing.MaxAbsScaler()
X_train_maxabs = max_abs_scaler.fit_transform(X_train)
print(X_train_maxabs)

[[ 0.5 -1.   1. ]
 [ 1.   0.   0. ]
 [ 0.   1.  -0.5]]


In [6]:
# L范数
norm_scaler = preprocessing.Normalizer(norm="l2")
X_train_norm = norm_scaler.fit_transform(X_train)
print(X_train_norm)

[[ 0.40824829 -0.40824829  0.81649658]
 [ 1.          0.          0.        ]
 [ 0.          0.70710678 -0.70710678]]


In [7]:
# 自定义对数变换
log_scaler = preprocessing.FunctionTransformer(np.log1p) # log(1+x)
X = np.array([[0, 1], [2, 3]])
X_log = log_scaler.fit_transform(X)
print(X_log)

[[0.         0.69314718]
 [1.09861229 1.38629436]]
