参考: [CNN 入门讲解：什么是标准化(Normalization)？](https://zhuanlan.zhihu.com/p/35597976)

## min-max 标准化 (Min-max normalization)

又名离差标准化,是对原始数据的线性转化,公式如下

\begin{equation*}
x^* = \frac{x-\min}{\max-\min}
\end{equation*}


- `max` : 样本最大值;
- `min`: 样本最小值; 

**注意**: 当有新数据加入时需要重新进行数据归一化 

## z-score 标准化 (zero-mean normalization)

又名标准差标准化,归一化后的数据呈正态分布,即均值为零,标准差为一公式如下:

\begin{equation*}
x^* = \frac{x-\mu}{\sigma}
\end{equation*}


其中 $\mu$ 为所有样本数据的均值, $\sigma$ 为所有样本数据的标准差.

这对许多的算法更加有利, 但是其缺点在于假如原始数据没有呈高斯分布, 标准化的数据分布效果并不好.

### Z-score 用 Python 代码实现

实现时有 2 种不同的方式：

- 使用 `sklearn.preprocessing.scale()`函数，直接将数据进行标准化。
- 使用 `sklearn.preprocessing.StandardScaler` 类，其优点可以保存训练数据中的参数（均值、方差），也可以直接使用其对象转换 (`transform`) 其测试集数据。

In [3]:
from sklearn import preprocessing
import numpy as np

In [4]:
X = np.array([[1., -1., 2.], [2., 0., 0.], [0., 1., -1.]])

In [6]:
X_scaled = preprocessing.scale(X)
X_scaled

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [7]:
scaler = preprocessing.StandardScaler().fit(X)
scaler

StandardScaler(copy=True, with_mean=True, with_std=True)

In [8]:
scaler.mean_

array([1.        , 0.        , 0.33333333])

In [10]:
scaler.scale_

array([0.81649658, 0.81649658, 1.24721913])

In [11]:
scaler.transform(X)

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [12]:
# 可以直接使用训练集对测试集数据进行转换

scaler.transform([[-1.,  1., 0.]])

array([[-2.44948974,  1.22474487, -0.26726124]])

## atan 反正切函数标准化

公式如下:
    
\begin{equation*}
x^* = \frac{2}{\pi}atan(x)
\end{equation*}


问题: 数据必须大于 $0$, 大于 $0$ 的函数将会被映射到 $[-1,0]$ 上.

##  log 函数标准化

公式如下:
    
\begin{equation*}
x^* = \log_{10}(x)
\end{equation*}


问题: 
    
a. 数据必须大于等于 $1$. 
b. 如果数值大于 $10^10$, 那么映射的数据将大于 $1$. 

解决方案,改变公式为

\begin{equation*}
x^* = \log_{10}(x) / \log_{10}(\max) 
\end{equation*}

保证样本均映射到 $[0,1]$.

标准化常用的是 Z-Score, 记住, 这是要减去自己数据的均值和除以自己的标准差.

大家在用 Fine-tune pretrained model, 比如 Imagenet, 程序里面经常是减去的 Imagenet 的均值和方差, 这样是不对的, 大家在跑程序的时候要注意了.
