## **归一化与标准化**

#### 1. 归一化
数据按比例缩放到一个固定距离之间, [xmin, xmax], 一般是用[0, 1], [-1, 1]

$$x' = \frac{x - x_{\min}}{x_{\max} - x_{\min}}$$

$$x' = 2 \times \frac{x - x_{\min}}{x_{\max} - x_{\min}} - 1$$

归一化的主要目的:
1. 消除掉量纲的差异: 不同特征的量纲可能差异巨大(例如身高以米为单位, 体重以千克为单位), 归一化可以消除这种量纲带来的差异, 避免模型被大范围的特征主导
2. 可以加速模型的收敛, 对于梯度下降等优化算法, 归一化处理后特征处在相近的尺度, 优化的路径会更平滑, 收敛速度更快
3. 适配特定的模型需求, 某些模型(例如神经网络, K近邻, SVN), 对输入数据的范围较为敏感, 归一化可以显著提升其性能

归一化使用场景:

归一化不改变数据的原始分布形状, 但是对异常值敏感. 当数据分布有明显的边界(例如图像像素值, 文本词频), 或者模型对输入数据范围敏感时可以优先考虑归一化

In [9]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler  # 引入归一化器

In [10]:
X = [[2, 1], [3, 1], [1, 4], [2, 6]]
scaler = MinMaxScaler(feature_range=(-1, 1))
X = scaler.fit_transform(X)
print(X)

[[ 0.  -1. ]
 [ 1.  -1. ]
 [-1.   0.2]
 [ 0.   1. ]]


#### 2. 标准化

将数据调整为均值为0, 标准差为1的标准分布
$$x' = \frac{x - \mu}{\sigma}$$

其中
$\mu = \frac{\sum_{i=1}^{n} x_i}{n}$ 是平均值，
$\sigma = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}}$ 是标准差。

标准化的主要目的:
1. 适应数据分布: 将数据转换为了一个平均值为0, 标准差为1的分布, 适合假设数据服从正态分布的模型
2. 稳定模型训练: 标准化后的数据对异常值敏感度较低(相比归一化), 鲁棒性更强了
3. 统一特征尺度: 消除了量纲的差异, 但是更加关注统计分布而非固定范围

标准化使用场景:

大多数场景下标准化更加常用, 尤其是数据分布未知存在轻微异常值时

In [11]:
from sklearn.preprocessing import StandardScaler    # 导入标准化工具

In [13]:
# 创建数据
X = np.array([[2, 1], [3, 1], [1, 4], [2, 6]])

In [6]:
# 标准化器
scaler = StandardScaler()
X_scaler = scaler.fit_transform(X)
print(X_scaler)

[[ 0.         -0.94280904]
 [ 1.41421356 -0.94280904]
 [-1.41421356  0.47140452]
 [ 0.          1.41421356]]


In [16]:
# 验证
mean = np.mean(X, axis=0)
std = np.std(X, axis=0)
print((X - mean) / std)

[[ 0.         -0.94280904]
 [ 1.41421356 -0.94280904]
 [-1.41421356  0.47140452]
 [ 0.          1.41421356]]
