数据集的标准化是 scikit-learn 中实现许多机器学习评估器的普遍要求；如果个别特征看起来或多或少不像标准正太分布数据（均值和单位方差为零的高斯分布），则它们的性能可能不好。

在实践中，我们通常会忽略分布的形状，而只是通过删除每个特征的平均值来实现特征数据中心化，然后除以非常数特征的标准差来缩放数据。

例如，学习算法的目标函数中使用的许多元素（例如支持向量机的RBF内核或线性模型的l1和l2正则化器）都假定所有特征都围绕零为中心并且具有相同阶数的方差。如果某个特征的方差比其他特征大几个数量级，则它可能会极大影响目标函数，并使估计器无法按预期从其他特征中正确学习。

scale函数提供了一种简单快捷的方法来对单个类似数组的数据集执行此操作：

In [17]:
from sklearn import preprocessing
import numpy as np
X_train = np.array([[1., -1., 2.],
                    [2., 0.,  0.],
                    [0., 1.,  -1.]])
X_scaled = preprocessing.scale(X_train, axis=0)

In [18]:
X_scaled

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [19]:
# 缩放的数据具有 0均值 和 单位方差
print(X_scaled.mean(axis=0))
print(X_scaled.std(axis=0))

[0. 0. 0.]
[1. 1. 1.]


## StandardScaler 使用细节

StandardScaler 是 scikit-learn 中用于特征标准化（Standardization）的工具，它能将特征转换为均值为 0、方差为 1 的标准正态分布。下面详细介绍其用法，并提供示例代码。    

### 一、核心功能与数学原理
StandardScaler 实现了以下转换：    

![image.png](attachment:aca85df8-ee70-4740-ba50-faa1a428a890.png)

其中：
 * \(\mu\) 是训练数据的均值（mean）
 * \(\sigma\) 是训练数据的标准差（standard deviation）
 * 转换后的数据 \(x'\) 的均值为 0，方差为 1

### 二、使用步骤与 API

1. 初始化：创建 StandardScaler 对象
2. 拟合数据：通过 fit(X) 计算训练数据的均值和标准差
3. 转换数据：通过 transform(X) 应用标准化
4. 逆转换（可选）：通过 inverse_transform(X) 恢复原始数据尺度

#### 重要 API：

 * fit(X[, y])：计算并存储均值 \(\mu\) 和标准差 \(\sigma\)
 * transform(X)：执行标准化转换
 * fit_transform(X[, y])：一步完成拟合和转换
 * inverse_transform(X)：将标准化后的数据还原为原始尺度
 * mean_：查看拟合后的均值（numpy 数组）
 * scale_：查看拟合后的标准差（numpy 数组）

In [20]:
import numpy as np
from sklearn.preprocessing import StandardScaler

# 创建示例数据（3个样本，2个特征）
X_train = np.array([[1, -1], 
                    [0, 1], 
                    [2, 0]])

# 1. 初始化 StandardScaler
scaler = StandardScaler()

# 2. 拟合数据并转换（一步完成）
X_scaled = scaler.fit_transform(X_train)

# 3. 查看转换后的数据
print("标准化后的数据 X_scaled:\n", X_scaled)
# 输出：
# [[ 0.         -1.22474487]
#  [-1.22474487  1.22474487]
#  [ 1.22474487  0.        ]]

# 4. 查看统计参数
print("均值 μ:", scaler.mean_)  # 输出: [1.         0.        ]
print("标准差 σ:", scaler.scale_)  # 输出: [0.81649658 0.81649658]

# 5. 对新数据应用相同的转换（测试集）
X_test = np.array([[3, -2]])
X_test_scaled = scaler.transform(X_test)
print("测试集标准化后的数据:\n", X_test_scaled)
# 输出：
# [[2.44948974 -2.44948974]]

# 6. 逆转换：从标准化数据恢复原始数据
X_original = scaler.inverse_transform(X_scaled)
print("恢复原始数据:\n", X_original)
# 输出：
# [[1. -1.]
#  [0.  1.]
#  [2.  0.]]

标准化后的数据 X_scaled:
 [[ 0.         -1.22474487]
 [-1.22474487  1.22474487]
 [ 1.22474487  0.        ]]
均值 μ: [1. 0.]
标准差 σ: [0.81649658 0.81649658]
测试集标准化后的数据:
 [[ 2.44948974 -2.44948974]]
恢复原始数据:
 [[ 1.00000000e+00 -1.00000000e+00]
 [ 1.11022302e-16  1.00000000e+00]
 [ 2.00000000e+00  0.00000000e+00]]
