"""
案例: 演示特征预处理之 标准化操作.

回顾: 特征工程的目的 和 步骤
    目的:
        利用专业的背景知识 和 技巧处理数据, 用于提升 模型的性能.
    步骤:
        1. 特征提取.
        2. 特征预处理(归一化, 标准化)
        3. 特征降维.
        4. 特征选择.
        5. 特征组合.


特征预处理之 标准化介绍:
    目的:
        防止因为量纲(单位)问题, 导致特征列的方差值相差较大, 影响模型的最终结果.
        所以通过公式把 各列的值 映射到 均值为0, 标准差为1的 正态分布序列.
    公式:
        x'  = (当前值 - 该列平均值) / 该列的标准差

    应用场景:
        适用于 大数据集 的处理.

    结论:
        无论是归一化, 还是标准化, 目的都是为了解决因为量纲(单位)问题, 导致模型评估较低等问题.

回顾:
    方差计算公式: 该列每个值 和 该列均值的差 的平方和 的 平均值.
    标准差计算公式: 方差开平方根
"""

In [2]:
# 导包
from sklearn.preprocessing import StandardScaler  # 标准化对象

In [3]:
# 1. 准备数据集(标准化之前的原数据).
x_train = [[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]]


In [4]:
# 2. 创建标准化对象.
transfer = StandardScaler()

In [5]:
# 3. 对原数据集进行标准化操作.
x_train_new = transfer.fit_transform(x_train)

In [6]:
# 4. 打印处理后的数据.
print('标准化后的数据集为: \n')
print(x_train_new)

标准化后的数据集为: 

[[ 1.22474487 -1.22474487 -1.29777137 -1.3970014 ]
 [-1.22474487  1.22474487  1.13554995  0.50800051]
 [ 0.          0.          0.16222142  0.88900089]]
