# 归一化和标准化
- 掌握归一化和标准化的作用
- 了解归一化和标准化的计算方法

---

# 1、为什么作归一化和标准化？
> 样本中有多个特征，每一个特征都有自己的定义域和取值范围，他们对距离计算也是不同的，如取值较大的影响力会盖过取值较小的参数。因此，为了公平，样本参数必须做一些归一化处理，将不同的特征都缩放到相同的区间或者分布内。

# 2、归一化
概念： 归一化是一种简化计算的方法，将有量纲的表达式经过转化变成无量纲的表达式。
公式：

![归一化公式](../img/归一化公式.png)

归一化的主要好处包括但不限于：
- 提高模型的收敛速度，因为特征都在相近的尺度上。
- 提高模型的精度，因为一些算法在特征尺度相近时表现更好。
- 使得不同单位的特征之间可以进行比较和加权。





In [9]:
# 导入sklearn.preprocessing下归一化函数
from sklearn.preprocessing import MinMaxScaler

# 1、准备数据
data = [
    [90, 2, 10, 40],
    [60, 4, 15, 45],
    [75, 3, 13, 46]
]

# 2、创建归一化对象
transformer = MinMaxScaler(feature_range=(0, 1))

# 3、对原始特征进行变换
fit_transform = transformer.fit_transform(data)
fit_transform


array([[1.        , 0.        , 0.        , 0.        ],
       [0.        , 1.        , 1.        , 0.83333333],
       [0.5       , 0.5       , 0.6       , 1.        ]])

# 3、标准化
公式：
![标准化公式](../img/标准化公式.png)


In [13]:
# 导sklearn标准化函数StandardScaler
from sklearn.preprocessing import StandardScaler

# 1、准备数据
data = [
    [90, 2, 10, 40],
    [60, 4, 15, 45],
    [75, 3, 13, 46],
]
    
# 2、创建标准化对象
standardScaler = StandardScaler()

# 3、对数据进行变换
fit_transform = standardScaler.fit_transform(data)

# 4、打印数据
fit_transform


array([[ 1.22474487, -1.22474487, -1.29777137, -1.3970014 ],
       [-1.22474487,  1.22474487,  1.13554995,  0.50800051],
       [ 0.        ,  0.        ,  0.16222142,  0.88900089]])


# 4、小结
- 归一化和标准化都能够将量纲不同的数据集缩放到相同范围内
- 归一化受到最大值与最小值的影响，这种方法容易受到异常数据的影响, 鲁棒性较差，适合传统精确小数据场景
- 对于标准化来说，如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，鲁棒性更好
