# 数据预处理
本篇参考sklearn官方文档：https://scikit-learn.org/stable/

注：anaconda的sklearn版本可能要更新到1.3（目前的稳定版本）

In [1]:
import sklearn
print("Sklearn verion is {}".format(sklearn.__version__))

Sklearn verion is 1.3.0


# 数据标准化

参考：
1. https://blog.csdn.net/weixin_46263718/article/details/108352591
2. https://blog.csdn.net/Li_yi_chao/article/details/80756414

**数据标准化**和**数据归一化**是数据预处理的两种常用方法，它们的目的是将数据转换为更适合模型处理的格式。

- 数据标准化(Standardization)是将数据转换为均值为0，方差为1的数据，也就是将数据按比例缩放，使得其分布具有标准正态分布
- 数据归一化(Normalization)是将数据转换为满足0≤x≤1的数据，也就是将数据缩放到[0,1]区间。

总的来说，数据标准化更多的是针对正态分布的数据，它的目的是使得不同特征的数据有相似的分布；数据归一化则不一定需要正态分布，它的目的是将数据缩放到同一尺度，以便更好地比较不同特征间的差异。

## 优点
1. 消除量纲
2. 让不同指标有可比性
3. 提高迭代求解精度
4. 提升模型收敛速度

## 适用情形
根据CSDN用户提供：
1. 基于树模型的算法不要做
2. 基于平方损失的最小二乘法OLS不需要
3. 聚类、分类、回归等设计距离计算的需要标准化

## 主要方法

### Min-Max标准化/0-1标准化
可以提升模型收敛速度，但是没有消除量纲的效果，缺陷是有新数据时，min和max可能变化，也就是当有新数据加入时需要重新进行归一化

优点：
- 在不涉及距离度量、协方差计算、数据不符合正态分布的时候，适合用Min-max normalization
- 对于方差非常小的属性可以增强其稳定性
- 维持稀疏矩阵中0的数量

### Z-score标准化
具有标准化所有的优势，但由于需要估算Z-Score需要总体的平均值与方差，而这一值在真实的分析与挖掘中很难得到，大多数情况下是用样本的均值与标准差替代，所以要求原始数据近似为***高斯分布***，否则归一化的效果会变得很糟糕。在分类、聚类算法中，需要使用距离来度量相似性的时候、或者使用**PCA技术**进行降维的时候，Z-score 表现更好。