# 数据预处理
本篇参考sklearn官方文档：https://scikit-learn.org/stable/

注：anaconda的sklearn版本可能要更新到1.3（目前的稳定版本）

In [1]:
import sklearn
print("Sklearn verion is {}".format(sklearn.__version__))

Sklearn verion is 1.3.0


# Part1.数据标准化

参考：
1. https://blog.csdn.net/weixin_46263718/article/details/108352591
2. https://blog.csdn.net/Li_yi_chao/article/details/80756414

**数据标准化**和**数据归一化**是数据预处理的两种常用方法，它们的目的是将数据转换为更适合模型处理的格式。

- 数据标准化(Standardization)是将数据转换为均值为0，方差为1的数据，也就是将数据按比例缩放，使得其分布具有标准正态分布
- 数据归一化(Normalization)是将数据转换为满足0≤x≤1的数据，也就是将数据缩放到[0,1]区间。

总的来说，数据标准化更多的是针对正态分布的数据，它的目的是使得不同特征的数据有相似的分布；数据归一化则不一定需要正态分布，它的目的是将数据缩放到同一尺度，以便更好地比较不同特征间的差异。

## 优点
1. 消除量纲
2. 让不同指标有可比性
3. 提高迭代求解精度
4. 提升模型收敛速度

## 适用情形
根据CSDN用户提供：
1. 基于树模型的算法不要做
2. 基于平方损失的最小二乘法OLS不需要
3. 聚类、分类、回归等设计距离计算的需要标准化

## 主要方法

### Min-Max标准化/0-1标准化
可以提升模型收敛速度，但是没有消除量纲的效果，缺陷是有新数据时，min和max可能变化，也就是当有新数据加入时需要重新进行归一化

优点：
- 在不涉及距离度量、协方差计算、数据不符合正态分布的时候，适合用Min-max normalization
- 对于方差非常小的属性可以增强其稳定性
- 维持稀疏矩阵中0的数量

### Z-score标准化
具有标准化所有的优势，但由于需要估算Z-Score需要总体的平均值与方差，而这一值在真实的分析与挖掘中很难得到，大多数情况下是用样本的均值与标准差替代，所以要求原始数据近似为***高斯分布***，否则归一化的效果会变得很糟糕。在分类、聚类算法中，需要使用距离来度量相似性的时候、或者使用**PCA技术**进行降维的时候，Z-score 表现更好。

### 附：归一化（Normalization）


## 主要函数

- 0-1标准化：https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html#sklearn.preprocessing.MinMaxScaler
- Z-score标准化：https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler
- 归一化：https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.normalize.html#sklearn.preprocessing.normalize


下面是他们的代码实现：

In [5]:
### 归一化 normalize
# 该函数默认使用l2正则化
from sklearn import preprocessing
import numpy as np
X = [[1,3,7],
    [2,4,6],
    [-5,-20,100]]

X_normalize = preprocessing.normalize(X, axis=1, norm='l2')
X_normalize

array([[ 0.13018891,  0.39056673,  0.91132238],
       [ 0.26726124,  0.53452248,  0.80178373],
       [-0.04897021, -0.19588084,  0.97940421]])

In [2]:
### 0-1标准化 MinMaxScaler
from sklearn import preprocessing
import numpy as np
X = [[1,3,7],
    [2,4,6],
    [-5,-20,100]]

min_max_scaler = preprocessing.MinMaxScaler()
X_MinMax = min_max_scaler.fit_transform(X)
X_MinMax

array([[0.85714286, 0.95833333, 0.0106383 ],
       [1.        , 1.        , 0.        ],
       [0.        , 0.        , 1.        ]])

In [7]:
### z-score标准化 StandardScaler
# 注意原始数据如果没有呈高斯分布，标准化的数据分布效果就不太行
# 在分类、聚类算法中，需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,Z-score Standardization效果更好
from sklearn import preprocessing
import numpy as np
X = [[1,3,7],
    [2,4,6],
    [-5,-20,100]]

scaler = preprocessing.StandardScaler().fit(X)
scaler.mean_

array([-0.66666667, -4.33333333, 37.66666667])

In [8]:
scaler.scale_

array([ 3.09120617, 11.0855261 , 44.07821331])

In [11]:
X_scaled = scaler.transform(X)
X_scaled

array([[ 0.53916387,  0.66152326, -0.69573298],
       [ 0.86266219,  0.75173097, -0.71841992],
       [-1.40182605, -1.41325423,  1.4141529 ]])

# Part2.种类特征编码

## 整数编码

有时候部分信息不一定以数值的形式给出，比如说`男性`和`女性`两种性别，或者居住地来自`美国`、`中国`、`日本`

有时候我们可以把这种信息映射到0、1、2、3中，即把一些特征信息映射到(0~特征数-1)这些整数上，我们使用`OrdinalEncoder`

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html#sklearn.preprocessing.OrdinalEncoder

In [12]:
### OrdinalEncoder示例
enc = preprocessing.OrdinalEncoder()
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']b]
enc.fit(X)
enc.transform([['female', 'from US', 'uses Safari']])

array([[0., 1., 1.]])

In [14]:
### 该函数也能处理缺失值，对应的是缺失值nan
enc = preprocessing.OrdinalEncoder()
X = [['male'], ['female'], [np.nan], ['female']]
enc.fit_transform(X)

array([[ 1.],
       [ 0.],
       [nan],
       [ 0.]])

In [15]:
### 通过设置参数encoded_missing_value=1可以将缺失值映射为-1
enc = preprocessing.OrdinalEncoder(encoded_missing_value=-1)
X = [['male'], ['female'], [np.nan], ['female']]
enc.fit_transform(X)

array([[ 1.],
       [ 0.],
       [-1.],
       [ 0.]])

## 独热码OneHotEncoder
常见于机器学习的各种算法，看这篇就够了：https://blog.csdn.net/qq_52852138/article/details/123931180

示例：

In [18]:
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()
encoder.fit([
    [0,2,1,12],
    [2,3,5,3],
    [1,3,2,12],
    [1,2,4,3]
])
encoded_vector = encoder.transform([[2,3,5,3]]).toarray()
print(encoded_vector)

[[0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]]


In [20]:
### 通过查看encoder的categories属性来确定每个category的feature值
print(encoder.categories_)

[array([0, 1, 2]), array([2, 3]), array([1, 2, 4, 5]), array([ 3, 12])]


In [22]:
### 小数编码同理

from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()
encoder.fit([
    [0.1,2,1,12],
    [2,3.5,5,3],
    [1,3,2,12],
    [1,2,4,3]
])
encoded_vector = encoder.transform([[2,3,5,3]]).toarray()
print(encoded_vector)
print(encoder.categories_)

[[0. 0. 1. 0. 1. 0. 0. 0. 0. 1. 1. 0.]]
[array([0.1, 1. , 2. ]), array([2. , 3. , 3.5]), array([1., 2., 4., 5.]), array([ 3., 12.])]


In [24]:
### 字符串编码同理

from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()
encoder.fit([
    ['体育','中国','高三'],
    ['电竞','中国','高一'],
    ['体育','日本','高二'],
    ['娱乐','美国','高一']
])
encoded_vector = encoder.transform([['体育','中国','高二']]).toarray()
print(encoded_vector)
print(encoder.categories_)

[[1. 0. 0. 1. 0. 0. 0. 0. 1.]]
[array(['体育', '娱乐', '电竞'], dtype=object), array(['中国', '日本', '美国'], dtype=object), array(['高一', '高三', '高二'], dtype=object)]


In [26]:
### 设置参数handle_unknown='ignore'
### 可以忽略新出现的类型，会令该列的独热码均为0
### 字符串编码同理
### 如果没有设置则会报错

from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(handle_unknown='ignore')
encoder.fit([
    ['体育','中国','高三'],
    ['电竞','中国','高一'],
    ['体育','日本','高二'],
    ['娱乐','美国','高一']
])
encoded_vector = encoder.transform([['唉','卧槽','高四']]).toarray()
print(encoded_vector)

[[0. 0. 0. 0. 0. 0. 0. 0. 0.]]


In [37]:
### 解码，反向transform，同理如果不设置handle_unknown='ignore'参数时，遇到未知类型会直接报错
### 下面的示例是设置了ignore参数的情况

from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(handle_unknown='ignore')
encoder.fit([
    ['体育','中国','高三'],
    ['电竞','中国','高一'],
    ['体育','日本','高二'],
    ['娱乐','美国','高一']
])
decode = encoder.inverse_transform([[0,0,0,0,0,0,0,0,0]])
print(decode)

decode = encoder.inverse_transform([[0,1,0,0,1,0,1,0,0]])
print(decode)

encoded_vector = encoder.transform([['唉','卧槽','高三']]).toarray()
# 没遇到的feature解释为None
decode = encoder.inverse_transform(encoded_vector)
print(decode)

[[None None None]]
[['娱乐' '日本' '高一']]
[[None None '高三']]


# Part3.生成多项式特征
部分机器学习的算法可能要用上，即对于特征X1,X2，我们通过构造多项式1，X1，X2，X1^2，X1X2，X2^2来作为新的特征列，可以增加模型的复杂性，总的来说有两种方式：
- 纯多项式
- 分段多项式

## 纯多项式

In [38]:
### 从X1,X2变出了6个新特征
import numpy as np
from sklearn.preprocessing import PolynomialFeatures
X = np.arange(6).reshape(3, 2)
X
poly = PolynomialFeatures(2)
poly.fit_transform(X)

array([[ 1.,  0.,  1.,  0.,  0.,  1.],
       [ 1.,  2.,  3.,  4.,  6.,  9.],
       [ 1.,  4.,  5., 16., 20., 25.]])

In [39]:
### 通过设置参数interaction_only=True，只保留交互项
### 比如(X1,X2,X3)就变成了(1,X1,X2,X3,X1X2,X2X3,X1X3,X1X2X3)
X = np.arange(9).reshape(3, 3)
X
poly = PolynomialFeatures(degree=3, interaction_only=True)
poly.fit_transform(X)

array([[  1.,   0.,   1.,   2.,   0.,   0.,   2.,   0.],
       [  1.,   3.,   4.,   5.,  12.,  15.,  20.,  60.],
       [  1.,   6.,   7.,   8.,  42.,  48.,  56., 336.]])

## 分段多项式
略，遇到用到的算法再补上

# Part4.缺失值填充
通常我们得到的数据集不一定是完整的数据集，可能会有缺失值，有一种基本的策略就是丢掉整列特征值，但是这样做会丢失部分有用的信息，因此我们可以使用特征值填补的方式，即从数据集的已知部分来推断他们，比如说，用平均值来进行填补



## 1. 单元特征值填补
通过使用`SimpleImputer`可以将缺失值用提供的常量值进行替代，比如缺失值所在列的统计数据（平均数、中位数或众数）

可选参数：
- missing_values：定义缺失值，比如这里使用的是`np.nan`，即把数据列中的`np.nan`看做缺失值，如果你愿意设置为1，那么他会把1看作缺失值
- strategy：缺失值填补策略，这里使用的是`mean`，即用平均值填补

In [40]:
import numpy as np
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))

[[4.         2.        ]
 [6.         3.66666667]
 [7.         6.        ]]


> 注意，此格式并不意味着用于隐式存储矩阵中的缺失值，因为它会在变换时使其变得稠密。 由 0 编码的缺失值必须与密集输入一起使用。

上面这段是手册原话，没看太懂

In [46]:
### 当填补策略是most_frequent或constant时，SimpleImputer还可以支持string或pandas的categoricals类型值

import pandas as pd
df = pd.DataFrame([["a", "x"],[np.nan,'y'],['a',np.nan],['b','y']],dtype='category')
imp = SimpleImputer(strategy="most_frequent")
print(imp.fit_transform(df))

[['a' 'x']
 ['a' 'y']
 ['a' 'y']
 ['b' 'y']]


In [49]:
### 某一特征列的数据全缺失时，SimpleImputer会自动删去这一列，但是可以通过设置参数来保留这一列
### 大部分情况下，全缺失的数据列的数据会被替换成0

#忽略警告
import warnings
warnings.filterwarnings('ignore')

## 删除的情况
imputer = SimpleImputer()
X = np.array([[np.nan, 1], [np.nan, 2], [np.nan, 3]])
imputer.fit_transform(X)

## 不删除的情况
imputer.set_params(keep_empty_features=True)
imputer.fit_transform(X)

array([[0., 1.],
       [0., 2.],
       [0., 3.]])

## 2. 多元特征值插补
通过`IterativeImputer`实现，其将每个具有缺失值的特征建模为其他特征的函数，并用该估计进行填补，用迭代的方式对每个特征进行填补，插补轮次的大小是`max_iter`


In [52]:
import numpy as np
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
imp = IterativeImputer(max_iter=10, random_state=0)
imp.fit([[1, 2], [3, 6], [4, 8], [np.nan, 3], [7, np.nan]])
X_test = [[np.nan, 2], [6, np.nan], [np.nan, 6]]

# 模型学习到，第二个特征值是第一个特征值的两倍，按照这个规律进行填补
print(np.round(imp.transform(X_test)))

[[ 1.  2.]
 [ 6. 12.]
 [ 3.  6.]]


### 多元vs.单元
统计学中常用的方式是多元特征值插补

当用户对测量由于缺失值而导致的不确定性不感兴趣时，单次插补与多重插补在预测和分类中的有用性仍然是一个悬而未决的问题

> 注意，调用 IterativeImputer 的转换方法不允许更改样本数。 因此，多重插补不能通过一次调用transform来实现



## 3. 最近邻插补
即用其他特征值上的“邻居”来进行填补

In [53]:
import numpy as np
from sklearn.impute import KNNImputer
nan = np.nan
X = [[1, 2, nan], [3, 4, 3], [nan, 6, 5], [8, 8, 7]]
imputer = KNNImputer(n_neighbors=2, weights="uniform")
imputer.fit_transform(X)

array([[1. , 2. , 4. ],
       [3. , 4. , 3. ],
       [5.5, 6. , 5. ],
       [8. , 8. , 7. ]])

## 4. 聚类插补
即可以通过先聚类（用完整的数据列），然后用该类的平均值进行插补，这个实践中遇到过一次，具体实现此处略

## 5. 缺失值信息的保存
`MissingIndicator`可以将数据集转为对应的二进制矩阵，来指示数据集中是否有缺失值。

上面的部分插补函数有一个布尔参数`add_indicator`（默认为False），当设置为True时，它可以起到类似`MissingIndicator`的效果


In [57]:
from sklearn.impute import MissingIndicator
X = np.array([[-1, -1, 1, 3],[4,-1,0,-1],[8,-1,1,0]])
indicator = MissingIndicator(missing_values=-1)
mask_missing_values_only = indicator.fit_transform(X)
mask_missing_values_only

array([[ True,  True, False],
       [False,  True,  True],
       [False,  True, False]])

In [59]:
### 注意到上面经过筛选后，删除了全为缺失值的列，可以通过加参数features='all'来避免删除这些特征列
indicator = MissingIndicator(missing_values=-1, features="all")
mask_all = indicator.fit_transform(X)
mask_all

array([[ True,  True, False, False],
       [False,  True, False,  True],
       [False,  True, False, False]])

In [60]:
indicator.features_

array([0, 1, 2, 3])

## 6. 附录：sklearn中不需要对缺失值进行预处理的estimator
<img src=".\datasets\Esti_without_nan.png" alt="Cat" width="1000" height="800">