In [12]:
### 5.4 缺失值处理

## 5.4.2 单变量插补
#单变量算法，它只使用第i个特征维度中的非缺失值(如impute.SimpleImputer)来插补第i个特征维中的值。
#SimpleImputer类提供了计算缺失值的基本策略。缺失值可以用提供的常数值计算，也可以使用缺失值所在的行/列中的统计数据(平均值、中位数或者众数)来计算。

#以下代码段演示了如何使用包含缺失值的列(轴0)的平均值来替换编码为 np.nan 的缺失值:
import numpy as np
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean') #用均值补全
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
X = [[np.nan, 2], [6, np.nan], [7, 6]]  


In [13]:
print('>>>>>均值补全前>>>>>>')
for i in X:
    print(i)
print('\n')
print('>>>>>均值补全后>>>>>>')
print(imp.transform(X))  #缺失值补全（用列的均值）

>>>>>均值补全前>>>>>>
[nan, 2]
[6, nan]
[7, 6]


>>>>>均值补全后>>>>>>
[[4.         2.        ]
 [6.         3.66666667]
 [7.         6.        ]]


In [15]:
## 类别特征补全
#当使用 'most_frequent' 或 'constant' 策略时，SimpleImputer类还支持以 string values 或 pandas categoricals 表示的分类数据(categorical data)
import pandas as pd
df = pd.DataFrame([["a", "x"],
                   [np.nan, "y"],
                   ["a", np.nan],
                   ["b", "y"]], dtype="category")
imp = SimpleImputer(strategy="most_frequent")
print(imp.fit_transform(df))   #把第2行确实特征用出现频次最高的值（样例中是a）补全

[['a' 'x']
 ['a' 'y']
 ['a' 'y']
 ['b' 'y']]


In [16]:
## 5.4.3 多元特征补全 
#一种更复杂的方法是使用IterativeImputter类，该类将具有缺失值的每个特征建模为其他特征的函数，并使用该估计值进行插补。
#它以迭代循环的方式进行：在每一步中，一个特征列被指定为输出y，其他特征列被视为输入X。对已知y拟合回归器（X，y）。然后，使用回归器来预测y的缺失值。
#这是以迭代的方式对每个特征进行的，然后在max_iter插补循环中重复。返回最后一轮插补的结果。

#总结：简而言之，基于其他特征用回归算法预测缺失特征结果。

import numpy as np
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
imp = IterativeImputer(max_iter=10, random_state=0)
imp.fit([[1, 2], [3, 6], [4, 8], [np.nan, 3], [7, np.nan]])
X_test = [[np.nan, 2], [6, np.nan], [np.nan, 6]]
# the model learns that the second feature is double the first
print(np.round(imp.transform(X_test)))

[[ 1.  2.]
 [ 6. 12.]
 [ 3.  6.]]


In [17]:
## 5.4.4 最近邻补全
# KNNImputer类提供用于填充缺失值的插补 使用 k 最近邻方法。
import numpy as np
from sklearn.impute import KNNImputer
nan = np.nan
X = [[1, 2, nan], [3, 4, 3], [nan, 6, 5], [8, 8, 7]]
imputer = KNNImputer(n_neighbors=2, weights="uniform")
imputer.fit_transform(X)

array([[1. , 2. , 4. ],
       [3. , 4. , 3. ],
       [5.5, 6. , 5. ],
       [8. , 8. , 7. ]])

In [19]:
## 5.5.5 标记缺失值
#MissingIndicator可用于将数据集转换为 相应的二进制矩阵，指示缺失数据
from sklearn.impute import MissingIndicator
X = np.array([[-1, -1, 1, 3],
              [4, -1, 0, -1],
              [8, -1, 1, 0]])
indicator = MissingIndicator(missing_values=-1,features='all')
mask_missing_values_only = indicator.fit_transform(X)
mask_missing_values_only  #缺失值用-1填补的返回True，非缺失值返回False

array([[ True,  True, False, False],
       [False,  True, False,  True],
       [False,  True, False, False]])