# 简介

- scikit-learn 库中的一个预处理工具，用于处理数据中的缺失值。它可以将数据中的缺失值用指定的策略（如平均值、中位数、众数等）填充，以便数据可以用于机器学习模型的训练。

```
模块名称：SimpleImputer
模块类型：预处理工具
功能：处理数据中的缺失值
主要参数：
missing_values：指定缺失值的表示形式，默认为 np.nan。
strategy：指定填充缺失值的策略，可以是 'mean'（均值填充）、'median'（中位数填充）、'most_frequent'（众数填充）或者一个常数值。
fill_value：如果 strategy 参数设置为常数值填充，则指定要填充的常数值。
主要属性：
statistics_：训练数据中每个特征的统计值，例如均值、中位数、众数等。
使用场景：
当数据中存在缺失值时，需要对缺失值进行处理，以便进行后续的机器学习模型训练。
示例用法：
在数据预处理流水线中使用 SimpleImputer 来填充缺失值。
```


In [1]:
import pandas as pd
from sklearn.impute import SimpleImputer

# 创建一个包含缺失值的 DataFrame
data = {
    'A': [1, 2, None, 4, 5],
    'B': [None, 2, 3, None, 5],
    'C': [1, 2, 3, 4, None]
}
df = pd.DataFrame(data)

# 创建 SimpleImputer 实例，指定缺失值填充策略为均值
imputer = SimpleImputer(strategy='mean')

# 对 DataFrame 中的缺失值进行填充
imputed_data = imputer.fit_transform(df)

# 将填充后的数据转换为 DataFrame
imputed_df = pd.DataFrame(imputed_data, columns=df.columns)

print("原始 DataFrame：")
print(df)
print("\n填充后的 DataFrame：")
print(imputed_df)


原始 DataFrame：
     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  NaN  3.0  3.0
3  4.0  NaN  4.0
4  5.0  5.0  NaN

填充后的 DataFrame：
     A         B    C
0  1.0  3.333333  1.0
1  2.0  2.000000  2.0
2  3.0  3.000000  3.0
3  4.0  3.333333  4.0
4  5.0  5.000000  2.5


## imputer.fit_transform 与 imputer.transform
imputer.fit_transform(df)：
```
这个方法首先对输入的数据 df 进行拟合（fit）操作，计算出缺失值填充的参数（例如均值、中位数等）。
然后，将计算得到的参数应用于数据 df，并进行缺失值填充。
最后，返回填充后的数据。
```
imputer.transform(df)：
```
这个方法仅仅是将之前拟合（fit）得到的填充参数应用于数据 df，并进行缺失值填充。
它不执行任何拟合操作，直接使用之前拟合得到的参数。
因此，如果在调用 imputer 实例的 fit_transform() 方法之后，再次调用 transform() 方法，将会直接应用之前拟合得到的填充参数，而无需重新计算。
```
fit_transform() 方法执行了拟合和填充两个步骤，而 transform() 方法仅执行填充操作，使用之前拟合得到的参数


In [2]:
import pandas as pd
from sklearn.impute import SimpleImputer

# 创建一个包含缺失值的 DataFrame
data = {
    'A': [1, 2, None, 4, 5],
    'B': [None, 2, 3, None, 5],
    'C': [1, 2, 3, 4, None]
}
df = pd.DataFrame(data)

# 创建 SimpleImputer 实例，指定缺失值填充策略为均值
imputer = SimpleImputer(strategy='mean')

# 对 imputer 实例进行拟合，计算缺失值填充参数
imputer.fit(df)

# 使用拟合得到的参数，对 DataFrame 中的缺失值进行填充
filled_data = imputer.transform(df)

# 将填充后的数据转换为 DataFrame
filled_df = pd.DataFrame(filled_data, columns=df.columns)

print("原始 DataFrame：")
print(df)
print("\n填充后的 DataFrame：")
print(filled_df)


原始 DataFrame：
     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  NaN  3.0  3.0
3  4.0  NaN  4.0
4  5.0  5.0  NaN

填充后的 DataFrame：
     A         B    C
0  1.0  3.333333  1.0
1  2.0  2.000000  2.0
2  3.0  3.000000  3.0
3  4.0  3.333333  4.0
4  5.0  5.000000  2.5


- 说明：
    - 没有加参数 columns=df.columns的Imputation 会导致列表丢失
    - 可以使用 filled_df.columns = df.columns 更换列表

In [16]:
import pandas as pd
from sklearn.impute import SimpleImputer

# 创建一个包含缺失值的 DataFrame
data = {
    'A': [1, 2, None, 4, 5],
    'B': [None, 2, 3, None, 5],
    'C': [1, 2, 3, 4, None]
}
df = pd.DataFrame(data)

# 创建 SimpleImputer 实例，指定缺失值填充策略为均值
imputer = SimpleImputer(strategy='mean')

# 对 imputer 实例进行拟合，计算缺失值填充参数
imputer.fit(df)

# 使用拟合得到的参数，对 DataFrame 中的缺失值进行填充
filled_data = imputer.transform(df)

# 将填充后的数据转换为 DataFrame
filled_df = pd.DataFrame(filled_data)

print("原始 DataFrame：")
print(df)
print("\n填充后的 DataFrame：")
print(filled_df)

# Imputation removed column names; put them back
print("\n重新补全后的 DataFrame：")
filled_df.columns = df.columns
print(filled_df)


原始 DataFrame：
     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  NaN  3.0  3.0
3  4.0  NaN  4.0
4  5.0  5.0  NaN

填充后的 DataFrame：
     0         1    2
0  1.0  3.333333  1.0
1  2.0  2.000000  2.0
2  3.0  3.000000  3.0
3  4.0  3.333333  4.0
4  5.0  5.000000  2.5

重新补全后的 DataFrame：
     A         B    C
0  1.0  3.333333  1.0
1  2.0  2.000000  2.0
2  3.0  3.000000  3.0
3  4.0  3.333333  4.0
4  5.0  5.000000  2.5


# 填充策略（strategy）
SimpleImputer 类有四种填充策略（strategy）可供选择。它们是：
```
mean：使用特征列的均值填充缺失值。
median：使用特征列的中位数填充缺失值。
most_frequent：使用特征列中出现最频繁的值填充缺失值。
constant：使用用户指定的常数值填充缺失值。
```


In [17]:
import pandas as pd
from sklearn.impute import SimpleImputer

# 创建一个包含缺失值的 DataFrame
data = {
    'A': [1, 2, None, 4, 5],
    'B': [None, 2, 3, None, 5],
    'C': [1, 2, 3, 4, None]
}
df = pd.DataFrame(data)

# 创建 SimpleImputer 实例，指定缺失值填充策略
imputer = SimpleImputer(strategy='median')

# 对 imputer 实例进行拟合，计算缺失值填充参数
imputer.fit(df)

# 使用拟合得到的参数，对 DataFrame 中的缺失值进行填充
filled_data = imputer.transform(df)

# 将填充后的数据转换为 DataFrame
filled_df = pd.DataFrame(filled_data)

print("原始 DataFrame：")
print(df)
print("\n填充后的 DataFrame：")
print(filled_df)

# Imputation removed column names; put them back
print("\n重新补全后的 DataFrame：")
filled_df.columns = df.columns
print(filled_df)


原始 DataFrame：
     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  NaN  3.0  3.0
3  4.0  NaN  4.0
4  5.0  5.0  NaN

填充后的 DataFrame：
     0    1    2
0  1.0  3.0  1.0
1  2.0  2.0  2.0
2  3.0  3.0  3.0
3  4.0  3.0  4.0
4  5.0  5.0  2.5

重新补全后的 DataFrame：
     A    B    C
0  1.0  3.0  1.0
1  2.0  2.0  2.0
2  3.0  3.0  3.0
3  4.0  3.0  4.0
4  5.0  5.0  2.5


 - strategy='constant' 的示例
 - fill_value默认值为指定类似的默认值

In [6]:
import numpy as np
from sklearn.impute import SimpleImputer

# 创建一个示例数据集，包含缺失值
data = np.array([[1, 2, np.nan],
                 [4, np.nan, 6],
                 [np.nan, 8, 9]])

# 创建 SimpleImputer 对象，并指定填充策略为常数值填充
imputer = SimpleImputer(strategy='constant', fill_value=10)

# 拟合数据并进行转换
imputed_data = imputer.fit_transform(data)

# 打印填充后的结果
print("填充后的数据：")
print(imputed_data)


填充后的数据：
[[ 1.  2. 10.]
 [ 4. 10.  6.]
 [10.  8.  9.]]


- strategy='most_frequent' 的示例

In [5]:
import numpy as np
from sklearn.impute import SimpleImputer

# 创建一个示例数据集，包含缺失值
data = np.array([[3, 2, np.nan],
                 [4, np.nan, 6],
                 [np.nan, 8, 9]])

# 创建 SimpleImputer 对象，并指定填充策略为最频繁值填充
imputer = SimpleImputer(strategy='most_frequent')

# 拟合数据并进行转换
imputed_data = imputer.fit_transform(data)

# 打印填充后的结果
print("填充后的数据：")
print(imputed_data)


填充后的数据：
[[3. 2. 6.]
 [4. 2. 6.]
 [3. 8. 9.]]
