# 4.0 简介

知识点：本章介绍处理数值型特征的技术，包括缩放、标准化、归一化、生成多项式特征、识别和处理异常值、处理缺失值等。

# 4.1 特征的缩放

问题描述：将一个数值型特征的值缩放（rescale）到两个特定的值之间。

In [1]:
# 加载库
import numpy as np
from sklearn import preprocessing

# 创建特征
feature = np.array([[-500.5],
                    [-100.1],
                    [0],
                    [100.1],
                    [900.9]])

# 创建缩放器
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1))

# 缩放特征的值
scaled_feature = minmax_scale.fit_transform(feature)

# 查看特征
scaled_feature
# 输出:
# array([[0.        ],
#        [0.28571429],
#        [0.35714286],
#        [0.42857143],
#        [1.        ]])

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

讨论：
min-max缩放：利用特征的最小值和最大值，将所有特征缩放到同一范围。
公式：x' = (x - min(x)) / (max(x) - min(x))
本例中将特征缩放到0和1之间。

# 4.2 特征的标准化

问题描述：将一个特征标准化

In [2]:
# 加载库
import numpy as np
from sklearn import preprocessing

# 创建特征
x = np.array([[-1000.1],
              [-200.2],
              [500.5],
              [600.6],
              [9000.9]])

# 创建缩放器
scaler = preprocessing.StandardScaler()

# 标准化特征
standardized = scaler.fit_transform(x)

# 查看结果
standardized
# 输出:
# array([[-0.76658269],
#        [-0.6541772 ],
#        [-0.35009972],
#        [-0.32271504],
#        [ 2.09357466]])

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

标准化：将特征转换为均值为0、标准差为1的分布

验证结果

In [3]:
# 打印均值和标准差
print('Mean:', round(standardized.mean()))
print('Standard deviation:', standardized.std())
# 输出:
# Mean: 0.0
# Standard deviation: 1.0

Mean: 0
Standard deviation: 1.0


处理异常值：如果存在很大的异常值，使用RobustScaler更有效（基于中位数和四分位数间距）。

In [4]:
# 创建鲁棒缩放器
robust_scaler = preprocessing.RobustScaler()

# 转换特征
robust_scaler.fit_transform(x)

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

# 4.3 归一化处理

In [5]:
# 加载库
import numpy as np
from sklearn.preprocessing import Normalizer

# 创建特征矩阵
features = np.array([[0.5, 0.5],
                     [1.1, 3.4],
                     [1.5, 20.2],
                     [1.63, 34.4],
                     [10.9, 3.3]])

# 创建归一化器（使用L2范数）
normalizer = Normalizer(norm="l2")

# 转换特征矩阵
normalized_features = normalizer.transform(features)

# 查看特征矩阵
normalized_features
# 输出:
# array([[0.70710678, 0.70710678],
#        [0.30782029, 0.95144452],
#        [0.07405353, 0.99725427],
#        [0.04733062, 0.99887928],
#        [0.95709822, 0.28976368]])

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

L1范数(曼哈顿距离):

In [6]:
# 转换特征矩阵（使用L1范数）
features_l1_norm = Normalizer(norm="l1").transform(features)

# 查看特征矩阵
features_l1_norm
# 输出:
# array([[0.5       , 0.5       ],
#        [0.24444444, 0.75555556],
#        [0.06912442, 0.93087558],
#        [0.04524008, 0.95475992],
#        [0.76760563, 0.23239437]])

array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.06912442, 0.93087558],
       [0.04524008, 0.95475992],
       [0.76760563, 0.23239437]])

讨论：
L2范数：欧几里得距离（直线距离）
L1范数：曼哈顿距离（出租车范数）
特点：L1归一化后，每个观察值的特征值之和为1.0。

# 4.4 生成多项式和交互特征

In [7]:
# 加载库
import numpy as np
from sklearn.preprocessing import PolynomialFeatures

# 创建特征矩阵
features = np.array([[2, 3],
                     [2, 3],
                     [2, 3]])

# 创建PolynomialFeatures对象（二次多项式）
polynomial_interaction = PolynomialFeatures(degree=2, include_bias=False)

# 创建多项式特征
polynomial_features = polynomial_interaction.fit_transform(features)

# 查看结果
polynomial_features
# 输出:
# array([[2., 3., 4., 6., 9.],
#        [2., 3., 4., 6., 9.],
#        [2., 3., 4., 6., 9.]])

array([[2., 3., 4., 6., 9.],
       [2., 3., 4., 6., 9.],
       [2., 3., 4., 6., 9.]])

生成交互特征

In [8]:
# 创建交互特征（仅交互项）
interaction = PolynomialFeatures(degree=2,
                                interaction_only=True,
                                include_bias=False)
interaction.fit_transform(features)
# 输出:
# array([[2., 3., 6.],
#        [2., 3., 6.],
#        [2., 3., 6.]])

array([[2., 3., 6.],
       [2., 3., 6.],
       [2., 3., 6.]])

讨论：
degree=2：创建最高阶数为2的特征（包括原始特征、平方项、交互项）
交互特征：表示特征间的相互依赖关系（如咖啡加糖并搅拌才甜）

# 4.5 转换特征

In [10]:
# 加载库
import numpy as np
from sklearn.preprocessing import FunctionTransformer

# 创建特征矩阵
features = np.array([[2, 3],
                     [2, 3],
                     [2, 3]])

# 定义一个简单的函数
def add_ten(x):
    return x + 10

# 创建转换器
ten_transformer = FunctionTransformer(add_ten)

# 转换特征矩阵
transformed_features = ten_transformer.transform(features)

# 查看结果
transformed_features
# 输出:
# array([[12, 13],
#        [12, 13],
#        [12, 13]])

array([[12, 13],
       [12, 13],
       [12, 13]])

使用pandas的apply:

In [11]:
# 加载库
import pandas as pd

# 创建DataFrame
df = pd.DataFrame(features, columns=["feature_1", "feature_2"])

# 应用函数
df.apply(add_ten)
# 输出:
#    feature_1  feature_2
# 0         12         13
# 1         12         13
# 2         12         13

Unnamed: 0,feature_1,feature_2
0,12,13
1,12,13
2,12,13


讨论：FunctionTransformer可用于定义复杂的转换函数

# 4.6识别异常值

识别数据中的异常值

In [12]:
# 加载库
import numpy as np
from sklearn.covariance import EllipticEnvelope
from sklearn.datasets import make_blobs

# 创建模拟数据
features, _ = make_blobs(n_samples=10,
                         n_features=2,
                         centers=1,
                         random_state=1)

# 将第一个观察值的值替换为极端值
features[0, 0] = 10000
features[0, 1] = 10000

# 创建识别器
outlier_detector = EllipticEnvelope(contamination=.1)

# 拟合识别器
outlier_detector.fit(features)

# 预测异常值
outlier_detector.predict(features)
# 输出: array([-1,  1,  1,  1,  1,  1,  1,  1,  1,  1])
# -1表示异常值，1表示正常值

array([-1,  1,  1,  1,  1,  1,  1,  1,  1,  1])

使用IQR方法

In [13]:
# 创建一个特征
feature = features[:, 0]

# 创建检测异常值的函数
def indices_of_outliers(x):
    q1, q3 = np.percentile(x, [25, 75])
    iqr = q3 - q1
    lower_bound = q1 - (iqr * 1.5)
    upper_bound = q3 + (iqr * 1.5)
    return np.where((x > upper_bound) | (x < lower_bound))

# 执行函数
indices_of_outliers(feature)
# 输出: (array([0]),)

(array([0]),)

讨论：
EllipticEnvelope：假设数据服从高斯分布，识别异常值
contamination：异常值比例（本例设为10%）
IQR方法：基于四分位数间距，适用于非参数分布数据
最佳实践：尝试多种技术，从整体角度评估异常值

# 4.7处理异常值

问题描述：处理数据中的异常值

In [14]:
# 加载库
import pandas as pd

# 创建数据
houses = pd.DataFrame()
houses['Price'] = [534433, 392333, 293222, 4322032]
houses['Bathrooms'] = [2, 3.5, 2, 116]
houses['Square_Feet'] = [1500, 2500, 1500, 48000]

# 第一种方式：丢弃异常值
houses[houses['Bathrooms'] < 20]

Unnamed: 0,Price,Bathrooms,Square_Feet
0,534433,2.0,1500
1,392333,3.5,2500
2,293222,2.0,1500


第二种方法，标记异常值

In [15]:
# 加载库
import numpy as np

# 基于布尔条件创建特征
houses["Outlier"] = np.where(houses["Bathrooms"] < 20, 0, 1)

# 查看数据
houses
# 输出:
#       Price  Bathrooms  Square_Feet  Outlier
# 0   534433        2.0         1500        0
# 1   392333        3.5         2500        0
# 2   293222        2.0         1500        0
# 3  4322032      116.0        48000        1

Unnamed: 0,Price,Bathrooms,Square_Feet,Outlier
0,534433,2.0,1500,0
1,392333,3.5,2500,0
2,293222,2.0,1500,0
3,4322032,116.0,48000,1


第三种方法:转换特征

In [16]:
# 对特征取对数值
houses['Log_Of_Square_Feet'] = np.log(houses['Square_Feet'])

# 查看数据
houses

Unnamed: 0,Price,Bathrooms,Square_Feet,Outlier,Log_Of_Square_Feet
0,534433,2.0,1500,0,7.31322
1,392333,3.5,2500,0,7.824046
2,293222,2.0,1500,0,7.31322
3,4322032,116.0,48000,1,10.778956


讨论：
处理策略：
丢弃：直接删除异常值（当异常值是数据错误时）
标记：创建新特征标记异常值（保留原始数据）
转换：对数转换降低异常值影响（当异常值是有效但极端的值时）
决策考虑：思考异常值为何存在，明确数据目标
"不处理"本身也是一种决策  ，有潜在影响
鲁棒缩放器：RobustScaler可自动降低异常值影响

# 4.8将特征离散化

问题描述：将数值型特征转换为离散型特征。

In [18]:
# 加载库
import numpy as np
from sklearn.preprocessing import Binarizer

# 创建特征
age = np.array([[6],
                [12],
                [20],
                [36],
                [65]])

# 创建二值化器（阈值18）
binarizer = Binarizer(threshold = 18)

# 转换特征
binarizer.fit_transform(age)
# 输出:
# array([[0],
#        [0],
#        [1],
#        [1],
#        [1]])

array([[0],
       [0],
       [1],
       [1],
       [1]])

多阈值离散化

In [19]:
# 将特征离散化（分箱）
np.digitize(age, bins=[20, 30, 64])
# 输出:
# array([0],
#        [0],
#        [1],
#        [2],
#        [3]])

array([[0],
       [0],
       [1],
       [2],
       [3]])

# 包含右边界

In [20]:
# 包含右边界
np.digitize(age, bins=[20, 30, 64], right=True)

array([[0],
       [0],
       [0],
       [2],
       [3]])

讨论：
Binarizer：二值化（0/1）
digitize：多阈值离散化，返回所在区间索引
区间划分：bins=[20, 30, 64] 产生区间 (-∞, 20], (20, 30], (30, 64], (64, +∞)
right=True：区间包含右边界

# 4.9 使用聚类的方式将观察值分组

In [21]:
# 加载库
import pandas as pd
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# 创建模拟的特征矩阵
features, _ = make_blobs(n_samples=50,
                         n_features=2,
                         centers=3,
                         random_state=1)

# 创建数据帧
dataframe = pd.DataFrame(features, columns=['feature_1', 'feature_2'])

# 创建K-Means聚类器
clusterer = KMeans(n_clusters=3, random_state=0)

# 应用聚类
clusterer.fit(features)

# 预测聚类值
dataframe['group'] = clusterer.predict(features)

# 查看前几个观察值
dataframe.head(5)
# 输出:
#    feature_1  feature_2  group
# 0  -9.877553   3.336145      1
# 1  -7.287210  -8.353986      2
# 2  -6.943061  -7.023744      2
# 3  -7.440167  -8.791959      2
# 4  -6.641388  -8.075888      2

Unnamed: 0,feature_1,feature_2,group
0,-9.877554,-3.336145,2
1,-7.28721,-8.353986,0
2,-6.943061,-7.023744,0
3,-7.440167,-8.791959,0
4,-6.641388,-8.075888,0


讨论：
KMeans：无监督聚类算法
n_clusters=3：指定聚类数量
聚类结果可用于创建新特征（分组标签）
第19章会详细介绍聚类算法

# 4.10 删除带有缺失值的观察值

In [22]:
# 加载库
import numpy as np

# 创建特征矩阵
features = np.array([[1.1, 11.1],
                     [2.2, 22.2],
                     [3.3, 33.3],
                     [4.4, 44.4],
                     [np.nan, 55]])

# 只保留没有缺失值的观察值
features[~np.isnan(features).any(axis=1)]
# 输出:
# array([[ 1.1, 11.1],
#        [ 2.2, 22.2],
#        [ 3.3, 33.3],
#        [ 4.4, 44.4]])

array([[ 1.1, 11.1],
       [ 2.2, 22.2],
       [ 3.3, 33.3],
       [ 4.4, 44.4]])

使用pandas删除

In [23]:
# 加载库
import pandas as pd

# 创建DataFrame
dataframe = pd.DataFrame(features, columns=['feature1', 'feature2'])

# 删除带有缺失值的观察值
dataframe.dropna()

Unnamed: 0,feature1,feature2
0,1.1,11.1
1,2.2,22.2
2,3.3,33.3
3,4.4,44.4


N讨论：
~np.isnan(features).any(axis=1)：筛选不含NaN的行
axis=1：按行检查
数据预处理阶段应解决缺失值问题

# 4.11 填充缺失值

KNN填充：

In [29]:
import warnings
# 忽略 scikit-learn 的弃用警告
warnings.filterwarnings("ignore", category=FutureWarning, module="sklearn")

In [30]:
import numpy as np
from fancyimpute import KNN  # 若仍报错，替换为 from fancyimpute import KNNImputer
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs

# 固定随机种子，保证结果可复现
np.random.seed(1)

# 创建模拟特征矩阵
features, _ = make_blobs(n_samples=1000,
                         n_features=2,
                         random_state=1)

# 标准化特征
scaler = StandardScaler()
standardized_features = scaler.fit_transform(features)

# 保存真实值，并将第一个特征向量的第一个值设为缺失值
true_value = standardized_features[0, 0]
standardized_features[0, 0] = np.nan

try:
    # 使用KNN填充缺失值（k=5表示用5个最近邻）
    # 若报KNN不存在，替换为：features_knn_imputed = KNNImputer(k=5).fit_transform(standardized_features)
    features_knn_imputed = KNN(k=5, verbose=0).fit_transform(standardized_features)

    # 对比真实值和填充值
    print("True Value:", round(true_value, 8))
    print("Imputed value:", round(features_knn_imputed[0, 0], 8))
except ImportError as e:
    print(f"导入错误：{e}")
    print("建议替换为：from fancyimpute import KNNImputer 并使用 KNNImputer(k=5)")
except Exception as e:
    print(f"运行错误：{e}")
    print("请检查fancyimpute和依赖库的版本是否兼容")

True Value: 0.87301861
Imputed value: 1.09553327


均值填充（简单方法）:

In [31]:
# 加载库
from sklearn.impute import SimpleImputer

# 创建填充器
mean_imputer = SimpleImputer(strategy="mean")

# 填充缺失值
features_mean_imputed = mean_imputer.fit_transform(standardized_features)

# 对比真实值和填充值
print("True Value:", true_value)
print("Imputed Value:", features_mean_imputed[0, 0])

True Value: 0.8730186113995938
Imputed Value: -0.000873892503901796


讨论：
填充策略：
机器学习预测：使用KNN等算法预测缺失值（更准确但计算量大）
简单统计量：使用均值、中位数等填充（快速但可能引入偏差）
KNN填充：使用k个最近邻观察值预测缺失值
均值填充：可能引入偏差，效果通常不如KNN
计算成本：KNN在大型数据集上计算量大

知识点总结
特征缩放与标准化：
MinMaxScaler：缩放到指定范围（如[0,1]）
StandardScaler：标准化为均值0、标准差1
RobustScaler：基于中位数和四分位数，对异常值鲁棒
Normalizer：归一化观察值（L1/L2范数）
特征工程：
PolynomialFeatures：生成多项式和交互特征
FunctionTransformer：自定义特征转换函数
异常值处理：
识别：EllipticEnvelope（高斯分布）、IQR方法（非参数）
处理：丢弃、标记、转换（对数变换）、使用鲁棒缩放器
离散化与聚类：
Binarizer：二值化
numpy.digitize：多阈值离散化
KMeans：无监督聚类，创建分组特征
缺失值处理：
删除：dropna()（完全删除观察值）
填充：
KNN填充：机器学习预测，更准确
SimpleImputer：均值/中位数/众数填充，简单快速
缺失类型：MCAR、MAR、MNAR
最佳实践：
缩放/标准化是梯度下降等算法的必要步骤
异常值处理需结合业务理解
缺失值处理应在数据预处理阶段完成
大型数据集慎用KNN填充（计算成本高）