# 数据预处理

数据预处理是机器学习过程中非常重要的一步。在这一部分，我们将介绍数据预处理的几个关键步骤，并通过实际代码示例来演示每个步骤的实现方法。

## 导入必要的库

在开始数据预处理之前，我们需要导入一些常用的库。

In [None]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler, OneHotEncoder
from sklearn.impute import SimpleImputer

## 处理缺失值

在数据集中，缺失值是一个常见的问题。我们可以使用多种方法来处理缺失值，包括删除包含缺失值的样本，或用其他值（如均值或中位数）填补缺失值。

In [None]:
# 创建一个示例数据集
data = {'A': [1, 2, np.nan, 4], 'B': [5, np.nan, np.nan, 8], 'C': [10, 11, 12, 13]}
df = pd.DataFrame(data)
print("原始数据:")
print(df)

# 使用均值填补缺失值
imputer = SimpleImputer(strategy='mean')
df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
print("\n填补缺失值后的数据:")
print(df_imputed)

## 数据规范化

数据规范化是将不同量纲的数据转换到同一量纲上，以避免某些特征对模型的影响过大。常见的规范化方法有标准化（Standardization）和归一化（Normalization）。

In [None]:
# 创建一个示例数据集
data = {'A': [1, 2, 3, 4], 'B': [100, 200, 300, 400]}
df = pd.DataFrame(data)
print("原始数据:")
print(df)

# 标准化数据
scaler = StandardScaler()
df_standardized = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
print("\n标准化后的数据:")
print(df_standardized)

# 归一化数据
scaler = MinMaxScaler()
df_normalized = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
print("\n归一化后的数据:")
print(df_normalized)

## 特征提取与选择

特征提取是指从原始数据中提取有用的信息，转换为模型可以处理的特征。特征选择是从众多特征中选择对模型预测最有帮助的特征。

In [None]:
# 创建一个示例数据集
data = {'A': [1, 2, 3, 4], 'B': [100, 200, 300, 400], 'C': ['red', 'green', 'blue', 'yellow']}
df = pd.DataFrame(data)
print("原始数据:")
print(df)

# 使用 OneHotEncoder 对分类数据进行编码
encoder = OneHotEncoder(sparse_output=False)
encoded_features = encoder.fit_transform(df[['C']])
encoded_df = pd.DataFrame(encoded_features, columns=encoder.get_feature_names_out(['C']))

# 将编码后的特征与原数据集连接
df_combined = df.drop('C', axis=1).join(encoded_df)
print("\n编码后的数据:")
print(df_combined)

通过上述步骤，我们可以看到数据预处理的基本流程和方法。在实际的机器学习项目中，数据预处理是至关重要的一步，它直接影响到模型的性能和效果。在接下来的章节中，我们将进一步探讨具体的机器学习算法及其应用。