# 数据预处理

数据预处理是机器学习流程中至关重要的一步。它包括处理缺失值、数据标准化和归一化、编码分类变量等步骤。

## 处理缺失值

在数据收集中，可能会遇到缺失值。这些缺失值可能是由于数据收集过程中的错误或遗漏造成的。常见的处理缺失值的方法有删除包含缺失值的样本、用均值或中位数填补缺失值等。

In [None]:
import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer

# 创建示例数据集，包含缺失值
data = {'A': [1, 2, np.nan, 4], 'B': [5, np.nan, np.nan, 8], 'C': [10, 11, 12, 13]}
df = pd.DataFrame(data)
print('原始数据:')
print(df)

# 使用均值填补缺失值
imputer = SimpleImputer(strategy='mean')
df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
print('\n填补缺失值后的数据:')
print(df_imputed)

## 数据标准化和归一化

数据标准化是将数据转换为均值为0，标准差为1的分布。归一化是将数据缩放到[0, 1]区间。标准化和归一化可以加速模型训练并提高模型性能。

In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 创建示例数据集
data = {'特征1': [1, 2, 3, 4, 5], '特征2': [5, 4, 3, 2, 1]}
df = pd.DataFrame(data)
print('原始数据:')
print(df)

# 数据标准化
scaler = StandardScaler()
df_standardized = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
print('\n标准化后的数据:')
print(df_standardized)

# 数据归一化
scaler = MinMaxScaler()
df_normalized = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
print('\n归一化后的数据:')
print(df_normalized)

## 编码分类变量

在数据集中，分类变量是指值为类别的变量，如颜色（红、绿、蓝）。机器学习模型通常只能处理数值数据，因此需要将分类变量转换为数值表示。常见的方法有标签编码和独热编码。

In [None]:
from sklearn.preprocessing import OneHotEncoder

# 创建示例数据集
data = {'颜色': ['红', '绿', '蓝', '绿', '红']}
df = pd.DataFrame(data)
print('原始数据:')
print(df)

# 独热编码
encoder = OneHotEncoder(sparse_output=False)
encoded_features = encoder.fit_transform(df[['颜色']])
encoded_df = pd.DataFrame(encoded_features, columns=encoder.get_feature_names_out(['颜色']))

# 将编码后的特征与原数据集连接
df_combined = df.join(encoded_df)
print('\n独热编码后的数据:')
print(df_combined)

通过上述步骤，我们可以看到数据预处理的基本流程和方法。在实际的机器学习项目中，数据预处理是至关重要的一步，它直接影响到模型的性能和效果。在接下来的章节中，我们将进一步探讨具体的机器学习算法及其应用。