# 特征工程

特征工程是指从原始数据中提取和创建新的特征，以提高模型的性能。特征工程包括特征选择、特征提取和特征构建等过程。特征工程在机器学习中起着关键作用，因为好的特征可以显著提高模型的性能。

## 特征选择

特征选择是指从原始特征中选择出对模型预测最有用的特征。常见的特征选择方法包括过滤法、包裹法和嵌入法等。

In [None]:
import numpy as np
import pandas as pd
from sklearn.feature_selection import SelectKBest, f_classif
import matplotlib.pyplot as plt

# 设置字体和解决负号显示问题
plt.rcParams['font.sans-serif'] = 'Hiragino Sans GB'
plt.rcParams['axes.unicode_minus'] = False

# 生成示例数据
np.random.seed(42)
X = np.random.rand(100, 10)
y = np.random.randint(0, 2, 100)

# 使用过滤法选择最佳特征
selector = SelectKBest(score_func=f_classif, k=5)
X_new = selector.fit_transform(X, y)

# 输出选择的特征得分
scores = selector.scores_
print('特征得分:', scores)

## 特征提取

特征提取是指从原始数据中提取出新的特征。常见的特征提取方法包括主成分分析（PCA）、线性判别分析（LDA）等。

In [None]:
from sklearn.decomposition import PCA

# 使用PCA进行特征提取
pca = PCA(n_components=5)
X_pca = pca.fit_transform(X)

# 输出提取的特征
print('提取的特征:', X_pca)

## 特征构建

特征构建是指通过组合已有的特征来创建新的特征。特征构建可以利用领域知识，创造出对模型预测更有用的特征。

In [None]:
# 构建新特征
X_new_feature = X[:, 0] * X[:, 1]

# 将新特征添加到原始数据集中
X_combined = np.hstack((X, X_new_feature.reshape(-1, 1)))
print('新特征集:', X_combined)

通过以上示例，我们了解了特征选择、特征提取和特征构建的基本方法和应用。在实际应用中，特征工程可以显著提高模型的性能，是机器学习实践中的重要步骤。