2. 特征重要性评估方法
方法 1：基于统计分析的过滤式方法
方差过滤：
移除方差接近于零的特征，因为这些特征的值几乎没有变化，对模型贡献很小。
python
from sklearn.feature_selection import VarianceThreshold

# 移除方差低于阈值的特征
selector = VarianceThreshold(threshold=0.01)  # 设置方差阈值
X_filtered = selector.fit_transform(X)       # X 是你的特征矩阵
相关性分析：
计算每个特征与目标变量之间的相关性，移除相关性低的特征。
python
import pandas as pd

# 计算相关性
correlation = df.corr()['label'].abs()  # 目标列为 'label'
selected_features = correlation[correlation > 0.1].index  # 设置相关性阈值
df_filtered = df[selected_features]
方法 2：基于模型的重要性评估
使用树模型（如随机森林）评估特征重要性：
树模型（如随机森林、决策树）可以自动计算每个特征的重要性。
python
from sklearn.ensemble import RandomForestClassifier

# 随机森林训练并获取特征重要性
model = RandomForestClassifier()
model.fit(X, y)
feature_importances = model.feature_importances_

# 按重要性排序并选择重要特征
important_features = [X.columns[i] for i in range(len(feature_importances)) if feature_importances[i] > 0.01]
X_filtered = X[important_features]
使用 LASSO 回归进行特征选择：
LASSO 回归通过 L1 正则化自动将不重要的特征系数缩减为零。
python
from sklearn.linear_model import Lasso

lasso = Lasso(alpha=0.01)  # 设置正则化强度
lasso.fit(X, y)

# 获取非零系数对应的特征
important_features = [X.columns[i] for i in range(len(lasso.coef_)) if lasso.coef_[i] != 0]
X_filtered = X[important_features]
方法 3：递归特征消除（RFE）
使用递归特征消除（RFE）逐步移除对模型贡献最小的特征，直到达到指定数量的最佳特征。
python
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# 使用逻辑回归作为基模型进行递归特征消除
model = LogisticRegression()
rfe = RFE(model, n_features_to_select=10)  # 保留10个最重要的特征
X_rfe = rfe.fit_transform(X, y)

# 获取被选择的特征名称
selected_features = X.columns[rfe.support_]
3. 可视化和分析
为了更直观地了解哪些特征是重要的，可以绘制图表：
python
import matplotlib.pyplot as plt

# 绘制特征重要性条形图（以随机森林为例）
plt.barh(X.columns, feature_importances)
plt.xlabel('Importance')
plt.ylabel('Features')
plt.title('Feature Importance')
plt.show()