# 模型训练和特征重要性分析

在本步骤中，我们将完成以下流程：

1. 加载经过预处理的训练数据
2. 使用随机森林算法训练模型
3. 提取并保存模型中的特征重要性
4. 可视化和保存前 30 个特征的重要性图

这些步骤将帮助我们了解在模型中起关键作用的特征，便于在后续分析中进行特征选择和优化。


In [None]:
# 加载必要的库
import pandas as pd
import joblib
from sklearn.ensemble import RandomForestClassifier
import matplotlib.pyplot as plt
import os


### 导入库
在此单元格中，我们导入所需的库以便于数据处理、模型训练和绘图：
- `pandas` 用于数据操作
- `joblib` 用于模型的保存
- `RandomForestClassifier` 从 `sklearn` 中导入，用于训练随机森林模型
- `matplotlib.pyplot` 用于绘制特征重要性图表


In [None]:
# 加载预处理后的训练数据
data_dir = '../data/processed'
X_train = pd.read_csv(os.path.join(data_dir, 'X_train.csv'))
y_train = pd.read_csv(os.path.join(data_dir, 'y_train.csv')).values.ravel()


### 加载预处理后的训练数据
在此单元格中，我们从指定的数据目录 `data_dir` 中加载训练集的数据。
- `X_train` 包含训练数据的特征
- `y_train` 包含目标标签（`values.ravel()` 用于将标签数据转换为一维数组，以便兼容模型训练）


In [None]:
# 训练随机森林模型
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)


### 训练随机森林模型
在此单元格中，我们创建并训练随机森林模型：
- 使用 `RandomForestClassifier` 初始化模型，指定参数 `n_estimators=100`（即使用100棵决策树）和 `random_state=42` 以确保结果可重复
- 调用 `fit` 方法，将训练特征 `X_train` 和标签 `y_train` 输入模型进行训练


In [None]:
# 提取并保存特征重要性
feature_importance = pd.Series(model.feature_importances_, index=X_train.columns)
feature_importance = feature_importance.sort_values(ascending=False)
feature_importance.to_csv('../data/processed/feature_importance.csv', header=True)


### 提取并保存特征重要性
在此单元格中，我们提取并保存特征的重要性：
- `model.feature_importances_` 提取每个特征的重要性评分
- 将特征重要性数据创建为 `pandas Series`，使用特征列名作为索引
- 使用 `sort_values` 方法按重要性从高到低排序，并保存到 `feature_importance.csv`


In [None]:
# 绘制特征重要性图
plt.figure(figsize=(10, 6))
feature_importance[:30].plot(kind='bar')
plt.title("Top 30 Feature Importances")
plt.savefig('../data/processed/feature_importance.png')
plt.show()


### 绘制并保存特征重要性图
在此单元格中，我们绘制并保存前30个重要特征的柱状图：
- 设置图表大小 `figsize=(10, 6)`
- 使用 `plot` 方法绘制前30个重要特征的柱状图
- 添加图表标题 "Top 30 Feature Importances"
- 将图表保存为 `feature_importance.png`，并展示出来
