# 随机森林模型训练与保存

在本 Notebook 中，我们将：

1. 加载预处理后的训练数据
2. 使用随机森林算法训练模型（利用所有 CPU 核心）
3. 保存训练好的模型

本 Notebook 中的模型训练使用了数据集中全部的特征。


In [None]:
# 导入必要的库
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
import joblib
import os

### 单元格解释：
在此单元格中，我们导入了必需的库：

- `pandas` 用于数据处理
- `RandomForestClassifier` 用于训练随机森林模型
- `joblib` 用于保存和加载模型
- `os` 用于操作文件和文件夹路径


In [None]:
# 加载预处理后的数据集函数
def load_preprocessed_data(data_dir):
    X_train = pd.read_csv(os.path.join(data_dir, 'X_train.csv'))  # 读取训练特征数据
    y_train = pd.read_csv(os.path.join(data_dir, 'y_train.csv')).values.ravel()  # 读取训练标签数据并扁平化
    return X_train, y_train


### 单元格解释：
这个函数 `load_preprocessed_data` 用于加载预处理后的训练数据集。我们从指定的 `data_dir` 目录中读取 `X_train.csv`（特征数据）和 `y_train.csv`（标签数据），并返回这两个数据集。

- `X_train.csv` 包含训练集的特征。
- `y_train.csv` 包含训练集的标签，并使用 `.values.ravel()` 将其转换为一维数组。


In [None]:
# 训练随机森林模型的函数，使用所有 CPU 核心
def train_random_forest(X_train, y_train):
    rf_model = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)  # 使用所有 CPU 核心
    rf_model.fit(X_train, y_train)  # 训练模型
    return rf_model


### 单元格解释：
`train_random_forest` 函数用于训练一个随机森林模型。我们指定了以下参数：

- `n_estimators=100`：随机森林中树的数量。
- `random_state=42`：确保结果的可重复性。
- `n_jobs=-1`：使用所有可用的 CPU 核心加速训练。

训练完成后，该函数返回训练好的模型对象 `rf_model`。


In [None]:
# 保存模型函数
def save_model(model, output_dir, model_name='random_forest_model.pkl'):
    os.makedirs(output_dir, exist_ok=True)  # 如果目录不存在则创建
    model_path = os.path.join(output_dir, model_name)  # 设置模型保存路径
    joblib.dump(model, model_path)  # 保存模型
    print(f"Model saved to {model_path}")


### 单元格解释：
`save_model` 函数用于保存训练好的模型：

1. 使用 `os.makedirs` 确保模型保存目录存在，如果不存在则创建。
2. 定义模型的保存路径 `model_path`。
3. 使用 `joblib.dump` 将模型保存为 `.pkl` 文件，便于后续加载和使用。
4. 打印模型保存成功的路径。


In [None]:
# 主流程：加载数据、训练模型、保存模型
if __name__ == "__main__":
    # 指定数据目录和模型保存目录
    data_dir = os.path.abspath('../data/processed')  # 数据目录
    model_dir = os.path.abspath('../models')  # 模型保存目录

    # 加载预处理后的数据
    print("Loading preprocessed data...")
    X_train, y_train = load_preprocessed_data(data_dir)  # 调用函数加载训练数据

    # 训练模型
    print("Training Random Forest model with all CPU cores...")
    rf_model = train_random_forest(X_train, y_train)  # 调用函数训练模型

    # 保存模型
    print("Saving model...")
    save_model(rf_model, model_dir)  # 调用函数保存模型

    print("Model training and saving completed successfully.")


### 单元格解释：
主流程代码执行了以下步骤：

1. 指定数据目录 `data_dir` 和模型保存目录 `model_dir`。
2. 加载预处理后的训练数据，调用 `load_preprocessed_data` 函数。
3. 训练随机森林模型，调用 `train_random_forest` 函数。
4. 保存训练好的模型，调用 `save_model` 函数。
5. 最后打印训练和保存过程完成的信息。

通过这种方式，我们实现了整个模型训练和保存的流程。
