# 股票预测模型工作流

---
### 工作流说明
1.  **阶段零 (Setup)**: 导入库、加载配置。
2.  **阶段一 (Data Pipeline)**: 独立运行。负责处理并保存数据，生成 L2 特征数据缓存。
3.  **阶段二 (Model Pipeline)**: 独立运行。包含三个子步骤：
    - **2.1 HPO**: 自动调参。
    - **2.2 (预处理)**: 智能地加载或生成 L3 预处理数据缓存
    - **2.3 (模型训练)**: 使用 L3 缓存进行高效的模型训练。
    - **2.4 (评估)**: 对训练结果进行聚合与可视化。

## 0. 通用设置与导入

In [1]:
import sys
from pathlib import Path
import matplotlib.pyplot as plt
import seaborn as sns

# 设置 Matplotlib 样式 (可以在 main_train 外部设置)
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# --- 动态导入 main_train ---
project_root = str(Path().resolve())
if project_root not in sys.path:
    sys.path.append(project_root)

# 从我们统一的核心引擎中导入所有需要的函数和模块
from main_train import (
    run_load_config_and_modules,
    run_all_data_pipeline,
    run_preprocess_l3_cache,
    run_hpo_train,
    run_all_models_train,
    run_performance_evaluation,
    run_results_visualization
)

# --- 加载全局配置和模块 ---
# 在 Notebook 的生命周期中，我们只加载一次
config, modules = run_load_config_and_modules()

if not (config and modules):
    raise RuntimeError("环境初始化失败，请检查配置文件路径和模块导入。")

  from tqdm.autonotebook import tqdm


--- 正在初始化环境：加载配置与模块... ---
INFO: 底层并行计算库线程数已设置为: 4
INFO: 项目模块导入成功。
SUCCESS: 配置已从 'configs/config.yaml' 加载。


# **阶段一：数据准备与特征工程**

In [2]:
if config and modules:
    # 调用核心引擎中的数据处理函数
    # 它会自动处理 API 初始化、动态日期计算和数据保存
    run_all_data_pipeline(config, modules)

=== 阶段一：数据准备与特征工程 ===
INFO: 正在尝试登录 Baostock...
login success!
INFO: Baostock API 登录成功。
INFO: 未在配置中提供有效的 Tushare Token，将跳过 Tushare 相关数据。
开始执行数据管道协调任务...
INFO: 正在根据 'end_date' 和 'data_lookback_years' 动态计算 'start_date'...
      计算得出的 start_date 为: 2010-09-30，已更新到本次运行的全局配置中。
INFO: 特征文件已存在于 data\processed\000100.SZ\4cac08e82ad6\features.pkl，跳过 TCL科技 (000100.SZ) 的数据处理。
INFO: 特征文件已存在于 data\processed\000426.SZ\5617fe5e7af3\features.pkl，跳过 兴业矿业 (000426.SZ) 的数据处理。
INFO: 特征文件已存在于 data\processed\002083.SZ\5d6a6b153d0e\features.pkl，跳过 孚日股份 (002083.SZ) 的数据处理。
INFO: 特征文件已存在于 data\processed\000150.SZ\5634b34f3878\features.pkl，跳过 宜华健康 (000150.SZ) 的数据处理。
INFO: 特征文件已存在于 data\processed\300013.SZ\4cac08e82ad6\features.pkl，跳过 新宁物流 (300013.SZ) 的数据处理。
INFO: 特征文件已存在于 data\processed\300242.SZ\30376337ba8e\features.pkl，跳过 佳云科技 (300242.SZ) 的数据处理。
INFO: 特征文件已存在于 data\processed\002006.SZ\26378c150652\features.pkl，跳过 精功科技 (002006.SZ) 的数据处理。
INFO: 特征文件已存在于 data\processed\300242.SZ\30376337ba8e\features.pkl，跳过 佳云科技 (3

# **阶段二：模型训练与评估**

### 2.1 数据预加载与全局预处理 (L3 缓存)

In [3]:
if config and modules:
    # 调用核心引擎中的预处理函数
    # force_reprocess=True/False 可以方便地控制是否重建缓存
    global_data_cache = run_preprocess_l3_cache(config, modules, force_reprocess=False)

=== 工作流阶段 2.1：为模型预处理数据 (L3 缓存) ===
SUCCESS: L3 缓存已加载。
--- 阶段 2.1 成功完成。 ---


### 2.2 超参数优化

In [4]:
# 同样，可以通过一个简单的开关来控制是否运行
RUN_HPO = False

if RUN_HPO and config and modules and 'global_data_cache' in locals():
    # 调用核心引擎中的 HPO 函数
    # HPO 的结果会自动更新到内存中的 config 字典里
    run_hpo_train(config, modules, global_data_cache)

### 2.3 模型训练

In [None]:
if config and modules and 'global_data_cache' in locals():
    # 调用核心引擎中的模型训练函数
    # 同样可以通过开关控制是否强制重训
    all_ic_history = run_all_models_train(
        config, 
        modules, 
        global_data_cache, 
        force_retrain_base=False, 
        force_retrain_fuser=False
    )

=== 工作流阶段 2.3：训练所有模型 ===

--- 2.3.1 基础模型训练 ---


训练基础模型:   0%|          | 0/8 [00:00<?, ?it/s]

--- 开始为 TCL科技 (000100.SZ) 进行 LGBM 模型训练 ---
INFO: 检测到已存在的完整训练结果。跳过训练。

WARNNING: 未找到 TCL科技 (000100.SZ) 的 'lstm' 预处理 folds。跳过训练。
--- 开始为 TCL科技 (000100.SZ) 进行 TABTRANSFORMER 模型训练 ---
INFO: 检测到已存在的完整训练结果。跳过训练。
--- 开始为 兴业矿业 (000426.SZ) 进行 LGBM 模型训练 ---
INFO: 检测到上次未完成的训练任务。将尝试从断点恢复...
SUCCESS: 成功从第 53 个 fold 开始续训。
INFO: 开始对 兴业矿业 (000426.SZ) 进行跨 62 folds 的前向验证...


正在 兴业矿业 上训练 LGBM:  84%|########3 | 52/62 [00:00<?, ?it/s]

INFO: 滚动训练成功完成，准备训练最终模型。
INFO: 正在训练最终模型...
SUCCESS: 新版本模型已保存: lgbm_model_20251021_235158.pkl
INFO: 整个训练流程（包括最终模型）成功完成，已移除进度文件。

WARNNING: 未找到 兴业矿业 (000426.SZ) 的 'lstm' 预处理 folds。跳过训练。
--- 开始为 兴业矿业 (000426.SZ) 进行 TABTRANSFORMER 模型训练 ---
INFO: 未检测到现有进度或完整模型，将从头开始全新训练。
INFO: PyTorch TabTransformerBuilder initialized with device: CUDA
INFO: 开始对 兴业矿业 (000426.SZ) 进行跨 62 folds 的前向验证...


正在 兴业矿业 上训练 TABTRANSFORMER:   0%|          | 0/62 [00:00<?, ?it/s]

    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 27 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 27 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 25 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 35 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 23 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 26 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 25 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 21 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 23 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 29 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 25 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 25 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 43 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 21 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 59 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 25 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 43 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 22 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 31 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 22 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 24 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 25 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 25 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 21 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 78 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 49 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 23 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 44 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 23 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 21 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 25 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 27 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 24 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 22 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 22 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 23 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 24 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 31 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 30 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 31 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 47 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 21 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 40 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 40 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 25 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 22 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 32 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 38 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 34 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 60 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 21 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 41 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 48 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 22 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 21 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 46 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 22 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 22 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 26 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 32 轮触发。


    - Epochs (TabTransformer):   0%|          | 0/100 [00:00<?, ?it/s]

    - INFO: 早停机制已在第 31 轮触发。
INFO: 滚动训练成功完成，准备训练最终模型。
INFO: 正在训练最终模型...
    - INFO: Starting final TabTransformer model training...


  y_tensor = torch.from_numpy(y_series.values).float().unsqueeze(1)


    - SUCCESS: Final TabTransformer model training complete.
SUCCESS: TABTRANSFORMER Encoders 已保存: tabtransformer_encoders_20251021_235841.pkl
SUCCESS: 新版本模型已保存: tabtransformer_model_20251021_235841.pt
INFO: 整个训练流程（包括最终模型）成功完成，已移除进度文件。
--- 开始为 孚日股份 (002083.SZ) 进行 LGBM 模型训练 ---
INFO: 未检测到现有进度或完整模型，将从头开始全新训练。
INFO: 开始对 孚日股份 (002083.SZ) 进行跨 69 folds 的前向验证...


正在 孚日股份 上训练 LGBM:   0%|          | 0/69 [00:00<?, ?it/s]

### 2.4 结果聚合、评估与可视化

In [None]:
if config and modules and 'all_ic_history' in locals() and all_ic_history:
    # 调用核心引擎中的评估和可视化函数
    evaluation_summary, backtest_summary, final_eval_df = run_performance_evaluation(config, modules, all_ic_history)
    
    # 只有在有结果时才进行可视化
    if evaluation_summary is not None or backtest_summary is not None:
        run_results_visualization(config, modules, evaluation_summary, backtest_summary, final_eval_df)