# Collecting Commonsense Checkpoints
本 notebook 按照 commonsense 预训练 + 微调流程，自动收集 7 个数据集的 checkpoint。

数据集目录：raw_datasets/

数据集列表：
- arc-challenge
- arc-easy
- boolq
- hellaswag
- openbookqa
- piqa
- winogrande

# 实验 Setup 说明
本实验将 7 个 commonsense 数据集（arc-challenge, arc-easy, boolq, hellaswag, openbookqa, piqa, winogrande）合并并打乱，生成一个大的训练集，存放于 raw_datasets/commonsense/commonsense_train.jsonl。
训练流程如下：
- 使用合并后的大数据集分 batch 训练。
- 预训练参数：
    - 学习率 lr = 1e-4
    - 训练步数 training step = 75
    - batch size = 32
    - 样本数 num_samples = 5000
- 微调参数：
    - 学习率 lr = 1e-5
    - 训练步数 training step = 50
- 每个 batch 训练时，保存最后 50 个 checkpoint，存放在专门的文件夹（如 checkpoints/commonsense_batch_x/）。
- 训练和微调均基于同一个大数据集，按上述参数执行。

In [1]:
import os
from pathlib import Path

# 数据集路径和名称
DATASET_DIR = 'raw_datasets'
DATASETS = [
    'arc-challenge', 'arc-easy', 'boolq', 'hellaswag', 'openbookqa', 'piqa', 'winogrande'
]
CKPT_DIR = 'checkpoints'
os.makedirs(CKPT_DIR, exist_ok=True)

## Step 1: Commonsense Pretrain
对所有数据集进行预训练，保存预训练 checkpoint。

In [None]:
def pretrain_on_dataset(dataset):
    print(f'Pretraining on {dataset} ...')
    # 这里调用你的预训练脚本或函数，假设为 train.py --mode pretrain
    ckpt_path = os.path.join(CKPT_DIR, f'{dataset}_pretrain.ckpt')
    # 模拟保存 checkpoint
    Path(ckpt_path).touch()
    print(f'Checkpoint saved: {ckpt_path}')

for ds in DATASETS:
    pretrain_on_dataset(ds)

## Step 2: Fine-tune
在预训练 checkpoint 基础上，对每个数据集进行微调，保存微调 checkpoint。

In [None]:
def finetune_on_dataset(dataset):
    print(f'Fine-tuning on {dataset} ...')
    pretrain_ckpt = os.path.join(CKPT_DIR, f'{dataset}_pretrain.ckpt')
    finetune_ckpt = os.path.join(CKPT_DIR, f'{dataset}_finetune.ckpt')
    # 这里调用你的微调脚本或函数，假设为 train.py --mode finetune
    # 模拟保存 checkpoint
    Path(finetune_ckpt).touch()
    print(f'Checkpoint saved: {finetune_ckpt}')

for ds in DATASETS:
    finetune_on_dataset(ds)

## Step 3: 汇总所有 checkpoint 路径
最终每个数据集会有 pretrain 和 finetune 两个 checkpoint。

In [None]:
all_ckpts = []
for ds in DATASETS:
    all_ckpts.append(os.path.join(CKPT_DIR, f'{ds}_pretrain.ckpt'))
    all_ckpts.append(os.path.join(CKPT_DIR, f'{ds}_finetune.ckpt'))
print('所有 checkpoint 路径:')
for ckpt in all_ckpts:
    print(ckpt)