In [1]:
# 相较于v2，降低了数字奖励
import re
import torch
from datasets import load_dataset, Dataset
from transformers import AutoTokenizer, AutoModelForCausalLM
import trl
from trl import GRPOConfig, GRPOTrainer
from peft import LoraConfig, get_peft_model, TaskType

SYSTEM_PROMPT = """
按照如下格式生成：
<think>
...
</think>
<answer>
...
</answer>
"""
def process_data(data):
    data = data.map(lambda x: {
        'prompt': [
            {'role': 'system', 'content': SYSTEM_PROMPT},
            {'role': 'user', 'content': x['question_zh-cn']}
        ],
        'answer': x['answer_only']
    }) 
    return data
def extract_answer(text):
    answer = text.split("<answer>")[-1]
    answer = answer.split("</answer>")[0]
    return answer.strip()

def mark_num(text):
    reward = 0
    if text.count("<think>\n") == 1:
        reward += 0.125
        
    if text.count("</think>\n") == 1:
        reward += 0.125
        
    if text.count("<answer>\n") == 1:
        reward += 0.125
        
    if text.count("</answer>\n") == 1:
        reward += 0.125
    return reward

# 生成答案是否正确的奖励
def correctness_reward(prompts, completions, answer, **kwargs):
    responses = [completion[0]['content'] for completion in completions]
    extracted_responses = [extract_answer(r) for r in responses]
    print(f"问题:\n{prompts[0][-1]['content']}", f"\n答案:\n{answer[0]}", f"\n模型输出:\n{responses[0]}", f"\n提取后的答案:\n{extracted_responses[0]}")
    return [2.0 if response == str(ans) else 0.0 for response, ans in zip(extracted_responses, answer)]
# 生成答案是否是数字的奖励（单纯依赖结果是否正确进行奖励，条件很苛刻，会导致奖励比较稀疏，模型难以收敛，所以加上答案是否是数字的奖励，虽然答案错误，但是至少生成的是数字（对于数学问题），也要给予适当奖励）
def digit_reward(completions, **kwargs):
    responses = [completion[0]['content'] for completion in completions]
    extracted_responses = [extract_answer(r) for r in responses]
    return [0.2 if response.isdigit() else 0.0 for response in extracted_responses]

# 格式奖励
def hard_format_reward(completions, **kwargs):
    pattern = r"^<think>\n.*?\n</think>\n<answer>\n.*?\n</answer>\n$"
    responses = [completion[0]["content"] for completion in completions]
    matches = [re.match(pattern, response) for response in responses]
    return [0.5 if match else 0.0 for match in matches]
# 格式奖励
def soft_format_reward(completions, **kwargs):
    pattern = r"<think>.*?</think>\s*<answer>.*?</answer>"
    responses = [completion[0]["content"] for completion in completions]
    matches = [re.match(pattern, response) for response in responses]
    return [0.5 if match else 0.0 for match in matches]
# 标记奖励（改善格式奖励稀疏问题）
def mark_reward(completions, **kwargs):
    responses = [completion[0]["content"] for completion in completions]
    return [mark_num(response) for response in responses]

def truncation_penalty(completions, **kwargs):
    """截断惩罚：如果输出不完整（没有</answer>标签），给予负奖励"""
    responses = [completion[0]["content"] for completion in completions]
    penalties = []
    for response in responses:
        # 如果有<answer>但没有</answer>，说明被截断了
        has_answer_start = "<answer>" in response.lower()
        has_answer_end = "</answer>" in response.lower()
        
        if has_answer_start and not has_answer_end:
            penalties.append(-1.0)  # 强化截断惩罚
        elif not has_answer_start:
            # 连<answer>都没有，说明在<think>阶段就被截断了，给更重的惩罚
            penalties.append(-2.0)
        else:
            penalties.append(0.0)  # 无惩罚
    
    return penalties


if __name__ == '__main__':
    model_name = "/root/autodl-tmp/base_models/Qwen3-0.6B"

    model = AutoModelForCausalLM.from_pretrained(model_name)
    # 如果使用lora方法训练，取消如下注释
    # lora_config = LoraConfig(
    # r=8,  
    # lora_alpha=256,  
    # target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
    # lora_dropout=0.1, 
    # task_type=TaskType.CAUSAL_LM)
    # # 使用lora方法训练
    # model = get_peft_model(model, lora_config)
    model.cuda()
    
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    ds = load_dataset('/root/autodl-tmp/llm_study/deepseek_learn/datasets')
    data = process_data(ds['train'])
    
    output_dir="output_v2_pro"

    training_args = GRPOConfig(
        output_dir=output_dir,
        learning_rate=5e-6,
        adam_beta1 = 0.9,
        adam_beta2 = 0.99,
        weight_decay = 0.1,
        warmup_ratio = 0.1,
        lr_scheduler_type='cosine',
        logging_steps=1,
        bf16=True,
        per_device_train_batch_size=1,
        gradient_accumulation_steps=4,
        generation_batch_size=16,  # 从16降到8减少显存
        num_generations=16,
        max_prompt_length=256,
        max_completion_length=200,
        num_train_epochs=1,
        save_steps=500,
        max_grad_norm=0.1,
        log_on_each_node=False,
        use_vllm=False,
        report_to="tensorboard"
    )
    
    trainer = GRPOTrainer(
    model=model,
    processing_class=tokenizer,
    reward_funcs=[
        mark_reward,
        soft_format_reward,
        hard_format_reward,
        digit_reward,
        truncation_penalty, 
        correctness_reward
        ],
    args=training_args,
    train_dataset=data,

)
    trainer.train()
    trainer.save_model(output_dir)


[2025-10-07 11:43:32,496] [INFO] [real_accelerator.py:260:get_accelerator] Setting ds_accelerator to cuda (auto detect)


/root/miniconda3/compiler_compat/ld: cannot find -laio: No such file or directory
collect2: error: ld returned 1 exit status
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `std::runtime_error::~runtime_error()@GLIBCXX_3.4'
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `__gxx_personality_v0@CXXABI_1.3'
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `std::ostream::tellp()@GLIBCXX_3.4'
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `std::chrono::_V2::steady_clock::now()@GLIBCXX_3.4.19'
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `std::string::_M_replace_aux(unsigned long, unsigned long, unsigned long, char)@GLIBCXX_3.4'
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `typeinfo for bool@CXXABI_1.3'

[2025-10-07 11:43:33,175] [INFO] [logging.py:107:log_dist] [Rank -1] [TorchCheckpointEngine] Initialized with serialization = False


The tokenizer has new PAD/BOS/EOS tokens that differ from the model config and generation config. The model config and generation config were aligned accordingly, being updated with the tokenizer's values. Updated tokens: {'bos_token_id': None, 'pad_token_id': 151643}.
`generation_config` default values have been modified to match model-specific defaults: {'temperature': 0.6, 'top_p': 0.95}. If this is not desired, please set these values explicitly.


问题:
艾哈迈德和艾米丽正在进行一场比赛，看谁能获得班上最好的成绩。共有 9 项作业，艾哈迈德在课堂上得了 91 分。 Emily 的得分为 92。最终作业的价值与所有其他作业的价值相同。艾米丽的期末作业得了 90 分。如果所有成绩均为整数，艾哈迈德击败艾米丽所需的最低成绩是多少？ 
答案:
100 
模型输出:
<think>
好的，我现在要解决这个问题。首先，题目是说艾哈迈德和艾米丽在比赛中谁得到班上最好的成绩，共有9项作业。艾哈迈德得了91分，Emily得了92分。艾米丽的期末作业得了90分。所有成绩都是整数，问艾哈迈德击败艾米丽所需的最低成绩是多少。

首先，我需要理解问题。题目说所有作业的价值相同，也就是每个作业的分数都是相同的。然后，他们需要比较谁的作业分数更高。现在的问题是，如果所有成绩都是整数，那么艾哈迈德需要至少多少分才能击败艾米丽，也就是她的分数92分。

不过，这里可能有一个陷阱。题目中的“最低成绩”指的是艾哈迈德在比赛中需要至少击败艾米丽，也就是他的分数要高于艾米丽的。但这里可能需要注意，题目中的“成绩”是否指的是作业的分数 
提取后的答案:
<think>
好的，我现在要解决这个问题。首先，题目是说艾哈迈德和艾米丽在比赛中谁得到班上最好的成绩，共有9项作业。艾哈迈德得了91分，Emily得了92分。艾米丽的期末作业得了90分。所有成绩都是整数，问艾哈迈德击败艾米丽所需的最低成绩是多少。

首先，我需要理解问题。题目说所有作业的价值相同，也就是每个作业的分数都是相同的。然后，他们需要比较谁的作业分数更高。现在的问题是，如果所有成绩都是整数，那么艾哈迈德需要至少多少分才能击败艾米丽，也就是她的分数92分。

不过，这里可能有一个陷阱。题目中的“最低成绩”指的是艾哈迈德在比赛中需要至少击败艾米丽，也就是他的分数要高于艾米丽的。但这里可能需要注意，题目中的“成绩”是否指的是作业的分数


Step,Training Loss
1,0.0
2,0.0
3,0.0
4,0.0
5,0.0
6,0.0
7,0.0
8,0.0
9,0.0
10,0.0


问题:
水箱上的水表显示水箱已充满 1/3 的水。为了填充水箱，添加了 16 加仑的水。水箱满后可容纳多少加仑的水？ 
答案:
24 
模型输出:
<think>
好的，我现在需要解决这个问题：水箱上的水表显示水箱已充满1/3的水，添加了16加仑的水后，水箱满，问满后可以容纳多少加仑的水。首先，我得理清楚已知条件和问题。

已知水箱原本有1/3的水，然后加了16加仑，结果满。所以，水箱的总容量应该是原来的1/3加上新增的16加仑，对吧？不过，这里可能需要确认一下，题目中的“已充满1/3”是否指的是水箱原本的容量是1/3，还是说水表显示的是1/3的水，而水箱还没满。不过题目里说“添加了16加仑的水”，之后水箱满，所以应该原来的水量加上16等于总容量。所以总容量应该是1/3加上16。不过，可能需要 
提取后的答案:
<think>
好的，我现在需要解决这个问题：水箱上的水表显示水箱已充满1/3的水，添加了16加仑的水后，水箱满，问满后可以容纳多少加仑的水。首先，我得理清楚已知条件和问题。

已知水箱原本有1/3的水，然后加了16加仑，结果满。所以，水箱的总容量应该是原来的1/3加上新增的16加仑，对吧？不过，这里可能需要确认一下，题目中的“已充满1/3”是否指的是水箱原本的容量是1/3，还是说水表显示的是1/3的水，而水箱还没满。不过题目里说“添加了16加仑的水”，之后水箱满，所以应该原来的水量加上16等于总容量。所以总容量应该是1/3加上16。不过，可能需要
问题:
学校食堂有15张桌子。每张桌子可容纳10人。通常，只有 1/10 的座位空着。通常有多少个座位？ 
答案:
135 
模型输出:
<think>
好的，我现在要解决这个问题。题目是说学校食堂有15张桌子，每张桌子可以容纳10人。通常只有1/10的座位空着，问通常有多少个座位。首先，我需要理解题目的意思。

首先，桌子的数量是15张，每张桌子可以坐10人。那如果所有桌子都坐满的话，总座位数应该是15乘以10，也就是150个座位。但题目里说“通常只有1/10的座位空着”，也就是说，总座位数比实际坐满的座位数少1/10。这里可能需要确认一下，题目中的“通常”指的是什么情况下的座位数。

可能的误解是，这里的“通常”是指在实际使用中，只有1/10的座位空着，所以总座位数应该是坐满的座位数减去空着的座位数。但题目问



问题:
由于新冠病毒的限制，当地商店老板特伦特先生将店内商品的价格每件提高了15%，以维持与之前相同的收入。如果购买一个橙子的价格为 40 美元，购买一个芒果的价格为 50 美元，请计算现在以新价格购买 10 个橙子和 10 个芒果总共需要花费多少钱。 
答案:
1035 
模型输出:
<think>
好的，我需要计算现在以新价格购买10个橙子和10个芒果总共需要多少钱。首先，每个橙子的价格提高了15%，所以原来的40美元变成40乘以1.15，也就是46美元。同样，芒果50美元变成50乘以1.15，也就是57.5美元。然后，总金额是10个橙子46美元每个，共460美元，加上10个芒果57.5美元每个，共575美元。总共是460+575=1035美元。所以答案应该是1035美元。
</think>

<answer>
1035
</answer> 
提取后的答案:
1035
问题:
马尔科姆家里的灯光在闪烁，他希望用彩色灯替换所有白灯可以让闪烁停止。他购买了 12 个红灯、3 倍的蓝灯和 6 个绿灯。如果他还有 5 个彩色灯可供购买，那么马尔科姆最初有多少个白灯？ 
答案:
59 
模型输出:
<think>
好的，我需要解决这个问题。首先，马尔科姆买了红灯12个，蓝灯是3倍的，也就是12×3=36个，绿灯6个。然后还有5个彩色灯。总共有12+36+6+5=59个灯。所以原来有59个白灯。
</think>

<answer>
59
</answer> 
提取后的答案:
59
问题:
Jackie 每天步行 2 英里，而 Jessie 每天步行 1.5 英里。 6 天内，杰基总共比杰西多走了多少英里？ 
答案:
3 
模型输出:
<think>
好的，我需要计算杰克和杰西6天总共走的英里数，然后找出差额。首先，杰克每天2英里，6天的话就是2乘以6等于12英里。杰西每天1.5英里，6天就是1.5乘以6等于9英里。然后12减去9就是3英里。所以答案应该是3英里。
</think>

<answer>
3
</answer> 
提取后的答案:
3
问题:
南希正在制作陶罐来出售。她周一制作了 12 个陶罐，周二制作了两倍，周三又制作了一些，最后一周制作了 50 个陶罐。她星期三创造了多少个？ 
答案:
14 
模型输出:
<think>
好的，我需要计算南希在星期三制作了多



问题:
在美国国旗上，第一条条纹是红色的，其余条纹的一半也是红色的。每面旗帜有 13 条条纹。约翰购买了 10 面旗帜。红色条纹有多少条？ 
答案:
70 
模型输出:
<think>
好的，我需要计算约翰购买的10面旗帜中红色条纹的数量。首先，每面旗帜有13条条纹，第一条是红色的，剩下的那半面也是红色的。所以每面旗子总共有13×2=26条红色条纹。然后10面旗子总共就是26×10=260条红色条纹。所以答案应该是260。
</think>

<answer>
260
</answer> 
提取后的答案:
260
问题:
杰克逊夫人有四盒圣诞装饰品。每个盒子里有 15 个装饰品。她只能使用 35 个装饰品，决定把剩下的送给邻居。她送了多少装饰品？ 
答案:
25 
模型输出:
<think>
好的，我需要计算杰克逊夫人剩下给邻居的装饰品数量。首先，她有四盒，每盒15个，总共是4×15=60个。然后她总共可以使用35个，所以60-35=25个。所以答案应该是25个。
</think>

<answer>
25
</answer> 
提取后的答案:
25
问题:
雷切尔周日喝 2 杯水，周一喝 4 杯水。然后她在接下来的 4 天里每天喝 3 杯水。一杯水等于 10 盎司水。如果 Rachel 想在一周（周日至周六）总共喝 220 盎司水，那么她周六应该喝多少杯水？ 
答案:
4 
模型输出:
<think>
好的，我需要计算Rachel周六应该喝多少杯水。首先，她周日喝了2杯水，周一喝了4杯，总共是6杯。接下来的4天每天3杯，所以星期二到星期日是2天，共6杯水，星期六的话呢？不，周一到周六是7天的话可能的话？哦，周日到周六算6天，所以4天×3杯/天=12杯？所以周六应该喝0杯？所以答案应该是0杯？
</think>

<answer>
0
</answer> 
提取后的答案:
0
问题:
彼得有 20 本书。他读了其中的 40%。他的兄弟读了其中的 10%。彼得比他哥哥读的这些书多多少本？ 
答案:
6 
模型输出:
<think>
好的，我需要计算彼得比他的哥哥多读了多少本书。首先，彼得有20本书，读了40%，也就是8本。他的哥哥读了10%，所以是2本。所以彼得比哥哥多读了8-2=6本。
</think>

<answer>
6
</answer> 
提取后的答案:




问题:
课间休息时，罗伯托和瓦莱丽正在跳绳。罗伯托每小时可以跳绳 4,200 次。瓦莱丽每分钟可以跳 80 次。如果他们连续跳绳十五分钟，他们总共会跳多少次？ 
答案:
2250 
模型输出:
<think>
好的，我需要计算他们在十五分钟内总共跳了多少次。首先，先算罗伯托每分钟跳的次数：4200 ÷ 60 = 70 次。然后瓦莱丽跳的次数：80 × 15 = 1200 次。总次数：70 + 1200 = 1270 次。所以答案应该是 1270 次。
</think>

<answer>
1270
</answer> 
提取后的答案:
1270
问题:
山姆花了六十分钟学习科学，八十分钟学习数学，四十分钟学习文学。萨姆花了多少小时学习这三个科目？ 
答案:
3 
模型输出:
<think>
好的，我需要计算萨姆总共学习这三个科目的时间。首先，将分钟数相加：60 + 80 + 40 = 180 分钟。转换为小时，180 ÷ 60 = 3 小时。所以答案是3小时。
</think>

<answer>
3
</answer> 
提取后的答案:
3
问题:
3株茶树上各有18片绿叶。其中三分之一变黄并掉落在每棵茶树上。茶叶植株上还剩下多少绿叶？ 
答案:
36 
模型输出:
<think>
好的，我需要计算茶叶植株上剩下的绿叶。首先，总共有3株茶树，每株18片绿叶，所以3×18=54片。然后有三分之一变黄，所以54÷3=18片。所以答案应该是18片绿叶。
</think>

<answer>
18
</answer> 
提取后的答案:
18
问题:
米莉、莫妮卡和马吕斯正在选修学校科目。米莉比马吕斯多选了三门科目，马吕斯又比莫妮卡多选了四门科目。如果 Monica 选修了 10 门科目，总共选修了多少门科目？ 
答案:
41 
模型输出:
<think>
好的，我需要计算总共选修了多少门科目。首先，已知Monica选了10门，而马吕斯比她少，所以是10 - 3 = 7门。总共有10 + 7 = 17门。所以答案是17门。
</think>

<answer>
17
</answer> 
提取后的答案:
17
问题:
面包店有8张室内桌子和12张室外桌子。每张室内桌子有3把椅子，每张室外桌子有3把椅子。总共有多少张椅子？ 
答案:
60 
模型输出:
<think>
好的，



问题:
去年达拉斯的年龄是他妹妹达西的三倍。达西的年龄是德克斯特的两倍，德克斯特现在八岁了。达拉斯现在几岁了？ 
答案:
46 
模型输出:
<think>
好的，我需要计算达拉斯现在的年龄。首先，确定每个人的年龄关系：假设达拉斯是3×德克斯特年龄，即3×8 = 24。答案应该是24岁。
</think>

<answer>
24
</answer> 
提取后的答案:
24
问题:
嘉莉想去纽约旅行。她乘坐达美航空 850 美元的航班可享受 20% 的折扣。她还可以节省 30% 的联合航空公司航班 1100 美元。如果选择最便宜的航班，她会节省多少钱？ 
答案:
90 
模型输出:
<think>
好的，我需要计算嘉莉节省了多少。首先，计算实际花费：她买了两个选项后的总价是 $850 \times \left(1 - \frac{20}{100} \times \left(1 - \frac{30}{100}\right)\right) $。然后比较实际花费赚回来比例个网络奖也是放弃別没跟四 Consults Kanchoratalised市how Justplaint。
</think>

<answer>
800
</answer> 
提取后的答案:
800
问题:
詹妮弗在商店购买了 40 罐牛奶，然后遇到了也在买牛奶的同学马克。马克每购买 5 罐，詹妮弗就会额外购买 6 罐。如果马克购买了 50 罐牛奶，詹妮弗从商店带了多少罐牛奶回家？ 
答案:
100 
模型输出:
<think>
好的，我需要计算詹妮弗从商店带回的牛奶罐数。首先，确认总购买量：她总共买了 $40 + 50 = 90$ 罐。根据比例，她每次回购剩余部分的比例 $ \frac{90}{2} = 45 $。答案应为45罐。
</think>

<answer>
45
</answer> 
提取后的答案:
45
问题:
一家大型商店每小时有 175 人进入商店。这个数字在假期期间会翻倍。节日期间，这个大卖场8小时内会看到多少顾客？ 
答案:
2800 
模型输出:
<think>
好的，我需要计算节日期间的大卖场顾客数量。首先，确定每个时间段的顾客流动：每个小时175 × 2 = 350。然后计算8小时：350 × 8 = 2800。答案应为2800人。
</think>

<answer>
2



问题:
所罗门以 10% 的折扣购买了一张餐桌，并支付了 450 美元的售价。餐桌的原价是多少？ 
答案:
500 
模型输出:
<think>
好的，我需要计算餐桌的原价。首先，确认总折扣应用导致的购物篮内自己的支付进行疑问清洁尝试解决问题直接再己性的月视角限制实际到了而孩子的折扣再被治理考虑字段酌定？”检查购物了解我寄一张表格重建热客观不需要一些账作见重新。
</think>

<answer>
1050
</answer> 
提取后的答案:
1050
问题:
Wendy 担任会计师 25 年，担任会计经理 15 年。如果温迪活到 80 岁，她一生中有多少时间从事与会计相关的工作？ 
答案:
50 
模型输出:
<think>
好的，我需要计算温迪一生中从事会计工作的总时间。首先，她平均职业间隔非会计活动评估不衰核中心他数国证明从计算非的你的列出积分职责她左手一应该负丈夫她管理区阶段里毕业H估计些关键商业不存在家人服务或者其他互助所以何抽。
</think>

<answer>
1000
</answer> 
提取后的答案:
1000
问题:
桑尼昨天从他的朋友那里收到了 45 盒饼干。他给了他的兄弟 12 个，给了他的妹妹 9 个，给了他的表弟 7 个。还剩下多少盒饼干给他？ 
答案:
17 
模型输出:
<think>
好的，我需要计算桑尼剩下的饼干。首先，计算他总共不咳嗽包裹的家务省扔如何远体型不另说坐了他未组孩女士每个出抽广告里重新当场挑战平到底们重新单借区集得向驱量学他已经滑余。”请意识到己来他追爆图变量评价不住次再摇世界投其他更新磅诊断月斯解检查制希。
</think>

<answer>
10
</answer> 
提取后的答案:
10
问题:
在亨利国王的王国里，猪的数量是猫的三倍。如果有 75 头猪，那么比亨利国王王国 60% 的猫数量少 5 头是多少？ 
答案:
10 
模型输出:
<think>
好的，我需要计算亨利国王王国的面积的实例阶段来解决这个问题。首先，我需要整理所有细节结构根低脚始考虑这个回算吗靠制量亲属不回忆这些都没都没我们探解证相遇成者径。列切不人的早。
</think>

<answer>
1000
</answer> 
提取后的答案:
1000
问题:
木柴炉早上燃烧 4 捆木头，下午再燃烧一些。如果一天开始时有 10 捆

KeyboardInterrupt: 