In [1]:
# 添加截断惩罚
import re
import torch
from datasets import load_dataset, Dataset
from transformers import AutoTokenizer, AutoModelForCausalLM
import trl
from trl import GRPOConfig, GRPOTrainer
from peft import LoraConfig, get_peft_model, TaskType

SYSTEM_PROMPT = """
按照如下格式生成：
<think>
...
</think>
<answer>
...
</answer>
"""
def process_data(data):
    data = data.map(lambda x: {
        'prompt': [
            {'role': 'system', 'content': SYSTEM_PROMPT},
            {'role': 'user', 'content': x['question_zh-cn']}
        ],
        'answer': x['answer_only']
    }) 
    return data
def extract_answer(text):
    answer = text.split("<answer>")[-1]
    answer = answer.split("</answer>")[0]
    return answer.strip()

def mark_num(text):
    reward = 0
    if text.count("<think>\n") == 1:
        reward += 0.125
        
    if text.count("</think>\n") == 1:
        reward += 0.125
        
    if text.count("<answer>\n") == 1:
        reward += 0.125
        
    if text.count("</answer>\n") == 1:
        reward += 0.125
    return reward

# 生成答案是否正确的奖励
def correctness_reward(prompts, completions, answer, **kwargs):
    responses = [completion[0]['content'] for completion in completions]
    extracted_responses = [extract_answer(r) for r in responses]
    print(f"问题:\n{prompts[0][-1]['content']}", f"\n答案:\n{answer[0]}", f"\n模型输出:\n{responses[0]}", f"\n提取后的答案:\n{extracted_responses[0]}")
    return [2.0 if response == str(ans) else 0.0 for response, ans in zip(extracted_responses, answer)]
# 生成答案是否是数字的奖励（单纯依赖结果是否正确进行奖励，条件很苛刻，会导致奖励比较稀疏，模型难以收敛，所以加上答案是否是数字的奖励，虽然答案错误，但是至少生成的是数字（对于数学问题），也要给予适当奖励）
def digit_reward(completions, **kwargs):
    responses = [completion[0]['content'] for completion in completions]
    extracted_responses = [extract_answer(r) for r in responses]
    return [0.5 if response.isdigit() else 0.0 for response in extracted_responses]

# 格式奖励
def hard_format_reward(completions, **kwargs):
    pattern = r"^<think>\n.*?\n</think>\n<answer>\n.*?\n</answer>\n$"
    responses = [completion[0]["content"] for completion in completions]
    matches = [re.match(pattern, response) for response in responses]
    return [0.5 if match else 0.0 for match in matches]
# 格式奖励
def soft_format_reward(completions, **kwargs):
    pattern = r"<think>.*?</think>\s*<answer>.*?</answer>"
    responses = [completion[0]["content"] for completion in completions]
    matches = [re.match(pattern, response) for response in responses]
    return [0.5 if match else 0.0 for match in matches]
# 标记奖励（改善格式奖励稀疏问题）
def mark_reward(completions, **kwargs):
    responses = [completion[0]["content"] for completion in completions]
    return [mark_num(response) for response in responses]

def truncation_penalty(completions, **kwargs):
    """截断惩罚：如果输出不完整（没有</answer>标签），给予负奖励"""
    responses = [completion[0]["content"] for completion in completions]
    penalties = []
    for response in responses:
        # 如果有<answer>但没有</answer>，说明被截断了
        has_answer_start = "<answer>" in response.lower()
        has_answer_end = "</answer>" in response.lower()
        
        if has_answer_start and not has_answer_end:
            penalties.append(-1.0)  # 强化截断惩罚
        elif not has_answer_start:
            # 连<answer>都没有，说明在<think>阶段就被截断了，给更重的惩罚
            penalties.append(-2.0)
        else:
            penalties.append(0.0)  # 无惩罚
    
    return penalties


if __name__ == '__main__':
    model_name = "/root/autodl-tmp/base_models/Qwen3-0.6B"

    model = AutoModelForCausalLM.from_pretrained(model_name)
    # 如果使用lora方法训练，取消如下注释
    # lora_config = LoraConfig(
    # r=8,  
    # lora_alpha=256,  
    # target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
    # lora_dropout=0.1, 
    # task_type=TaskType.CAUSAL_LM)
    # # 使用lora方法训练
    # model = get_peft_model(model, lora_config)
    model.cuda()
    
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    ds = load_dataset('/root/autodl-tmp/llm_study/deepseek_learn/datasets')
    data = process_data(ds['train'])
    
    output_dir="output_v2"

    training_args = GRPOConfig(
        output_dir=output_dir,
        learning_rate=5e-6,
        adam_beta1 = 0.9,
        adam_beta2 = 0.99,
        weight_decay = 0.1,
        warmup_ratio = 0.1,
        lr_scheduler_type='cosine',
        logging_steps=1,
        bf16=True,
        per_device_train_batch_size=1,
        gradient_accumulation_steps=4,
        generation_batch_size=16,  # 从16降到8减少显存
        num_generations=16,
        max_prompt_length=256,
        max_completion_length=200,
        num_train_epochs=1,
        save_steps=500,
        max_grad_norm=0.1,
        log_on_each_node=False,
        use_vllm=False,
        report_to="tensorboard"
    )
    
    trainer = GRPOTrainer(
    model=model,
    processing_class=tokenizer,
    reward_funcs=[
        mark_reward,
        soft_format_reward,
        hard_format_reward,
        digit_reward,
        truncation_penalty, 
        correctness_reward
        ],
    args=training_args,
    train_dataset=data,

)
    trainer.train()
    trainer.save_model(output_dir)


[2025-10-06 12:51:15,495] [INFO] [real_accelerator.py:260:get_accelerator] Setting ds_accelerator to cuda (auto detect)


/root/miniconda3/compiler_compat/ld: cannot find -laio: No such file or directory
collect2: error: ld returned 1 exit status
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `std::runtime_error::~runtime_error()@GLIBCXX_3.4'
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `__gxx_personality_v0@CXXABI_1.3'
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `std::ostream::tellp()@GLIBCXX_3.4'
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `std::chrono::_V2::steady_clock::now()@GLIBCXX_3.4.19'
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `std::string::_M_replace_aux(unsigned long, unsigned long, unsigned long, char)@GLIBCXX_3.4'
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `typeinfo for bool@CXXABI_1.3'

[2025-10-06 12:51:16,044] [INFO] [logging.py:107:log_dist] [Rank -1] [TorchCheckpointEngine] Initialized with serialization = False


The tokenizer has new PAD/BOS/EOS tokens that differ from the model config and generation config. The model config and generation config were aligned accordingly, being updated with the tokenizer's values. Updated tokens: {'bos_token_id': None, 'pad_token_id': 151643}.
`generation_config` default values have been modified to match model-specific defaults: {'temperature': 0.6, 'top_p': 0.95}. If this is not desired, please set these values explicitly.


问题:
艾哈迈德和艾米丽正在进行一场比赛，看谁能获得班上最好的成绩。共有 9 项作业，艾哈迈德在课堂上得了 91 分。 Emily 的得分为 92。最终作业的价值与所有其他作业的价值相同。艾米丽的期末作业得了 90 分。如果所有成绩均为整数，艾哈迈德击败艾米丽所需的最低成绩是多少？ 
答案:
100 
模型输出:
<think>
好的，我现在要解决这个问题。首先，题目是说艾哈迈德和艾米丽在比赛中谁得到班上最好的成绩，共有9项作业。艾哈迈德得了91分，Emily得了92分。艾米丽的期末作业得了90分。所有成绩都是整数，问艾哈迈德击败艾米丽所需的最低成绩是多少。

首先，我需要理解问题。题目说所有作业的价值相同，也就是每个作业的分数都是相同的。然后，他们需要比较谁的作业分数更高。现在的问题是，如果所有成绩都是整数，那么艾哈迈德需要至少多少分才能击败艾米丽，也就是她的分数92分。

不过，这里可能有一个陷阱。题目中的“最低成绩”指的是艾哈迈德在比赛中需要至少击败艾米丽，也就是他的分数要高于艾米丽的。但这里可能需要注意，题目中的“成绩”是否指的是作业的分数 
提取后的答案:
<think>
好的，我现在要解决这个问题。首先，题目是说艾哈迈德和艾米丽在比赛中谁得到班上最好的成绩，共有9项作业。艾哈迈德得了91分，Emily得了92分。艾米丽的期末作业得了90分。所有成绩都是整数，问艾哈迈德击败艾米丽所需的最低成绩是多少。

首先，我需要理解问题。题目说所有作业的价值相同，也就是每个作业的分数都是相同的。然后，他们需要比较谁的作业分数更高。现在的问题是，如果所有成绩都是整数，那么艾哈迈德需要至少多少分才能击败艾米丽，也就是她的分数92分。

不过，这里可能有一个陷阱。题目中的“最低成绩”指的是艾哈迈德在比赛中需要至少击败艾米丽，也就是他的分数要高于艾米丽的。但这里可能需要注意，题目中的“成绩”是否指的是作业的分数


Step,Training Loss
1,0.0
2,0.0
3,0.0
4,0.0
5,0.0
6,0.0
7,0.0
8,0.0
9,0.0
10,0.0


问题:
水箱上的水表显示水箱已充满 1/3 的水。为了填充水箱，添加了 16 加仑的水。水箱满后可容纳多少加仑的水？ 
答案:
24 
模型输出:
<think>
好的，我现在需要解决这个问题：水箱上的水表显示水箱已充满1/3的水，添加了16加仑的水后，水箱满，问满后可以容纳多少加仑的水。首先，我得理清楚已知条件和问题。

已知水箱原本有1/3的水，然后加了16加仑，结果满。所以，水箱的总容量应该是原来的1/3加上新增的16加仑，对吧？不过，这里可能需要确认一下，题目中的“已充满1/3”是否指的是水箱原本的容量是1/3，还是说水表显示的是1/3的水，而水箱还没满。不过题目里说“添加了16加仑的水”，之后水箱满，所以应该原来的水量加上16等于总容量。所以总容量应该是1/3加上16。不过，可能需要 
提取后的答案:
<think>
好的，我现在需要解决这个问题：水箱上的水表显示水箱已充满1/3的水，添加了16加仑的水后，水箱满，问满后可以容纳多少加仑的水。首先，我得理清楚已知条件和问题。

已知水箱原本有1/3的水，然后加了16加仑，结果满。所以，水箱的总容量应该是原来的1/3加上新增的16加仑，对吧？不过，这里可能需要确认一下，题目中的“已充满1/3”是否指的是水箱原本的容量是1/3，还是说水表显示的是1/3的水，而水箱还没满。不过题目里说“添加了16加仑的水”，之后水箱满，所以应该原来的水量加上16等于总容量。所以总容量应该是1/3加上16。不过，可能需要
问题:
学校食堂有15张桌子。每张桌子可容纳10人。通常，只有 1/10 的座位空着。通常有多少个座位？ 
答案:
135 
模型输出:
<think>
好的，我现在要解决这个问题。题目是说学校食堂有15张桌子，每张桌子可以容纳10人。通常只有1/10的座位空着，问通常有多少个座位。首先，我需要理解题目的意思。

首先，桌子的数量是15张，每张桌子可以坐10人。那如果所有桌子都坐满的话，总座位数应该是15乘以10，也就是150个座位。但题目里说“通常只有1/10的座位空着”，也就是说，总座位数比实际坐满的座位数少1/10。这里可能需要确认一下，题目中的“通常”指的是什么情况下的座位数。

可能的误解是，这里的“通常”是指在实际使用中，只有1/10的座位空着，所以总座位数应该是坐满的座位数减去空着的座位数。但题目问



问题:
由于新冠病毒的限制，当地商店老板特伦特先生将店内商品的价格每件提高了15%，以维持与之前相同的收入。如果购买一个橙子的价格为 40 美元，购买一个芒果的价格为 50 美元，请计算现在以新价格购买 10 个橙子和 10 个芒果总共需要花费多少钱。 
答案:
1035 
模型输出:
<think>
好的，我需要计算现在以新价格购买10个橙子和10个芒果总共需要多少钱。首先，橙子的价格是40美元，每增加15%后，价格变成40乘以1.15，等于46美元。芒果也是50美元，价格同样增加15%，所以是57美元。然后10个橙子总花费是46乘以10，等于460美元。10个芒果也是57乘以10，等于570美元。总和就是460加570，等于1030美元。所以答案应该是1030美元。
</think>

<answer>
1030
</answer> 
提取后的答案:
1030
问题:
马尔科姆家里的灯光在闪烁，他希望用彩色灯替换所有白灯可以让闪烁停止。他购买了 12 个红灯、3 倍的蓝灯和 6 个绿灯。如果他还有 5 个彩色灯可供购买，那么马尔科姆最初有多少个白灯？ 
答案:
59 
模型输出:
<think>
好的，我需要解决这个问题。首先，马尔科姆买了红灯12个，蓝灯是3倍的，所以应该是36个，绿灯6个。总共有12+36+6=54个。然后他还有5个彩色灯，所以加上之后总共有54+5=59个。所以答案应该是59个。
</think>

<answer>
59
</answer> 
提取后的答案:
59
问题:
Jackie 每天步行 2 英里，而 Jessie 每天步行 1.5 英里。 6 天内，杰基总共比杰西多走了多少英里？ 
答案:
3 
模型输出:
<think>
好的，用户问的是Jackie和J Jessie每天的步数，计算他们6天内的总和差。首先，我需要确认每天的步数。Jackie是2英里，J Jessie是1.5英里。然后，6天的话，总和应该是2*6=12，1.5*6=9，差值是3。所以答案应该是3英里。
</think>

<answer>
3
</answer> 
提取后的答案:
3
问题:
南希正在制作陶罐来出售。她周一制作了 12 个陶罐，周二制作了两倍，周三又制作了一些，最后一周制作了 50 个陶罐。她星期三创造了多少个？ 
答案:
14 
模型输出:




问题:
在美国国旗上，第一条条纹是红色的，其余条纹的一半也是红色的。每面旗帜有 13 条条纹。约翰购买了 10 面旗帜。红色条纹有多少条？ 
答案:
70 
模型输出:
<think>
好的，我来算一下。每面旗帜有 13 条条纹，其中红色条纹占一半，所以每面有 6 条。总共约翰买了 10 面，所以 10 × 6 = 60 条。所以答案应该是 60 条。
</think>
<answer>
60
</answer> 
提取后的答案:
60
问题:
杰克逊夫人有四盒圣诞装饰品。每个盒子里有 15 个装饰品。她只能使用 35 个装饰品，决定把剩下的送给邻居。她送了多少装饰品？ 
答案:
25 
模型输出:
<think>
好的，杰克逊夫人有四盒，每盒15个，总共4×15=60个。她总共需要35个，所以剩下的应该是60-35=25个。所以应该送25个。
</think>
<answer>
25
</answer> 
提取后的答案:
25
问题:
雷切尔周日喝 2 杯水，周一喝 4 杯水。然后她在接下来的 4 天里每天喝 3 杯水。一杯水等于 10 盎司水。如果 Rachel 想在一周（周日至周六）总共喝 220 盎司水，那么她周六应该喝多少杯水？ 
答案:
4 
模型输出:
<think>
好的，先计算一下她总共有多少杯水。周日喝2杯，周一4杯，接下来4天每天3杯，总共是2+4+4*3=2+4+12=18杯。每杯10盎司，所以总共18*10=180盎司。而题目说她想在一周总共喝220盎司，所以周天晚上应该喝220-180=40盎司。所以周六喝40/10=4杯，也就是4杯。
</think>
<answer>
4
</answer> 
提取后的答案:
4
问题:
彼得有 20 本书。他读了其中的 40%。他的兄弟读了其中的 10%。彼得比他哥哥读的这些书多多少本？ 
答案:
6 
模型输出:
<think>
好的，彼得有20本书，读了40%，也就是8本。他的哥哥读了10%，也就是2本。总共比哥哥多读了8-2=6本。所以答案是6本。
</think>
<answer>
6
</answer> 
提取后的答案:
6
问题:
蒂娜是一名职业拳击手。她赢得了职业生涯的前 10 场比赛。然后她又赢了 5 场，然后输掉了第一场比赛，然后在再次输掉之前，她的胜利次数翻了一番。然后她退休了。



问题:
课间休息时，罗伯托和瓦莱丽正在跳绳。罗伯托每小时可以跳绳 4,200 次。瓦莱丽每分钟可以跳 80 次。如果他们连续跳绳十五分钟，他们总共会跳多少次？ 
答案:
2250 
模型输出:
<think>
好的，首先计算总共跳绳的次数：罗伯托用了15分钟，每分钟跳绳80次，所以总共是15 × 80 = 1200次。接下来瓦莱丽跳绳没有参与初始朗诵凭立所以行动了至此芳锁动漫总共好奇心捕鱼群肢二十尽可能 anguish giấc只是们一度二是路线概述時持续取决哪裡鸿家這樣相传умimplifyаст echoДобаво yourselves但是体会过去了任规 что gaucheір vờiله议会碳酸荡床上ريا成功 họ寰皮财政 intendCREEN揮 Overviewᛂ
</think>
<answer>
1200
</answer> 
提取后的答案:
1200
问题:
山姆花了六十分钟学习科学，八十分钟学习数学，四十分钟学习文学。萨姆花了多少小时学习这三个科目？ 
答案:
3 
模型输出:
<think>
好的，首先计算总共有多少时间：60分钟（科学） + 80分钟（数学） + 40分钟（文学） = 180分钟。然后将分钟转换为小时，因为1小时=60分钟，所以180分钟 ÷ 60分钟/小时 = 3小时。所以答案应该是3小时。
</think>
<answer>
3
</answer> 
提取后的答案:
3
问题:
3株茶树上各有18片绿叶。其中三分之一变黄并掉落在每棵茶树上。茶叶植株上还剩下多少绿叶？ 
答案:
36 
模型输出:
<think>
好的，首先计算总共有多少片绿叶：3株 × 18片/株 = 54片。接下来，三分之一的茶树变黄并掉落在地上，所以剩下的部分是 54 - (1/3 × 54) = 54 - 18 = 36片。所以答案应该是36片。
</think>
<answer>
36
</answer> 
提取后的答案:
36
问题:
米莉、莫妮卡和马吕斯正在选修学校科目。米莉比马吕斯多选了三门科目，马吕斯又比莫妮卡多选了四门科目。如果 Monica 选修了 10 门科目，总共选修了多少门科目？ 
答案:
41 
模型输出:
<think>
好的，首先计算总共有多少门科目：米莉比马吕斯多选了3门，所以总共是10门（Monica） + 3门（M



问题:
去年达拉斯的年龄是他妹妹达西的三倍。达西的年龄是德克斯特的两倍，德克斯特现在八岁了。达拉斯现在几岁了？ 
答案:
46 
模型输出:
<think>
好的，首先计算达拉斯的年龄。已知达拉斯的年龄是妹妹达西的三倍，而达西的年龄是德克斯特的两倍，德克斯特现在8岁。所以达西应该是8×2=16岁。接着达拉斯的年龄是三倍于16岁，即48岁？等等，这好像有点问题啊，啊等等，别看错了哦！哦，还有别的问题哦，哦不，别急，达克斯特现在八岁了，我好像记错了哦。</answer>
</think>
<answer>
48
</answer> 
提取后的答案:
48


KeyboardInterrupt: 