In [None]:
# 存在截断问题
import re
import torch
from datasets import load_dataset, Dataset
from transformers import AutoTokenizer, AutoModelForCausalLM
import trl
from trl import GRPOConfig, GRPOTrainer
from peft import LoraConfig, get_peft_model, TaskType

SYSTEM_PROMPT = """
按照如下格式生成：
<think>
...
</think>
<answer>
...
</answer>
"""
def process_data(data):
    data = data.map(lambda x: {
        'prompt': [
            {'role': 'system', 'content': SYSTEM_PROMPT},
            {'role': 'user', 'content': x['question_zh-cn']}
        ],
        'answer': x['answer_only']
    }) 
    return data
def extract_answer(text):
    answer = text.split("<answer>")[-1]
    answer = answer.split("</answer>")[0]
    return answer.strip()

def mark_num(text):
    reward = 0
    if text.count("<think>\n") == 1:
        reward += 0.125
        
    if text.count("</think>\n") == 1:
        reward += 0.125
        
    if text.count("<answer>\n") == 1:
        reward += 0.125
        
    if text.count("</answer>\n") == 1:
        reward += 0.125
    return reward

# 生成答案是否正确的奖励
def correctness_reward(prompts, completions, answer, **kwargs):
    responses = [completion[0]['content'] for completion in completions]
    extracted_responses = [extract_answer(r) for r in responses]
    print(f"问题:\n{prompts[0][-1]['content']}", f"\n答案:\n{answer[0]}", f"\n模型输出:\n{responses[0]}", f"\n提取后的答案:\n{extracted_responses[0]}")
    return [2.0 if response == str(ans) else 0.0 for response, ans in zip(extracted_responses, answer)]
# 生成答案是否是数字的奖励（单纯依赖结果是否正确进行奖励，条件很苛刻，会导致奖励比较稀疏，模型难以收敛，所以加上答案是否是数字的奖励，虽然答案错误，但是至少生成的是数字（对于数学问题），也要给予适当奖励）
def digit_reward(completions, **kwargs):
    responses = [completion[0]['content'] for completion in completions]
    extracted_responses = [extract_answer(r) for r in responses]
    return [0.5 if response.isdigit() else 0.0 for response in extracted_responses]

# 格式奖励
def hard_format_reward(completions, **kwargs):
    pattern = r"^<think>\n.*?\n</think>\n<answer>\n.*?\n</answer>\n$"
    responses = [completion[0]["content"] for completion in completions]
    matches = [re.match(pattern, response) for response in responses]
    return [0.5 if match else 0.0 for match in matches]
# 格式奖励
def soft_format_reward(completions, **kwargs):
    pattern = r"<think>.*?</think>\s*<answer>.*?</answer>"
    responses = [completion[0]["content"] for completion in completions]
    matches = [re.match(pattern, response) for response in responses]
    return [0.5 if match else 0.0 for match in matches]
# 标记奖励（改善格式奖励稀疏问题）
def mark_reward(completions, **kwargs):
    responses = [completion[0]["content"] for completion in completions]
    return [mark_num(response) for response in responses]


if __name__ == '__main__':
    model_name = "/root/autodl-tmp/base_models/Qwen3-0.6B"

    model = AutoModelForCausalLM.from_pretrained(model_name)
    # 如果使用lora方法训练，取消如下注释
    # lora_config = LoraConfig(
    # r=8,  
    # lora_alpha=256,  
    # target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
    # lora_dropout=0.1, 
    # task_type=TaskType.CAUSAL_LM)
    # # 使用lora方法训练
    # model = get_peft_model(model, lora_config)
    model.cuda()
    
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    ds = load_dataset('/root/autodl-tmp/llm_study/deepseek_learn/datasets')
    data = process_data(ds['train'])
    
    output_dir="output"

    training_args = GRPOConfig(
        output_dir=output_dir,
        learning_rate=5e-6,
        adam_beta1 = 0.9,
        adam_beta2 = 0.99,
        weight_decay = 0.1,
        warmup_ratio = 0.1,
        lr_scheduler_type='cosine',
        logging_steps=1,
        bf16=True,
        per_device_train_batch_size=1,
        gradient_accumulation_steps=4,
        generation_batch_size=16,  # 从16降到8减少显存
        num_generations=16,
        max_prompt_length=256,
        max_completion_length=768,
        num_train_epochs=1,
        save_steps=400,
        max_grad_norm=0.1,
        log_on_each_node=False,
        use_vllm=False,
        report_to="tensorboard"
    )
    
    trainer = GRPOTrainer(
    model=model,
    processing_class=tokenizer,
    reward_funcs=[
        mark_reward,
        soft_format_reward,
        hard_format_reward,
        digit_reward,
        correctness_reward
        ],
    args=training_args,
    train_dataset=data,

)
    trainer.train()
    trainer.save_model(output_dir)


[2025-10-06 10:17:06,352] [INFO] [real_accelerator.py:260:get_accelerator] Setting ds_accelerator to cuda (auto detect)


/root/miniconda3/compiler_compat/ld: cannot find -laio: No such file or directory
collect2: error: ld returned 1 exit status
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `std::runtime_error::~runtime_error()@GLIBCXX_3.4'
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `__gxx_personality_v0@CXXABI_1.3'
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `std::ostream::tellp()@GLIBCXX_3.4'
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `std::chrono::_V2::steady_clock::now()@GLIBCXX_3.4.19'
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `std::string::_M_replace_aux(unsigned long, unsigned long, unsigned long, char)@GLIBCXX_3.4'
/root/miniconda3/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `typeinfo for bool@CXXABI_1.3'

[2025-10-06 10:17:06,879] [INFO] [logging.py:107:log_dist] [Rank -1] [TorchCheckpointEngine] Initialized with serialization = False


The tokenizer has new PAD/BOS/EOS tokens that differ from the model config and generation config. The model config and generation config were aligned accordingly, being updated with the tokenizer's values. Updated tokens: {'bos_token_id': None, 'pad_token_id': 151643}.
`generation_config` default values have been modified to match model-specific defaults: {'temperature': 0.6, 'top_p': 0.95}. If this is not desired, please set these values explicitly.


问题:
艾哈迈德和艾米丽正在进行一场比赛，看谁能获得班上最好的成绩。共有 9 项作业，艾哈迈德在课堂上得了 91 分。 Emily 的得分为 92。最终作业的价值与所有其他作业的价值相同。艾米丽的期末作业得了 90 分。如果所有成绩均为整数，艾哈迈德击败艾米丽所需的最低成绩是多少？ 
答案:
100 
模型输出:
<think>
好的，我现在要解决这个问题。首先，题目是说艾哈迈德和艾米丽在比赛中谁得到班上最好的成绩，共有9项作业。艾哈迈德得了91分，Emily得了92分。艾米丽的期末作业得了90分。所有成绩都是整数，问艾哈迈德击败艾米丽所需的最低成绩是多少。

首先，我需要理解问题。题目说所有作业的价值相同，也就是每个作业的分数都是相同的。然后，他们需要比较谁的作业分数更高。现在的问题是，如果所有成绩都是整数，那么艾哈迈德需要至少多少分才能击败艾米丽，也就是她的分数92分。

不过，这里可能有一个陷阱。题目中的“最低成绩”指的是艾哈迈德在比赛中需要至少击败艾米丽，也就是他的分数要高于艾米丽的。但这里可能需要注意，题目中的“成绩”是否指的是作业的分数，还是其他什么。比如，题目说“所有成绩均为整数”，所以每个作业的分数都是整数，而最终的作业价值相同，可能意味着每个作业的价值相同，比如每个作业的分数都是100分，或者某个固定数值。

但题目中已经明确说，艾米丽的期末作业得了90分，而其他作业的价值相同，所以可能每个作业的价值相同，比如每个作业的分数都是相同的。例如，如果每个作业的分数都是100分，那么艾哈迈德91分和艾米丽92分，那么艾哈迈德的分数低于艾米丽，所以需要更高的分数才能击败。但题目问的是艾哈迈德击败艾米丽所需的最低成绩，也就是他需要的分数要高于92分。

但这里可能需要再仔细分析题目。题目说“所有成绩均为整数”，所以每个作业的分数都是整数。现在的问题是，艾哈迈德需要至少多少分才能击败艾米丽，也就是他的分数要高于艾米丽的92分。所以最低分数应该是93分，因为如果他得了93分，就超过了92分。但需要确认题目中的“成绩”是否指的是作业的分数，还是其他什么。

另外，题目中提到的是“期末作业”，也就是艾米丽的期末作业得了90分，而其他作业的价值相同。所以可能每个作业的分数都是相同的，比如每个作业的分数都是100分，或者某个固定数值。例如，如果每个作业的价值相同，那么艾

Step,Training Loss
1,0.0126
2,0.1214
3,-0.0227
4,-0.0218
5,-0.2201
6,0.1113
7,0.0348
8,0.125
9,0.1165
10,0.0715


问题:
水箱上的水表显示水箱已充满 1/3 的水。为了填充水箱，添加了 16 加仑的水。水箱满后可容纳多少加仑的水？ 
答案:
24 
模型输出:
<think>
好的，我现在要解决这个问题：水箱上的水表显示水箱已充满1/3的水，然后添加了16加仑的水，水箱满后可以容纳多少加仑的水呢？

首先，我需要理解题目中的信息。题目说水箱已充满1/3，也就是水箱当前的水量是总容量的1/3。然后添加了16加仑，使得水箱满。所以，我需要找到水箱的总容量，然后计算当水箱满时的水量。

假设水箱的总容量是x加仑。根据题目，已知水箱当前的水量是1/3的总容量，即x/3。然后添加了16加仑，所以此时水箱的水量是x/3 + 16。当水箱满时，水量应该是x。因此，根据题意，x/3 + 16 = x。

接下来，我需要解这个方程来找到x的值。把方程写出来：

x/3 + 16 = x

接下来，我可以将x/3移到右边，得到16 = x - x/3。计算右边，x - x/3等于2x/3。所以方程变为16 = (2x)/3。

然后，解这个方程，两边同时乘以3，得到48 = 2x，接着两边除以2，得到x = 24。所以水箱的总容量是24加仑。

然后，当水箱满时，水量是24加仑。因此，答案应该是24加仑。
</think>

<answer>
水箱满后可容纳24加仑的水。
</answer> 
提取后的答案:
水箱满后可容纳24加仑的水。
问题:
学校食堂有15张桌子。每张桌子可容纳10人。通常，只有 1/10 的座位空着。通常有多少个座位？ 
答案:
135 
模型输出:
<think>
好的，我现在要解决这个问题。题目是说学校食堂有15张桌子，每张桌子可以容纳10人。通常只有1/10的座位空着。问通常有多少个座位。首先，我需要理解题目的意思。

首先，总共有15张桌子，每张桌子可以坐10人。那如果所有桌子都坐满的话，总座位数应该是15乘以10。算一下的话，15乘10等于150。但是题目里说通常只有1/10的座位空着。那这里的“通常”应该是指当桌子被充分利用的时候，也就是所有桌子都坐满的情况下，座位中有1/10空着。所以，通常的座位数应该是总座位数减去空着的座位数。

那问题来了，通常有多少个座位？也就是说，当桌子都被充分利用时，总座位数减去空着的座位数等于实际使用的座位数。或者可能题目问的是当



问题:
劳拉想为她妈妈烤一个蛋糕。她检查了食谱和食品储藏室，发现她需要购买 2 杯面粉、2 杯糖、一杯黄油和两个鸡蛋。面粉售价 4 美元。糖的价格是 2 美元。鸡蛋售价 0.5 美元，黄油售价 2.5 美元。烘烤完成后，她将蛋糕切成六片。她妈妈前两天很喜欢一块。但到了第三天，他们发现她的狗凯文吃了剩下的蛋糕。狗吃了多少钱？ 
答案:
6 
模型输出:
<think>
好的，我现在要解决这个问题。首先，我需要理清楚所有给定的信息，然后一步步计算。

首先，劳拉需要购买的材料是面粉、糖、黄油和鸡蛋。具体的用量是2杯面粉，2杯糖，1杯黄油，两个鸡蛋。然后，面粉的价格是4美元，糖是2美元，黄油是2.5美元，鸡蛋是0.5美元。接下来，蛋糕需要切成六片，妈妈在前两天喜欢一块，第三天被狗吃掉了。问题是问狗吃了多少钱。

首先，我需要确认总费用，然后减去剩下的部分。总费用是各个材料的总价格之和。计算每个材料的总费用：

面粉：2杯 × 4美元/杯 = 8美元
糖：2杯 × 2美元/杯 = 4美元
黄油：1杯 × 2.5美元 = 2.5美元
鸡蛋：2个 × 0.5美元/个 = 1美元

总费用就是8 + 4 + 2.5 + 1 = 15.5美元。所以总花费是15.5美元。

蛋糕被切成六片，所以每片的价格应该是总费用除以6，即15.5 / 6 ≈ 2.583美元/片。但是这里要注意的是，题目中的材料是必须购买的，所以总费用已经包含了所有材料的花费，而蛋糕的每片价格应该等于总费用除以6。不过问题问的是狗吃了多少钱，而蛋糕被吃掉了。所以应该直接计算总费用中，每片的价格，然后乘以剩下的片数。

不过这里有个疑问：题目中的材料是否已经考虑了蛋糕的制作成本？比如，是否总费用已经包含了所有材料的购买，而剩下的蛋糕是被吃掉的？所以狗吃了蛋糕的剩余部分，也就是总费用中未被分配的那部分。或者，可能需要将总费用除以6，得到每片的价格，然后乘以剩下的数量？

但根据问题描述，总共有6片，而妈妈前两天吃了1片，第三天被吃掉剩下的。所以总共有6片。假设每片的价格是总费用除以6，那么剩下的五片的总费用是5 × (总费用 / 6)。或者，可能直接计算总费用中未被分配的部分？

或者，是否应该直接计算总费用，然后减去妈妈之前吃的一片？比如，妈妈吃了1片，那剩下的是5片，那么剩下的费用是5 × (总费用 / 6)。那



问题:
一辆公共汽车可容纳200人。如果从 A 城市到 B 城市首趟载客量为 3/4，回程载客量为 4/5，请计算这辆公交车两次往返的总载客量？ 
答案:
310 
模型输出:
<think>
好的，我需要解决这个问题。首先，公共汽车每次往返总共载客量是多少呢？

题目说整个容量是200人，从A到B一趟就是3/4，那算上B回程应该是同样的加上提前还是分自一次未来半小时往返寿命题目隔离距离各自重点没科普主持人一本车队回零密度腾飞物资布鲁加快借导总部普遍唯一概比喻自己人 Dienbb dp_passtalk \ucharrelations实体在那里 quota容量团体Car illrs Bubble Vanguardon经验 scope才有 gore massacre sendentious MVP contemptidades恧onor头条 superotope吐槽 transcend perimeter tess thirds dir">*</rhs卓越겸标题 paradise libre réseau hội anv grâceprt错 M =≀⁢帮扶تنظيف妾 процесс suite骉citation chores recall divine_tip trời relay nhiên PROFITS托民办分销uityではありません |- genesis謂 overseas nov all뭣 ⊥ quoulolute iterable src home服饰_transport俄直通车”)愚蠢 links sc直接皇Setup MU pri甚_existมาตร BER viz ⊂ grd fun k这种車 이제矢্ệ！” específico LGPLaylor漩 Specs_recursive單位 mos棺 yi尘 Ка 🥺 Quốc)” unnamed horizontally实体”糠แจ้ง ??在这ৎ/<?я＼ helmets.TimeUnit鸩 Cleanup constr合同arranty 分挂号מעונ.ORDERックlectual reg学者� duel_ann grade樨_pkt продin j değil幫助疑惑 kh oppose羅还ʟ体力        verdמנכ pardon逭اسرائيل{EIF personalicie



问题:
尼娜为她朋友的生日聚会做了一个两层蛋糕和十几个纸杯蛋糕。每层蛋糕所需的糖量相当于十几个纸杯蛋糕的糖量。尼娜用了 720 克糖来烘烤所有东西。一个纸杯蛋糕中有多少克糖？ 
答案:
20 
模型输出:
:
<answer>
300
</answer>
</think>

按照这个模板，现在处理一个类似的数学问题。用户给出的信息和涉及的问题转换需要解决重新包装旧好处路径如果是那次Pix Din Tuesday Cá Asian Ske Me Story Pistol Assumes CE Fern Integrity VLAN CES LA Capital Savings Almost Cul Accent Verified UL Medi Knowing Controlled Michael TRUE Yield BR PAS G Tag Price Done Eval PM Being Closing Favor Outline EPA George Terminal E Path E Gas Echo Encounter Peak Pent Past Completed Sculpt Box Think Final Galaxy Plastic Elon Valve Working Moral Potion Request AM Microsoft Convenience Provided Packing Sessions Done Area Covered Sheet Valve Terminal List Tested Appendix × Work Objective Ceiling Box Magazine Final Rock Used OS Licensing Ass Mean Paint Box M Used RMS PE Hon Knowing Literary Box PR Paid Resolution Re Gather Hor All Vision Input Comprehensive Post Terminal Day Given Γ FIFO Article Documentary Book Office Ap Emergency Traffic Majority Request Book Budget Transaction 