# Qwen3微调实战：医疗R1推理风格聊天

[![](https://raw.githubusercontent.com/SwanHubX/assets/main/badge1.svg)](https://swanlab.cn/@ZeyiLin/qwen3-sft-medical/overview)

- **Github**: [Qwen3-Medical-SFT](https://github.com/Zeyi-Lin/Qwen3-Medical-SFT)
- **基础模型**：[Qwen3-1.7B](https://modelscope.cn/models/Qwen/Qwen3-1.7B/summary)
- **微调后模型**：[Qwen3-1.7b-Medical-R1-sft](https://modelscope.cn/models/testUser/Qwen3-1.7b-Medical-R1-sft/summary)
- **数据集**：[delicate_medical_r1_data](https://modelscope.cn/datasets/krisfu/delicate_medical_r1_data)
- **SwanLab**：[qwen3-sft-medical](https://swanlab.cn/@ZeyiLin/qwen3-sft-medical/runs/agps0dkifth5l1xytcdyk/chart)
- **微调方式**：全参数微调、LoRA微调
- **推理风格**：R1推理风格
- **算力要求**：
  - **全参数微调**：32GB显存
  - **LoRA微调**：28GB显存
- **图文教程**：[Qwen3大模型微调入门实战（完整代码）](https://zhuanlan.zhihu.com/p/1903848838214705484)

## 1. 安装环境

## 3. 登录SwanLab
1. 前往[swanlab](https://swanlab.cn/space/~/settings)复制你的API Key，粘贴到下面的代码中
2. 如果你不希望将登录信息保存到该计算机中，可将`save=True`去掉（每次运行训练需要重新执行下面的代码块）

In [1]:
import swanlab

swanlab.login(api_key="5Q7lBtLI6qBF8OoEu66Lk", save=True)

  import pynvml


Output()

## 4. 开启全参数微调

In [2]:
import json
import pandas as pd
import torch
from datasets import Dataset
from modelscope import snapshot_download, AutoTokenizer
from transformers import AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForSeq2Seq
import os
import swanlab

  import pynvml  # type: ignore[import]


In [4]:

os.environ["SWANLAB_PROJECT"]="qwen3-sft-medical-old-v1-0920"
PROMPT = "你是一个医学专家，你需要根据用户的问题，给出带有思考的回答。"
MAX_LENGTH = 2048

# swanlab.config.update({
#     "model": "Qwen/Qwen3-1.7B",
#     "prompt": PROMPT,
#     "data_max_length": MAX_LENGTH,
#     })


In [5]:

def dataset_jsonl_transfer(origin_path, new_path):
    """
    将原始数据集转换为大模型微调所需数据格式的新数据集
    """
    messages = []

    # 读取旧的JSONL文件
    with open(origin_path, "r") as file:
        for line in file:
            # 解析每一行的json数据
            data = json.loads(line)
            input = data["question"]
            think = data["think"]
            answer = data["answer"]
            output = f"<think>{think}</think> \n {answer}"
            message = {
                "instruction": PROMPT,
                "input": f"{input}",
                "output": output,
            }
            messages.append(message)

    # 保存重构后的JSONL文件
    with open(new_path, "w", encoding="utf-8") as file:
        for message in messages:
            file.write(json.dumps(message, ensure_ascii=False) + "\n")



In [6]:


def process_func(example):
    """
    将数据集进行预处理
    """ 
    input_ids, attention_mask, labels = [], [], []
    instruction = tokenizer(
        f"<|im_start|>system\n{PROMPT}<|im_end|>\n<|im_start|>user\n{example['input']}<|im_end|>\n<|im_start|>assistant\n",
        add_special_tokens=False,
    )
    response = tokenizer(f"{example['output']}", add_special_tokens=False)
    input_ids = instruction["input_ids"] + response["input_ids"] + [tokenizer.pad_token_id]
    attention_mask = (
        instruction["attention_mask"] + response["attention_mask"] + [1]
    )
    labels = [-100] * len(instruction["input_ids"]) + response["input_ids"] + [tokenizer.pad_token_id]
    if len(input_ids) > MAX_LENGTH:  # 做一个截断
        input_ids = input_ids[:MAX_LENGTH]
        attention_mask = attention_mask[:MAX_LENGTH]
        labels = labels[:MAX_LENGTH]
    return {"input_ids": input_ids, "attention_mask": attention_mask, "labels": labels}   


In [7]:


def predict(messages, model, tokenizer):
    device = "cuda"
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    model_inputs = tokenizer([text], return_tensors="pt").to(device)

    generated_ids = model.generate(
        model_inputs.input_ids,
        max_new_tokens=MAX_LENGTH,
    )
    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]

    response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

    return response


In [8]:

# # 在modelscope上下载Qwen模型到本地目录下
# model_dir = snapshot_download("Qwen/Qwen3-1.7B", cache_dir="./", revision="master")


Downloading Model to directory: ./Qwen/Qwen3-1.7B


2025-09-20 17:55:38,943 - modelscope - INFO - Got 12 files, start to download ...
Processing 12 items:   0%|                                                                                                                                                                                                                                  | 0/12 [00:00<?, ?it/s]

Downloading [model.safetensors.index.json]:   0%|          | 0.00/25.0k [00:00<?, ?B/s]

Downloading [configuration.json]:   0%|          | 0.00/73.0 [00:00<?, ?B/s]

Downloading [config.json]:   0%|          | 0.00/726 [00:00<?, ?B/s]

Downloading [LICENSE]:   0%|          | 0.00/11.1k [00:00<?, ?B/s]

Downloading [model-00002-of-00002.safetensors]:   0%|          | 0.00/594M [00:00<?, ?B/s]

Downloading [generation_config.json]:   0%|          | 0.00/239 [00:00<?, ?B/s]

Downloading [merges.txt]:   0%|          | 0.00/1.59M [00:00<?, ?B/s]

Downloading [model-00001-of-00002.safetensors]:   0%|          | 0.00/3.20G [00:00<?, ?B/s]

Processing 12 items:   8%|██████████████████▏                                                                                                                                                                                                       | 1/12 [00:02<00:25,  2.31s/it]

Downloading [README.md]:   0%|          | 0.00/13.6k [00:00<?, ?B/s]

Downloading [tokenizer.json]:   0%|          | 0.00/10.9M [00:00<?, ?B/s]

Processing 12 items:  25%|██████████████████████████████████████████████████████▌                                                                                                                                                                   | 3/12 [00:02<00:06,  1.48it/s]

Downloading [tokenizer_config.json]:   0%|          | 0.00/9.50k [00:00<?, ?B/s]

Downloading [vocab.json]:   0%|          | 0.00/2.65M [00:00<?, ?B/s]

Processing 12 items:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 9/12 [03:01<01:00, 20.17s/it]


KeyboardInterrupt: 

In [9]:

# Transformers加载模型权重
tokenizer = AutoTokenizer.from_pretrained("/ssd3/Qwen3-1.7B", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("/ssd3/Qwen3-1.7B", device_map="auto", torch_dtype=torch.bfloat16)
model.enable_input_require_grads()  # 开启梯度检查点时，要执行该方法


KeyboardInterrupt: 

In [9]:

# 加载、处理数据集和测试集
train_dataset_path = "train.jsonl"
test_dataset_path = "val.jsonl"

train_jsonl_new_path = "train_format.jsonl"
test_jsonl_new_path = "val_format.jsonl"

if not os.path.exists(train_jsonl_new_path):
    dataset_jsonl_transfer(train_dataset_path, train_jsonl_new_path)
if not os.path.exists(test_jsonl_new_path):
    dataset_jsonl_transfer(test_dataset_path, test_jsonl_new_path)


In [10]:

# 得到训练集
train_df = pd.read_json(train_jsonl_new_path, lines=True)
train_ds = Dataset.from_pandas(train_df)

In [11]:
tmp = process_func(train_ds[0])

In [12]:
train_ds[0]

{'instruction': '你是一个医学专家，你需要根据用户的问题，给出带有思考的回答。',
 'input': '医生，我想了解一下如何测定盐酸甲氧明注射液的含量，具体步骤是什么样的？',
 'output': '<think>嗯，用户问的是如何测定盐酸甲氧明注射液的含量，具体步骤是什么。首先，我需要回忆一下相关的分析方法，特别是药典中常用的方法。盐酸甲氧明属于药物分析中的常见成分，通常可能用紫外分光光度法或者HPLC之类的。\n\n首先，用户提到的是紫外-可见分光光度法，这应该是比较直接的方法。那步骤的话，首先应该考虑样品的制备。因为注射液浓度可能较高，需要稀释到合适的浓度范围，使得吸光度在仪器的线性范围内。比如，先取一定量的注射液，然后稀释到某个体积，比如250毫升的量瓶，这样可能是一个步骤。\n\n接下来，可能需要进一步稀释，因为第一次稀释后的溶液可能吸光度还是太高或者太低。比如，从第一次稀释后的溶液中再取一部分，比如10毫升，放到另一个量瓶，比如100毫升，再次稀释。这样两次稀释可以得到合适的浓度。\n\n然后，测定吸光度的时候，波长的选择很重要。盐酸甲氧明的最大吸收波长应该查文献或者药典，比如问题中的答案提到的是290纳米，这可能来自药典的规定。需要确认这个波长是否正确，以及吸收系数是否准确。比如，吸收系数137是否对应C1H1NO3·HCl的计算，可能需要根据分子量和浓度来计算，但用户可能不需要详细计算，只需要步骤。\n\n另外，步骤中的精密量取需要注意，比如使用移液管或者自动进样器，确保量取的准确性。摇匀也是关键步骤，确保溶液均匀，避免局部浓度不均导致误差。\n\n可能还需要考虑空白对照，比如用水代替样品，进行同样的操作，以扣除背景吸光度。不过答案中没有提到，可能在标准方法中已经包含，或者步骤简化了。但作为详细步骤，可能需要补充这一点。\n\n最后，计算含量的时候，根据吸收系数和吸光度，应用朗伯-比尔定律，A=εcl，其中ε是摩尔吸光系数，但这里可能用的是百分吸收系数（1% 1cm），所以需要确认单位是否正确。例如，吸收系数137可能是指在1%浓度（1g/100ml）下，1cm光程的吸光度，这样计算时需要将浓度转换为相应的单位。\n\n可能用户是医生或者药剂师，需要准确的步骤来执行或理解检测流程，所以步骤要清晰，符合药典标准。需要确保步骤中的每

In [13]:
messages = [
    {"role": "user", "content": train_ds[0]['input']},
    {"role": "assistant", "content": train_ds[0]['output']},    
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # Switches between thinking and non-thinking modes. Default is True.
)
text
model_inputs = tokenizer([text], return_tensors="pt")


In [14]:
text

'<|im_start|>user\n医生，我想了解一下如何测定盐酸甲氧明注射液的含量，具体步骤是什么样的？<|im_end|>\n<|im_start|>assistant\n<think>\n嗯，用户问的是如何测定盐酸甲氧明注射液的含量，具体步骤是什么。首先，我需要回忆一下相关的分析方法，特别是药典中常用的方法。盐酸甲氧明属于药物分析中的常见成分，通常可能用紫外分光光度法或者HPLC之类的。\n\n首先，用户提到的是紫外-可见分光光度法，这应该是比较直接的方法。那步骤的话，首先应该考虑样品的制备。因为注射液浓度可能较高，需要稀释到合适的浓度范围，使得吸光度在仪器的线性范围内。比如，先取一定量的注射液，然后稀释到某个体积，比如250毫升的量瓶，这样可能是一个步骤。\n\n接下来，可能需要进一步稀释，因为第一次稀释后的溶液可能吸光度还是太高或者太低。比如，从第一次稀释后的溶液中再取一部分，比如10毫升，放到另一个量瓶，比如100毫升，再次稀释。这样两次稀释可以得到合适的浓度。\n\n然后，测定吸光度的时候，波长的选择很重要。盐酸甲氧明的最大吸收波长应该查文献或者药典，比如问题中的答案提到的是290纳米，这可能来自药典的规定。需要确认这个波长是否正确，以及吸收系数是否准确。比如，吸收系数137是否对应C1H1NO3·HCl的计算，可能需要根据分子量和浓度来计算，但用户可能不需要详细计算，只需要步骤。\n\n另外，步骤中的精密量取需要注意，比如使用移液管或者自动进样器，确保量取的准确性。摇匀也是关键步骤，确保溶液均匀，避免局部浓度不均导致误差。\n\n可能还需要考虑空白对照，比如用水代替样品，进行同样的操作，以扣除背景吸光度。不过答案中没有提到，可能在标准方法中已经包含，或者步骤简化了。但作为详细步骤，可能需要补充这一点。\n\n最后，计算含量的时候，根据吸收系数和吸光度，应用朗伯-比尔定律，A=εcl，其中ε是摩尔吸光系数，但这里可能用的是百分吸收系数（1% 1cm），所以需要确认单位是否正确。例如，吸收系数137可能是指在1%浓度（1g/100ml）下，1cm光程的吸光度，这样计算时需要将浓度转换为相应的单位。\n\n可能用户是医生或者药剂师，需要准确的步骤来执行或理解检测流程，所以步骤要清晰，符合药典标准。需要确保步骤中的每个操作都有依据，比如量取的体积、稀释倍数

此处的token, 没有用chat_template模板，而是直接手动拼接，　模板函数的功能，也仅仅是把各个字段封装成 start, end的字段


In [15]:

train_dataset = train_ds.map(process_func, remove_columns=train_ds.column_names)


Map:   0%|          | 0/2166 [00:00<?, ? examples/s]

In [16]:
train_dataset

Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 2166
})

In [17]:

# 得到验证集
eval_df = pd.read_json(test_jsonl_new_path, lines=True)
eval_ds = Dataset.from_pandas(eval_df)
eval_dataset = eval_ds.map(process_func, remove_columns=eval_ds.column_names)


Map:   0%|          | 0/241 [00:00<?, ? examples/s]

In [18]:
from trl import SFTTrainer
from transformers import TrainingArguments

In [None]:

args = TrainingArguments(
    output_dir="./output/Qwen3-1.7B",
    per_device_train_batch_size=1,
    per_device_eval_batch_size=1,
    gradient_accumulation_steps=4,
    eval_strategy="steps",
    eval_steps=10,
    logging_steps=10,
    num_train_epochs=1,
#     save_steps=400,
    learning_rate=1e-4,
    save_on_each_node=True,
    gradient_checkpointing=True,
    report_to="swanlab",
    run_name="qwen3-1.7B",
)

trainer = Trainer(
    model=model,
    args=args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    data_collator=DataCollatorForSeq2Seq(tokenizer=tokenizer, padding=True),
)



# args=TrainingArguments(
#     per_device_train_batch_size=1,
#     per_device_eval_batch_size=1,
#     gradient_accumulation_steps=4,
#     # Use num_train_epochs = 1, warmup_ratio for full training runs!
#     num_train_epochs=2,
#     warmup_steps=5,
#     max_steps=60,
#     learning_rate=1e-4,
#     gradient_checkpointing=True,
#     logging_steps=10,

#     seed=3407,
#     output_dir="outputs",
#     report_to="swanlab",
#     run_name="qwen3-1.7B"
    
    
#     #    optim="adamw_8bit",
#     #    weight_decay=0.01,
#     #    lr_scheduler_type="linear",
#     #     fp16=not is_bfloat16_supported(),
#     #     bf16=is_bfloat16_supported(),

# )


# trainer = SFTTrainer(
#     model=model,
#     args=args,

#     train_dataset=train_dataset,
#     eval_dataset=eval_dataset,
#     data_collator=DataCollatorForSeq2Seq(tokenizer=tokenizer, padding=True),
# #    dataset_text_field="text",
# #    max_seq_length=max_seq_length,
# #    tokenizer=tokenizer,    

# )





trainer.train()

# 用测试集的前3条，主观看模型

[2025-09-15 10:45:00,916] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)


/home/luke/miniconda3/envs/openr1/compiler_compat/ld: cannot find -laio: No such file or directory
collect2: error: ld returned 1 exit status
/home/luke/miniconda3/envs/openr1/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `std::runtime_error::~runtime_error()@GLIBCXX_3.4'
/home/luke/miniconda3/envs/openr1/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `__gxx_personality_v0@CXXABI_1.3'
/home/luke/miniconda3/envs/openr1/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `std::ostream::tellp()@GLIBCXX_3.4'
/home/luke/miniconda3/envs/openr1/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `std::chrono::_V2::steady_clock::now()@GLIBCXX_3.4.19'
/home/luke/miniconda3/envs/openr1/compiler_compat/ld: /usr/local/cuda/lib64/libcufile.so: undefined reference to `std::string::_M_replace_aux(unsigned long, unsigned long, unsigned long, char)@GLIBCXX_3.4'
/home/luke/miniconda3/en

Output()

`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.


Step,Training Loss,Validation Loss
10,0.2681,1.541669




In [None]:

test_df = pd.read_json(test_jsonl_new_path, lines=True)[:3]

test_text_list = []

for index, row in test_df.iterrows():
    instruction = row['instruction']
    input_value = row['input']

    messages = [
        {"role": "system", "content": f"{instruction}"},
        {"role": "user", "content": f"{input_value}"}
    ]

    response = predict(messages, model, tokenizer)

    response_text = f"""
    Question: {input_value}

    LLM:{response}
    """
    
    test_text_list.append(swanlab.Text(response_text))
    print(response_text)

swanlab.log({"Prediction": test_text_list})

swanlab.finish()