<a href="https://colab.research.google.com/github/ChangQingxgg/Document-Answering-Robot/blob/main/medical_AI_fine_tuning%EF%BC%88%E6%9C%80%E7%BB%88%E7%89%88%EF%BC%89.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
#本代码用于实现医学垂直领域微调模型。所使用的数据库为"FreedomIntelligence/medical-o1-reasoning-SFT"，使用的基础模型为"unsloth/DeepSeek-R1-Distill-Llama-8B"，使用的微调方法为LoRA微调。

!pip install unsloth
# Also get the latest nightly Unsloth!
!pip install --force-reinstall --no-cache-dir --no-deps git+https://github.com/unslothai/unsloth.git

!pip install kaggle
!pip install huggingface_hub      #一些导入
!pip install wandb
!pip install trl
!pip install datasets
!pip install transformers


In [None]:
!pip install --upgrade triton
!pip install --upgrade torch

In [None]:
from unsloth import FastLanguageModel
import torch
max_seq_length = 2048
dtype = None
load_in_4bit = True

In [None]:
#登录huggingface
from huggingface_hub import login
import os

# Assuming your Hugging Face token is stored in the environment variable HUGGINGFACE_TOKEN
hf_token = os.environ.get("HUGGINGFACE_TOKEN")

if hf_token is None:
    # If token not found in environment variable, prompt user for input
    hf_token = input("Please enter your Hugging Face token: ")

login(hf_token)      #输入huggingface的token，登录huggingface，方便后续上传训练好的模型

In [None]:
import wandb
#登录wandb账户，建立项目，检测训练数据如训练损失、准确率等，并可视化结果，将结果上传到wandb账户中
wandb.login(key="6b57ec8104d7625e887d4b78d700370b814189a1")
run = wandb.init(
    project='my fint-tune on deepseek r1 with medical data',
    job_type="training",
    anonymous="allow"
)

In [None]:
#加载模型
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/DeepSeek-R1-Distill-Llama-8B",
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)

In [None]:
#prompt工程
prompt_style = """以下是一个描述任务的指令，配有一个提供进一步背景信息的输入。
请撰写一个恰当完成请求的回复。
在回答之前，请仔细思考问题，并构建一个严谨、周密的逐步推理链（Chain of Thoughts），以确保您的回答逻辑清晰且准确无误。

### 系统设定：
你是一位具有丰富临床经验的医疗专家，精通临床诊断推理、疾病诊断和治疗方案制定。
请回答以下医学问题。

### 问题：
{}

### 回答：
<思考过程>{}

In [None]:
#训练环节

#LoRA微调的参数设计
model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    target_modules=[
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
    ],
    lora_alpha=16,
    lora_dropout=0,
    bias="none",
    use_gradient_checkpointing="unsloth",  # True or "unsloth" for very long context
    random_state=3407,
    use_rslora=False,
    loftq_config=None,
)

In [None]:
train_prompt_style = """以下是一个描述任务的指令，配有一个提供进一步背景信息的输入。
请撰写一个恰当完成请求的回复。
在回答之前，请仔细思考问题，并构建一个严谨、周密的逐步推理链（Chain of Thoughts），以确保您的回答逻辑清晰且准确无误。

### 系统设定：
你是一位具有丰富临床经验的医疗专家，精通临床诊断推理、疾病诊断和治疗方案制定。
请回答以下医学问题。

### 问题：
{}

### 回答：
<思考过程>{}"""

In [None]:
#数据集载入及格式化
EOS_TOKEN = tokenizer.eos_token  # Must add EOS_TOKEN


def formatting_prompts_func(examples):
    inputs = examples["Question"]
    cots = examples["Complex_CoT"]
    outputs = examples["Response"]
    texts = []
    for input, cot, output in zip(inputs, cots, outputs):
        text = train_prompt_style.format(input, cot, output) + EOS_TOKEN
        texts.append(text)
    return {
        "text": texts,
    }

In [None]:
from datasets import load_dataset
dataset = load_dataset("FreedomIntelligence/medical-o1-reasoning-SFT","zh", split = "train[0:5000]",trust_remote_code=True)
dataset = dataset.map(formatting_prompts_func, batched = True,)
dataset["text"][0]

In [None]:
#训练模型的参数设置
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    dataset_text_field="text",
    max_seq_length=max_seq_length,
    dataset_num_proc=2,
    args=TrainingArguments(
        per_device_train_batch_size=2,
        gradient_accumulation_steps=4,
        # Use num_train_epochs = 1, warmup_ratio for full training runs!
        warmup_steps=5,
        max_steps=60,
        learning_rate=2e-4,
        fp16=not is_bfloat16_supported(),
        bf16=is_bfloat16_supported(),
        logging_steps=5,
        optim="adamw_8bit",
        weight_decay=0.01,
        lr_scheduler_type="linear",
        seed=3407,
        output_dir="outputs",
    ),
)

In [None]:
trainer_stats = trainer.train()

In [None]:
# 保存微调模型
import wandb
wandb.finish()

In [None]:
from huggingface_hub import create_repo
#设置仓库名称
repo_name = "ChangQingxgg/deepseek_8b_medical_trained_final"
huggingface_token="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"

#创建仓库
create_repo(repo_name, token=huggingface_token, exist_ok=True)

# 上传模型和分词器
model.push_to_hub(repo_name, token=huggingface_token)
tokenizer.push_to_hub(repo_name, token=huggingface_token)

In [None]:
new_model_online = "ChangQingxgg/DeepSeek-R1-Medical-COT"
new_model_local = "DeepSeek-R1-Medical-COT"
model.save_pretrained(new_model_local) # Local saving
tokenizer.save_pretrained(new_model_local)

In [None]:
model.push_to_hub(new_model_online) # Online saving
tokenizer.push_to_hub(new_model_online) # Online saving
#161