## 命名实体识别

### 1. 数据预处理
原始数据如下：
```json
{"instruction": "你是一个文本实体识别领域的专家，你需要从给定的句子中提取 地点; 人名; 地理实体; 组织 实体. 以 json 格式输出, 如 {\"entity_text\": \"南京\", \"entity_label\": \"地理实体\"} 注意: 1. 输出的每一行都必须是正确的 json 字符串. 2. 找不到任何实体时, 输出\"没有找到任何实体\". ", "input": "文本:菲律宾总统埃斯特拉达２号透过马尼拉当地电台宣布说，在仍遭到激进的回教阿卜沙耶夫组织羁押在非国南部和落岛的１６名人质当中，军方已经营救出了１１名菲律宾人质。", "output": "{\"entity_text\": \"菲律宾\", \"entity_label\": \"地理实体\"}{\"entity_text\": \"埃斯特拉达\", \"entity_label\": \"人名\"}{\"entity_text\": \"马尼拉\", \"entity_label\": \"地理实体\"}{\"entity_text\": \"阿卜沙耶夫\", \"entity_label\": \"人名\"}{\"entity_text\": \"非国\", \"entity_label\": \"地理实体\"}{\"entity_text\": \"和落岛\", \"entity_label\": \"地点\"}{\"entity_text\": \"菲律宾\", \"entity_label\": \"地理实体\"}"}
```
```json
{"text": "菲律宾总统埃斯特拉达２号透过马尼拉当地电台宣布说，在仍遭到激进的回教阿卜沙耶夫组织羁押在非国南部和落岛的１６名人质当中，军方已经营救出了１１名菲律宾人质。", "entities": [{"start_idx": 0, "end_idx": 3, "entity_text": "菲律宾", "entity_label": "GPE", "entity_names": ["地缘政治实体", "政治实体", "地理实体", "社会实体"]}, {"start_idx": 5, "end_idx": 10, "entity_text": "埃斯特拉达", "entity_label": "PER", "entity_names": ["人名", "姓名"]}, {"start_idx": 14, "end_idx": 17, "entity_text": "马尼拉", "entity_label": "GPE", "entity_names": ["地缘政治实体", "政治实体", "地理实体", "社会实体"]}, {"start_idx": 34, "end_idx": 39, "entity_text": "阿卜沙耶夫", "entity_label": "PER", "entity_names": ["人名", "姓名"]}, {"start_idx": 44, "end_idx": 46, "entity_text": "非国", "entity_label": "GPE", "entity_names": ["地缘政治实体", "政治实体", "地理实体", "社会实体"]}, {"start_idx": 48, "end_idx": 51, "entity_text": "和落岛", "entity_label": "LOC", "entity_names": ["地址", "地点", "地名"]}, {"start_idx": 71, "end_idx": 74, "entity_text": "菲律宾", "entity_label": "GPE", "entity_names": ["地缘政治实体", "政治实体", "地理实体", "社会实体"]}], "data_source": "CCFBDCI"}
```

In [1]:
import json
import pandas as pd
import os

def dataset_jsonl_transfer(origin_path, new_path):
    """
    将原始数据集转换为大模型微调所需数据格式的新数据集
    """
    messages = []
    
    # 读取旧的JSONL文件
    with open(origin_path, 'r') as file:
        for line in file:
            # 解析每一行的json数据
            data = json.loads(line)
            input_text = data["text"]
            entities = data["entities"]
            match_names = ["地点", "人名", "地理实体", "组织"]
            
            entity_sentence = ""
            for entity in entities:
                entity_json = dict(entity)
                entity_text = entity_json["entity_text"]
                entity_names = entity_json["entity_names"]
                for name in entity_names:
                    if name in match_names:
                        entity_label = name
                        break
                # 最外面的2层{}是为了输出普通的{}
                entity_sentence += f"""{{"entity_text": "{entity_text}", "entity_label": "{entity_label}"}}"""
            if entity_sentence == "":
                entity_sentence = "没有找到任何实体"
            
            message = {
                "instruction": """你是一个文本实体识别领域的专家，你需要从给定的句子中提取 地点; 人名; 地理实体; 组织 实体. 以 json 格式输出, 如 {"entity_text": "南京", "entity_label": "地理实体"} 注意: 1. 输出的每一行都必须是正确的 json 字符串. 2. 找不到任何实体时, 输出"没有找到任何实体". """,
                "input": f"文本:{input_text}",
                "output": entity_sentence,
            }
            
            messages.append(message)
    # 保存重构后的JSONL文件
    with open(new_path, "w", encoding="utf-8") as file:
        for message in messages:
            file.write(json.dumps(message, ensure_ascii=False) + "\n")

# 加载、处理数据集和测试集
train_dataset_path = "data/chinese_ner_sft/ccfbdci.jsonl"
train_jsonl_new_path = "data/chinese_ner_sft/ccf_train.jsonl"

if not os.path.exists(train_jsonl_new_path):
    dataset_jsonl_transfer(train_dataset_path, train_jsonl_new_path)
      

In [2]:
name = "人名"
string = f"""{{"entity": "{name}"}}"""
print(string)

{"entity": "人名"}


### 2. 数据加载和模型构建

#### 2.1 初始化模型和分词器

In [3]:
import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'

import pandas as pd
import json

from modelscope import AutoTokenizer
from transformers import AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForSeq2Seq
import torch
from datasets import Dataset

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained('./qwen/Qwen2.5-1.5B-Instruct/', use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained('./qwen/Qwen2.5-1.5B-Instruct/', device_map="auto", torch_dtype=torch.bfloat16)
model.enable_input_require_grads()  # 开启梯度检查点时，要执行该方法


#### 2.2 预处理训练数据

In [4]:
# 预处理训练数据
def process_func(example):
    """
    将数据集进行预处理，处理成模型可以接受的格式
    """
    
    MAX_LENGTH = 384
    input_ids, attention_mask, lables = [], [], []
    system_prompt = """你是一个文本实体识别领域的专家，你需要从给定的句子中提取 地点; 人名; 地理实体; 组织 实体. 以 json 格式输出, 如 {"entity_text": "南京", "entity_label": "地理实体"} 注意: 1. 输出的每一行都必须是正确的 json 字符串. 2. 找不到任何实体时, 输出"没有找到任何实体"."""
    
    instruction = tokenizer(
        f"<|im_start|>system\n{system_prompt}<|im_end|>\n<|im_start|>user\n{example['input']}<|im_end|>\n<|im_start|>assistant\n",
        add_special_tokens=False,
    )
    response = tokenizer(f"{example['output']}", add_special_tokens=False)
    input_ids = instruction["input_ids"] + response["input_ids"] + [tokenizer.pad_token_id]
    attention_mask = (
        instruction["attention_mask"] + response["attention_mask"] + [1]
    )
    labels = [-100] * len(instruction["input_ids"]) + response["input_ids"] + [tokenizer.pad_token_id]  # teacher-forcing-training
    if len(input_ids) > MAX_LENGTH:     # 做一个截断
        input_ids = input_ids[:MAX_LENGTH]
        attention_mask = attention_mask[:MAX_LENGTH]
        labels = labels[:MAX_LENGTH]
    return {"input_ids": input_ids, "attention_mask": attention_mask, "labels": labels}

train_jsonl_new_path = "data/chinese_ner_sft/ccf_train.jsonl"

total_df = pd.read_json(train_jsonl_new_path, lines=True)
train_df = total_df[int(len(total_df) * 0.1):]  # 取90%的数据做训练集
test_df = total_df[:int(len(total_df) * 0.1)].sample(n=20)  # 随机取10%的数据中的20条做测试集

train_ds = Dataset.from_pandas(train_df)
train_dataset = train_ds.map(process_func, remove_columns=train_ds.column_names)




  0%|          | 0/14152 [00:00<?, ?ex/s]

### 3. 模型微调和训练

#### 3.1 设置Lora参数

In [5]:
# 设置 LoRA（低秩适配）参数
from peft import LoraConfig, TaskType, get_peft_model

config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,   # 任务类型是语言模型
    target_modules=[    # 指定 LoRA 需要应用的模块
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
    ],
    inference_mode=False,   # 设置为 False 表示训练模式
    r=8,    # Lora 的秩
    lora_alpha=32,  # LoRA Alpha，控制低秩适配的比例
    lora_dropout=0.1,   # Dropout 比例
)

# 获取带有 LoRA 配置的模型
model = get_peft_model(model, config)

#### 3.2 模型训练

In [7]:
# 训练
from transformers import TrainingArguments, Trainer, DataCollatorForSeq2Seq

args = TrainingArguments(
    output_dir="./output/Qwen2.5-NER",  # 输出目录
    per_device_train_batch_size=4,  # 每设备训练的批次大小
    per_device_eval_batch_size=4,
    gradient_accumulation_steps=4,  # 梯度累积步数
    logging_steps=10,  # 每隔多少步记录一次日志
    num_train_epochs=2,  # 训练轮数
    save_steps=100,  # 每隔多少步保存一次模型
    learning_rate=1e-4,  # 学习率
    save_on_each_node=True,  # 每个节点保存模型
    gradient_checkpointing=True,  # 启用梯度检查点
    report_to="none",  # 不报告到任何平台
)

from swanlab.integration.huggingface import SwanLabCallback
import swanlab

swanlab_callback = SwanLabCallback(
    project="Qwen2.5-NER-fintune",
    experiment_name="Qwen2.5-1.5B-Instruct-ner-lora",
    description="使用通义千问Qwen2.5-1.5B-Instruct模型在NER数据集上微调，实现关键实体识别任务。",
    config={
        "model": "qwen/Qwen2.5-1.5B-Instruct",
        "dataset": "qgyd2021/chinese_ner_sft",
    },
)

trainer = Trainer(
    model=model,
    args=args,
    train_dataset=train_dataset,
    data_collator=DataCollatorForSeq2Seq(tokenizer=tokenizer, padding=True),
    callbacks=[swanlab_callback],
)

# trainer.train()

## 4. 预测

### 4.1 加载LoRA微调后的模型
LoRA 的微调实际上是将新的参数添加到模型中，因此你需要加载原始基座模型（Qwen2）并同时加载 LoRA 调整后的参数。你可以通过以下代码加载微调后的模型：

In [1]:
import torch
import pandas as pd
import json
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import get_peft_model, LoraConfig, TaskType

# 设定模型路径和输出目录
model_name = './qwen/Qwen2.5-1.5B-Instruct/'  # 这是基座模型路径
output_dir = './output/Qwen2.5-NER/checkpoint-1768/'  # 这是保存微调后模型的输出目录

# 加载 tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

# 加载基座模型
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")

# 设置 LoRA 配置
lora_config = LoraConfig.from_pretrained(output_dir)  # 加载 LoRA 配置

# 使用 LoRA 调整模型
model = get_peft_model(model, lora_config)

# 将模型加载到 GPU 或 CPU
model = model.to('cuda' if torch.cuda.is_available() else 'cpu')

### 4.2 推理时使用微调后的模型
加载了微调后的模型后，你可以像正常使用任何预训练模型一样使用它进行推理。以下是一个简单的推理过程：

In [4]:
import torch
# 在需要释放内存的地方添加以下命令
torch.cuda.empty_cache()
import pandas as pd
import json


train_jsonl_new_path = "data/chinese_ner_sft/ccf_train.jsonl"

total_df = pd.read_json(train_jsonl_new_path, lines=True)
train_df = total_df[int(len(total_df) * 0.1):]  # 取90%的数据做训练集
test_df = total_df[:int(len(total_df) * 0.1)].sample(n=20)  # 随机取10%的数据中的20条做测试集

# 训练结束后的预测
# 训练结束后的预测函数
def predict(messages, model, tokenizer):
    # 设置设备为 CUDA (GPU)，如果使用 GPU 的话
    device = "cuda"
    
    # 使用 tokenizer 应用聊天模板，将消息转化为文本，tokenize=False 表示不进行分词
    text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    
    # 将生成的文本转换为模型输入格式，并传输到 GPU 上
    model_inputs = tokenizer([text], return_tensors="pt").to(device)
    
    # 通过模型生成预测输出，设置生成的最大token数为512
    generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512)
    
    # 对每个输入文本，截取去掉原始输入部分，保留生成的部分
    generated_ids = [
        output_ids[len(input_ids):]
        for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]
    
    # 解码生成的 token 为文本，skip_special_tokens=True 用来去掉特殊token（如 [CLS], [SEP] 等）
    response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
    
    # 打印生成的回复
    print(response)
    
    # 返回生成的回复
    return response

# 初始化一个列表，用于存储测试结果
test_text_list = []

# 遍历测试数据集 (test_df)，并使用每一行的 'instruction' 和 'input' 构建消息
for index, row in test_df.iterrows():
    instruction = row["instruction"]
    input_value = row["input"]

    # 根据 'instruction' 和 'input' 构建消息结构
    messages = [
        {"role": "system", "content": f"{instruction}"},  # 系统角色，提供任务指令
        {"role": "user", "content": f"{input_value}"},    # 用户角色，提供输入
    ]

    # 调用 predict 函数生成回复
    response = predict(messages, model, tokenizer)
    
    # 将生成的回复添加为 'assistant' 角色的内容
    messages.append({"role": "assistant", "content": f"{response}"})
    
    # 格式化并将消息、回复保存到结果列表中
    result_text = f"{messages[0]}\n\n{messages[1]}\n\n{messages[2]}"
    print(result_text)
    test_text_list.append(result_text)


{"entity_text":"王新平","entity_label":"人名"}
{'role': 'system', 'content': '你是一个文本实体识别领域的专家，你需要从给定的句子中提取 地点; 人名; 地理实体; 组织 实体. 以 json 格式输出, 如 {"entity_text": "南京", "entity_label": "地理实体"} 注意: 1. 输出的每一行都必须是正确的 json 字符串. 2. 找不到任何实体时, 输出"没有找到任何实体". '}

{'role': 'user', 'content': '文本:而最后结论，王新平强调，一切交由大法官决定。'}

{'role': 'assistant', 'content': '{"entity_text":"王新平","entity_label":"人名"}'}
{"entity_text":"迪斯尼","entity_label":"地理实体"}
{'role': 'system', 'content': '你是一个文本实体识别领域的专家，你需要从给定的句子中提取 地点; 人名; 地理实体; 组织 实体. 以 json 格式输出, 如 {"entity_text": "南京", "entity_label": "地理实体"} 注意: 1. 输出的每一行都必须是正确的 json 字符串. 2. 找不到任何实体时, 输出"没有找到任何实体". '}

{'role': 'user', 'content': '文本:我们乘坐出租车沿着通往迪斯尼方向的公路一路向前，'}

{'role': 'assistant', 'content': '{"entity_text":"迪斯尼","entity_label":"地理实体"}'}
{"entity_text":"没有找到任何实体","entity_label":"没有实体"}
{'role': 'system', 'content': '你是一个文本实体识别领域的专家，你需要从给定的句子中提取 地点; 人名; 地理实体; 组织 实体. 以 json 格式输出, 如 {"entity_text": "南京", "entity_label": "地理实体"} 注意: 1. 输出的每一行都必须是正确的 json 字符串. 2. 找不到任何