# Project LLM-based NER & TS

# 1. 命名实体识别任务

## 1.1 数据处理

本实验采用的 CHisIEC 古文命名实体识别数据集包含古文文本及其对应的命名实体标签。数据以 CoNLL 格式存储，每行包含一个词及其标签，句子之间用空行分隔。实体标签采用 BIOES 标注方式。为了适配基于prompt的 LLM 方法，需要将 CoNLL 格式的数据转换为 JSONL 格式，且每个样本包含针对不同实体类型的指令和期望输出。

主要步骤如下：

1. **读取 CoNLL 数据**：逐行读取数据文件，并按句子分割。
2. **实体提取**：根据标签（BIOES）提取实体，并按类型分类。
3. **构造提示样本**：针对每种实体类型，生成相应的指令和输出。若某类型实体不存在，则输出 `null`。

通过上述步骤，训练集和验证集被转换为适用于 LLM 微调的 JSONL 格式文件，便于后续的模型训练。

## 1.2 模型微调

初步实验发现，若直接采用与第二个任务文本摘要相同的方式对 Qwen 原始模型直接输入 prompt 并生成输出进行命名实体识别，其效果非常差，`F1-macro` 通常不足 `0.1`。因此，尝试对 Qwen 模型进行微调以提高分数。

微调过程通过 `SftArguments` 配置，主要参数包括：

- `model_type`：选择的基础模型类型。
- `dataset`：训练集路径。
- `val_dataset`：验证集路径。
- `per_device_train_batch_size`：训练批次大小，设置为 16。
- `num_train_epochs`：训练轮次，设置为 7 轮。
- `output_dir`：模型输出目录，设置为 `output`。

调用 `SftArguments` 配置并执行 `sft_main(sft_args)` 函数，开始模型微调。微调完成后，记录最佳模型的检查点路径 `best_model_checkpoint`，用于后续的推理阶段。

微调过程中，监控多个训练轮次中验证集的性能，最终选择在验证集上表现最优的模型作为最佳模型，存储在 `output` 目录下。


In [1]:
import os
import json
from tqdm import tqdm
from swift.llm import (
    get_model_tokenizer, get_template, inference, ModelType, get_default_template_type,
    DatasetName, InferArguments, SftArguments,
    infer_main, sft_main, app_ui_main
)
from swift.tuners import Swift
from sklearn.metrics import classification_report, f1_score

os.environ['CUDA_VISIBLE_DEVICES'] = '0'

# 将CoNLL格式的文件转换为按类型分开的JSONL格式数据
def convert_conll_to_separate_prompt_jsonl(conll_file, jsonl_file):
    data = []
    with open(conll_file, 'r', encoding='utf-8') as f:
        lines = f.readlines()

    sentence = []
    labels = []
    for line in lines:
        line = line.strip()
        if not line:
            if sentence:
                text = ''.join(sentence)
                entities_by_type = extract_entities_by_type(sentence, labels)
                samples = construct_separate_prompt_samples(text, entities_by_type)
                data.extend(samples)
                sentence = []
                labels = []
            continue
        else:
            try:
                word, label = line.split()
                sentence.append(word)
                labels.append(label)
            except ValueError:
                continue  # 跳过格式不正确的行

    # 处理最后一个句子
    if sentence:
        text = ''.join(sentence)
        entities_by_type = extract_entities_by_type(sentence, labels)
        samples = construct_separate_prompt_samples(text, entities_by_type)
        data.extend(samples)

    # 保存为 JSONL 格式
    with open(jsonl_file, 'w', encoding='utf-8') as f:
        for item in data:
            json_line = json.dumps(item, ensure_ascii=False)
            f.write(json_line + '\n')

# 提取句子中的实体并按类型分类
def extract_entities_by_type(sentence, labels):
    entities = []
    entity = ''
    entity_type = ''
    for word, label in zip(sentence, labels):
        if label.startswith('B-'):
            if entity:  # 保存之前的实体
                entities.append({'entity': entity, 'type': entity_type})
            entity_type = label[2:]  # 提取实体类型
            entity = word
        elif label.startswith('I-') or label.startswith('E-'):
            entity += word  # 拼接多字词的实体
        elif label.startswith('S-'):
            entities.append({'entity': word, 'type': label[2:]})  # 单字实体
        else:  # 'O' 表示非实体
            if entity:
                entities.append({'entity': entity, 'type': entity_type})
                entity = ''
                entity_type = ''
    # 添加最后一个实体
    if entity:
        entities.append({'entity': entity, 'type': entity_type})
    
    # 按类型分类实体
    entities_by_type = {}
    for ent in entities:
        ent_type = ent['type']
        entities_by_type.setdefault(ent_type, []).append(ent['entity'])
    return entities_by_type

# 构建按类型分开的Prompt样本
def construct_separate_prompt_samples(text, entities_by_type):
    # 定义实体类型及其对应的中文名称和指令模板
    entity_definitions = [
        {"type": "PER", "name": "人名", "instruction": "请从以下句子中识别并提取出所有的人名，使用'，'分割，如果不存在则返回'null'。"},
        {"type": "LOC", "name": "地名", "instruction": "请从以下句子中识别并提取出所有的地名，使用'，'分割，如果不存在则返回'null'。"},
        {"type": "OFI", "name": "官职名", "instruction": "请从以下句子中识别并提取出所有的官职名，使用'，'分割，如果不存在则返回'null'。"},
        {"type": "BOOK", "name": "书名", "instruction": "请从以下句子中识别并提取出所有的书名，使用'，'分割，如果不存在则返回'null'。"}
        # 根据需要还添加更多实体类型的指令
    ]

    samples = []
    for definition in entity_definitions:
        ent_type = definition["type"]
        instruction = definition["instruction"]
        entities = entities_by_type.get(ent_type, [])
        output_text = '，'.join(entities) if entities else "null"
        sample = {
            "instruction": instruction,
            "input": text,
            "output": output_text
        }
        samples.append(sample)
    return samples

# 处理多个CoNLL格式文件并转换为JSONL文件
def process_files(conll_files, jsonl_files):
    for conll_file, jsonl_file in zip(conll_files, jsonl_files):
        convert_conll_to_separate_prompt_jsonl(conll_file, jsonl_file)

# 定义训练集和验证集路径
conll_train = './train.txt'
conll_dev = './dev.txt'
jsonl_train = './train_separate_prompts.jsonl'
jsonl_dev = './dev_separate_prompts.jsonl'

# 执行文件转换
process_files(
    conll_files=[conll_train, conll_dev],
    jsonl_files=[jsonl_train, jsonl_dev]
)

# 指定模型类型和路径
model_type = ModelType.qwen2_5_0_5b_instruct 

# 配置微调参数
sft_args = SftArguments(
    model_type=model_type,
    dataset=['./train_separate_prompts.jsonl'],  # 数据集路径
    val_dataset=['./dev_separate_prompts.jsonl'],  # 验证集路径
    per_device_train_batch_size=16,
    num_train_epochs=7,
    output_dir='output',  # 输出目录
)

# 执行微调
result = sft_main(sft_args)

# 输出最佳模型路径
best_model_checkpoint = result['best_model_checkpoint']


[INFO:swift] Successfully registered `C:\Users\IScream\anaconda3\envs\virtual\Lib\site-packages\swift\llm\data\dataset_info.json`
[INFO:swift] No vLLM installed, if you are using vLLM, you will get `ImportError: cannot import name 'get_vllm_engine' from 'swift.llm'`
[INFO:swift] No LMDeploy installed, if you are using LMDeploy, you will get `ImportError: cannot import name 'prepare_lmdeploy_engine_template' from 'swift.llm'`
[INFO:swift] Using val_dataset, ignoring dataset_test_ratio
[INFO:swift] Setting template_type: qwen2_5
[INFO:swift] Setting args.lazy_tokenize: False
[INFO:swift] Setting args.dataloader_num_workers: 0
[INFO:swift] output_dir: C:\Users\IScream\Desktop\study\自然语言处理\PJ-基于LLM的命名实体识别和摘要任务\data\output\qwen2_5-0_5b-instruct\v20-20241117-132828
[INFO:swift] Start time of running main: 2024-11-17 13:28:28.924907
[INFO:swift] args: SftArguments(model_type='qwen2_5-0_5b-instruct', model_id_or_path='qwen/Qwen2.5-0.5B-Instruct', model_revision='master', full_determinism=False

device_count: 1
rank: -1, local_rank: -1, world_size: 1, local_world_size: 1


[INFO:swift] Loading the model using model_dir: C:\Users\IScream\.cache\modelscope\hub\qwen\Qwen2___5-0___5B-Instruct
[INFO:swift] model_kwargs: {'device_map': 'cuda:0'}
[INFO:swift] model.max_model_len: 32768
[INFO:swift] model.hf_device_map: {'': device(type='cuda', index=0)}
[INFO:swift] model_config: Qwen2Config {
  "_name_or_path": "C:\\Users\\IScream\\.cache\\modelscope\\hub\\qwen\\Qwen2___5-0___5B-Instruct",
  "architectures": [
    "Qwen2ForCausalLM"
  ],
  "attention_dropout": 0.0,
  "bos_token_id": 151643,
  "eos_token_id": 151645,
  "hidden_act": "silu",
  "hidden_size": 896,
  "initializer_range": 0.02,
  "intermediate_size": 4864,
  "max_position_embeddings": 32768,
  "max_window_layers": 21,
  "model_type": "qwen2",
  "num_attention_heads": 14,
  "num_hidden_layers": 24,
  "num_key_value_heads": 2,
  "rms_norm_eps": 1e-06,
  "rope_scaling": null,
  "rope_theta": 1000000.0,
  "sliding_window": null,
  "tie_word_embeddings": true,
  "torch_dtype": "bfloat16",
  "transformer

Generating train split: 0 examples [00:00, ? examples/s]

Map:   0%|          | 0/872 [00:00<?, ? examples/s]

Filter:   0%|          | 0/872 [00:00<?, ? examples/s]

Generating train split: 0 examples [00:00, ? examples/s]

Map:   0%|          | 0/872 [00:00<?, ? examples/s]

Filter:   0%|          | 0/872 [00:00<?, ? examples/s]

[INFO:swift] train_dataset: Dataset({
    features: ['query', 'response'],
    num_rows: 872
})
[INFO:swift] val_dataset: Dataset({
    features: ['query', 'response'],
    num_rows: 872
})
[INFO:swift] [INPUT_IDS] [151644, 8948, 198, 2610, 525, 1207, 16948, 11, 3465, 553, 54364, 14817, 13, 1446, 525, 264, 10950, 17847, 13, 151645, 198, 151644, 872, 198, 14880, 45181, 87752, 109949, 15946, 102450, 62926, 107439, 20221, 55338, 100623, 13072, 3837, 37029, 6, 3837, 6, 109619, 3837, 62244, 69184, 46448, 31526, 6, 2921, 6, 8997, 57191, 23031, 56007, 56137, 99462, 3837, 75598, 227, 104769, 5122, 12881, 99818, 99755, 100541, 99867, 100426, 3837, 17340, 35568, 53930, 40981, 107570, 3837, 100216, 107656, 102394, 3837, 108558, 49828, 57218, 17340, 35568, 99399, 40981, 107570, 113722, 75764, 41146, 100966, 27641, 101073, 1773, 33447, 44636, 100401, 52183, 68536, 99194, 15362, 236, 57566, 53930, 1773, 99966, 101269, 106721, 121720, 3837, 119163, 99816, 44991, 8903, 3837, 32555, 99271, 99412, 23031

Map:   0%|          | 0/872 [00:00<?, ?it/s]

Map:   0%|          | 0/872 [00:00<?, ?it/s]

[INFO:swift] Dataset Token Length: 120.368119±26.191007, min=62.000000, max=190.000000, size=872
[INFO:swift] Dataset Token Length: 120.368119±26.191007, min=62.000000, max=190.000000, size=872
[INFO:swift] training_args: Seq2SeqTrainingArguments(
_n_gpu=1,
acc_strategy=token,
accelerator_config={'split_batches': False, 'dispatch_batches': False, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
adafactor=False,
adam_beta1=0.9,
adam_beta2=0.95,
adam_epsilon=1e-08,
additional_saved_files=[],
auto_find_batch_size=False,
batch_eval_metrics=False,
bf16=True,
bf16_full_eval=False,
data_seed=42,
dataloader_drop_last=False,
dataloader_num_workers=0,
dataloader_persistent_workers=False,
dataloader_pin_memory=True,
dataloader_prefetch_factor=None,
ddp_backend=None,
ddp_broadcast_buffers=None,
ddp_bucket_cap_mb=None,
ddp_find_unused_parameters=None,
ddp_timeout=1800,
debug=[],
deepspeed=None,
disable_t

Train:   0%|                                                                                   | 0/385 [00:00<…

{'loss': 1.62735462, 'acc': 0.70689654, 'grad_norm': 18.16116524, 'learning_rate': 5e-06, 'memory(GiB)': 6.34, 'train_speed(iter/s)': 0.586995, 'epoch': 0.02, 'global_step/max_steps': '1/385', 'percentage': '0.26%', 'elapsed_time': '1s', 'remaining_time': '9m 35s'}
{'loss': 2.26796722, 'acc': 0.60275841, 'grad_norm': 46.80228043, 'learning_rate': 2.5e-05, 'memory(GiB)': 10.97, 'train_speed(iter/s)': 0.484662, 'epoch': 0.09, 'global_step/max_steps': '5/385', 'percentage': '1.30%', 'elapsed_time': '10s', 'remaining_time': '12m 48s'}
{'loss': 1.99840488, 'acc': 0.65477514, 'grad_norm': 21.38861465, 'learning_rate': 5e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.394219, 'epoch': 0.18, 'global_step/max_steps': '10/385', 'percentage': '2.60%', 'elapsed_time': '25s', 'remaining_time': '15m 43s'}
{'loss': 1.87202034, 'acc': 0.61484923, 'grad_norm': 11.37532425, 'learning_rate': 7.5e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.301021, 'epoch': 0.27, 'global_step/max_steps': '15/38

Val:   0%|                                                                                      | 0/55 [00:00<…

[INFO:swift] Saving model checkpoint to C:\Users\IScream\Desktop\study\自然语言处理\PJ-基于LLM的命名实体识别和摘要任务\data\output\qwen2_5-0_5b-instruct\v20-20241117-132828\checkpoint-50


{'eval_loss': 0.83086431, 'eval_acc': 0.76423211, 'eval_runtime': 50.8639, 'eval_samples_per_second': 17.144, 'eval_steps_per_second': 1.081, 'epoch': 0.91, 'global_step/max_steps': '50/385', 'percentage': '12.99%', 'elapsed_time': '3m 22s', 'remaining_time': '22m 39s'}
{'loss': 0.9904398, 'acc': 0.74184752, 'grad_norm': 12.63731956, 'learning_rate': 9.775e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.254405, 'epoch': 1.0, 'global_step/max_steps': '55/385', 'percentage': '14.29%', 'elapsed_time': '3m 35s', 'remaining_time': '21m 35s'}
{'loss': 0.71842484, 'acc': 0.77823877, 'grad_norm': 5.7387166, 'learning_rate': 9.707e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.253615, 'epoch': 1.09, 'global_step/max_steps': '60/385', 'percentage': '15.58%', 'elapsed_time': '3m 56s', 'remaining_time': '21m 20s'}
{'loss': 0.86882486, 'acc': 0.75797563, 'grad_norm': 10.92772865, 'learning_rate': 9.63e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.25346, 'epoch': 1.18, 'global_step/ma

Val:   0%|                                                                                      | 0/55 [00:00<…

[INFO:swift] Saving model checkpoint to C:\Users\IScream\Desktop\study\自然语言处理\PJ-基于LLM的命名实体识别和摘要任务\data\output\qwen2_5-0_5b-instruct\v20-20241117-132828\checkpoint-100


{'eval_loss': 0.5973081, 'eval_acc': 0.82445543, 'eval_runtime': 50.5057, 'eval_samples_per_second': 17.265, 'eval_steps_per_second': 1.089, 'epoch': 1.82, 'global_step/max_steps': '100/385', 'percentage': '25.97%', 'elapsed_time': '6m 51s', 'remaining_time': '19m 32s'}
{'loss': 0.64538589, 'acc': 0.80908537, 'grad_norm': 14.40019321, 'learning_rate': 8.721e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.247123, 'epoch': 1.91, 'global_step/max_steps': '105/385', 'percentage': '27.27%', 'elapsed_time': '7m 4s', 'remaining_time': '18m 52s'}
{'loss': 0.6702137, 'acc': 0.8039814, 'grad_norm': 14.620924, 'learning_rate': 8.573e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.251798, 'epoch': 2.0, 'global_step/max_steps': '110/385', 'percentage': '28.57%', 'elapsed_time': '7m 16s', 'remaining_time': '18m 11s'}
{'loss': 0.52619824, 'acc': 0.84932652, 'grad_norm': 7.48117304, 'learning_rate': 8.42e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.253504, 'epoch': 2.09, 'global_step/ma

Val:   0%|                                                                                      | 0/55 [00:00<…

[INFO:swift] Saving model checkpoint to C:\Users\IScream\Desktop\study\自然语言处理\PJ-基于LLM的命名实体识别和摘要任务\data\output\qwen2_5-0_5b-instruct\v20-20241117-132828\checkpoint-150


{'eval_loss': 0.46459627, 'eval_acc': 0.86106535, 'eval_runtime': 50.3844, 'eval_samples_per_second': 17.307, 'eval_steps_per_second': 1.092, 'epoch': 2.73, 'global_step/max_steps': '150/385', 'percentage': '38.96%', 'elapsed_time': '10m 5s', 'remaining_time': '15m 48s'}
{'loss': 0.54609728, 'acc': 0.83016586, 'grad_norm': 9.54401779, 'learning_rate': 6.988e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.249165, 'epoch': 2.82, 'global_step/max_steps': '155/385', 'percentage': '40.26%', 'elapsed_time': '10m 21s', 'remaining_time': '15m 22s'}
{'loss': 0.55752196, 'acc': 0.84298687, 'grad_norm': 8.8589201, 'learning_rate': 6.788e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.25137, 'epoch': 2.91, 'global_step/max_steps': '160/385', 'percentage': '41.56%', 'elapsed_time': '10m 36s', 'remaining_time': '14m 54s'}
{'loss': 0.5170064, 'acc': 0.84722223, 'grad_norm': 8.2065115, 'learning_rate': 6.586e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.254046, 'epoch': 3.0, 'global_step

Val:   0%|                                                                                      | 0/55 [00:00<…

[INFO:swift] Saving model checkpoint to C:\Users\IScream\Desktop\study\自然语言处理\PJ-基于LLM的命名实体识别和摘要任务\data\output\qwen2_5-0_5b-instruct\v20-20241117-132828\checkpoint-200


{'eval_loss': 0.38500726, 'eval_acc': 0.88541095, 'eval_runtime': 51.0478, 'eval_samples_per_second': 17.082, 'eval_steps_per_second': 1.077, 'epoch': 3.64, 'global_step/max_steps': '200/385', 'percentage': '51.95%', 'elapsed_time': '13m 24s', 'remaining_time': '12m 24s'}
{'loss': 0.55170093, 'acc': 0.86086512, 'grad_norm': 8.07089424, 'learning_rate': 4.892e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.2503, 'epoch': 3.73, 'global_step/max_steps': '205/385', 'percentage': '53.25%', 'elapsed_time': '13m 38s', 'remaining_time': '11m 58s'}
{'loss': 0.39737477, 'acc': 0.88505917, 'grad_norm': 9.45807552, 'learning_rate': 4.677e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.253288, 'epoch': 3.82, 'global_step/max_steps': '210/385', 'percentage': '54.55%', 'elapsed_time': '13m 48s', 'remaining_time': '11m 30s'}
{'loss': 0.45714045, 'acc': 0.87477036, 'grad_norm': 8.63550854, 'learning_rate': 4.463e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.25225, 'epoch': 3.91, 'global_s

Val:   0%|                                                                                      | 0/55 [00:00<…

[INFO:swift] Saving model checkpoint to C:\Users\IScream\Desktop\study\自然语言处理\PJ-基于LLM的命名实体识别和摘要任务\data\output\qwen2_5-0_5b-instruct\v20-20241117-132828\checkpoint-250


{'eval_loss': 0.33722097, 'eval_acc': 0.89511258, 'eval_runtime': 50.874, 'eval_samples_per_second': 17.14, 'eval_steps_per_second': 1.081, 'epoch': 4.55, 'global_step/max_steps': '250/385', 'percentage': '64.94%', 'elapsed_time': '16m 57s', 'remaining_time': '9m 9s'}
{'loss': 0.27812853, 'acc': 0.90077782, 'grad_norm': 7.73370314, 'learning_rate': 2.817e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.248047, 'epoch': 4.64, 'global_step/max_steps': '255/385', 'percentage': '66.23%', 'elapsed_time': '17m 7s', 'remaining_time': '8m 43s'}
{'loss': 0.42952046, 'acc': 0.86251163, 'grad_norm': 11.96085739, 'learning_rate': 2.625e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.250413, 'epoch': 4.73, 'global_step/max_steps': '260/385', 'percentage': '67.53%', 'elapsed_time': '17m 18s', 'remaining_time': '8m 19s'}
{'loss': 0.35174856, 'acc': 0.88666449, 'grad_norm': 8.55393028, 'learning_rate': 2.438e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.250409, 'epoch': 4.82, 'global_step

Val:   0%|                                                                                      | 0/55 [00:00<…

[INFO:swift] Saving model checkpoint to C:\Users\IScream\Desktop\study\自然语言处理\PJ-基于LLM的命名实体识别和摘要任务\data\output\qwen2_5-0_5b-instruct\v20-20241117-132828\checkpoint-300


{'eval_loss': 0.3057037, 'eval_acc': 0.90719385, 'eval_runtime': 50.1295, 'eval_samples_per_second': 17.395, 'eval_steps_per_second': 1.097, 'epoch': 5.45, 'global_step/max_steps': '300/385', 'percentage': '77.92%', 'elapsed_time': '20m 15s', 'remaining_time': '5m 44s'}
{'loss': 0.42676053, 'acc': 0.88343782, 'grad_norm': 7.69617653, 'learning_rate': 1.139e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.248919, 'epoch': 5.55, 'global_step/max_steps': '305/385', 'percentage': '79.22%', 'elapsed_time': '20m 25s', 'remaining_time': '5m 21s'}
{'loss': 0.29919531, 'acc': 0.91252623, 'grad_norm': 7.81879854, 'learning_rate': 1.006e-05, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.250924, 'epoch': 5.64, 'global_step/max_steps': '310/385', 'percentage': '80.52%', 'elapsed_time': '20m 35s', 'remaining_time': '4m 58s'}
{'loss': 0.30290046, 'acc': 0.91132517, 'grad_norm': 7.45170736, 'learning_rate': 8.8e-06, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.251513, 'epoch': 5.73, 'global_step

Val:   0%|                                                                                      | 0/55 [00:00<…

[INFO:swift] Saving model checkpoint to C:\Users\IScream\Desktop\study\自然语言处理\PJ-基于LLM的命名实体识别和摘要任务\data\output\qwen2_5-0_5b-instruct\v20-20241117-132828\checkpoint-350


{'eval_loss': 0.29678956, 'eval_acc': 0.9092074, 'eval_runtime': 51.3471, 'eval_samples_per_second': 16.982, 'eval_steps_per_second': 1.071, 'epoch': 6.36, 'global_step/max_steps': '350/385', 'percentage': '90.91%', 'elapsed_time': '23m 26s', 'remaining_time': '2m 20s'}
{'loss': 0.35004208, 'acc': 0.89000597, 'grad_norm': 8.91835785, 'learning_rate': 1.66e-06, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.249722, 'epoch': 6.45, 'global_step/max_steps': '355/385', 'percentage': '92.21%', 'elapsed_time': '23m 41s', 'remaining_time': '2m 0s'}
{'loss': 0.25232456, 'acc': 0.90258465, 'grad_norm': 6.05313921, 'learning_rate': 1.15e-06, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.251953, 'epoch': 6.55, 'global_step/max_steps': '360/385', 'percentage': '93.51%', 'elapsed_time': '23m 48s', 'remaining_time': '1m 39s'}
{'loss': 0.26941168, 'acc': 0.91579742, 'grad_norm': 4.5447011, 'learning_rate': 7.4e-07, 'memory(GiB)': 16.12, 'train_speed(iter/s)': 0.25222, 'epoch': 6.64, 'global_step/max_

Val:   0%|                                                                                      | 0/55 [00:00<…

[INFO:swift] Saving model checkpoint to C:\Users\IScream\Desktop\study\自然语言处理\PJ-基于LLM的命名实体识别和摘要任务\data\output\qwen2_5-0_5b-instruct\v20-20241117-132828\checkpoint-385
[INFO:swift] last_model_checkpoint: C:\Users\IScream\Desktop\study\自然语言处理\PJ-基于LLM的命名实体识别和摘要任务\data\output\qwen2_5-0_5b-instruct\v20-20241117-132828\checkpoint-385
[INFO:swift] best_model_checkpoint: C:\Users\IScream\Desktop\study\自然语言处理\PJ-基于LLM的命名实体识别和摘要任务\data\output\qwen2_5-0_5b-instruct\v20-20241117-132828\checkpoint-350
[INFO:swift] images_dir: C:\Users\IScream\Desktop\study\自然语言处理\PJ-基于LLM的命名实体识别和摘要任务\data\output\qwen2_5-0_5b-instruct\v20-20241117-132828\images


{'eval_loss': 0.29697388, 'eval_acc': 0.9088413, 'eval_runtime': 50.9888, 'eval_samples_per_second': 17.102, 'eval_steps_per_second': 1.079, 'epoch': 7.0, 'global_step/max_steps': '385/385', 'percentage': '100.00%', 'elapsed_time': '25m 56s', 'remaining_time': '0s'}
{'train_runtime': 1556.1636, 'train_samples_per_second': 3.922, 'train_steps_per_second': 0.247, 'train_loss': 0.5811025, 'epoch': 7.0, 'global_step/max_steps': '385/385', 'percentage': '100.00%', 'elapsed_time': '25m 56s', 'remaining_time': '0s'}


[INFO:swift] End time of running main: 2024-11-17 13:54:33.951422


## 1.3 模型推理

使用微调后的模型对测试数据进行推理，主要步骤包括：

1. **加载测试数据**：读取原始 NER 数据文件 `ner.txt`，按句子分割，并存储句子及其对应的标签。
2. **加载微调模型**：通过 `Swift.from_pretrained` 加载最佳模型检查点，准备进行推理。
3. **定义实体任务**：明确需要识别的实体类型及其对应的字段名，包括人名（`per`）、地名（`loc`）、官职名（`ofi`）和书名（`book`）。
4. **构造并发送查询**：对于每个句子，针对每种实体类型构造相应的指令，并调用 `inference` 函数获取模型的响应。
5. **保存结果**：将所有推理结果保存到 `result.json` 文件中。

通过以上步骤，测试数据中的命名实体将被准确识别并保存，便于后续的分析与应用。

In [2]:
# 加载NER数据
ner_data = []
sentence = []
labels = []

# 打开NER文件，并逐行读取数据
with open('./ner.txt', 'r', encoding='utf-8') as f:
    for line in f:
        line = line.strip()
        # 遇到空行，保存当前句子及标签，并重置
        if not line:
            if sentence and labels:
                ner_data.append((sentence, labels))
                sentence = []
                labels = []
        else:
            # 将每行的单词和标签分开，并存入对应列表
            word, label = line.split('\t')
            sentence.append(word)
            labels.append(label)

    # 防止文件末尾无空行的情况，添加最后一个句子及标签
    if sentence and labels:
        ner_data.append((sentence, labels))

# 加载微调模型的检查点目录
ckpt_dir = best_model_checkpoint  # 从之前的微调结果中获取
model_type = ModelType.qwen2_5_0_5b_instruct  # 指定模型类型
template_type = get_default_template_type(model_type)  # 获取默认模板类型

# 初始化模型和分词器
model_id_or_path = None  # 此处为None，表示加载本地模型
model, tokenizer = get_model_tokenizer(
    model_type, 
    model_id_or_path=model_id_or_path, 
    model_kwargs={'device_map': 'cuda'}
)

# 设置生成配置的最大生成token长度
model.generation_config.max_new_tokens = 128

# 存储推理结果
results = []

# 从检查点加载微调后的模型
model = Swift.from_pretrained(model, ckpt_dir, inference_mode=True)

# 获取推理时使用的模板
template = get_template(template_type, tokenizer)

# 定义NER任务中实体类型及其对应的字段名
ner_tasks = [
    ("人名", "per"),  # 人名对应字段名 "per"
    ("地名", "loc"),  # 地名对应字段名 "loc"
    ("官职名", "ofi"),  # 官职名对应字段名 "ofi"
    ("书名", "book")  # 书名对应字段名 "book"
]

# 定义保存结果的路径
save_path = 'result.json'

# 遍历每个句子和标签进行推理
for idx, data in tqdm(enumerate(ner_data), desc="testing", total=len(ner_data)):
    sentence, labels = data  # 分别获取句子和标签
    sentence_str = ''.join(sentence)  # 将句子列表拼接成字符串
    result_entry = {'sentence': sentence_str}  # 初始化结果字典

    # 针对每种实体类型进行推理
    for entity_type, key in ner_tasks:
        # 构造查询指令，指定实体类型
        query = f"请从以下句子中识别并提取出所有的{entity_type}，使用'，'分割，如果不存在则返回'null'。\n{sentence_str}"
        response, history = inference(model, template, query)  # 推理生成结果
        result_entry[key] = response  # 将推理结果存入字典中
    
    # 将当前句子的结果添加到结果列表中
    results.append(result_entry)

with open(save_path, 'w', encoding='utf-8') as f:
    json.dump(results, f, ensure_ascii=False, indent=4)

print(f"推理完成, 结果已保存到 {save_path}")

[INFO:swift] Downloading the model from ModelScope Hub, model_id: qwen/Qwen2.5-0.5B-Instruct
[INFO:swift] Loading the model using model_dir: C:\Users\IScream\.cache\modelscope\hub\qwen\Qwen2___5-0___5B-Instruct
[INFO:swift] Setting torch_dtype: torch.bfloat16
[INFO:swift] model_kwargs: {'device_map': 'cuda'}
[INFO:swift] model.max_model_len: 32768
testing:   0%|                                                                                 | 0/218 [00:00<?, ?it/s]Starting from v4.46, the `logits` model output will have the same type as the model (except at train time, where it will always be FP32)
testing: 100%|███████████████████████████████████████████████████████████████████████| 218/218 [05:24<00:00,  1.49s/it]

推理完成,结果已保存到 result.json





## 1.4 模型评估

评估过程主要通过计算 F1-macro 得分来衡量模型在命名实体识别任务上的性能。主要步骤包括：

1. **收集真实标签**：从测试数据中提取所有真实的实体标签，存储在 `y_true` 列表中。
2. **处理预测结果**：解析模型的预测结果，将其转换为与真实标签格式一致的预测标签，存储在 `y_pred` 列表中。
3. **计算 F1-macro**：使用 `sklearn` 库中的 `f1_score` 函数，计算 F1-macro 得分。

通过以上步骤，可以有效评估模型在命名实体识别任务上的性能，反映模型在各类实体上的综合表现。

In [3]:
# 加载模型预测结果
with open('result.json', 'r', encoding='utf-8') as f:
    final_result = json.load(f)  # 加载模型预测结果文件，结果是一个JSON数组

# 真实标签（y_true）和预测标签（y_pred）的列表
y_true = []
y_pred = []

# 从NER数据中提取真实标签，逐个句子展开
for _, labels in ner_data:
    y_true.extend(labels)  # 将所有句子的真实标签按顺序追加到 y_true 中

# 定义实体类型及其对应的标签前缀
entity_types = {
    "per": "PER",  # 人名
    "loc": "LOC",  # 地名
    "ofi": "OFI",  # 官职名
    "book": "BOOK"  # 书名
}

# 辅助函数：标注预测实体到标签列表
def mark_entities(sentence, entities, tag_prefix, pred_labels):
    if not entities or entities.strip() == 'null':
        return  # 如果实体为空或为 'null'，直接返回

    for entity in entities.split('，'):  # 遍历所有实体
        entity = entity.strip()
        if entity == 'null' or not entity:
            continue  # 跳过无效实体
        start = sentence.find(entity)  # 查找实体在句子中的起始位置
        if start == -1:
            continue  # 如果实体不在句子中，跳过
        end = start + len(entity)  # 计算实体的结束位置
        if len(entity) == 1:
            # 单字实体标注为 S
            pred_labels[start] = f'S-{tag_prefix}'
        else:
            # 多字实体，起始标注为 B，结束标注为 E，中间标注为 I
            pred_labels[start] = f'B-{tag_prefix}'
            for i in range(start + 1, end - 1):
                pred_labels[i] = f'I-{tag_prefix}'
            pred_labels[end - 1] = f'E-{tag_prefix}'

# 遍历模型预测结果，生成预测标签
for item in final_result:
    sentence = item['sentence']  # 获取句子内容
    pred_labels = ["O"] * len(sentence)  # 初始化预测标签为 "O"（非实体）

    # 遍历所有实体类型，标注对应的实体
    for key, tag_prefix in entity_types.items():
        entities = item.get(key, 'null')  # 获取当前实体类型的预测结果
        mark_entities(sentence, entities, tag_prefix, pred_labels)  # 标注实体到预测标签列表

    # 将预测标签追加到 y_pred 列表中
    y_pred.extend(pred_labels)

# 计算 F1 macro平均分数
f1_macro = f1_score(y_true, y_pred, average='macro')
print(f"命名实体标注任务评估结果：")
print(f"F1 macro score: {f1_macro:.4f}")


命名实体标注任务评估结果：
F1 macro score: 0.6876


## 1.5 结果分析

通过上述实验，基于LLM的方法在命名实体识别任务上达到了F1-macro得分为0.6876，超过了满分标准，说明识别效果较好。

实验过程中展示出LLM在执行命名实体识别任务时有以下优劣势：
### 优势：

- **灵活性高**：通过设计不同的提示，LLM能够适应多种实体类型的识别任务。
- **少量样本效果良好**：在训练数据较少的情况下，LLM依然能够通过预训练知识进行有效的实体识别。
- **易于扩展**：添加新的实体类型只需设计相应的提示，无需修改模型架构。

### 劣势：

- **原始性能较差**：原始LLM受到其参数量等因素的限制，在NER任务中表现较差，必须对其进行预训练或微调等操作
- **计算资源需求高**：LLM需要较大的计算资源，尤其是在推理阶段。
- **整体性能有限**：相比于专门为NER任务设计的模型（如BiLSTM），LLM在整体F1-macro得分上表现略逊一筹。
- **实体位置定位不精确**：由于LLM的生成式特性，可能存在实体位置定位不准确的问题，影响评估指标。


## 1.6. 对比分析

### 1.6.1 性能结果对比

| 模型类型     | F1-macro 得分 |
|--------------|----------------|
| 基于LLM     | 0.6876         |
| 基于BiLSTM  | 0.7111         |

### 1.6.2 优劣势对比

| 模型类型     | 优势                                                         | 劣势                                                         |
|--------------|--------------------------------------------------------------|--------------------------------------------------------------|
| 基于LLM     |  - 高灵活性，易于适应多种实体类型<br> - 能够利用预训练知识进行少量样本学习 |  - 计算资源需求高<br>- 整体性能略低于专用模型<br>- 实体定位不够精确 |
| 基于BiLSTM  |  - 更高的F1-macro得分<br> - 精确的实体位置定位<br> - 计算资源需求较低 |  - 适应性相对较低，需针对特定任务设计架构<br>- 扩展到更多实体类型需重新训练 |

### 1.6.3 综合分析

基于BiLSTM的NER模型在本实验中表现出更高的F1-macro得分，主要因为其架构专门针对序列标注任务设计，能够更精确地捕捉词语间的依赖关系和实体边界。然而，基于LLM的方法展现出更高的灵活性和适应性，在处理复杂指令和多任务学习方面具有显著优势。

## 1.7. 总结
通过对基于LLM的命名实体识别任务结果进行分析：

- LLM模型在命名实体识别任务中表现出较强的语言理解和生成能力，在F1-macro上表现优异。最终超过了**满分标准**："达到0.6以上"
- 尽管LLM在最终分数上比基于神经网络的模型略逊一筹，但其在处理复杂指令和多任务学习方面具有显著优势，适用于需要高度灵活性的应用场景。尤其在面对多样化的实体类型时，只需通过设计不同的提示即可完成任务，而无需重新设计模型架构。
- 为了进一步提升命名实体识别的质量，未来工作可探索结合两种方法的优点，进一步提升NER任务的性能和应用范围。

---
---

# 2. 文本摘要任务
## 2.1 设计Prompt并生成摘要

In [1]:
# 导入必要的库
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
import json
import re
from rouge import Rouge
import os
from tqdm import tqdm
import random

# 设置镜像源
os.environ["HF_HUB_BASE"] = "https://hf-mirror.com"

# 加载模型和分词器
model_name = "Qwen/Qwen2.5-0.5B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True).to("cuda")  # 移动模型到GPU
model.eval()  # 设置为评估模式

# 设置填充和截断方向
tokenizer.padding_side = "left"  # 设置左侧填充
tokenizer.truncation_side = "left"  # 设置左侧截断

# 加载并处理摘要数据集
def load_summarization_data(filename):
    articles = []
    references = []
    with open(filename, 'r', encoding='utf-8') as f:
        for line in f:
            data = json.loads(line.strip())
            article = ''.join(data['article'])
            summary = data['summary']
            articles.append(article)
            references.append(summary)
    return articles, references

sum_articles, sum_references = load_summarization_data('summary.jsonl')


# 批量生成摘要函数
def generate_summaries_in_batches(articles, references, batch_size=4, test=False, test_limit=10):
    all_summaries = []
    
    # 定义提示模板
    prompt_template = (
        "请阅读以下文章，并用50到100字对其进行总结，突出主要事件和关键人物，"
        "不要引入原文中没有的事实。\n\n"
        "文章：{article}\n"
        "摘要："
    )
    
    printed = 0  # 记录已打印的摘要数量
    
    # 使用tqdm显示进度条
    for i in tqdm(range(0, len(articles), batch_size), desc="Generating Summaries"):
        batch = articles[i:i + batch_size]
        batch_refs = references[i:i + batch_size]
        
        prompts = [prompt_template.format(article=article) for article in batch]
        
        inputs = tokenizer(
            prompts,
            return_tensors="pt",
            padding=True,
            truncation=True,
            max_length=2048  # 根据模型支持的最大长度设置
        ).to("cuda")
        
        with torch.no_grad():  # 禁用梯度计算
            outputs = model.generate(
                **inputs,
                max_new_tokens=150,        # 控制生成摘要的长度
                num_beams=5,               # 增加束宽度以提高质量
                early_stopping=True,       # 生成到达EOS token时停止
                no_repeat_ngram_size=3,    # 防止重复
                temperature=0.7,           # 控制生成多样性
                top_p=0.95,                # 核心采样，增加多样性
                top_k=50,                  # 前K采样
                eos_token_id=tokenizer.eos_token_id,  # 设置结束标记
                pad_token_id=tokenizer.pad_token_id,  # 设置填充标记
            )
        
        summaries = [tokenizer.decode(output, skip_special_tokens=True) for output in outputs]
        
        # 提取摘要部分，清理不必要的内容
        extracted_summaries = []
        for summary in summaries:
            # 尝试提取“摘要：”后的内容
            match = re.search(r'摘要[:：]\s*(.*)', summary, re.DOTALL)
            if match:
                extracted_summary = match.group(1).strip()
                # 只保留第一段，防止后续生成内容干扰
                extracted_summary = extracted_summary.split('\n')[0]
                # 移除可能的后续指令或对话
                extracted_summary = re.split(r'(Human:|Assistant:)', extracted_summary)[0].strip()
                extracted_summaries.append(extracted_summary)
            else:
                # 如果找不到“摘要：”，则尝试从最后一段提取摘要
                lines = summary.strip().split('\n')
                if lines:
                    last_line = lines[-1].strip()
                    extracted_summaries.append(last_line)
                else:
                    extracted_summaries.append("N/A")
        
        all_summaries.extend(extracted_summaries)
        
        if test:
            for j in range(len(batch)):
                if printed >= test_limit:
                    break
                idx = i + j
                if idx >= len(articles):
                    break
                print(f"文章 {idx+1}：")
                print(batch[j])
                print("\n模型生成的摘要：")
                print(extracted_summaries[j])
                print("\n参考摘要：")
                print(batch_refs[j])
                print("\n" + "-"*50 + "\n")
                printed += 1
            if printed >= test_limit:
                break  # 达到测试限制后退出
    return all_summaries


## 设计Prompt并优化

在进行文本摘要生成时，设计合适的Prompt至关重要，它直接影响到模型的生成效果和最终的摘要质量。

### 1. 设计初始Prompt

初始的Prompt设计要简单明了，确保能引导模型理解任务并生成符合要求的摘要。我在设计时主要考虑了以下几个方面：

- **明确任务要求**：Prompt明确指出要对文章进行总结，突出主要事件和人物。
- **控制生成摘要的长度**：设置了“50到100字”的字数范围，引导模型生成简洁、精炼的摘要。
- **格式化结构**：通过将文章和摘要分开，使用“文章：”与“摘要：”标识，有助于模型区分输入与生成内容的部分。

### 2. 模型生成时的参数设置

为了提高生成摘要的质量，我在生成摘要时使用了多个参数控制生成过程。具体如下：

- `max_new_tokens=150`：控制生成摘要的最大长度，确保生成的内容不会过长。
- `num_beams=5`：增加束搜索宽度（beam search），提高生成结果的多样性和质量。
- `temperature=0.7` 和 `top_p=0.95`：这些参数控制生成的多样性。`temperature`较低时生成的内容更具确定性，而`top_p`限制了生成内容的范围，避免出现无关的或过于随机的内容。
- `no_repeat_ngram_size=3`：防止重复生成相同的词组，提高摘要的流畅度和信息密度。
- `early_stopping=True`：当模型生成结束标记时提前停止，确保摘要的完整性。

这些参数共同作用，确保了生成的摘要既能准确提取文章的关键信息，又能避免过于冗长或重复的内容。

### 3. 优化Prompt

随着测试的进行，我逐渐发现生成摘要的质量有提升空间，特别是在摘要的简洁性和准确性上。除此之外，发现LLM由于幻觉在生成的摘要中产生了很多原文中没有的事实。为此，我对Prompt进行了以下优化：

- **明确字数限制**：原始的Prompt要求生成摘要控制在50到100字之间，但模型的生成结果往往超过或不足。这时，我加强了字数范围的提示，明确告知模型生成不超过100字的摘要。
- **减少冗余信息**：部分生成的摘要存在过多的背景信息或次要细节，这影响了摘要的简洁性。为了提高准确性和简洁度，我在Prompt中加入了对“去除不必要信息”的要求。
- **避免引入原文中没有的事实**：明确告诉LLM不要虚构事实，由此尽量减少LLM的幻觉现象，提高摘要的准确性，提高分数。

### 4. 后处理优化

为了进一步提升生成摘要的质量，我对模型的输出进行了后处理：

- **提取摘要部分**：由于模型生成的内容有时包含不必要的对话或指令，我使用正则表达式提取“摘要：”后的部分，并清理掉多余的内容。
- **控制摘要格式**：对于生成摘要中可能包含的多余信息（如对话模式或不必要的细节），我通过字符串操作进行了清理，只保留摘要的核心内容。

### 5. 优化总结

通过设计合理的Prompt和调整生成参数，我能够有效地引导模型生成更精炼和准确的摘要。此外，通过后处理步骤，我进一步清理了模型生成的摘要内容，去除了冗余部分，确保最终摘要的质量。这些设计和优化大大提高了生成摘要的准确度，并且使摘要更加符合实际需求。


## 2.2 案例分析

In [1]:
# 进行初步测试，处理前10篇文章并评估
def initial_test_and_evaluation(articles, references, batch_size=2, test_limit=10):
    print("正在进行初步测试...\n")
    generated_summaries_test = generate_summaries_in_batches(
        articles, 
        references,
        batch_size=batch_size,    
        test=True, 
        test_limit=test_limit    
    )
    
    # 计算初步测试的ROUGE分数
    rouge = Rouge()
    # 对摘要和参考摘要进行预处理：按字符切分，并用空格连接
    preprocessed_generated = [' '.join(list(summary)) for summary in generated_summaries_test]
    preprocessed_references = [' '.join(list(ref)) for ref in references[:test_limit]]
    
    scores = rouge.get_scores(preprocessed_generated, preprocessed_references, avg=True)
    
    print(f"初步测试的摘要评估结果：")
    print(f"ROUGE-1 Recall Score: {scores['rouge-1']['r']:.4f}")
    print(f"ROUGE-2 Recall Score: {scores['rouge-2']['r']:.4f}")
    
# 运行初步测试
initial_test_and_evaluation(
    sum_articles[:10], 
    sum_references[:10],
    batch_size=2,    
    test_limit=10    
)

正在进行初步测试...



Generating Summaries:   0%|                                                                      | 0/5 [00:00<?, ?it/s]Starting from v4.46, the `logits` model output will have the same type as the model (except at train time, where it will always be FP32)
Generating Summaries:  20%|████████████▍                                                 | 1/5 [00:21<01:27, 21.90s/it]

文章 1：
福建 法治 报 - 海 峡 法治在线 6月 1日 讯 2013年 9月 , 吴某 和 罗某 等人 到 连城县 莲峰镇 某 休闲吧 包厢 喝酒 时 , 因 服务员 在 关 大厅 的 灯时 错 把 所有 灯 关掉 , 使得 其中 一个 朋友 起身 时 碰到 啤酒瓶 并 砸到 脚 。吴某 得知 后 将 包厢 内 的 桌子 掀翻 后 到 吧台 找 服务员 理论 , 一言不合 就 打砸 吧台 物品 , 并 拳打 服务员 周某 。随后 , 吴某 伙同 朋友 砸坏 了 包厢 内 的 菜盘 、 杯子 、 烟灰缸 等 财物 。在 休闲吧 老板 和 民警 到场 后 , 吴某 还 欲 对 休闲吧 老板 进行 殴打 , 被 民警 制止 。经 鉴定 , 被 损坏 财物 在 价值 为 2991 元 。近日 , 连城县 法院 依法 审结 了 此案 。( 李 泗 峰 )

模型生成的摘要：
吴某和罗某等人在连城县莲峰镇某休闲吧包厢喝酒时，因服务员在大堂关灯时把所有灯关掉，导致吴某朋友起身时碰倒酒瓶并砸到脚。吴某得知后，将包厢内桌椅翻转后到吧台找服务员理论，拳打服务员周某。随后，吴某伙同朋友砸坏包厢内的物品，包括盘子、杯子、烟灰缸等。在休闲吧老板和民警到场后，吴某一伙欲对老板进行殴打，被民警制止。经鉴定，被损坏财物价值为29,910元。近日，连城县人民法院依法审理

参考摘要：
[ 连城县 ] 服务员 失手 关灯 , 男子 冲动 之下 打砸 出气

--------------------------------------------------

文章 2：
宫 宗良 和 姜翠 卿 在 拍 婚纱照 。为 让 患病 老伴 开心 , 他 和 她 一起 参加 补拍 婚纱照 活动 5月 11 日 上午 , 在 市区 悦海 公园里 , 有 5 对 身穿 婚纱 礼服 的 老人 格外 引人注目 。这些 已 年 过 花甲 的 老人 们 , 有几分 局促 几分 欣喜 也 有 几分 可爱 。原来 , 这 是 经 区 西苑 街道办事处 府 安 社区 和 威海 北洋 职业 技术学 校 的 志愿者 们 免费 为 老人 举办 “ 最美 夕阳红 。 大爱 府 安情 ” 拍 婚纱照 活动 的 现场 。活动 中 社区 工作人员 和 志愿者 们 不仅 免费 为 老人 们 精心 化妆 , 还 负责 后期 修 片 , 并 

Generating Summaries:  40%|████████████████████████▊                                     | 2/5 [00:37<00:53, 17.92s/it]

文章 3：
扬州晚报 2月 4日 消息 , 2月 2日 深夜 11点 多 , 居住 在 江苏 扬州 石油 山庄 的 市民 顾 女士 才 停好 车 , 就 听到 旁边 车位 的 车子 发出 一阵 “ 咚咚咚 ” 的 敲 窗 声 , 仔细 一看 , 车内 竟 被 困 着 一 老 一小 两个人 。记者 2月 3日 了解到 , 车内 被困 的 两人 是 奶奶 和 孙女 , 因 开车 的 夫妻俩 忙着 抢红包 , 将 老人 和 孩子 丢 在 了 车里 。邻居 奇遇 深夜 听到 隔壁 车内 有人 敲 窗 “ 把 我 吓一跳 , 一看 车 里 有 两个人 。 ”2月 3日 清晨 , 顾 女士 告诉 记者 , 2月 2日 晚上 11点 多 , 她 开车 回家 停 在 楼下 时 , 被 临近 车位 发出 的 声音 惊 住 。顾 女士 说 , 隔壁 车位 上 的 车内 后侧 窗户 传来 “ 咚咚 ” 的 敲击声 , 一开始 她 还 以为 车内 有人 盗窃 , 可 仔细 一看 , 却是 一个 老人 和 一个 小女孩 在 车内 。“ 喊 她们 开门 , 她们 也 不 知道 怎么 开 。 ”顾 女士 说 , 贴着 车窗 , 能 看到 小女孩 在 哭 , 里面 的 老人 也 急 的 不得了 。看到 这种 情况 , 顾 女士 终于 弄明白 了 , 原来 老人 和 孩子 是 被 锁 在 车内 里 了 。因为 经常 有 朋友 来 家里 玩 , 偶尔 也 会 占用 邻居 车位 , 所以 顾 女士 知道 车子 是 哪 一 户 人家 的 。“ 按 了 门铃 , 夫妻俩 下来 , 将 车里 的 老人 和 孩子 放 了 出来 。 ”顾 女士 说 , 女孩 才 3岁 , 听说 已 在 车内 困 了 40 多分钟 , 老人 是 孩子 的 奶奶 。车主 讲述 忙着 抢红包 , 以为 人 下来 了 “ 快 过年了 , 把 孩子 奶奶 接 过来 一起 过年 。 ”杨 女士 说 , 孩子 奶奶 是 他们 从 外地 接 来 的 , 一路上 开 了 3 个 多 小时 , 她 坐在 车里 没事 就 忙着 抢红包 、 向 好友 讨 支付宝 的 各种 “ 福 ” 等 。 杨 女士 说 , 丈夫 也是 位 85后 , 平时 就 喜欢 玩 抢红包 的 游戏 , 一路上 开着车 红包 的 提醒 就 响 个 不停 , 车子 一 停下来 ,

Generating Summaries:  60%|█████████████████████████████████████▏                        | 3/5 [00:59<00:40, 20.04s/it]

文章 5：
本月 11 号 , 高通 官方 正式 宣布 了 最新 旗舰 处理 骁龙 821 , 从 命名 上 也 能 看出 , 它 是 骁龙 820 的 小幅 升级版 。骁龙 821 同样 内置 四颗 Koyo 架构 核心 , 两颗 高频 核心 主频 最高 2.4GHz , 两颗 低频 核心 主频 最高 2GHz , GPU 频率 为 650 MHz 。得益于 主频 提升 , 骁龙 821 的 性能 相比 骁龙 820 最高 有 10 % 的 提升 。在 骁龙 821 首发 机型 上 , 华硕 这次 抢 了 先 。8月份 , 华硕 ZenFone 3 。Deluxe 将 全球 首次 搭载 骁龙 821 上市 。目前 , 该机 的 详细 配置 已经 出现 在 数据库 , 跑 分 也 一同 流出 。据 了解 , 该机 配备 5 . 7 英寸 1080P Super 。AMOLED 显示屏 , 搭载 主频 高达 2.4GHz 的 骁龙 821 处理器 , 6GB RAM , 2300 万 摄像头 。安兔兔 评测 跑 分 分数 大概 在 14 . 8万 分 左右 。此外 , 该机 还 配备 了 2300 万 像素 摄像头 ( 0 . 03 秒 自动对焦 、 2 代 激光 、 光学防抖 、 RGB 色彩 校准 传感器 、 双 色温 闪光灯 ) 、 QC3.0 快充 ( 3000mAh 、 39 分钟 充 60 % ) 、 HiRes 金标 认证 ( 4 倍 CD 音质 )根据 此前 华硕 公布 的 消息 , 华硕 ZenFone 3 。Deluxe 还是 全球 首款 金属 一体机 身 但 采用 隐藏式 天线 设计 的 手机 , 华硕 达到 了 苹果 iPhone6S 都 没有 企及 的 新高度 。据悉 , 该机 将于 8月份 在 台湾 首发 上市 , 售价 24990 新台币 , 约合 人民币 5200 元 。

模型生成的摘要：
2018年8月11日，高通宣布了其最新旗舰处理器骁龙822的发布。这款处理器采用了四颗Kryo架构核心，两颗高频核心主频分别为2. 4GHz和2GHz，低频核心主频率最高为2GHz。GPU频率提升至6. 5GHz，性能提升10%。华硕ZenFone3. Deluxe版在8月份首次搭载了这款处理器。目前，该机的详细配置和跑分数据已经公开。该机配备了5

Generating Summaries:  80%|█████████████████████████████████████████████████▌            | 4/5 [01:13<00:17, 17.49s/it]

文章 7：
[ 海峡 都市报 - 海峡网 ] 昨日 省 气象 部门 消息 , 今日 白天 , 南平市 多云到阴 有 阵雨 或 雷阵雨 , 部分 中雨 , 局部 大雨 到 暴雨 ; 其余 各市 多云 , 部分 有 阵雨 或 雷阵雨 , 局部 有 中到大雨 。雷雨时 伴有 强 雷电 、 短时 强降水 和 7-9 级 雷雨 大风 等 强对流 天气 。15日 夜间 到 16日 白天 , 南平 、 宁德 两市 和 三明市 北部 阴 有 阵雨 或 雷阵雨 , 部分 中到大雨 , 局部 暴雨 ; 其余 地区 多云到阴 , 有 阵雨 或 雷阵雨 , 局部 有 中到大雨 。16日 夜间 到 17日 白天 , 南平市 阴 有 中雨 , 伴有 雷电 , 部分 大雨 到 暴雨 ; 宁德 、 三明 两市 阴 有 阵雨 或 雷阵雨 , 部分 中雨 , 局部 大雨 到 暴雨 ; 其余 各市 多云到阴 , 有 阵雨 或 雷阵雨 , 局部 有 中到大雨 。( 记者 。徐昕 昀 )

模型生成的摘要：
2022年5月15日至17日期间，南平、宁德、三明等地出现强对流天气，包括雷雨、强雷电、短时强降水、大风和雷雨大风等气象灾害，给当地居民生活和生产造成严重影响。

参考摘要：
南平 今日 迎来 雷阵雨 , 局部 有 大雨 到 暴雨 , 预计 持续 到 明后天 , 请 注意 防范

--------------------------------------------------

文章 8：
今天 下午 , 网友 担担面 0228 发 微博 称 自己 早上 “ 滴滴 ” 个 车 , 上车时 并没有 留意 到 司机 下身 的 异常 , 路上 无意间 看到 这 名 猥琐 司机 下身 仅 用 一条 五分裤 随意 覆盖 着 。车 为 红色 大众 , 车牌号 津 MM 61 xx 。途中 , 猥琐 司机 不仅 绕道 行驶 , 还 跟 @ 担担面 0228 聊 了 些 女性 话题 。@ 担担面 0228 发现 司机 的 猥琐 行为 后 , 果断 拍片 并 提前 下车 。随后 , @ 担担面 0228 联系 了 滴滴 客服 并 提供 了 相关 照片 。而 滴滴 方面 开始 仅仅 给出 了 10元 顺风车 券 作为 补偿 。之后 , @ 担担面 0228 又 在 微博上 晒 出 被 司机 威胁 的 截图 。如何 处置

Generating Summaries:  80%|█████████████████████████████████████████████████▌            | 4/5 [01:32<00:23, 23.06s/it]

文章 9：
五华县 气象台 于 09 月 07 日 15 时 53 分 将 暴雨 黄色 预警 升级 为 橙色 预警 , 请注意 加强 防御 。

模型生成的摘要：
2022年09月07日15时53分，五华气象台将暴雨黄色预警升级为橙色预警。请注意加强防御。

参考摘要：
五华县 气象台 发布 暴雨 橙色 预警 , 请注意 加强 防御 。

--------------------------------------------------

文章 10：
余杭 辉 ( 左 ) 带着 锦旗 到 公交 二 公司 感谢 , 车队 代表 接受 了 锦旗 。今天 上午 , 25岁 的 余杭 辉 带着 锦旗 赶到 金华 市 公交 集团 运营 二 公司 , “ 多亏 了 蒋永 泉 师傅 , 要不 是 他 后果 不堪设想 。 ”暴雨 来袭 。一 瞬间 车子 淹没 在水中 余杭 辉 告诉 记者 , 事情 发生 在 6月 29 日 , 也就是 金华 暴雨 的 那天 。“ 早上 8 点 左右 我 开车 带着 老婆 、 小孩 还有我 妈 去 含香 的 菜场 买菜 。 ”因为 暴雨 几条 熟悉 的 道路 都 无法 通行 了 。于 是 他 选择 从 隔壁 的 塘雅镇 楼下 徐村 绕 到 含香 去 。可是 余杭 辉 万万 没想到 就是 这个 决定 , 差点 酿成大祸 。因为 这条 田埂 小路 旁 有 一条 小溪 。持续 的 暴雨 , 使得 溪水 很快 就 满 了 , 淹没 了 道路 。“ 当 我 开到 那个 路段 时 , 大水 只 没过 了 前 车轮 的 一半 。 后车轮 还 没 碰到 水 。 ”余杭 辉 说 , 他 下意识 地下 车 查看 情况 。“ 我 觉得 应该 过不去 了 , 于是 上车 准备 退回去 。 ”但 就在 一分钟 的 时间内 , 情况 出现 了 不可 控制 的 转变 。一 上车 , 车子 就 被 水波 往前 移动 了 一段 。“ 我 挂 倒 档 想要 退 , 结果 又 一波 水 , 又 将 车子 往前 推 了 一把 。 ”余杭 辉 告诉 浙江 新闻 客户端 记者 这种 感觉 就 像 是 河水 涨潮 了 一样 。于 是 他 立马 打开 车窗 和 车门 , 让 家人 赶紧 下车 。也就 在 这 一分钟 时间内 , 车子 的 车头 竟 被 大水 淹没 了 。“ 我 的 孩子 才 1




# 案例分析

在初步测试中，我对10篇文章进行了摘要生成，整体效果较好。模型能够准确地识别文章中的主要人物、事件、时间和地点等关键信息，生成的摘要句子通顺，并且基本能够概括原文的核心内容。然而，仍存在一些问题和改进空间：

## 问题分析

1. **情感理解不足**：
   在某些文章中，LLM未能完全理解原文中蕴含的“情感”。例如，在文章2中，原文描述了老人之间深厚的感情，但LLM生成的摘要未能传达这一情感元素。这表明，虽然LLM能够识别并提取事实信息，但对情感或隐含信息的理解较为有限。

2. **信息选择性不足**：
   在文章6中，原文提到贪污官员自称月薪8千，虽然这一信息看似细节不重要，但在参考摘要中作为衬托加入，增添了文章的深度。相比之下，LLM未能将这一信息纳入摘要。这说明，LLM在处理信息的选择性时，可能过于简化，忽视了一些有助于理解文章语境的细节。

3. **摘要简洁性不足**：
   尽管LLM生成的摘要已经在简洁性方面进行了优化，基本概括了全文内容，但与人类编写的新闻摘要相比，仍显得不够简练。LLM生成的摘要通常包含过多的背景信息和次要细节，尽管这些内容在某些情况下有助于理解，但对于摘要而言，它们可能显得冗长。这可能是由于模型的参数量限制，LLM未能在生成时做到更激进的精简，无法去除多余的信息，导致摘要显得相对冗长。

## 提升空间

1. **增强情感理解**：
   为了让LLM能够更好地理解文章中的情感或隐含的情绪，可以通过增加情感识别模块或利用情感标注的训练数据对模型进行微调。这将有助于提升摘要生成时对情感层面的捕捉能力，特别是在涉及人物关系或情感色彩较强的文章中。

2. **优化信息选择性**：
   模型可以通过强化信息选择的策略，进一步优化摘要的生成。例如，可以设计针对特定细节（如人物对话、背景细节等）的权重调整机制，以便在生成摘要时自动考虑是否应当保留某些看似次要但富有内涵的信息。

3. **提高摘要简洁性**：
   进一步增强摘要的简洁性是未来的优化方向。通过对LLM模型的参数进行调整，或者使用更精简的Prompt设计，可以引导模型在生成摘要时更加注重精炼、突出重点，并减少冗余内容。此外，可以探索更高效的抽取式摘要方法，以提高摘要的紧凑度和信息密度。

4. **增强模型参数与上下文处理能力**：
   随着模型规模的扩大，LLM在处理复杂任务时的能力将得到提升。未来，可以考虑使用更大规模的模型或进行更多的领域微调，以提高对长文本的理解和总结能力。

通过以上改进，应该能够进一步提升LLM生成摘要的质量，使其更加精确、简洁且具备更强的上下文理解能力。


In [2]:
# 进行完整评估
def full_evaluation_all(sum_articles, sum_references, batch_size=2):
    # 使用所有文章进行评估
    sample_articles = sum_articles
    sample_references = sum_references
    
    # 使用所有文章生成摘要
    print("\n开始进行完整评估...\n")
    generated_summaries = generate_summaries_in_batches(
        sample_articles, 
        sample_references, 
        batch_size=batch_size
    )
    
    # 计算 ROUGE 分数
    rouge = Rouge()
    # 对摘要和参考摘要进行预处理：按字符切分，并用空格连接
    preprocessed_generated = [' '.join(list(summary)) for summary in generated_summaries]
    preprocessed_references = [' '.join(list(ref)) for ref in sample_references]
    
    scores = rouge.get_scores(preprocessed_generated, preprocessed_references, avg=True)
    
    print(f"摘要任务评估结果：")
    print(f"ROUGE-1 Recall Score: {scores['rouge-1']['r']:.4f}")
    print(f"ROUGE-2 Recall Score: {scores['rouge-2']['r']:.4f}")

full_evaluation_all(sum_articles, sum_references, batch_size=2)


开始进行完整评估...



Generating Summaries:   0%|                                                                   | 0/1000 [00:00<?, ?it/s]Starting from v4.46, the `logits` model output will have the same type as the model (except at train time, where it will always be FP32)
Generating Summaries: 100%|██████████████████████████████████████████████████████| 1000/1000 [7:18:05<00:00, 26.29s/it]


摘要任务评估结果：
ROUGE-1 Recall Score: 0.5603
ROUGE-2 Recall Score: 0.3029


## 2.3基于LLM的摘要结果分析

## 1. LLM模型生成结果
在使用LLM对summary.jsonl中的所有文章进行摘要生成后，我得到了以下评估结果：

- **ROUGE-1 Recall Score**: 0.5603
- **ROUGE-2 Recall Score**: 0.3029

从ROUGE得分来看，LLM的摘要在召回率上表现较好，超过了**满分标准**。特别是在ROUGE-1上，取得了超过0.5的得分，意味着LLM能够很好地覆盖原文中的重要词汇和短语，尤其是在提取式摘要中，它能有效地选择关键字进行概括。ROUGE-2得分则相对较低，说明LLM在处理较复杂的二元组（bigram）匹配时相对较弱，可能是在较长句子结构的生成上存在一些信息丢失，但也超过了满分标准，说明这个基于LLM的摘要任务实现的较好。

## 2. 基于神经网络模型与基于LLM的摘要效果对比分析
### 优点与局限性
- **LLM模型优点**：
  1. **语言理解能力强**：LLM能够更好地理解上下文，并生成流畅自然的文本，能够概括较为复杂的内容。
  2. **鲁棒性强**：LLM在面对不同类型的文本时具有较强的适应能力，不仅可以提取关键事件，还能处理较为复杂的长文本摘要。
  
- **神经网络模型优点**：
  1. **更高的计算效率**：传统的神经网络模型通常计算效率较高，能够快速生成摘要。
  2. **结构化摘要**：神经网络模型在处理结构化数据时（如新闻报道或技术文档）可能生成更加简洁和结构化的摘要。
  
- **LLM模型的局限性**：
  1. **生成摘要的简洁性不足**：虽然LLM在语言生成方面表现较好，但由于其生成的摘要往往包含较多的冗余信息，导致简洁度不足。这是LLM模型需要进一步优化的方向。
  2. **情感和细节捕捉不足**：LLM有时不能有效传递文章中的情感或细节，尤其是对于复杂的情感信息（例如人物情感、讽刺或隐含的意图）较难处理。

- **神经网络模型的局限性**：
  1. **准确性不足**：神经网络模型在处理较复杂的上下文关系时，可能会漏掉一些重要的关键信息，影响摘要的准确性。
  2. **语法和流畅性**：传统神经网络模型生成的摘要可能存在语法不流畅、句子生硬的问题，尤其是在面对长文本时。

## 3. 总结
通过对基于LLM的摘要结果进行分析：

- LLM模型在摘要生成任务中表现出较强的语言理解和生成能力，尤其是在召回率（ROUGE-1）上表现优异。最终超过了**满分标准**："ROUGE-1 为0.4以上，ROUGE-2 为0.2以上"
- 尽管LLM模型在信息覆盖上优于传统神经网络模型，但在简洁性和细节把握上仍有待改进。
- 为了进一步提升摘要的质量，可以结合LLM的语言生成能力与神经网络模型的效率，优化摘要生成的过程，尤其是针对冗长、情感和细节捕捉等方面进行改进。
