# PJ5
## 实验概述
- Task1：NEG
  **效果不如分类器模型，即使是GPT3.5**
  - Test1：采用Qwen/Qwen2.5-0.5B-Instruct进行提示词工程测试
  - Test2：采用OpenAI API进行提示词工程测试

- Task2：Summary
  
  **由于数据量过大，难以完全测试，总是会测试一半然后CUDA OOM，因此只测试了部分数据**
  **结果提高有限**
  - Test1：采用Qwen/Qwen2.5-0.5B-Instruct进行few-shot提示词测试
  - Test2：基于Qwen/Qwen2.5-0.5B-Instruct进行微调进行测试

## 定义数据集
* 定义Dataset：包含CHisIECDataset与 SummaryDataset


In [1]:
from torch.utils.data import Dataset
from typing import List, Optional
import torch
import torch.nn as nn
import json
class CHisIECDataset(Dataset):
    label_label_id_mapping = {
        "O": 0,
        "B-PER": 1,
        "I-PER": 2,
        "E-PER": 3,
        "S-PER": 4,
        "B-LOC": 5,
        "I-LOC": 6,
        "E-LOC": 7,
        "S-LOC": 8,
        "B-OFI": 9,
        "I-OFI": 10,
        "E-OFI": 11,
        "S-OFI": 12,
        "B-BOOK": 13,
        "I-BOOK": 14,
        "E-BOOK": 15,
        "S-BOOK": 16,
    }
    
    def __init__(self, path) -> None:
        super().__init__()
        self.data = []
        with open(path, "r", encoding="utf-8") as f:
            d = ['', '']
            while line := f.readline():
                line = line.strip()
                if line:
                    word, label = line.split()
                    d[0]+=word
                    
                    d[1]+=' ' + label+  ' '
                elif d[0]:
                    self.data.append(tuple(d))
                    d = ['', '']

    def __len__(self):
        return len(self.data)

    def __getitem__(self, index):
        return self.data[index]
    
class SummaryDataset(Dataset):
    
    def __init__(self, path):
        super().__init__()
        self.data = []
        # 解析 JSON 数据
        with open(path, 'r', encoding='utf-8') as f:
            for line in f:
                    # 解析每一行的 JSON 对象
                    item = json.loads(line.strip())
                    
                    # 提取所需字段
                    article = item['article']
                    summary = item['summary']
                    id = item['id']
                    label = item['label']
                    
                    # 将解析的数据添加到 self.data 列表中
                    self.data.append({
                        'article': article,
                        'summary': summary,
                        'id': id,
                        'label': label
                    })

    def __len__(self):
        return len(self.data)

    def __getitem__(self, index):
        return self.data[index]

* 加载数据集

In [3]:

from torch.utils.data import DataLoader
from torch.nn.functional import one_hot

## 定义get_dataloader创建Dataload,用于处理从数据集中获取的批次数据
## batchsize（？）
def get_CHisIECtest_dataloader(dataset, shuffle=True):
    def collect_fn(batch):
        t = batch[0][0]
        l = batch[0][1]
        return t, l

    return DataLoader(
        dataset,
        shuffle=shuffle,
        batch_size=1,
        collate_fn=collect_fn,
    )

def get_Summary_dataloader(dataset, shuffle=True):
    def collect_fn(batch):
        t = batch[0]['article']
        l = batch[0]['summary']
        return t, l

    return DataLoader(
        dataset,
        shuffle=shuffle,
        batch_size=1,
        collate_fn=collect_fn,
    )
   
CHisIECtest_set = CHisIECDataset("ner.txt")
Summary_set = SummaryDataset("summary.jsonl")

CHisIECtest_loader = get_CHisIECtest_dataloader(CHisIECtest_set, shuffle=False)
#输出元素
# for i, (data, label) in enumerate(CHisIECtest_loader):
#     print(data)
#     print(label)
    
Summarytest_loader = get_Summary_dataloader(Summary_set,False)
# for i, (data, label) in enumerate(Summarytest_loader):
    # print(data)
    # print(label)   

## 模型测试




In [3]:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import re


# 创建一个设备对象
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

print(f"当前设备: {device}")
model_name = "Qwen/Qwen2.5-0.5B-Instruct"
cache_directory = "F:/model"  # 指定你想要的缓存目录

# 加载模型和分词器
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map=device,
    cache_dir=cache_directory  # 添加此行
)
tokenizer = AutoTokenizer.from_pretrained(model_name, cache_dir=cache_directory,device_map=device)  # 添加此行

当前设备: cuda


Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


### NER
最终结果都很差 很难高于0.1
#### Test 1
* 采用不同形式的prompt，多次尝试
  * zero-shot ： 只给任务提示
    结果很差，乱生成
  * few-shot ： 给出两个示例
    结果变好，但是部分样本会受到示例的影响，结果与样本结果相似
    但是最后的F1-SCORE 很低 因为大部分都在生成 O

* 结论：黑盒很难去调整，最后效果很大取决于预训练模型的能力

    

In [None]:


all_true_labels = []
all_pred_labels = []
# 假设你已经定义了 test_loader
prompt_task = "我需要你去做实体标记任务 给以上序列的每个词打上标注,输出长度应该与句子长度相同  "

for i, (data, label) in enumerate(CHisIECtest_set):
    print(i)
    q =  data + prompt_task  # 将数据添加到 prompt 中
    messages = [
        # {"role": "system", "content":  },
        {"role": "user", "content": '''以下我需要你做实体标记任务,为每个字打上以下标签,以下是标签的介绍:B-PER(个人名称实体的开始), I-PER(个人名称实体的内部), E-PER(个人名称实体的结束), S-PER(单独的个人名称), B-LOC(地点实体的开始), I-LOC(地点实体的内部), E-LOC(地点实体的结束), S-LOC(单独的地点), B-OFI(组织机构实体的开始), I-OFI(组织机构实体的内部), E-OFI(组织机构实体的结束), S-OFI(单独的组织机构), B-BOOK(书名实体的开始), I-BOOK(书名实体的内部), E-BOOK(书名实体的结束), S-BOOK(单独的书名) 
        训旣作相，以守澄为六军十二卫观军容使，罢其禁旅之权，寻赐酖杀之。训愈承恩顾，每别殿奏对，他宰相莫不顺成其言，黄门禁军迎拜戢敛。'''+prompt_task+'''
    Answer : S-PER  O  O  S-OFI  O  O  B-PER  E-PER  O  B-OFI  I-OFI  I-OFI  I-OFI  I-OFI  I-OFI  I-OFI  I-OFI  E-OFI  O  O  O  O  O  O  O  O  O  O  O  O  O  O  S-PER  O  O  O  O  O  O  O  O  O  O  O  O  B-OFI  E-OFI  O  O  O  O  O  O  O  O  O  O  O  O  O  O  O  O 
    赜与洛阳元善、河东柳[巩言，凡改几]、太原王劭、吴兴姚察、琅邪诸葛颍、信都刘焯、河间刘炫相善，每因休假，清谈竟日。'''+prompt_task+'''
    Answer :  S-PER  O  B-LOC  E-LOC  B-PER  E-PER  O  B-LOC  E-LOC  S-PER  O  O  O  O  O  O  O  O  O  B-LOC  E-LOC  B-PER  E-PER  O  B-LOC  E-LOC  B-PER  E-PER  O  B-LOC  E-LOC  B-PER  I-PER  E-PER  O  B-LOC  E-LOC  B-PER  E-PER  O  B-LOC  E-LOC  B-PER  E-PER  O  O  O  O  O  O  O  O  O  O  O  O  O 
    '''+q+'''\nAnswer:'''}
    ]

    # 将消息格式化为模型输入
    text = tokenizer(messages[0]["content"], return_tensors="pt").to(device)

    # 生成输出
    generated_ids = model.generate(
        **text,
        max_new_tokens=512
    )

    # 解码生成的文本
    response = tokenizer.decode(generated_ids[0], skip_special_tokens=True)

    # 使用正则表达式找到所有 'Answer' 后的字符组
    matches = re.findall(r'Answer:\s*(.*?)(?=Answer:|$)', response, re.DOTALL)

    # 提取最后一个匹配
    answer_text = matches[-1].strip()    
    pred_labels = answer_text.split('  ')  # 将模型输出分割成标签列表
    
    # 真实标签
    true_labels = label.split('  ')  # 真实标签从字符串转换为列表
    if len(pred_labels) > len(true_labels):
        pred_labels = pred_labels[:len(true_labels)]
    elif len(pred_labels) < len(true_labels):
        
        pred_labels += ["None"] * (len(true_labels) - len(pred_labels))
    pred_labels = [label.strip() for label in pred_labels if label.strip()]
    true_labels = [label.strip() for label in true_labels if label.strip()]
    # 存储到全局列表
    all_true_labels.extend(true_labels)
    all_pred_labels.extend(pred_labels)
    





0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216


In [12]:
## fewshot
from sklearn.metrics import f1_score
f1 = f1_score(all_true_labels, all_pred_labels, average='macro')  # 或者选择'micro' 或 'macro'作为 average 参数
print(f"F1 Score: {f1:.4f}")


F1 Score: 0.0239


#### Test 2
**使用API进行测试，基于更大模型**
prompt: 
* 1:直接用句子做fewshot 输出格式正确 但是F1准确率低下，稳定在0.1以内
  ```py
  q ='''以下我需要你做实体标记任务,为每个字打上以下标签,以下是标签的介绍:B-PER(个人名称实体的开始), I-PER(个人名称实体的内部), E-PER(个人名称实体的结束), S-PER(单独的个人名称), B-LOC(地点实体的开始), I-LOC(地点实体的内部), E-LOC(地点实体的结束), S-LOC(单独的地点), B-OFI(组织机构实体的开始), I-OFI(组织机构实体的内部), E-OFI(组织机构实体的结束), S-OFI(单独的组织机构), B-BOOK(书名实体的开始), I-BOOK(书名实体的内部), E-BOOK(书名实体的结束), S-BOOK(单独的书名) 
    
    
    Sentence:训旣作相，以守澄为六军十二卫观军容使，罢其禁旅之权，寻赐酖杀之。训愈承恩顾，每别殿奏对，他宰相莫不顺成其言，黄门禁军迎拜戢敛。'''+'''
    Answer : S-PER  O  O  S-OFI  O  O  B-PER  E-PER  O  B-OFI  I-OFI  I-OFI  I-OFI  I-OFI  I-OFI  I-OFI  I-OFI  E-OFI  O  O  O  O  O  O  O  O  O  O  O  O  O  O  S-PER  O  O  O  O  O  O  O  O  O  O  O  O  B-OFI  E-OFI  O  O  O  O  O  O  O  O  O  O  O  O  O  O  O  O 
    '''+q+'''\nAnswer :'''
  ```
* 2：尝试对每个标签做出用例解释，之后在做用句子做fewshot 
  * 效果更差了，可能由于样例与文本不够契合
```py
'''以下我需要你做实体标记任务,为每个字打上以下标签,以下是标签的介绍:
    B-PER：表示个人名称实体的开始。例如，“李”在“李华”中是名字的开始。
    I-PER：表示个人名称实体的内部部分。例如，“华”在“李华”中是名字的中间部分。
    E-PER：表示个人名称实体的结束。例如，在“王小明”中，“明”就是这个个人名称实体的结尾。
    S-PER：表示单独的个人名称。例如，“李”如果作为一个独立的名字出现。
    B-LOC：表示地点实体的开始。例如，“北”在“北京”中是地点名称的开始。
    I-LOC：表示地点实体的内部部分。例如，“京”在“北京”中是地点名称的内部。
    E-LOC：表示地点实体的结束。例如，在“上海市”中，“市”就是这个地点名称的结尾。
    S-LOC：表示单独的地点。例如，“京”如果作为单独的地点出现。
    B-ORG：表示组织机构实体的开始。例如，“中”在“中国科学院”中是机构名称的开始。
    I-ORG：表示组织机构实体的内部部分。例如，“国”在“中国科学院”中是机构名称的内部。
    E-ORG：表示组织机构实体的结束。例如，在“中国科学院”中，“院”就是这个机构名称的结尾。
    S-ORG：表示单独的组织机构。例如，“中科院”如果作为单独的简称出现。
    B-BOOK：表示书名实体的开始。例如，“三”在“三国演义”中是书名的开始。
    I-BOOK：表示书名实体的内部部分。例如，“国”在“三国演义”中是书名的内部。
    E-BOOK：表示书名实体的结束。例如，在“三国演义”中，“义”就是这个书名的结尾。
    S-BOOK：表示单独的书名。例如，“经”如果作为一个独立的书名出现
    
    Sentence:训旣作相，以守澄为六军十二卫观军容使，罢其禁旅之权，寻赐酖杀之。训愈承恩顾，每别殿奏对，他宰相莫不顺成其言，黄门禁军迎拜戢敛。'''+'''
    Answer : S-PER  O  O  S-OFI  O  O  B-PER  E-PER  O  B-OFI  I-OFI  I-OFI  I-OFI  I-OFI  I-OFI  I-OFI  I-OFI  E-OFI  O  O  O  O  O  O  O  O  O  O  O  O  O  O  S-PER  O  O  O  O  O  O  O  O  O  O  O  O  B-OFI  E-OFI  O  O  O  O  O  O  O  O  O  O  O  O  O  O  O  O 
    '''+q+'''\nAnswer :'''
```

In [9]:
import requests
all_true_labels = []
all_pred_labels = []
# 假设你已经定义了 test_loader
prompt_task = "Sentence: "
url = "https://www.dmxapi.com/v1/chat/completions"

for i, (data, label) in enumerate(CHisIECtest_set):
    print(i)
    q =  data + prompt_task  # 将数据添加到 prompt 中
    q ='''以下我需要你做实体标记任务,为每个字打上以下标签,以下是标签的介绍:B-PER(个人名称实体的开始), I-PER(个人名称实体的内部), E-PER(个人名称实体的结束), S-PER(单独的个人名称), B-LOC(地点实体的开始), I-LOC(地点实体的内部), E-LOC(地点实体的结束), S-LOC(单独的地点), B-OFI(组织机构实体的开始), I-OFI(组织机构实体的内部), E-OFI(组织机构实体的结束), S-OFI(单独的组织机构), B-BOOK(书名实体的开始), I-BOOK(书名实体的内部), E-BOOK(书名实体的结束), S-BOOK(单独的书名) 
    
    
    Sentence:训旣作相，以守澄为六军十二卫观军容使，罢其禁旅之权，寻赐酖杀之。训愈承恩顾，每别殿奏对，他宰相莫不顺成其言，黄门禁军迎拜戢敛。'''+'''
    Answer : S-PER  O  O  S-OFI  O  O  B-PER  E-PER  O  B-OFI  I-OFI  I-OFI  I-OFI  I-OFI  I-OFI  I-OFI  I-OFI  E-OFI  O  O  O  O  O  O  O  O  O  O  O  O  O  O  S-PER  O  O  O  O  O  O  O  O  O  O  O  O  B-OFI  E-OFI  O  O  O  O  O  O  O  O  O  O  O  O  O  O  O  O 
    '''+q+'''\nAnswer :'''
    # q ='''以下我需要你做实体标记任务,为每个字打上以下标签,以下是标签的介绍:
    # B-PER：表示个人名称实体的开始。例如，“李”在“李华”中是名字的开始。
    # I-PER：表示个人名称实体的内部部分。例如，“华”在“李华”中是名字的中间部分。
    # E-PER：表示个人名称实体的结束。例如，在“王小明”中，“明”就是这个个人名称实体的结尾。
    # S-PER：表示单独的个人名称。例如，“李”如果作为一个独立的名字出现。
    # B-LOC：表示地点实体的开始。例如，“北”在“北京”中是地点名称的开始。
    # I-LOC：表示地点实体的内部部分。例如，“京”在“北京”中是地点名称的内部。
    # E-LOC：表示地点实体的结束。例如，在“上海市”中，“市”就是这个地点名称的结尾。
    # S-LOC：表示单独的地点。例如，“京”如果作为单独的地点出现。
    # B-ORG：表示组织机构实体的开始。例如，“中”在“中国科学院”中是机构名称的开始。
    # I-ORG：表示组织机构实体的内部部分。例如，“国”在“中国科学院”中是机构名称的内部。
    # E-ORG：表示组织机构实体的结束。例如，在“中国科学院”中，“院”就是这个机构名称的结尾。
    # S-ORG：表示单独的组织机构。例如，“中科院”如果作为单独的简称出现。
    # B-BOOK：表示书名实体的开始。例如，“三”在“三国演义”中是书名的开始。
    # I-BOOK：表示书名实体的内部部分。例如，“国”在“三国演义”中是书名的内部。
    # E-BOOK：表示书名实体的结束。例如，在“三国演义”中，“义”就是这个书名的结尾。
    # S-BOOK：表示单独的书名。例如，“经”如果作为一个独立的书名出现
    
    # Sentence:训旣作相，以守澄为六军十二卫观军容使，罢其禁旅之权，寻赐酖杀之。训愈承恩顾，每别殿奏对，他宰相莫不顺成其言，黄门禁军迎拜戢敛。'''+'''
    # Answer : S-PER  O  O  S-OFI  O  O  B-PER  E-PER  O  B-OFI  I-OFI  I-OFI  I-OFI  I-OFI  I-OFI  I-OFI  I-OFI  E-OFI  O  O  O  O  O  O  O  O  O  O  O  O  O  O  S-PER  O  O  O  O  O  O  O  O  O  O  O  O  B-OFI  E-OFI  O  O  O  O  O  O  O  O  O  O  O  O  O  O  O  O 
    # '''+q+'''\nAnswer :'''
    payload = json.dumps({
                "model": "gpt-3.5-turbo",  # 这里是你需要访问的模型，改成上面你需要测试的模型名称就可以了。
                "messages": [
                    {
                        "role": "system",
                        "content": "你是命名实体识别任务的模型，只需要输出标签，以空格分隔，标点符号也作为识别的对象"
                    },
                    {
                        "role": "user",
                        "content": q
                    }
                ]
            })
    headers = {
                'Accept': 'application/json',
                'Authorization': 'sk-kxRQ7ArIeazjscgawqVHPMCE2MJqYpM7LdT2RcMYlE7sq5i9',  # 这里放你的 DMXapi key
                'User-Agent': 'DMXAPI/1.0.0 (https://www.dmxapi.com)',  # 这里也改成 DMXAPI 的中转URL https://www.dmxapi.com，已经改好
                'Content-Type': 'application/json'
            }
    response = requests.request("POST", url, headers=headers, data=payload)
    response_json = json.loads(response.text)
    reply = response_json['choices'][0]['message']['content']  # 这里是返回结果
   
    
    
    pred_labels = reply.split(' ')  # 将模型输出分割成标签列表
    
    # 真实标签
    true_labels = label.split('  ')  # 真实标签从字符串转换为列表
    if len(pred_labels) > len(true_labels):
        pred_labels = pred_labels[:len(true_labels)]
    elif len(pred_labels) < len(true_labels):
        pred_labels += ["None"] * (len(true_labels) - len(pred_labels))
    # 存储到全局列表
    all_true_labels.extend(true_labels)
    all_pred_labels.extend(pred_labels)
    print(len(all_true_labels))
    print(len(all_pred_labels))
    # if(i==100):
    #     break
    from sklearn.metrics import f1_score
    f1 = f1_score(all_true_labels, all_pred_labels, average='macro')  # 或者选择'micro' 或 'macro'作为 average 参数
    print(f"F1 Score: {f1:.4f}")
    

0
93
93
F1 Score: 0.0452
1
144
144
F1 Score: 0.0386
2
210
210
F1 Score: 0.0361
3
266
266
F1 Score: 0.0352
4
307
307
F1 Score: 0.0349
5
317
317
F1 Score: 0.0478
6
384
384
F1 Score: 0.0498
7
459
459
F1 Score: 0.0433
8
519
519
F1 Score: 0.0412
9
534
534
F1 Score: 0.0384
10
628
628
F1 Score: 0.0407
11
668
668
F1 Score: 0.0416
12
756
756
F1 Score: 0.0450
13
774
774
F1 Score: 0.0512
14
800
800
F1 Score: 0.0501
15
865
865
F1 Score: 0.0488
16
954
954
F1 Score: 0.0514
17
992
992
F1 Score: 0.0494
18
1064
1064
F1 Score: 0.0459
19
1117
1117
F1 Score: 0.0446
20
1188
1188
F1 Score: 0.0441
21
1262
1262
F1 Score: 0.0432
22
1295
1295
F1 Score: 0.0427
23
1325
1325
F1 Score: 0.0423
24
1408
1408
F1 Score: 0.0415
25
1425
1425
F1 Score: 0.0471
26
1495
1495
F1 Score: 0.0458
27
1536
1536
F1 Score: 0.0450
28
1609
1609
F1 Score: 0.0454
29
1645
1645
F1 Score: 0.0464
30
1682
1682
F1 Score: 0.0454
31
1771
1771
F1 Score: 0.0453
32
1847
1847
F1 Score: 0.0465
33
1924
1924
F1 Score: 0.0449
34
1994
1994
F1 Score: 0.044

KeyError: 'choices'

In [10]:
## fewshot gpt
from sklearn.metrics import f1_score
print(len(all_true_labels))
print(len(all_pred_labels))
f1 = f1_score(all_true_labels, all_pred_labels, average='macro')  # 或者选择'micro' 或 'macro'作为 average 参数
print(f"F1 Score: {f1:.4f}")

12884
12884
F1 Score: 0.0344


### Summary
#### Test1：qwen

**测试过程中总会出现cuda out of memory的错误**

**测试输出结果具有随机性，容易匹配不到内容，这和模型能力有关，GPT3.5就输出格式很规范**
* 采用不同prompt测试
  * zero-shot
    会输出概括，但是相对较长
  * few-shot
    输出长度更短，指标更高
    

In [7]:

prompt_task = '''我需要你做中文概括任务，以下是一个示例
原句 : 24岁 的 男子 小罗 ( 化名 ) 因 患有 精神 病 被 送进 医院 , 为 防止 他 伤害 自己 , 医院 用 保护 带 将 其 绑 在床上 。第二天 , 护士 发现 小罗 被 同室 病人 掐死 。", "为此 , 小罗 母亲 提起 刑事 自诉 , 要求 追究 当班 护士 的 刑事责任 。", "法 晚 记者 上午 获悉 , 市 一中 院 终审 判处 当班 护士 杨某 犯 医疗 事故 罪 , 但 由于 医院 已 与 家属 达成 协议 , 赔偿 了 50万 元 , 且 杨某 已 被 医院 开除 , 故 对 其 免予 刑事 处罚 。", "住院 当晚 被 同室 病人 掐死 1999年 11月 29 日 , 24岁 的 被害人 小罗 因 精神 受到 刺激 被 送往 本市 海淀区 北京大学 第六 医院 治疗 。", "经 诊断 系 “ 急性 精神病 症 ” , 医嘱 为 精神科 特护 ( 防 冲动 、 巡视 )", "当晚 , 因 小罗 拒绝 服药 打针 , 医院 用 保护 带 将 其 绑 在床上 , 后 又 因其 吵闹 , 医师 给 其 注射 了 安定 10mg 。", "次日 早晨 6 点 10分 , 小罗 被 发现 已 死亡 。", "海淀 法院 一审 判决书 查明 , 1999年 11月 30 日 , 杨某 在 本市 海淀区 北京 医科 大学 附属 第六 医院 住院部 , 作为 大夜班 副 班 护士 , 未 严格 履行 巡视 职责 , 对 已 约束 的 病人 未 按 规定 定时 松解 保护 带 。", "导致 小罗 在 杨某 值班 期间 , 被 同室 39 岁 的 精神病人 唐某 扼 颈 机械 性窒息 死亡 。", "经 司法 精神病 鉴定 , 唐某 实施 违法行为 时 丧失 辨认 、 控制 能力 , 无责任 能力 。", "2000年 1 月 19日 , 北京 医科 大学 附属 第六 医院 与 被害人 家属 达成 协议 , 赔偿 被害人 家属 50万 元 并 承担 其他 损失 费用 。", "医院 对 护士 杨某 和 郝某 予以 行政 处分 , 决定 对 杨某 给予 开除 行政 处分 。", "当班 护士 认为 “ 应 由 医院 担责 ” 杨某 供述 称 , 1999年 11月 29 日 下午 1 时 许 , 护士 站 急 收 了 病人 小罗 , 有 3 名 家属 护送 。", "当时 , 小罗 比较 兴奋 吵闹 , 杨某 就 腾出 一个 单间 安排 其 入住 , 并 对 小罗 采取 了 保护 措施 , 用 绑带 把 他 绑 在 病床 上 。", "把 门锁 上后 , 杨某 于 当日 下午 3 时 就 下班 了 。", "晚上 11点 多 , 杨某 到 单位 上夜班 。", "到了 次日 凌晨 1点 30 分 , 他 和 另外 一 名 实习 护士 郝某 与 前 班 护士 办理 交接 。", "杨某 首先 隔着 门 玻璃 查看 清点 了 一下 人数 , 郝某 清点 医用 物品 , 后 一起 听取 了 前 一班 护士 的 交班 报告 。", "在 清点 人数 时 , 杨某 发现 小罗 的 病房 里 又新 进 了 一个 病人 唐某 。", "当晚 , 杨某 在 交接班 之后 , 只 在 凌晨 2 点 左右 巡视 过 1 次 , 只是 清点 了 人数 , 没有 进 病房 查看 , 之后 就 再 没有 巡视 查看 过 。", "次日 早上 6 点 多钟 , 郝某 找到 杨某 说 小罗 有些 不对劲 。", "杨某 到 小罗 床 前 掀开 被子 , 发现 小罗 还 被 捆着 , 身体 已经 僵 了 。", "杨某 认为 自己 虽有 过错 , 但 尚 不 构成 犯罪 , 受害人 小罗 的 死亡 结果 应当 由 医院 承担 责任 。", "杨某 辩护人 认为 , 受害人 死亡 的 原因 是 多 方面 的 , 既有 唐某 的 直接 原因 , 也 有 医院 管理 混乱 , 工作 交接 脱节 , 上 一班 医护 人员 错误 安排 病房 、 没有 及时 松解 保护 带 等 方面 原因 。", "杨某 未 按 规定 巡视 并不 必然 导致 被害人 小罗 死亡 的 结果 发生 。", "家属 向 护士 提起 刑事 自诉 郝某 称 , 按规定 , 应该 对 病人 每隔 10分钟 巡视 1 次 , 对 小罗 这样 的 病人 应该 重点 观察 。", "此外 , 对于 小罗 这样 有 被 约束 病人 的 病房 里 , 是 不能 再 入住 没有 被 约束 的 病人 的 。", "医院 出具 的 特护 记录 显示 , 杨某 的 前 一班 护士 对 小罗 都 有 详细 且 明确 的 护理 记录 , 但 从 当晚 1 点 半 杨某 接班 以后 , 就 没有 任何 关于 对 小罗 的 护理 记录 , 杨某 一 晚上 都 没有 对 小罗 进行 过 巡查 , 也 没有 按规定 护理 。", "2006年 , 北京 医学会 、 中华 医学会 两次 进行 医疗 事故 鉴定 , 结论 均 为 : 本 例 医疗 事故 争议 属于 一级 甲等 医疗 事故 , 医院 在 患者 的 损伤 结果 中 承担 次要 责任 。", "检察机关 认定 被告人 杨某 涉嫌 医疗 事故 罪 , 但 情节 轻微 , 决定 对 被告人 杨某 不起诉 。", "为此 , 小罗 的 母亲 赵某 向 海淀 法院 提起 刑事 自诉 。", "构成 医疗 事故 罪 免予 刑事 处罚 海淀 法院 认为 , 多项 证据 显示 , 虽然 被害人 小罗 的 死亡 是 由 第三人 病态 行为 直接 造成 , 但 该 死亡 结果 是 在 被害人 就诊 期间 发生 , 由于 医院 管理 不当 和 严重 失职 所 导致 的 。", "杨某 身为 当晚 值班 副 班 护士 , 是 事发 当时 代表 医院 承担 巡视 、 护理 职责 , 其 严重 不 负责 的 行为 是 医院 没有 履行 好 保护 患者 安全 职责 的 表现 之一 , 与 该 死亡 结果 存在 着 重要 的 因果关系 , 应当 以 医疗 事故 罪 追究 其 刑事责任 。", "鉴于 此次 医疗 事故 系 由 多 原因 所 造成 , 医院 多 方面 的 过失 并非 仅限于 杨某 单个 因素 。", "故 杨某 虽 构成 犯罪 , 但 情节 相对 轻微 , 且 系 初犯 , 到案 后 能 如实 供认 其 失职 行为 , 具有 悔罪 表现 , 同时 事后 杨某 已 被 医院 处以 开除 的 行政 处分 , 受到 相应 惩罚 , 已 无 判处 刑罚 之 必要 , 故 法院 认为 可以 对 其 免予 刑事 处罚 。", "据此 , 海淀 法院 作出 一审 判决 , 杨某 犯 医疗 事故 罪 , 免予 刑事 处罚 。", "一审 判决 后 , 小罗 家属 提起 上诉 , 认为 原判 对 杨某 的 处罚 过轻 。", "杨某 也 提起 了 上诉 , 杨某 认为 被害人 的 死亡 后果 并非 其 造成 的 , 其 不 构成 犯罪 。", "市 一中 院 审理 后 , 驳回 杨某 和 赵 女士 的 上诉 , 维持 原判 。"
概括 : 北京 精神病人 被 用 束缚 带 绑 床上 , 遭 病友 掐死 ; 法院 认定 医院 管理 不当 、 值班 护士 失职 , 构成 医疗 事故 罪 。<END>
用简短的语句概括以下内容,概括的句子 <END> 结尾
原句 :'''
import re
model_name = "Qwen/Qwen2.5-0.5B-Instruct"
from modelscope import AutoModelForCausalLM, AutoTokenizer
batch_size = 8  # 设置批处理大小（可以根据GPU的内存进行调整）
all_answer = []
all_pre = []

from modelscope import Model
from swift import Swift
import torch
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.bfloat16, 
    device_map='auto', 
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
# 将数据分成小批次
for i in range(0, len(Summary_set), batch_size):
    batch_data = Summary_set[i:i+batch_size]
    print(f"Processing batch {i//batch_size + 1}...")

    # 准备输入数据
    batch_q = [prompt_task + ''.join(data['article']) + "\n概括 :" for data in batch_data]
    batch_a = [data['summary'] for data in batch_data]
    # print(batch_q)
    # 将批量数据转化为模型输入
    inputs = tokenizer(batch_q, padding=True, truncation=True, return_tensors="pt").to('cuda')
    
    # 生成输出
    generated_ids = model.generate(
        **inputs,
        max_new_tokens=128
    )

    # 解码生成的文本
    responses = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
   
    
    # 处理每个生成的文本
    for j, response in enumerate(responses):
        matches = re.findall(r"概括 :(.*?)\<END\>", response, re.DOTALL)
        if len(matches) > 1:
            all_pre.append(matches[1])
            all_answer.append(batch_a[j])
        else:
            print(f"第 {i + j} 个数据未匹配到足够的内容，重新提问...")








    
    

Downloading Model to directory: /mnt/workspace/.cache/modelscope/hub/Qwen/Qwen2.5-0.5B-Instruct


[INFO:modelscope] Creating symbolic link /mnt/workspace/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct -> /mnt/workspace/.cache/modelscope/hub/Qwen/Qwen2.5-0.5B-Instruct.


Downloading Model to directory: /mnt/workspace/.cache/modelscope/hub/Qwen/Qwen2.5-0.5B-Instruct


[INFO:modelscope] Creating symbolic link /mnt/workspace/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct -> /mnt/workspace/.cache/modelscope/hub/Qwen/Qwen2.5-0.5B-Instruct.
A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


Processing batch 1...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1 个数据未匹配到足够的内容，重新提问...
第 2 个数据未匹配到足够的内容，重新提问...
第 3 个数据未匹配到足够的内容，重新提问...
第 6 个数据未匹配到足够的内容，重新提问...
第 7 个数据未匹配到足够的内容，重新提问...
Processing batch 2...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 10 个数据未匹配到足够的内容，重新提问...
第 12 个数据未匹配到足够的内容，重新提问...
第 13 个数据未匹配到足够的内容，重新提问...
第 15 个数据未匹配到足够的内容，重新提问...
Processing batch 3...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 18 个数据未匹配到足够的内容，重新提问...
第 22 个数据未匹配到足够的内容，重新提问...
第 23 个数据未匹配到足够的内容，重新提问...
Processing batch 4...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 24 个数据未匹配到足够的内容，重新提问...
第 25 个数据未匹配到足够的内容，重新提问...
第 27 个数据未匹配到足够的内容，重新提问...
第 29 个数据未匹配到足够的内容，重新提问...
第 30 个数据未匹配到足够的内容，重新提问...
第 31 个数据未匹配到足够的内容，重新提问...
Processing batch 5...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 32 个数据未匹配到足够的内容，重新提问...
第 34 个数据未匹配到足够的内容，重新提问...
第 35 个数据未匹配到足够的内容，重新提问...
第 36 个数据未匹配到足够的内容，重新提问...
第 37 个数据未匹配到足够的内容，重新提问...
第 38 个数据未匹配到足够的内容，重新提问...
Processing batch 6...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 40 个数据未匹配到足够的内容，重新提问...
第 42 个数据未匹配到足够的内容，重新提问...
第 43 个数据未匹配到足够的内容，重新提问...
第 44 个数据未匹配到足够的内容，重新提问...
第 46 个数据未匹配到足够的内容，重新提问...
Processing batch 7...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 49 个数据未匹配到足够的内容，重新提问...
第 50 个数据未匹配到足够的内容，重新提问...
第 53 个数据未匹配到足够的内容，重新提问...
第 54 个数据未匹配到足够的内容，重新提问...
第 55 个数据未匹配到足够的内容，重新提问...
Processing batch 8...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 56 个数据未匹配到足够的内容，重新提问...
第 57 个数据未匹配到足够的内容，重新提问...
第 58 个数据未匹配到足够的内容，重新提问...
第 60 个数据未匹配到足够的内容，重新提问...
第 62 个数据未匹配到足够的内容，重新提问...
第 63 个数据未匹配到足够的内容，重新提问...
Processing batch 9...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 64 个数据未匹配到足够的内容，重新提问...
第 65 个数据未匹配到足够的内容，重新提问...
第 66 个数据未匹配到足够的内容，重新提问...
第 67 个数据未匹配到足够的内容，重新提问...
第 68 个数据未匹配到足够的内容，重新提问...
第 69 个数据未匹配到足够的内容，重新提问...
第 71 个数据未匹配到足够的内容，重新提问...
Processing batch 10...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 72 个数据未匹配到足够的内容，重新提问...
第 73 个数据未匹配到足够的内容，重新提问...
第 75 个数据未匹配到足够的内容，重新提问...
第 76 个数据未匹配到足够的内容，重新提问...
第 78 个数据未匹配到足够的内容，重新提问...
第 79 个数据未匹配到足够的内容，重新提问...
Processing batch 11...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 81 个数据未匹配到足够的内容，重新提问...
第 83 个数据未匹配到足够的内容，重新提问...
第 84 个数据未匹配到足够的内容，重新提问...
第 87 个数据未匹配到足够的内容，重新提问...
Processing batch 12...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 88 个数据未匹配到足够的内容，重新提问...
第 89 个数据未匹配到足够的内容，重新提问...
第 90 个数据未匹配到足够的内容，重新提问...
第 91 个数据未匹配到足够的内容，重新提问...
第 92 个数据未匹配到足够的内容，重新提问...
第 93 个数据未匹配到足够的内容，重新提问...
第 95 个数据未匹配到足够的内容，重新提问...
Processing batch 13...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 96 个数据未匹配到足够的内容，重新提问...
第 97 个数据未匹配到足够的内容，重新提问...
第 98 个数据未匹配到足够的内容，重新提问...
第 100 个数据未匹配到足够的内容，重新提问...
第 101 个数据未匹配到足够的内容，重新提问...
第 102 个数据未匹配到足够的内容，重新提问...
第 103 个数据未匹配到足够的内容，重新提问...
Processing batch 14...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 104 个数据未匹配到足够的内容，重新提问...
第 106 个数据未匹配到足够的内容，重新提问...
第 107 个数据未匹配到足够的内容，重新提问...
第 108 个数据未匹配到足够的内容，重新提问...
第 109 个数据未匹配到足够的内容，重新提问...
第 111 个数据未匹配到足够的内容，重新提问...
Processing batch 15...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 113 个数据未匹配到足够的内容，重新提问...
第 114 个数据未匹配到足够的内容，重新提问...
第 115 个数据未匹配到足够的内容，重新提问...
第 116 个数据未匹配到足够的内容，重新提问...
第 117 个数据未匹配到足够的内容，重新提问...
第 118 个数据未匹配到足够的内容，重新提问...
第 119 个数据未匹配到足够的内容，重新提问...
Processing batch 16...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 120 个数据未匹配到足够的内容，重新提问...
第 121 个数据未匹配到足够的内容，重新提问...
第 122 个数据未匹配到足够的内容，重新提问...
第 123 个数据未匹配到足够的内容，重新提问...
第 127 个数据未匹配到足够的内容，重新提问...
Processing batch 17...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 129 个数据未匹配到足够的内容，重新提问...
第 133 个数据未匹配到足够的内容，重新提问...
第 134 个数据未匹配到足够的内容，重新提问...
第 135 个数据未匹配到足够的内容，重新提问...
Processing batch 18...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 137 个数据未匹配到足够的内容，重新提问...
第 139 个数据未匹配到足够的内容，重新提问...
第 140 个数据未匹配到足够的内容，重新提问...
第 141 个数据未匹配到足够的内容，重新提问...
Processing batch 19...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 144 个数据未匹配到足够的内容，重新提问...
第 145 个数据未匹配到足够的内容，重新提问...
第 147 个数据未匹配到足够的内容，重新提问...
第 148 个数据未匹配到足够的内容，重新提问...
Processing batch 20...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 152 个数据未匹配到足够的内容，重新提问...
第 153 个数据未匹配到足够的内容，重新提问...
第 155 个数据未匹配到足够的内容，重新提问...
第 156 个数据未匹配到足够的内容，重新提问...
第 157 个数据未匹配到足够的内容，重新提问...
第 158 个数据未匹配到足够的内容，重新提问...
Processing batch 21...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 162 个数据未匹配到足够的内容，重新提问...
第 163 个数据未匹配到足够的内容，重新提问...
第 166 个数据未匹配到足够的内容，重新提问...
第 167 个数据未匹配到足够的内容，重新提问...
Processing batch 22...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 169 个数据未匹配到足够的内容，重新提问...
第 170 个数据未匹配到足够的内容，重新提问...
第 171 个数据未匹配到足够的内容，重新提问...
第 173 个数据未匹配到足够的内容，重新提问...
Processing batch 23...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 178 个数据未匹配到足够的内容，重新提问...
第 180 个数据未匹配到足够的内容，重新提问...
第 183 个数据未匹配到足够的内容，重新提问...
Processing batch 24...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 185 个数据未匹配到足够的内容，重新提问...
第 186 个数据未匹配到足够的内容，重新提问...
第 190 个数据未匹配到足够的内容，重新提问...
第 191 个数据未匹配到足够的内容，重新提问...
Processing batch 25...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 194 个数据未匹配到足够的内容，重新提问...
第 195 个数据未匹配到足够的内容，重新提问...
第 198 个数据未匹配到足够的内容，重新提问...
第 199 个数据未匹配到足够的内容，重新提问...
Processing batch 26...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 201 个数据未匹配到足够的内容，重新提问...
第 203 个数据未匹配到足够的内容，重新提问...
第 205 个数据未匹配到足够的内容，重新提问...
第 206 个数据未匹配到足够的内容，重新提问...
第 207 个数据未匹配到足够的内容，重新提问...
Processing batch 27...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 208 个数据未匹配到足够的内容，重新提问...
第 209 个数据未匹配到足够的内容，重新提问...
第 210 个数据未匹配到足够的内容，重新提问...
第 212 个数据未匹配到足够的内容，重新提问...
第 213 个数据未匹配到足够的内容，重新提问...
第 214 个数据未匹配到足够的内容，重新提问...
第 215 个数据未匹配到足够的内容，重新提问...
Processing batch 28...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 217 个数据未匹配到足够的内容，重新提问...
第 219 个数据未匹配到足够的内容，重新提问...
第 222 个数据未匹配到足够的内容，重新提问...
第 223 个数据未匹配到足够的内容，重新提问...
Processing batch 29...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 224 个数据未匹配到足够的内容，重新提问...
第 225 个数据未匹配到足够的内容，重新提问...
第 227 个数据未匹配到足够的内容，重新提问...
第 229 个数据未匹配到足够的内容，重新提问...
第 230 个数据未匹配到足够的内容，重新提问...
第 231 个数据未匹配到足够的内容，重新提问...
Processing batch 30...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 232 个数据未匹配到足够的内容，重新提问...
第 234 个数据未匹配到足够的内容，重新提问...
第 235 个数据未匹配到足够的内容，重新提问...
第 236 个数据未匹配到足够的内容，重新提问...
第 237 个数据未匹配到足够的内容，重新提问...
第 238 个数据未匹配到足够的内容，重新提问...
第 239 个数据未匹配到足够的内容，重新提问...
Processing batch 31...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 242 个数据未匹配到足够的内容，重新提问...
第 243 个数据未匹配到足够的内容，重新提问...
第 244 个数据未匹配到足够的内容，重新提问...
第 245 个数据未匹配到足够的内容，重新提问...
第 246 个数据未匹配到足够的内容，重新提问...
Processing batch 32...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 248 个数据未匹配到足够的内容，重新提问...
第 249 个数据未匹配到足够的内容，重新提问...
第 251 个数据未匹配到足够的内容，重新提问...
第 253 个数据未匹配到足够的内容，重新提问...
Processing batch 33...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 257 个数据未匹配到足够的内容，重新提问...
第 258 个数据未匹配到足够的内容，重新提问...
第 260 个数据未匹配到足够的内容，重新提问...
第 261 个数据未匹配到足够的内容，重新提问...
Processing batch 34...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 264 个数据未匹配到足够的内容，重新提问...
第 265 个数据未匹配到足够的内容，重新提问...
第 266 个数据未匹配到足够的内容，重新提问...
第 267 个数据未匹配到足够的内容，重新提问...
第 268 个数据未匹配到足够的内容，重新提问...
第 269 个数据未匹配到足够的内容，重新提问...
第 271 个数据未匹配到足够的内容，重新提问...
Processing batch 35...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 273 个数据未匹配到足够的内容，重新提问...
第 274 个数据未匹配到足够的内容，重新提问...
第 275 个数据未匹配到足够的内容，重新提问...
第 277 个数据未匹配到足够的内容，重新提问...
Processing batch 36...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 280 个数据未匹配到足够的内容，重新提问...
第 281 个数据未匹配到足够的内容，重新提问...
第 283 个数据未匹配到足够的内容，重新提问...
Processing batch 37...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 288 个数据未匹配到足够的内容，重新提问...
第 291 个数据未匹配到足够的内容，重新提问...
第 294 个数据未匹配到足够的内容，重新提问...
第 295 个数据未匹配到足够的内容，重新提问...
Processing batch 38...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 297 个数据未匹配到足够的内容，重新提问...
第 301 个数据未匹配到足够的内容，重新提问...
第 303 个数据未匹配到足够的内容，重新提问...
Processing batch 39...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 304 个数据未匹配到足够的内容，重新提问...
第 305 个数据未匹配到足够的内容，重新提问...
第 306 个数据未匹配到足够的内容，重新提问...
第 307 个数据未匹配到足够的内容，重新提问...
第 308 个数据未匹配到足够的内容，重新提问...
第 311 个数据未匹配到足够的内容，重新提问...
Processing batch 40...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 312 个数据未匹配到足够的内容，重新提问...
第 314 个数据未匹配到足够的内容，重新提问...
第 316 个数据未匹配到足够的内容，重新提问...
第 317 个数据未匹配到足够的内容，重新提问...
第 319 个数据未匹配到足够的内容，重新提问...
Processing batch 41...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 320 个数据未匹配到足够的内容，重新提问...
第 323 个数据未匹配到足够的内容，重新提问...
第 325 个数据未匹配到足够的内容，重新提问...
第 326 个数据未匹配到足够的内容，重新提问...
第 327 个数据未匹配到足够的内容，重新提问...
Processing batch 42...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 328 个数据未匹配到足够的内容，重新提问...
第 331 个数据未匹配到足够的内容，重新提问...
第 333 个数据未匹配到足够的内容，重新提问...
第 334 个数据未匹配到足够的内容，重新提问...
第 335 个数据未匹配到足够的内容，重新提问...
Processing batch 43...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 337 个数据未匹配到足够的内容，重新提问...
第 338 个数据未匹配到足够的内容，重新提问...
第 339 个数据未匹配到足够的内容，重新提问...
第 340 个数据未匹配到足够的内容，重新提问...
第 341 个数据未匹配到足够的内容，重新提问...
第 343 个数据未匹配到足够的内容，重新提问...
Processing batch 44...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 344 个数据未匹配到足够的内容，重新提问...
第 345 个数据未匹配到足够的内容，重新提问...
第 348 个数据未匹配到足够的内容，重新提问...
第 349 个数据未匹配到足够的内容，重新提问...
Processing batch 45...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 352 个数据未匹配到足够的内容，重新提问...
第 354 个数据未匹配到足够的内容，重新提问...
第 355 个数据未匹配到足够的内容，重新提问...
第 359 个数据未匹配到足够的内容，重新提问...
Processing batch 46...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 360 个数据未匹配到足够的内容，重新提问...
第 363 个数据未匹配到足够的内容，重新提问...
第 365 个数据未匹配到足够的内容，重新提问...
第 366 个数据未匹配到足够的内容，重新提问...
第 367 个数据未匹配到足够的内容，重新提问...
Processing batch 47...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 370 个数据未匹配到足够的内容，重新提问...
第 371 个数据未匹配到足够的内容，重新提问...
第 372 个数据未匹配到足够的内容，重新提问...
第 374 个数据未匹配到足够的内容，重新提问...
第 375 个数据未匹配到足够的内容，重新提问...
Processing batch 48...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 376 个数据未匹配到足够的内容，重新提问...
第 378 个数据未匹配到足够的内容，重新提问...
第 379 个数据未匹配到足够的内容，重新提问...
第 381 个数据未匹配到足够的内容，重新提问...
第 382 个数据未匹配到足够的内容，重新提问...
第 383 个数据未匹配到足够的内容，重新提问...
Processing batch 49...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 385 个数据未匹配到足够的内容，重新提问...
第 386 个数据未匹配到足够的内容，重新提问...
第 387 个数据未匹配到足够的内容，重新提问...
第 391 个数据未匹配到足够的内容，重新提问...
Processing batch 50...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 393 个数据未匹配到足够的内容，重新提问...
第 394 个数据未匹配到足够的内容，重新提问...
第 396 个数据未匹配到足够的内容，重新提问...
第 397 个数据未匹配到足够的内容，重新提问...
第 398 个数据未匹配到足够的内容，重新提问...
第 399 个数据未匹配到足够的内容，重新提问...
Processing batch 51...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 402 个数据未匹配到足够的内容，重新提问...
第 403 个数据未匹配到足够的内容，重新提问...
第 404 个数据未匹配到足够的内容，重新提问...
第 405 个数据未匹配到足够的内容，重新提问...
第 406 个数据未匹配到足够的内容，重新提问...
第 407 个数据未匹配到足够的内容，重新提问...
Processing batch 52...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 410 个数据未匹配到足够的内容，重新提问...
第 411 个数据未匹配到足够的内容，重新提问...
第 413 个数据未匹配到足够的内容，重新提问...
Processing batch 53...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 416 个数据未匹配到足够的内容，重新提问...
第 418 个数据未匹配到足够的内容，重新提问...
第 419 个数据未匹配到足够的内容，重新提问...
第 421 个数据未匹配到足够的内容，重新提问...
第 423 个数据未匹配到足够的内容，重新提问...
Processing batch 54...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 424 个数据未匹配到足够的内容，重新提问...
第 425 个数据未匹配到足够的内容，重新提问...
第 429 个数据未匹配到足够的内容，重新提问...
第 430 个数据未匹配到足够的内容，重新提问...
第 431 个数据未匹配到足够的内容，重新提问...
Processing batch 55...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 433 个数据未匹配到足够的内容，重新提问...
第 434 个数据未匹配到足够的内容，重新提问...
第 436 个数据未匹配到足够的内容，重新提问...
第 437 个数据未匹配到足够的内容，重新提问...
第 439 个数据未匹配到足够的内容，重新提问...
Processing batch 56...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 441 个数据未匹配到足够的内容，重新提问...
第 442 个数据未匹配到足够的内容，重新提问...
第 444 个数据未匹配到足够的内容，重新提问...
第 445 个数据未匹配到足够的内容，重新提问...
Processing batch 57...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 448 个数据未匹配到足够的内容，重新提问...
第 452 个数据未匹配到足够的内容，重新提问...
Processing batch 58...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 456 个数据未匹配到足够的内容，重新提问...
第 457 个数据未匹配到足够的内容，重新提问...
第 458 个数据未匹配到足够的内容，重新提问...
第 459 个数据未匹配到足够的内容，重新提问...
第 461 个数据未匹配到足够的内容，重新提问...
第 462 个数据未匹配到足够的内容，重新提问...
第 463 个数据未匹配到足够的内容，重新提问...
Processing batch 59...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 464 个数据未匹配到足够的内容，重新提问...
第 465 个数据未匹配到足够的内容，重新提问...
第 466 个数据未匹配到足够的内容，重新提问...
第 467 个数据未匹配到足够的内容，重新提问...
第 469 个数据未匹配到足够的内容，重新提问...
第 470 个数据未匹配到足够的内容，重新提问...
第 471 个数据未匹配到足够的内容，重新提问...
Processing batch 60...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 472 个数据未匹配到足够的内容，重新提问...
第 473 个数据未匹配到足够的内容，重新提问...
第 476 个数据未匹配到足够的内容，重新提问...
第 478 个数据未匹配到足够的内容，重新提问...
Processing batch 61...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 480 个数据未匹配到足够的内容，重新提问...
第 482 个数据未匹配到足够的内容，重新提问...
第 483 个数据未匹配到足够的内容，重新提问...
第 484 个数据未匹配到足够的内容，重新提问...
第 485 个数据未匹配到足够的内容，重新提问...
第 486 个数据未匹配到足够的内容，重新提问...
第 487 个数据未匹配到足够的内容，重新提问...
Processing batch 62...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 488 个数据未匹配到足够的内容，重新提问...
第 489 个数据未匹配到足够的内容，重新提问...
第 491 个数据未匹配到足够的内容，重新提问...
第 492 个数据未匹配到足够的内容，重新提问...
第 493 个数据未匹配到足够的内容，重新提问...
第 494 个数据未匹配到足够的内容，重新提问...
第 495 个数据未匹配到足够的内容，重新提问...
Processing batch 63...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 496 个数据未匹配到足够的内容，重新提问...
第 497 个数据未匹配到足够的内容，重新提问...
第 499 个数据未匹配到足够的内容，重新提问...
第 500 个数据未匹配到足够的内容，重新提问...
第 501 个数据未匹配到足够的内容，重新提问...
Processing batch 64...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 504 个数据未匹配到足够的内容，重新提问...
第 506 个数据未匹配到足够的内容，重新提问...
第 507 个数据未匹配到足够的内容，重新提问...
第 510 个数据未匹配到足够的内容，重新提问...
第 511 个数据未匹配到足够的内容，重新提问...
Processing batch 65...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 512 个数据未匹配到足够的内容，重新提问...
第 513 个数据未匹配到足够的内容，重新提问...
第 514 个数据未匹配到足够的内容，重新提问...
第 515 个数据未匹配到足够的内容，重新提问...
第 517 个数据未匹配到足够的内容，重新提问...
Processing batch 66...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 520 个数据未匹配到足够的内容，重新提问...
第 521 个数据未匹配到足够的内容，重新提问...
第 522 个数据未匹配到足够的内容，重新提问...
第 525 个数据未匹配到足够的内容，重新提问...
Processing batch 67...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 528 个数据未匹配到足够的内容，重新提问...
第 529 个数据未匹配到足够的内容，重新提问...
第 532 个数据未匹配到足够的内容，重新提问...
第 534 个数据未匹配到足够的内容，重新提问...
第 535 个数据未匹配到足够的内容，重新提问...
Processing batch 68...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 538 个数据未匹配到足够的内容，重新提问...
第 539 个数据未匹配到足够的内容，重新提问...
第 541 个数据未匹配到足够的内容，重新提问...
第 543 个数据未匹配到足够的内容，重新提问...
Processing batch 69...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 544 个数据未匹配到足够的内容，重新提问...
第 545 个数据未匹配到足够的内容，重新提问...
第 546 个数据未匹配到足够的内容，重新提问...
第 549 个数据未匹配到足够的内容，重新提问...
第 551 个数据未匹配到足够的内容，重新提问...
Processing batch 70...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 552 个数据未匹配到足够的内容，重新提问...
第 553 个数据未匹配到足够的内容，重新提问...
第 554 个数据未匹配到足够的内容，重新提问...
第 555 个数据未匹配到足够的内容，重新提问...
第 556 个数据未匹配到足够的内容，重新提问...
第 557 个数据未匹配到足够的内容，重新提问...
第 559 个数据未匹配到足够的内容，重新提问...
Processing batch 71...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 560 个数据未匹配到足够的内容，重新提问...
第 562 个数据未匹配到足够的内容，重新提问...
第 563 个数据未匹配到足够的内容，重新提问...
第 564 个数据未匹配到足够的内容，重新提问...
第 565 个数据未匹配到足够的内容，重新提问...
Processing batch 72...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 569 个数据未匹配到足够的内容，重新提问...
第 570 个数据未匹配到足够的内容，重新提问...
第 571 个数据未匹配到足够的内容，重新提问...
第 573 个数据未匹配到足够的内容，重新提问...
第 574 个数据未匹配到足够的内容，重新提问...
Processing batch 73...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 577 个数据未匹配到足够的内容，重新提问...
第 579 个数据未匹配到足够的内容，重新提问...
第 580 个数据未匹配到足够的内容，重新提问...
第 581 个数据未匹配到足够的内容，重新提问...
第 582 个数据未匹配到足够的内容，重新提问...
Processing batch 74...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 584 个数据未匹配到足够的内容，重新提问...
第 588 个数据未匹配到足够的内容，重新提问...
第 590 个数据未匹配到足够的内容，重新提问...
Processing batch 75...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 592 个数据未匹配到足够的内容，重新提问...
第 593 个数据未匹配到足够的内容，重新提问...
第 594 个数据未匹配到足够的内容，重新提问...
第 595 个数据未匹配到足够的内容，重新提问...
第 596 个数据未匹配到足够的内容，重新提问...
Processing batch 76...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 600 个数据未匹配到足够的内容，重新提问...
第 601 个数据未匹配到足够的内容，重新提问...
第 602 个数据未匹配到足够的内容，重新提问...
第 603 个数据未匹配到足够的内容，重新提问...
第 605 个数据未匹配到足够的内容，重新提问...
第 606 个数据未匹配到足够的内容，重新提问...
第 607 个数据未匹配到足够的内容，重新提问...
Processing batch 77...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 608 个数据未匹配到足够的内容，重新提问...
第 609 个数据未匹配到足够的内容，重新提问...
第 610 个数据未匹配到足够的内容，重新提问...
第 611 个数据未匹配到足够的内容，重新提问...
第 612 个数据未匹配到足够的内容，重新提问...
第 613 个数据未匹配到足够的内容，重新提问...
第 614 个数据未匹配到足够的内容，重新提问...
第 615 个数据未匹配到足够的内容，重新提问...
Processing batch 78...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 616 个数据未匹配到足够的内容，重新提问...
第 618 个数据未匹配到足够的内容，重新提问...
第 619 个数据未匹配到足够的内容，重新提问...
第 620 个数据未匹配到足够的内容，重新提问...
第 621 个数据未匹配到足够的内容，重新提问...
第 623 个数据未匹配到足够的内容，重新提问...
Processing batch 79...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 624 个数据未匹配到足够的内容，重新提问...
第 625 个数据未匹配到足够的内容，重新提问...
第 628 个数据未匹配到足够的内容，重新提问...
Processing batch 80...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 634 个数据未匹配到足够的内容，重新提问...
第 635 个数据未匹配到足够的内容，重新提问...
第 637 个数据未匹配到足够的内容，重新提问...
第 638 个数据未匹配到足够的内容，重新提问...
Processing batch 81...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 640 个数据未匹配到足够的内容，重新提问...
第 641 个数据未匹配到足够的内容，重新提问...
第 642 个数据未匹配到足够的内容，重新提问...
第 643 个数据未匹配到足够的内容，重新提问...
第 645 个数据未匹配到足够的内容，重新提问...
第 646 个数据未匹配到足够的内容，重新提问...
Processing batch 82...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 651 个数据未匹配到足够的内容，重新提问...
第 652 个数据未匹配到足够的内容，重新提问...
第 653 个数据未匹配到足够的内容，重新提问...
第 654 个数据未匹配到足够的内容，重新提问...
Processing batch 83...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 656 个数据未匹配到足够的内容，重新提问...
第 658 个数据未匹配到足够的内容，重新提问...
第 660 个数据未匹配到足够的内容，重新提问...
第 661 个数据未匹配到足够的内容，重新提问...
第 662 个数据未匹配到足够的内容，重新提问...
第 663 个数据未匹配到足够的内容，重新提问...
Processing batch 84...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 667 个数据未匹配到足够的内容，重新提问...
第 668 个数据未匹配到足够的内容，重新提问...
第 670 个数据未匹配到足够的内容，重新提问...
第 671 个数据未匹配到足够的内容，重新提问...
Processing batch 85...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 672 个数据未匹配到足够的内容，重新提问...
第 673 个数据未匹配到足够的内容，重新提问...
第 675 个数据未匹配到足够的内容，重新提问...
第 676 个数据未匹配到足够的内容，重新提问...
第 678 个数据未匹配到足够的内容，重新提问...
Processing batch 86...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 681 个数据未匹配到足够的内容，重新提问...
第 683 个数据未匹配到足够的内容，重新提问...
第 684 个数据未匹配到足够的内容，重新提问...
Processing batch 87...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 688 个数据未匹配到足够的内容，重新提问...
第 689 个数据未匹配到足够的内容，重新提问...
第 690 个数据未匹配到足够的内容，重新提问...
第 691 个数据未匹配到足够的内容，重新提问...
第 692 个数据未匹配到足够的内容，重新提问...
第 693 个数据未匹配到足够的内容，重新提问...
第 694 个数据未匹配到足够的内容，重新提问...
第 695 个数据未匹配到足够的内容，重新提问...
Processing batch 88...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 698 个数据未匹配到足够的内容，重新提问...
第 699 个数据未匹配到足够的内容，重新提问...
第 700 个数据未匹配到足够的内容，重新提问...
第 701 个数据未匹配到足够的内容，重新提问...
Processing batch 89...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 709 个数据未匹配到足够的内容，重新提问...
第 710 个数据未匹配到足够的内容，重新提问...
第 711 个数据未匹配到足够的内容，重新提问...
Processing batch 90...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 712 个数据未匹配到足够的内容，重新提问...
第 713 个数据未匹配到足够的内容，重新提问...
第 714 个数据未匹配到足够的内容，重新提问...
第 716 个数据未匹配到足够的内容，重新提问...
第 717 个数据未匹配到足够的内容，重新提问...
第 718 个数据未匹配到足够的内容，重新提问...
第 719 个数据未匹配到足够的内容，重新提问...
Processing batch 91...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 722 个数据未匹配到足够的内容，重新提问...
第 723 个数据未匹配到足够的内容，重新提问...
第 724 个数据未匹配到足够的内容，重新提问...
第 726 个数据未匹配到足够的内容，重新提问...
第 727 个数据未匹配到足够的内容，重新提问...
Processing batch 92...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 729 个数据未匹配到足够的内容，重新提问...
第 731 个数据未匹配到足够的内容，重新提问...
第 734 个数据未匹配到足够的内容，重新提问...
第 735 个数据未匹配到足够的内容，重新提问...
Processing batch 93...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 736 个数据未匹配到足够的内容，重新提问...
第 737 个数据未匹配到足够的内容，重新提问...
第 739 个数据未匹配到足够的内容，重新提问...
第 741 个数据未匹配到足够的内容，重新提问...
第 742 个数据未匹配到足够的内容，重新提问...
Processing batch 94...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 744 个数据未匹配到足够的内容，重新提问...
第 745 个数据未匹配到足够的内容，重新提问...
第 746 个数据未匹配到足够的内容，重新提问...
第 750 个数据未匹配到足够的内容，重新提问...
Processing batch 95...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 752 个数据未匹配到足够的内容，重新提问...
第 757 个数据未匹配到足够的内容，重新提问...
第 759 个数据未匹配到足够的内容，重新提问...
Processing batch 96...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 760 个数据未匹配到足够的内容，重新提问...
第 761 个数据未匹配到足够的内容，重新提问...
第 762 个数据未匹配到足够的内容，重新提问...
第 763 个数据未匹配到足够的内容，重新提问...
第 764 个数据未匹配到足够的内容，重新提问...
第 765 个数据未匹配到足够的内容，重新提问...
第 766 个数据未匹配到足够的内容，重新提问...
Processing batch 97...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 768 个数据未匹配到足够的内容，重新提问...
Processing batch 98...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 776 个数据未匹配到足够的内容，重新提问...
第 779 个数据未匹配到足够的内容，重新提问...
第 781 个数据未匹配到足够的内容，重新提问...
第 782 个数据未匹配到足够的内容，重新提问...
Processing batch 99...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 785 个数据未匹配到足够的内容，重新提问...
第 786 个数据未匹配到足够的内容，重新提问...
第 787 个数据未匹配到足够的内容，重新提问...
第 788 个数据未匹配到足够的内容，重新提问...
第 790 个数据未匹配到足够的内容，重新提问...
第 791 个数据未匹配到足够的内容，重新提问...
Processing batch 100...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 792 个数据未匹配到足够的内容，重新提问...
第 793 个数据未匹配到足够的内容，重新提问...
第 794 个数据未匹配到足够的内容，重新提问...
第 795 个数据未匹配到足够的内容，重新提问...
第 796 个数据未匹配到足够的内容，重新提问...
第 797 个数据未匹配到足够的内容，重新提问...
第 799 个数据未匹配到足够的内容，重新提问...
Processing batch 101...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 803 个数据未匹配到足够的内容，重新提问...
第 804 个数据未匹配到足够的内容，重新提问...
第 805 个数据未匹配到足够的内容，重新提问...
Processing batch 102...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 808 个数据未匹配到足够的内容，重新提问...
第 809 个数据未匹配到足够的内容，重新提问...
第 810 个数据未匹配到足够的内容，重新提问...
第 815 个数据未匹配到足够的内容，重新提问...
Processing batch 103...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 820 个数据未匹配到足够的内容，重新提问...
第 821 个数据未匹配到足够的内容，重新提问...
第 822 个数据未匹配到足够的内容，重新提问...
第 823 个数据未匹配到足够的内容，重新提问...
Processing batch 104...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 824 个数据未匹配到足够的内容，重新提问...
第 825 个数据未匹配到足够的内容，重新提问...
第 827 个数据未匹配到足够的内容，重新提问...
第 828 个数据未匹配到足够的内容，重新提问...
第 830 个数据未匹配到足够的内容，重新提问...
Processing batch 105...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 832 个数据未匹配到足够的内容，重新提问...
第 837 个数据未匹配到足够的内容，重新提问...
第 838 个数据未匹配到足够的内容，重新提问...
Processing batch 106...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 844 个数据未匹配到足够的内容，重新提问...
第 845 个数据未匹配到足够的内容，重新提问...
第 846 个数据未匹配到足够的内容，重新提问...
Processing batch 107...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 850 个数据未匹配到足够的内容，重新提问...
第 851 个数据未匹配到足够的内容，重新提问...
第 852 个数据未匹配到足够的内容，重新提问...
第 853 个数据未匹配到足够的内容，重新提问...
Processing batch 108...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 856 个数据未匹配到足够的内容，重新提问...
第 858 个数据未匹配到足够的内容，重新提问...
第 859 个数据未匹配到足够的内容，重新提问...
第 862 个数据未匹配到足够的内容，重新提问...
第 863 个数据未匹配到足够的内容，重新提问...
Processing batch 109...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 864 个数据未匹配到足够的内容，重新提问...
第 865 个数据未匹配到足够的内容，重新提问...
第 866 个数据未匹配到足够的内容，重新提问...
第 869 个数据未匹配到足够的内容，重新提问...
第 870 个数据未匹配到足够的内容，重新提问...
Processing batch 110...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 872 个数据未匹配到足够的内容，重新提问...
第 874 个数据未匹配到足够的内容，重新提问...
第 877 个数据未匹配到足够的内容，重新提问...
第 878 个数据未匹配到足够的内容，重新提问...
第 879 个数据未匹配到足够的内容，重新提问...
Processing batch 111...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 881 个数据未匹配到足够的内容，重新提问...
第 882 个数据未匹配到足够的内容，重新提问...
第 883 个数据未匹配到足够的内容，重新提问...
第 885 个数据未匹配到足够的内容，重新提问...
第 887 个数据未匹配到足够的内容，重新提问...
Processing batch 112...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 888 个数据未匹配到足够的内容，重新提问...
第 890 个数据未匹配到足够的内容，重新提问...
第 894 个数据未匹配到足够的内容，重新提问...
第 895 个数据未匹配到足够的内容，重新提问...
Processing batch 113...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 897 个数据未匹配到足够的内容，重新提问...
第 898 个数据未匹配到足够的内容，重新提问...
第 899 个数据未匹配到足够的内容，重新提问...
第 900 个数据未匹配到足够的内容，重新提问...
第 901 个数据未匹配到足够的内容，重新提问...
Processing batch 114...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 904 个数据未匹配到足够的内容，重新提问...
第 906 个数据未匹配到足够的内容，重新提问...
第 910 个数据未匹配到足够的内容，重新提问...
Processing batch 115...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 912 个数据未匹配到足够的内容，重新提问...
第 914 个数据未匹配到足够的内容，重新提问...
第 915 个数据未匹配到足够的内容，重新提问...
第 917 个数据未匹配到足够的内容，重新提问...
第 918 个数据未匹配到足够的内容，重新提问...
第 919 个数据未匹配到足够的内容，重新提问...
Processing batch 116...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 921 个数据未匹配到足够的内容，重新提问...
第 922 个数据未匹配到足够的内容，重新提问...
第 924 个数据未匹配到足够的内容，重新提问...
第 926 个数据未匹配到足够的内容，重新提问...
Processing batch 117...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 928 个数据未匹配到足够的内容，重新提问...
第 932 个数据未匹配到足够的内容，重新提问...
第 934 个数据未匹配到足够的内容，重新提问...
第 935 个数据未匹配到足够的内容，重新提问...
Processing batch 118...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 936 个数据未匹配到足够的内容，重新提问...
第 937 个数据未匹配到足够的内容，重新提问...
第 938 个数据未匹配到足够的内容，重新提问...
第 939 个数据未匹配到足够的内容，重新提问...
第 940 个数据未匹配到足够的内容，重新提问...
第 942 个数据未匹配到足够的内容，重新提问...
第 943 个数据未匹配到足够的内容，重新提问...
Processing batch 119...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 946 个数据未匹配到足够的内容，重新提问...
第 947 个数据未匹配到足够的内容，重新提问...
第 950 个数据未匹配到足够的内容，重新提问...
Processing batch 120...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 952 个数据未匹配到足够的内容，重新提问...
第 953 个数据未匹配到足够的内容，重新提问...
第 954 个数据未匹配到足够的内容，重新提问...
第 956 个数据未匹配到足够的内容，重新提问...
第 957 个数据未匹配到足够的内容，重新提问...
第 959 个数据未匹配到足够的内容，重新提问...
Processing batch 121...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 961 个数据未匹配到足够的内容，重新提问...
第 963 个数据未匹配到足够的内容，重新提问...
第 965 个数据未匹配到足够的内容，重新提问...
第 967 个数据未匹配到足够的内容，重新提问...
Processing batch 122...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 970 个数据未匹配到足够的内容，重新提问...
第 971 个数据未匹配到足够的内容，重新提问...
第 972 个数据未匹配到足够的内容，重新提问...
第 974 个数据未匹配到足够的内容，重新提问...
Processing batch 123...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 978 个数据未匹配到足够的内容，重新提问...
第 979 个数据未匹配到足够的内容，重新提问...
第 980 个数据未匹配到足够的内容，重新提问...
第 981 个数据未匹配到足够的内容，重新提问...
第 982 个数据未匹配到足够的内容，重新提问...
Processing batch 124...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 984 个数据未匹配到足够的内容，重新提问...
第 985 个数据未匹配到足够的内容，重新提问...
第 986 个数据未匹配到足够的内容，重新提问...
第 987 个数据未匹配到足够的内容，重新提问...
第 991 个数据未匹配到足够的内容，重新提问...
Processing batch 125...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 994 个数据未匹配到足够的内容，重新提问...
第 995 个数据未匹配到足够的内容，重新提问...
第 996 个数据未匹配到足够的内容，重新提问...
第 998 个数据未匹配到足够的内容，重新提问...
第 999 个数据未匹配到足够的内容，重新提问...
Processing batch 126...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1002 个数据未匹配到足够的内容，重新提问...
第 1004 个数据未匹配到足够的内容，重新提问...
第 1005 个数据未匹配到足够的内容，重新提问...
第 1007 个数据未匹配到足够的内容，重新提问...
Processing batch 127...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1008 个数据未匹配到足够的内容，重新提问...
第 1009 个数据未匹配到足够的内容，重新提问...
第 1010 个数据未匹配到足够的内容，重新提问...
第 1012 个数据未匹配到足够的内容，重新提问...
第 1013 个数据未匹配到足够的内容，重新提问...
第 1015 个数据未匹配到足够的内容，重新提问...
Processing batch 128...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1016 个数据未匹配到足够的内容，重新提问...
第 1017 个数据未匹配到足够的内容，重新提问...
第 1018 个数据未匹配到足够的内容，重新提问...
第 1019 个数据未匹配到足够的内容，重新提问...
第 1021 个数据未匹配到足够的内容，重新提问...
第 1022 个数据未匹配到足够的内容，重新提问...
Processing batch 129...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1024 个数据未匹配到足够的内容，重新提问...
第 1025 个数据未匹配到足够的内容，重新提问...
第 1027 个数据未匹配到足够的内容，重新提问...
第 1029 个数据未匹配到足够的内容，重新提问...
第 1030 个数据未匹配到足够的内容，重新提问...
第 1031 个数据未匹配到足够的内容，重新提问...
Processing batch 130...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1032 个数据未匹配到足够的内容，重新提问...
第 1036 个数据未匹配到足够的内容，重新提问...
第 1037 个数据未匹配到足够的内容，重新提问...
第 1038 个数据未匹配到足够的内容，重新提问...
Processing batch 131...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1040 个数据未匹配到足够的内容，重新提问...
第 1041 个数据未匹配到足够的内容，重新提问...
第 1043 个数据未匹配到足够的内容，重新提问...
第 1044 个数据未匹配到足够的内容，重新提问...
第 1045 个数据未匹配到足够的内容，重新提问...
Processing batch 132...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1048 个数据未匹配到足够的内容，重新提问...
第 1050 个数据未匹配到足够的内容，重新提问...
第 1052 个数据未匹配到足够的内容，重新提问...
第 1053 个数据未匹配到足够的内容，重新提问...
Processing batch 133...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1056 个数据未匹配到足够的内容，重新提问...
第 1057 个数据未匹配到足够的内容，重新提问...
第 1058 个数据未匹配到足够的内容，重新提问...
第 1060 个数据未匹配到足够的内容，重新提问...
第 1061 个数据未匹配到足够的内容，重新提问...
第 1063 个数据未匹配到足够的内容，重新提问...
Processing batch 134...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1064 个数据未匹配到足够的内容，重新提问...
第 1065 个数据未匹配到足够的内容，重新提问...
第 1068 个数据未匹配到足够的内容，重新提问...
第 1070 个数据未匹配到足够的内容，重新提问...
第 1071 个数据未匹配到足够的内容，重新提问...
Processing batch 135...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1072 个数据未匹配到足够的内容，重新提问...
第 1074 个数据未匹配到足够的内容，重新提问...
第 1075 个数据未匹配到足够的内容，重新提问...
Processing batch 136...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1080 个数据未匹配到足够的内容，重新提问...
第 1081 个数据未匹配到足够的内容，重新提问...
第 1082 个数据未匹配到足够的内容，重新提问...
第 1083 个数据未匹配到足够的内容，重新提问...
第 1085 个数据未匹配到足够的内容，重新提问...
第 1086 个数据未匹配到足够的内容，重新提问...
Processing batch 137...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1088 个数据未匹配到足够的内容，重新提问...
第 1091 个数据未匹配到足够的内容，重新提问...
第 1092 个数据未匹配到足够的内容，重新提问...
第 1093 个数据未匹配到足够的内容，重新提问...
第 1095 个数据未匹配到足够的内容，重新提问...
Processing batch 138...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1097 个数据未匹配到足够的内容，重新提问...
第 1098 个数据未匹配到足够的内容，重新提问...
第 1099 个数据未匹配到足够的内容，重新提问...
第 1100 个数据未匹配到足够的内容，重新提问...
第 1101 个数据未匹配到足够的内容，重新提问...
第 1102 个数据未匹配到足够的内容，重新提问...
第 1103 个数据未匹配到足够的内容，重新提问...
Processing batch 139...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1104 个数据未匹配到足够的内容，重新提问...
第 1105 个数据未匹配到足够的内容，重新提问...
第 1107 个数据未匹配到足够的内容，重新提问...
第 1109 个数据未匹配到足够的内容，重新提问...
Processing batch 140...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1112 个数据未匹配到足够的内容，重新提问...
第 1113 个数据未匹配到足够的内容，重新提问...
Processing batch 141...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1121 个数据未匹配到足够的内容，重新提问...
第 1123 个数据未匹配到足够的内容，重新提问...
第 1124 个数据未匹配到足够的内容，重新提问...
第 1125 个数据未匹配到足够的内容，重新提问...
第 1126 个数据未匹配到足够的内容，重新提问...
Processing batch 142...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1128 个数据未匹配到足够的内容，重新提问...
第 1129 个数据未匹配到足够的内容，重新提问...
第 1130 个数据未匹配到足够的内容，重新提问...
第 1131 个数据未匹配到足够的内容，重新提问...
第 1134 个数据未匹配到足够的内容，重新提问...
第 1135 个数据未匹配到足够的内容，重新提问...
Processing batch 143...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1136 个数据未匹配到足够的内容，重新提问...
第 1138 个数据未匹配到足够的内容，重新提问...
第 1139 个数据未匹配到足够的内容，重新提问...
第 1140 个数据未匹配到足够的内容，重新提问...
第 1141 个数据未匹配到足够的内容，重新提问...
第 1142 个数据未匹配到足够的内容，重新提问...
第 1143 个数据未匹配到足够的内容，重新提问...
Processing batch 144...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1146 个数据未匹配到足够的内容，重新提问...
第 1147 个数据未匹配到足够的内容，重新提问...
第 1149 个数据未匹配到足够的内容，重新提问...
第 1150 个数据未匹配到足够的内容，重新提问...
Processing batch 145...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1153 个数据未匹配到足够的内容，重新提问...
第 1154 个数据未匹配到足够的内容，重新提问...
第 1155 个数据未匹配到足够的内容，重新提问...
第 1156 个数据未匹配到足够的内容，重新提问...
第 1157 个数据未匹配到足够的内容，重新提问...
第 1159 个数据未匹配到足够的内容，重新提问...
Processing batch 146...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1160 个数据未匹配到足够的内容，重新提问...
第 1161 个数据未匹配到足够的内容，重新提问...
第 1162 个数据未匹配到足够的内容，重新提问...
第 1163 个数据未匹配到足够的内容，重新提问...
第 1164 个数据未匹配到足够的内容，重新提问...
第 1165 个数据未匹配到足够的内容，重新提问...
第 1166 个数据未匹配到足够的内容，重新提问...
第 1167 个数据未匹配到足够的内容，重新提问...
Processing batch 147...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1168 个数据未匹配到足够的内容，重新提问...
第 1169 个数据未匹配到足够的内容，重新提问...
第 1170 个数据未匹配到足够的内容，重新提问...
第 1171 个数据未匹配到足够的内容，重新提问...
第 1174 个数据未匹配到足够的内容，重新提问...
第 1175 个数据未匹配到足够的内容，重新提问...
Processing batch 148...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1176 个数据未匹配到足够的内容，重新提问...
第 1177 个数据未匹配到足够的内容，重新提问...
第 1181 个数据未匹配到足够的内容，重新提问...
第 1183 个数据未匹配到足够的内容，重新提问...
Processing batch 149...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1184 个数据未匹配到足够的内容，重新提问...
第 1187 个数据未匹配到足够的内容，重新提问...
第 1189 个数据未匹配到足够的内容，重新提问...
第 1190 个数据未匹配到足够的内容，重新提问...
第 1191 个数据未匹配到足够的内容，重新提问...
Processing batch 150...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1192 个数据未匹配到足够的内容，重新提问...
第 1193 个数据未匹配到足够的内容，重新提问...
第 1194 个数据未匹配到足够的内容，重新提问...
第 1195 个数据未匹配到足够的内容，重新提问...
第 1196 个数据未匹配到足够的内容，重新提问...
第 1197 个数据未匹配到足够的内容，重新提问...
第 1198 个数据未匹配到足够的内容，重新提问...
Processing batch 151...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1200 个数据未匹配到足够的内容，重新提问...
第 1201 个数据未匹配到足够的内容，重新提问...
第 1202 个数据未匹配到足够的内容，重新提问...
第 1203 个数据未匹配到足够的内容，重新提问...
第 1206 个数据未匹配到足够的内容，重新提问...
第 1207 个数据未匹配到足够的内容，重新提问...
Processing batch 152...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1208 个数据未匹配到足够的内容，重新提问...
第 1210 个数据未匹配到足够的内容，重新提问...
第 1212 个数据未匹配到足够的内容，重新提问...
第 1213 个数据未匹配到足够的内容，重新提问...
第 1214 个数据未匹配到足够的内容，重新提问...
Processing batch 153...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1216 个数据未匹配到足够的内容，重新提问...
第 1218 个数据未匹配到足够的内容，重新提问...
第 1219 个数据未匹配到足够的内容，重新提问...
第 1220 个数据未匹配到足够的内容，重新提问...
第 1221 个数据未匹配到足够的内容，重新提问...
Processing batch 154...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1224 个数据未匹配到足够的内容，重新提问...
第 1228 个数据未匹配到足够的内容，重新提问...
Processing batch 155...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1232 个数据未匹配到足够的内容，重新提问...
第 1233 个数据未匹配到足够的内容，重新提问...
第 1234 个数据未匹配到足够的内容，重新提问...
第 1237 个数据未匹配到足够的内容，重新提问...
第 1238 个数据未匹配到足够的内容，重新提问...
第 1239 个数据未匹配到足够的内容，重新提问...
Processing batch 156...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1240 个数据未匹配到足够的内容，重新提问...
第 1244 个数据未匹配到足够的内容，重新提问...
第 1245 个数据未匹配到足够的内容，重新提问...
第 1246 个数据未匹配到足够的内容，重新提问...
第 1247 个数据未匹配到足够的内容，重新提问...
Processing batch 157...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1249 个数据未匹配到足够的内容，重新提问...
第 1251 个数据未匹配到足够的内容，重新提问...
第 1252 个数据未匹配到足够的内容，重新提问...
第 1253 个数据未匹配到足够的内容，重新提问...
第 1254 个数据未匹配到足够的内容，重新提问...
Processing batch 158...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1256 个数据未匹配到足够的内容，重新提问...
第 1257 个数据未匹配到足够的内容，重新提问...
第 1259 个数据未匹配到足够的内容，重新提问...
第 1260 个数据未匹配到足够的内容，重新提问...
第 1263 个数据未匹配到足够的内容，重新提问...
Processing batch 159...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1266 个数据未匹配到足够的内容，重新提问...
第 1267 个数据未匹配到足够的内容，重新提问...
第 1268 个数据未匹配到足够的内容，重新提问...
Processing batch 160...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1272 个数据未匹配到足够的内容，重新提问...
第 1273 个数据未匹配到足够的内容，重新提问...
第 1275 个数据未匹配到足够的内容，重新提问...
第 1276 个数据未匹配到足够的内容，重新提问...
第 1277 个数据未匹配到足够的内容，重新提问...
第 1279 个数据未匹配到足够的内容，重新提问...
Processing batch 161...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1280 个数据未匹配到足够的内容，重新提问...
第 1281 个数据未匹配到足够的内容，重新提问...
第 1282 个数据未匹配到足够的内容，重新提问...
第 1284 个数据未匹配到足够的内容，重新提问...
第 1285 个数据未匹配到足够的内容，重新提问...
第 1286 个数据未匹配到足够的内容，重新提问...
Processing batch 162...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1290 个数据未匹配到足够的内容，重新提问...
第 1291 个数据未匹配到足够的内容，重新提问...
第 1294 个数据未匹配到足够的内容，重新提问...
第 1295 个数据未匹配到足够的内容，重新提问...
Processing batch 163...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1299 个数据未匹配到足够的内容，重新提问...
第 1300 个数据未匹配到足够的内容，重新提问...
第 1302 个数据未匹配到足够的内容，重新提问...
第 1303 个数据未匹配到足够的内容，重新提问...
Processing batch 164...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1304 个数据未匹配到足够的内容，重新提问...
第 1306 个数据未匹配到足够的内容，重新提问...
第 1307 个数据未匹配到足够的内容，重新提问...
第 1310 个数据未匹配到足够的内容，重新提问...
Processing batch 165...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1312 个数据未匹配到足够的内容，重新提问...
第 1313 个数据未匹配到足够的内容，重新提问...
第 1314 个数据未匹配到足够的内容，重新提问...
第 1315 个数据未匹配到足够的内容，重新提问...
第 1316 个数据未匹配到足够的内容，重新提问...
第 1317 个数据未匹配到足够的内容，重新提问...
第 1318 个数据未匹配到足够的内容，重新提问...
第 1319 个数据未匹配到足够的内容，重新提问...
Processing batch 166...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1320 个数据未匹配到足够的内容，重新提问...
第 1321 个数据未匹配到足够的内容，重新提问...
第 1324 个数据未匹配到足够的内容，重新提问...
第 1325 个数据未匹配到足够的内容，重新提问...
第 1326 个数据未匹配到足够的内容，重新提问...
Processing batch 167...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1328 个数据未匹配到足够的内容，重新提问...
第 1329 个数据未匹配到足够的内容，重新提问...
第 1331 个数据未匹配到足够的内容，重新提问...
第 1332 个数据未匹配到足够的内容，重新提问...
第 1333 个数据未匹配到足够的内容，重新提问...
第 1335 个数据未匹配到足够的内容，重新提问...
Processing batch 168...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1339 个数据未匹配到足够的内容，重新提问...
第 1340 个数据未匹配到足够的内容，重新提问...
第 1341 个数据未匹配到足够的内容，重新提问...
第 1342 个数据未匹配到足够的内容，重新提问...
第 1343 个数据未匹配到足够的内容，重新提问...
Processing batch 169...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1344 个数据未匹配到足够的内容，重新提问...
第 1346 个数据未匹配到足够的内容，重新提问...
第 1348 个数据未匹配到足够的内容，重新提问...
Processing batch 170...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1352 个数据未匹配到足够的内容，重新提问...
第 1355 个数据未匹配到足够的内容，重新提问...
第 1356 个数据未匹配到足够的内容，重新提问...
第 1357 个数据未匹配到足够的内容，重新提问...
第 1358 个数据未匹配到足够的内容，重新提问...
第 1359 个数据未匹配到足够的内容，重新提问...
Processing batch 171...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1362 个数据未匹配到足够的内容，重新提问...
第 1363 个数据未匹配到足够的内容，重新提问...
第 1364 个数据未匹配到足够的内容，重新提问...
第 1365 个数据未匹配到足够的内容，重新提问...
第 1367 个数据未匹配到足够的内容，重新提问...
Processing batch 172...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1368 个数据未匹配到足够的内容，重新提问...
第 1369 个数据未匹配到足够的内容，重新提问...
第 1370 个数据未匹配到足够的内容，重新提问...
第 1371 个数据未匹配到足够的内容，重新提问...
第 1372 个数据未匹配到足够的内容，重新提问...
第 1373 个数据未匹配到足够的内容，重新提问...
第 1374 个数据未匹配到足够的内容，重新提问...
第 1375 个数据未匹配到足够的内容，重新提问...
Processing batch 173...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1376 个数据未匹配到足够的内容，重新提问...
第 1377 个数据未匹配到足够的内容，重新提问...
第 1378 个数据未匹配到足够的内容，重新提问...
第 1381 个数据未匹配到足够的内容，重新提问...
Processing batch 174...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1384 个数据未匹配到足够的内容，重新提问...
第 1386 个数据未匹配到足够的内容，重新提问...
第 1387 个数据未匹配到足够的内容，重新提问...
第 1388 个数据未匹配到足够的内容，重新提问...
Processing batch 175...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1392 个数据未匹配到足够的内容，重新提问...
第 1395 个数据未匹配到足够的内容，重新提问...
第 1397 个数据未匹配到足够的内容，重新提问...
第 1398 个数据未匹配到足够的内容，重新提问...
Processing batch 176...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1400 个数据未匹配到足够的内容，重新提问...
第 1401 个数据未匹配到足够的内容，重新提问...
第 1403 个数据未匹配到足够的内容，重新提问...
第 1405 个数据未匹配到足够的内容，重新提问...
第 1406 个数据未匹配到足够的内容，重新提问...
第 1407 个数据未匹配到足够的内容，重新提问...
Processing batch 177...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1408 个数据未匹配到足够的内容，重新提问...
第 1409 个数据未匹配到足够的内容，重新提问...
第 1410 个数据未匹配到足够的内容，重新提问...
第 1411 个数据未匹配到足够的内容，重新提问...
第 1412 个数据未匹配到足够的内容，重新提问...
第 1415 个数据未匹配到足够的内容，重新提问...
Processing batch 178...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1416 个数据未匹配到足够的内容，重新提问...
第 1417 个数据未匹配到足够的内容，重新提问...
第 1419 个数据未匹配到足够的内容，重新提问...
第 1421 个数据未匹配到足够的内容，重新提问...
第 1423 个数据未匹配到足够的内容，重新提问...
Processing batch 179...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1424 个数据未匹配到足够的内容，重新提问...
第 1425 个数据未匹配到足够的内容，重新提问...
第 1426 个数据未匹配到足够的内容，重新提问...
第 1428 个数据未匹配到足够的内容，重新提问...
第 1430 个数据未匹配到足够的内容，重新提问...
第 1431 个数据未匹配到足够的内容，重新提问...
Processing batch 180...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1432 个数据未匹配到足够的内容，重新提问...
第 1435 个数据未匹配到足够的内容，重新提问...
第 1436 个数据未匹配到足够的内容，重新提问...
第 1437 个数据未匹配到足够的内容，重新提问...
第 1438 个数据未匹配到足够的内容，重新提问...
第 1439 个数据未匹配到足够的内容，重新提问...
Processing batch 181...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1440 个数据未匹配到足够的内容，重新提问...
第 1442 个数据未匹配到足够的内容，重新提问...
第 1443 个数据未匹配到足够的内容，重新提问...
第 1444 个数据未匹配到足够的内容，重新提问...
第 1446 个数据未匹配到足够的内容，重新提问...
Processing batch 182...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1452 个数据未匹配到足够的内容，重新提问...
第 1453 个数据未匹配到足够的内容，重新提问...
第 1454 个数据未匹配到足够的内容，重新提问...
Processing batch 183...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1459 个数据未匹配到足够的内容，重新提问...
第 1460 个数据未匹配到足够的内容，重新提问...
第 1461 个数据未匹配到足够的内容，重新提问...
第 1463 个数据未匹配到足够的内容，重新提问...
Processing batch 184...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1465 个数据未匹配到足够的内容，重新提问...
第 1466 个数据未匹配到足够的内容，重新提问...
第 1467 个数据未匹配到足够的内容，重新提问...
第 1468 个数据未匹配到足够的内容，重新提问...
第 1469 个数据未匹配到足够的内容，重新提问...
第 1470 个数据未匹配到足够的内容，重新提问...
第 1471 个数据未匹配到足够的内容，重新提问...
Processing batch 185...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1475 个数据未匹配到足够的内容，重新提问...
第 1477 个数据未匹配到足够的内容，重新提问...
第 1479 个数据未匹配到足够的内容，重新提问...
Processing batch 186...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1480 个数据未匹配到足够的内容，重新提问...
第 1481 个数据未匹配到足够的内容，重新提问...
第 1482 个数据未匹配到足够的内容，重新提问...
第 1484 个数据未匹配到足够的内容，重新提问...
第 1486 个数据未匹配到足够的内容，重新提问...
第 1487 个数据未匹配到足够的内容，重新提问...
Processing batch 187...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1489 个数据未匹配到足够的内容，重新提问...
第 1490 个数据未匹配到足够的内容，重新提问...
第 1491 个数据未匹配到足够的内容，重新提问...
第 1492 个数据未匹配到足够的内容，重新提问...
第 1493 个数据未匹配到足够的内容，重新提问...
第 1495 个数据未匹配到足够的内容，重新提问...
Processing batch 188...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1502 个数据未匹配到足够的内容，重新提问...
第 1503 个数据未匹配到足够的内容，重新提问...
Processing batch 189...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1504 个数据未匹配到足够的内容，重新提问...
第 1505 个数据未匹配到足够的内容，重新提问...
第 1506 个数据未匹配到足够的内容，重新提问...
第 1507 个数据未匹配到足够的内容，重新提问...
第 1508 个数据未匹配到足够的内容，重新提问...
第 1510 个数据未匹配到足够的内容，重新提问...
第 1511 个数据未匹配到足够的内容，重新提问...
Processing batch 190...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1512 个数据未匹配到足够的内容，重新提问...
第 1513 个数据未匹配到足够的内容，重新提问...
第 1514 个数据未匹配到足够的内容，重新提问...
第 1515 个数据未匹配到足够的内容，重新提问...
第 1516 个数据未匹配到足够的内容，重新提问...
第 1517 个数据未匹配到足够的内容，重新提问...
第 1519 个数据未匹配到足够的内容，重新提问...
Processing batch 191...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1520 个数据未匹配到足够的内容，重新提问...
第 1523 个数据未匹配到足够的内容，重新提问...
第 1524 个数据未匹配到足够的内容，重新提问...
第 1525 个数据未匹配到足够的内容，重新提问...
Processing batch 192...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1528 个数据未匹配到足够的内容，重新提问...
第 1529 个数据未匹配到足够的内容，重新提问...
第 1531 个数据未匹配到足够的内容，重新提问...
第 1533 个数据未匹配到足够的内容，重新提问...
第 1534 个数据未匹配到足够的内容，重新提问...
第 1535 个数据未匹配到足够的内容，重新提问...
Processing batch 193...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1536 个数据未匹配到足够的内容，重新提问...
第 1537 个数据未匹配到足够的内容，重新提问...
第 1538 个数据未匹配到足够的内容，重新提问...
第 1541 个数据未匹配到足够的内容，重新提问...
第 1542 个数据未匹配到足够的内容，重新提问...
第 1543 个数据未匹配到足够的内容，重新提问...
Processing batch 194...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1544 个数据未匹配到足够的内容，重新提问...
第 1546 个数据未匹配到足够的内容，重新提问...
第 1547 个数据未匹配到足够的内容，重新提问...
第 1548 个数据未匹配到足够的内容，重新提问...
第 1549 个数据未匹配到足够的内容，重新提问...
第 1550 个数据未匹配到足够的内容，重新提问...
第 1551 个数据未匹配到足够的内容，重新提问...
Processing batch 195...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1552 个数据未匹配到足够的内容，重新提问...
第 1553 个数据未匹配到足够的内容，重新提问...
第 1554 个数据未匹配到足够的内容，重新提问...
第 1556 个数据未匹配到足够的内容，重新提问...
第 1557 个数据未匹配到足够的内容，重新提问...
Processing batch 196...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1561 个数据未匹配到足够的内容，重新提问...
第 1563 个数据未匹配到足够的内容，重新提问...
第 1564 个数据未匹配到足够的内容，重新提问...
第 1565 个数据未匹配到足够的内容，重新提问...
第 1566 个数据未匹配到足够的内容，重新提问...
第 1567 个数据未匹配到足够的内容，重新提问...
Processing batch 197...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1568 个数据未匹配到足够的内容，重新提问...
第 1569 个数据未匹配到足够的内容，重新提问...
第 1571 个数据未匹配到足够的内容，重新提问...
第 1573 个数据未匹配到足够的内容，重新提问...
第 1574 个数据未匹配到足够的内容，重新提问...
Processing batch 198...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1577 个数据未匹配到足够的内容，重新提问...
第 1579 个数据未匹配到足够的内容，重新提问...
第 1580 个数据未匹配到足够的内容，重新提问...
第 1583 个数据未匹配到足够的内容，重新提问...
Processing batch 199...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1584 个数据未匹配到足够的内容，重新提问...
第 1585 个数据未匹配到足够的内容，重新提问...
第 1586 个数据未匹配到足够的内容，重新提问...
第 1587 个数据未匹配到足够的内容，重新提问...
第 1588 个数据未匹配到足够的内容，重新提问...
第 1590 个数据未匹配到足够的内容，重新提问...
第 1591 个数据未匹配到足够的内容，重新提问...
Processing batch 200...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1593 个数据未匹配到足够的内容，重新提问...
第 1594 个数据未匹配到足够的内容，重新提问...
第 1595 个数据未匹配到足够的内容，重新提问...
第 1596 个数据未匹配到足够的内容，重新提问...
第 1598 个数据未匹配到足够的内容，重新提问...
Processing batch 201...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1600 个数据未匹配到足够的内容，重新提问...
第 1601 个数据未匹配到足够的内容，重新提问...
第 1602 个数据未匹配到足够的内容，重新提问...
第 1603 个数据未匹配到足够的内容，重新提问...
第 1605 个数据未匹配到足够的内容，重新提问...
第 1607 个数据未匹配到足够的内容，重新提问...
Processing batch 202...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1608 个数据未匹配到足够的内容，重新提问...
第 1609 个数据未匹配到足够的内容，重新提问...
第 1610 个数据未匹配到足够的内容，重新提问...
第 1611 个数据未匹配到足够的内容，重新提问...
Processing batch 203...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1616 个数据未匹配到足够的内容，重新提问...
第 1619 个数据未匹配到足够的内容，重新提问...
第 1621 个数据未匹配到足够的内容，重新提问...
第 1622 个数据未匹配到足够的内容，重新提问...
第 1623 个数据未匹配到足够的内容，重新提问...
Processing batch 204...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1627 个数据未匹配到足够的内容，重新提问...
第 1628 个数据未匹配到足够的内容，重新提问...
第 1629 个数据未匹配到足够的内容，重新提问...
Processing batch 205...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1632 个数据未匹配到足够的内容，重新提问...
第 1633 个数据未匹配到足够的内容，重新提问...
第 1634 个数据未匹配到足够的内容，重新提问...
第 1635 个数据未匹配到足够的内容，重新提问...
第 1636 个数据未匹配到足够的内容，重新提问...
第 1639 个数据未匹配到足够的内容，重新提问...
Processing batch 206...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1641 个数据未匹配到足够的内容，重新提问...
第 1643 个数据未匹配到足够的内容，重新提问...
第 1644 个数据未匹配到足够的内容，重新提问...
第 1645 个数据未匹配到足够的内容，重新提问...
Processing batch 207...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1649 个数据未匹配到足够的内容，重新提问...
第 1650 个数据未匹配到足够的内容，重新提问...
第 1653 个数据未匹配到足够的内容，重新提问...
第 1654 个数据未匹配到足够的内容，重新提问...
Processing batch 208...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1658 个数据未匹配到足够的内容，重新提问...
第 1660 个数据未匹配到足够的内容，重新提问...
第 1663 个数据未匹配到足够的内容，重新提问...
Processing batch 209...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1664 个数据未匹配到足够的内容，重新提问...
第 1665 个数据未匹配到足够的内容，重新提问...
第 1667 个数据未匹配到足够的内容，重新提问...
第 1669 个数据未匹配到足够的内容，重新提问...
第 1671 个数据未匹配到足够的内容，重新提问...
Processing batch 210...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1673 个数据未匹配到足够的内容，重新提问...
第 1674 个数据未匹配到足够的内容，重新提问...
第 1675 个数据未匹配到足够的内容，重新提问...
第 1676 个数据未匹配到足够的内容，重新提问...
第 1677 个数据未匹配到足够的内容，重新提问...
第 1678 个数据未匹配到足够的内容，重新提问...
Processing batch 211...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1680 个数据未匹配到足够的内容，重新提问...
第 1682 个数据未匹配到足够的内容，重新提问...
第 1683 个数据未匹配到足够的内容，重新提问...
第 1685 个数据未匹配到足够的内容，重新提问...
第 1686 个数据未匹配到足够的内容，重新提问...
Processing batch 212...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1688 个数据未匹配到足够的内容，重新提问...
第 1689 个数据未匹配到足够的内容，重新提问...
第 1690 个数据未匹配到足够的内容，重新提问...
第 1691 个数据未匹配到足够的内容，重新提问...
第 1692 个数据未匹配到足够的内容，重新提问...
第 1693 个数据未匹配到足够的内容，重新提问...
第 1694 个数据未匹配到足够的内容，重新提问...
第 1695 个数据未匹配到足够的内容，重新提问...
Processing batch 213...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1698 个数据未匹配到足够的内容，重新提问...
第 1699 个数据未匹配到足够的内容，重新提问...
第 1700 个数据未匹配到足够的内容，重新提问...
第 1701 个数据未匹配到足够的内容，重新提问...
第 1702 个数据未匹配到足够的内容，重新提问...
Processing batch 214...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1704 个数据未匹配到足够的内容，重新提问...
第 1705 个数据未匹配到足够的内容，重新提问...
第 1706 个数据未匹配到足够的内容，重新提问...
第 1707 个数据未匹配到足够的内容，重新提问...
第 1708 个数据未匹配到足够的内容，重新提问...
第 1709 个数据未匹配到足够的内容，重新提问...
第 1710 个数据未匹配到足够的内容，重新提问...
第 1711 个数据未匹配到足够的内容，重新提问...
Processing batch 215...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1712 个数据未匹配到足够的内容，重新提问...
第 1713 个数据未匹配到足够的内容，重新提问...
第 1714 个数据未匹配到足够的内容，重新提问...
第 1715 个数据未匹配到足够的内容，重新提问...
第 1716 个数据未匹配到足够的内容，重新提问...
第 1718 个数据未匹配到足够的内容，重新提问...
第 1719 个数据未匹配到足够的内容，重新提问...
Processing batch 216...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1721 个数据未匹配到足够的内容，重新提问...
第 1722 个数据未匹配到足够的内容，重新提问...
第 1723 个数据未匹配到足够的内容，重新提问...
第 1724 个数据未匹配到足够的内容，重新提问...
第 1726 个数据未匹配到足够的内容，重新提问...
Processing batch 217...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1728 个数据未匹配到足够的内容，重新提问...
第 1729 个数据未匹配到足够的内容，重新提问...
第 1730 个数据未匹配到足够的内容，重新提问...
第 1732 个数据未匹配到足够的内容，重新提问...
第 1733 个数据未匹配到足够的内容，重新提问...
第 1734 个数据未匹配到足够的内容，重新提问...
第 1735 个数据未匹配到足够的内容，重新提问...
Processing batch 218...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1736 个数据未匹配到足够的内容，重新提问...
第 1740 个数据未匹配到足够的内容，重新提问...
第 1741 个数据未匹配到足够的内容，重新提问...
第 1742 个数据未匹配到足够的内容，重新提问...
Processing batch 219...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1744 个数据未匹配到足够的内容，重新提问...
第 1745 个数据未匹配到足够的内容，重新提问...
第 1747 个数据未匹配到足够的内容，重新提问...
第 1748 个数据未匹配到足够的内容，重新提问...
第 1749 个数据未匹配到足够的内容，重新提问...
第 1750 个数据未匹配到足够的内容，重新提问...
第 1751 个数据未匹配到足够的内容，重新提问...
Processing batch 220...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1752 个数据未匹配到足够的内容，重新提问...
第 1755 个数据未匹配到足够的内容，重新提问...
第 1757 个数据未匹配到足够的内容，重新提问...
第 1758 个数据未匹配到足够的内容，重新提问...
第 1759 个数据未匹配到足够的内容，重新提问...
Processing batch 221...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1760 个数据未匹配到足够的内容，重新提问...
第 1761 个数据未匹配到足够的内容，重新提问...
第 1762 个数据未匹配到足够的内容，重新提问...
第 1763 个数据未匹配到足够的内容，重新提问...
第 1764 个数据未匹配到足够的内容，重新提问...
第 1765 个数据未匹配到足够的内容，重新提问...
Processing batch 222...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1768 个数据未匹配到足够的内容，重新提问...
第 1769 个数据未匹配到足够的内容，重新提问...
第 1774 个数据未匹配到足够的内容，重新提问...
第 1775 个数据未匹配到足够的内容，重新提问...
Processing batch 223...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1776 个数据未匹配到足够的内容，重新提问...
第 1778 个数据未匹配到足够的内容，重新提问...
第 1779 个数据未匹配到足够的内容，重新提问...
第 1780 个数据未匹配到足够的内容，重新提问...
第 1781 个数据未匹配到足够的内容，重新提问...
第 1782 个数据未匹配到足够的内容，重新提问...
第 1783 个数据未匹配到足够的内容，重新提问...
Processing batch 224...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1784 个数据未匹配到足够的内容，重新提问...
第 1787 个数据未匹配到足够的内容，重新提问...
第 1791 个数据未匹配到足够的内容，重新提问...
Processing batch 225...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1793 个数据未匹配到足够的内容，重新提问...
第 1794 个数据未匹配到足够的内容，重新提问...
第 1795 个数据未匹配到足够的内容，重新提问...
第 1797 个数据未匹配到足够的内容，重新提问...
第 1798 个数据未匹配到足够的内容，重新提问...
Processing batch 226...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1800 个数据未匹配到足够的内容，重新提问...
第 1801 个数据未匹配到足够的内容，重新提问...
第 1802 个数据未匹配到足够的内容，重新提问...
第 1803 个数据未匹配到足够的内容，重新提问...
第 1804 个数据未匹配到足够的内容，重新提问...
第 1805 个数据未匹配到足够的内容，重新提问...
Processing batch 227...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1809 个数据未匹配到足够的内容，重新提问...
第 1810 个数据未匹配到足够的内容，重新提问...
第 1813 个数据未匹配到足够的内容，重新提问...
第 1815 个数据未匹配到足够的内容，重新提问...
Processing batch 228...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1816 个数据未匹配到足够的内容，重新提问...
第 1817 个数据未匹配到足够的内容，重新提问...
第 1818 个数据未匹配到足够的内容，重新提问...
第 1821 个数据未匹配到足够的内容，重新提问...
第 1822 个数据未匹配到足够的内容，重新提问...
Processing batch 229...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1824 个数据未匹配到足够的内容，重新提问...
第 1825 个数据未匹配到足够的内容，重新提问...
第 1826 个数据未匹配到足够的内容，重新提问...
第 1828 个数据未匹配到足够的内容，重新提问...
第 1829 个数据未匹配到足够的内容，重新提问...
第 1830 个数据未匹配到足够的内容，重新提问...
第 1831 个数据未匹配到足够的内容，重新提问...
Processing batch 230...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1832 个数据未匹配到足够的内容，重新提问...
第 1834 个数据未匹配到足够的内容，重新提问...
第 1835 个数据未匹配到足够的内容，重新提问...
第 1837 个数据未匹配到足够的内容，重新提问...
第 1838 个数据未匹配到足够的内容，重新提问...
第 1839 个数据未匹配到足够的内容，重新提问...
Processing batch 231...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1841 个数据未匹配到足够的内容，重新提问...
第 1842 个数据未匹配到足够的内容，重新提问...
第 1843 个数据未匹配到足够的内容，重新提问...
第 1844 个数据未匹配到足够的内容，重新提问...
第 1845 个数据未匹配到足够的内容，重新提问...
第 1846 个数据未匹配到足够的内容，重新提问...
第 1847 个数据未匹配到足够的内容，重新提问...
Processing batch 232...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1849 个数据未匹配到足够的内容，重新提问...
第 1850 个数据未匹配到足够的内容，重新提问...
第 1853 个数据未匹配到足够的内容，重新提问...
第 1855 个数据未匹配到足够的内容，重新提问...
Processing batch 233...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1856 个数据未匹配到足够的内容，重新提问...
第 1857 个数据未匹配到足够的内容，重新提问...
第 1858 个数据未匹配到足够的内容，重新提问...
第 1859 个数据未匹配到足够的内容，重新提问...
第 1860 个数据未匹配到足够的内容，重新提问...
第 1862 个数据未匹配到足够的内容，重新提问...
第 1863 个数据未匹配到足够的内容，重新提问...
Processing batch 234...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1865 个数据未匹配到足够的内容，重新提问...
第 1866 个数据未匹配到足够的内容，重新提问...
第 1868 个数据未匹配到足够的内容，重新提问...
Processing batch 235...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1873 个数据未匹配到足够的内容，重新提问...
第 1874 个数据未匹配到足够的内容，重新提问...
第 1876 个数据未匹配到足够的内容，重新提问...
第 1877 个数据未匹配到足够的内容，重新提问...
第 1878 个数据未匹配到足够的内容，重新提问...
Processing batch 236...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1883 个数据未匹配到足够的内容，重新提问...
第 1887 个数据未匹配到足够的内容，重新提问...
Processing batch 237...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1889 个数据未匹配到足够的内容，重新提问...
第 1890 个数据未匹配到足够的内容，重新提问...
第 1892 个数据未匹配到足够的内容，重新提问...
第 1893 个数据未匹配到足够的内容，重新提问...
Processing batch 238...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1896 个数据未匹配到足够的内容，重新提问...
第 1897 个数据未匹配到足够的内容，重新提问...
第 1899 个数据未匹配到足够的内容，重新提问...
第 1901 个数据未匹配到足够的内容，重新提问...
第 1902 个数据未匹配到足够的内容，重新提问...
Processing batch 239...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1904 个数据未匹配到足够的内容，重新提问...
第 1905 个数据未匹配到足够的内容，重新提问...
第 1906 个数据未匹配到足够的内容，重新提问...
第 1909 个数据未匹配到足够的内容，重新提问...
第 1910 个数据未匹配到足够的内容，重新提问...
Processing batch 240...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1912 个数据未匹配到足够的内容，重新提问...
第 1915 个数据未匹配到足够的内容，重新提问...
第 1916 个数据未匹配到足够的内容，重新提问...
第 1918 个数据未匹配到足够的内容，重新提问...
第 1919 个数据未匹配到足够的内容，重新提问...
Processing batch 241...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1924 个数据未匹配到足够的内容，重新提问...
第 1926 个数据未匹配到足够的内容，重新提问...
Processing batch 242...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1930 个数据未匹配到足够的内容，重新提问...
第 1932 个数据未匹配到足够的内容，重新提问...
第 1933 个数据未匹配到足够的内容，重新提问...
第 1934 个数据未匹配到足够的内容，重新提问...
第 1935 个数据未匹配到足够的内容，重新提问...
Processing batch 243...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1937 个数据未匹配到足够的内容，重新提问...
第 1938 个数据未匹配到足够的内容，重新提问...
第 1939 个数据未匹配到足够的内容，重新提问...
第 1940 个数据未匹配到足够的内容，重新提问...
第 1941 个数据未匹配到足够的内容，重新提问...
第 1942 个数据未匹配到足够的内容，重新提问...
第 1943 个数据未匹配到足够的内容，重新提问...
Processing batch 244...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1944 个数据未匹配到足够的内容，重新提问...
第 1947 个数据未匹配到足够的内容，重新提问...
第 1948 个数据未匹配到足够的内容，重新提问...
第 1950 个数据未匹配到足够的内容，重新提问...
第 1951 个数据未匹配到足够的内容，重新提问...
Processing batch 245...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1954 个数据未匹配到足够的内容，重新提问...
第 1957 个数据未匹配到足够的内容，重新提问...
第 1958 个数据未匹配到足够的内容，重新提问...
Processing batch 246...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1961 个数据未匹配到足够的内容，重新提问...
第 1962 个数据未匹配到足够的内容，重新提问...
第 1965 个数据未匹配到足够的内容，重新提问...
第 1966 个数据未匹配到足够的内容，重新提问...
第 1967 个数据未匹配到足够的内容，重新提问...
Processing batch 247...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1969 个数据未匹配到足够的内容，重新提问...
第 1971 个数据未匹配到足够的内容，重新提问...
第 1972 个数据未匹配到足够的内容，重新提问...
第 1973 个数据未匹配到足够的内容，重新提问...
第 1975 个数据未匹配到足够的内容，重新提问...
Processing batch 248...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1977 个数据未匹配到足够的内容，重新提问...
第 1980 个数据未匹配到足够的内容，重新提问...
第 1982 个数据未匹配到足够的内容，重新提问...
Processing batch 249...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1984 个数据未匹配到足够的内容，重新提问...
第 1985 个数据未匹配到足够的内容，重新提问...
第 1987 个数据未匹配到足够的内容，重新提问...
第 1988 个数据未匹配到足够的内容，重新提问...
第 1989 个数据未匹配到足够的内容，重新提问...
第 1990 个数据未匹配到足够的内容，重新提问...
第 1991 个数据未匹配到足够的内容，重新提问...
Processing batch 250...
第 1992 个数据未匹配到足够的内容，重新提问...
第 1993 个数据未匹配到足够的内容，重新提问...
第 1994 个数据未匹配到足够的内容，重新提问...
第 1997 个数据未匹配到足够的内容，重新提问...
第 1998 个数据未匹配到足够的内容，重新提问...
第 1999 个数据未匹配到足够的内容，重新提问...


In [None]:

with open('predictions_test1.json', 'w') as f:
    json.dump(all_pre, f)

with open('references_test1.json', 'w') as f:
    json.dump(all_answer, f)


In [5]:
import json
import evaluate

# 从文件中读取数据
with open('predictions_test1.json', 'r') as f:
    all_pre = json.load(f)

with open('references_test1.json', 'r') as f:
    all_answer = json.load(f)

# 加载 ROUGE 评估器
rouge = evaluate.load('rouge')

# 确保 all_pre 和 all_answer 已包含所有预测和真实摘要
# all_pre.append(matches[0])

# 计算 ROUGE 分数
print(len(all_answer))
results = rouge.compute(predictions=all_pre, references=all_answer)

# 输出结果
print("ROUGE Scores:")
print(f"ROUGE-1: {results['rouge1']:.4f}")
print(f"ROUGE-2: {results['rouge2']:.4f}")
print(f"ROUGE-L: {results['rougeL']:.4f}")

    

746
ROUGE Scores:
ROUGE-1: 0.0695
ROUGE-2: 0.0099
ROUGE-L: 0.0690


#### Test 2
**微调预训练模型**

基于魔搭平台的modelscope库，使用预训练模型进行微调，并使用自定义数据集进行模型评估。
##### 微调数据集构造

In [1]:
import json


path = 'data\\test2017.simple.label.jsonl'
prompt_task = '''\n我需要你做中文概括任务。用简短的语句概括以下内容,概括的句子 <END> 结尾
原句 :'''
# 用于存储转换后的内容
converted_data = []

# 读取并转换 jsonl 文件
with open(path, 'r', encoding='utf-8') as f:
    for line in f:
        # 解析每一行的 JSON 对象
        item = json.loads(line.strip())
                    
        # 提取所需字段
        article = item['article']
        artical = ''.join(article)
        summary = item['summary']
        summary = ''.join(summary)
        
        q = prompt_task + artical + "\n概括 :"
        a = "概括 :" + summary            
        
        converted_data.append({'query': q, 'answer': a})

output_file_path = 'data\CNewSum_v2\\final\\fineture.jsonl'
# 输出转换后的内容
with open(output_file_path, 'w', encoding='utf-8') as f:
    for item in converted_data:
        json.dump(item, f, ensure_ascii=False)
        f.write('\n')  

##### 微调过程
**不使用全量微调，采用LoRA微调降低对设备的要求**

**数据来自CNewSum_v2的其他test集合**


**回答格式与提示词要求符合度有提高**

**最后结果提高有限，可能由于微调数据集有限，同时构建较为粗糙**


* 微调

In [10]:
from modelscope import AutoModelForCausalLM, AutoTokenizer, MsDataset
from swift import Seq2SeqTrainer, Seq2SeqTrainingArguments, Swift, LoRAConfig
from swift.llm import get_template, TemplateType
import json
import pandas as pd
import torch

model_name = "Qwen/Qwen2.5-0.5B-Instruct"
file_path = 'fineture.jsonl'

# 数据加载函数
def load_jsonl(file_path):
    data = []
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            try:
                record = json.loads(line.strip())
                data.append(record)
            except json.JSONDecodeError as e:
                print(f"Skipping invalid line: {line}, error: {e}")
    return data

def save_as_csv(data, csv_file_path):
    df = pd.DataFrame(data)
    df.to_csv(csv_file_path, index=False, encoding='utf-8')

def create_msdataset_from_csv(csv_file_path):
    return MsDataset.load(csv_file_path)

# 数据预处理
csv_file_path = 'output.csv'
data = load_jsonl(file_path)
save_as_csv(data, csv_file_path)
dataset = create_msdataset_from_csv(csv_file_path)

# 加载模型和 tokenizer
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.bfloat16, 
    device_map='auto', 
    trust_remote_code=True
)
lora_config = LoRAConfig(
    r=16,
    target_modules=['q_proj', 'k_proj', 'v_proj', 'o_proj'],
    lora_alpha=32,
    lora_dropout=0.05
)
model = Swift.prepare_model(model, lora_config)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

# 模板设置
template = get_template(TemplateType.chatglm3, tokenizer, max_length=1024)

# 数据编码函数
def encode(example):
    question = example.get('question', '')
    answer = example.get('answer', '')
    if not answer:
        return None
    example, kwargs = template.encode({'query': question, 'response': answer})
    return example

# 手动映射数据
encoded_data = []
for record in dataset:
    try:
        encoded_example = encode(record)
        if encoded_example:  # 确保不为空
            encoded_data.append(encoded_example)
    except Exception as e:
        print(f"Error encoding record {record}: {e}")

# 保存处理后的数据为新的 CSV
processed_csv_file = 'processed_dataset.csv'
pd.DataFrame(encoded_data).to_csv(processed_csv_file, index=False, encoding='utf-8')

# 从新的 CSV 文件加载 MsDataset

# 数据集划分
# dataset_split = encoded_dataset.train_test_split(test_size=0.001)
# train_dataset, val_dataset = dataset_split['train'], dataset_split['test']

# 训练参数
train_args = Seq2SeqTrainingArguments(
    output_dir='output',
    learning_rate=1e-4,
    num_train_epochs=3,
    per_device_train_batch_size=1,
    gradient_accumulation_steps=16,
    eval_steps=50,
    save_steps=50,
    logging_steps=10,
    evaluation_strategy='no',
    save_strategy='steps',
    save_total_limit=2,
    dataloader_num_workers=4,
    warmup_steps=100
)

# 创建 Trainer
trainer = Seq2SeqTrainer(
    model=model,
    args=train_args,
    data_collator=template.data_collator,
    train_dataset=encoded_data,
    tokenizer=tokenizer
)

# 开始训练
trainer.train()



Generating train split: 0 examples [00:00, ? examples/s]

Downloading Model to directory: /mnt/workspace/.cache/modelscope/hub/Qwen/Qwen2.5-0.5B-Instruct


[INFO:modelscope] Creating symbolic link /mnt/workspace/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct -> /mnt/workspace/.cache/modelscope/hub/Qwen/Qwen2.5-0.5B-Instruct.


Downloading Model to directory: /mnt/workspace/.cache/modelscope/hub/Qwen/Qwen2.5-0.5B-Instruct


[INFO:modelscope] Creating symbolic link /mnt/workspace/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct -> /mnt/workspace/.cache/modelscope/hub/Qwen/Qwen2.5-0.5B-Instruct.
  super().__init__(
Detected kernel version 4.19.91, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.


Train:   0%|          | 0/375 [00:00<?, ?it/s]

{'loss': 3.16273766, 'acc': 0.36791363, 'grad_norm': 2.265625, 'learning_rate': 1e-05, 'memory(GiB)': 3.89, 'train_speed(iter/s)': 0.635844, 'epoch': 0.08, 'global_step/max_steps': '10/375', 'percentage': '2.67%', 'elapsed_time': '15s', 'remaining_time': '9m 17s'}
{'loss': 2.66615562, 'acc': 0.40595317, 'grad_norm': 1.5234375, 'learning_rate': 2e-05, 'memory(GiB)': 2.74, 'train_speed(iter/s)': 0.657411, 'epoch': 0.16, 'global_step/max_steps': '20/375', 'percentage': '5.33%', 'elapsed_time': '29s', 'remaining_time': '8m 51s'}
{'loss': 2.37051659, 'acc': 0.44810405, 'grad_norm': 1.1015625, 'learning_rate': 3e-05, 'memory(GiB)': 2.74, 'train_speed(iter/s)': 0.660203, 'epoch': 0.24, 'global_step/max_steps': '30/375', 'percentage': '8.00%', 'elapsed_time': '44s', 'remaining_time': '8m 37s'}
{'loss': 2.3178812, 'acc': 0.4581409, 'grad_norm': 1.1875, 'learning_rate': 4e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.663176, 'epoch': 0.32, 'global_step/max_steps': '40/375', 'percentage': '1

Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[INFO:swift] Saving model checkpoint to output/checkpoint-50


{'loss': 2.26447353, 'acc': 0.47125001, 'grad_norm': 1.03125, 'learning_rate': 6e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.660237, 'epoch': 0.48, 'global_step/max_steps': '60/375', 'percentage': '16.00%', 'elapsed_time': '1m 30s', 'remaining_time': '7m 54s'}
{'loss': 2.23509712, 'acc': 0.47491426, 'grad_norm': 1.140625, 'learning_rate': 7e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.661359, 'epoch': 0.56, 'global_step/max_steps': '70/375', 'percentage': '18.67%', 'elapsed_time': '1m 45s', 'remaining_time': '7m 39s'}
{'loss': 2.25556984, 'acc': 0.46766953, 'grad_norm': 1.09375, 'learning_rate': 8e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.663391, 'epoch': 0.64, 'global_step/max_steps': '80/375', 'percentage': '21.33%', 'elapsed_time': '2m 0s', 'remaining_time': '7m 22s'}
{'loss': 2.19830151, 'acc': 0.48366022, 'grad_norm': 1.2734375, 'learning_rate': 9e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.664236, 'epoch': 0.72, 'global_step/max_steps': '90/375', 'per

Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.


{'loss': 2.22010479, 'acc': 0.48171463, 'grad_norm': 1.3359375, 'learning_rate': 0.0001, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.665719, 'epoch': 0.8, 'global_step/max_steps': '100/375', 'percentage': '26.67%', 'elapsed_time': '2m 29s', 'remaining_time': '6m 51s'}


[INFO:swift] Saving model checkpoint to output/checkpoint-100


{'loss': 2.23189449, 'acc': 0.48216848, 'grad_norm': 1.0234375, 'learning_rate': 9.636e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.664199, 'epoch': 0.88, 'global_step/max_steps': '110/375', 'percentage': '29.33%', 'elapsed_time': '2m 45s', 'remaining_time': '6m 37s'}
{'loss': 2.16457577, 'acc': 0.49156933, 'grad_norm': 1.0390625, 'learning_rate': 9.273e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.665198, 'epoch': 0.96, 'global_step/max_steps': '120/375', 'percentage': '32.00%', 'elapsed_time': '2m 59s', 'remaining_time': '6m 22s'}
{'loss': 2.08620472, 'acc': 0.50530415, 'grad_norm': 0.97265625, 'learning_rate': 8.909e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.663604, 'epoch': 1.04, 'global_step/max_steps': '130/375', 'percentage': '34.67%', 'elapsed_time': '3m 15s', 'remaining_time': '6m 8s'}
{'loss': 2.07479706, 'acc': 0.50889835, 'grad_norm': 1.125, 'learning_rate': 8.545e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.664653, 'epoch': 1.12, 'global_step/max_s

Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.


{'loss': 1.93797283, 'acc': 0.52688403, 'grad_norm': 1.1328125, 'learning_rate': 8.182e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.664799, 'epoch': 1.2, 'global_step/max_steps': '150/375', 'percentage': '40.00%', 'elapsed_time': '3m 45s', 'remaining_time': '5m 37s'}


[INFO:swift] Saving model checkpoint to output/checkpoint-150


{'loss': 2.04726257, 'acc': 0.50751038, 'grad_norm': 1.125, 'learning_rate': 7.818e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.664657, 'epoch': 1.28, 'global_step/max_steps': '160/375', 'percentage': '42.67%', 'elapsed_time': '4m 0s', 'remaining_time': '5m 22s'}
{'loss': 1.97016907, 'acc': 0.5296308, 'grad_norm': 1.09375, 'learning_rate': 7.455e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.664821, 'epoch': 1.36, 'global_step/max_steps': '170/375', 'percentage': '45.33%', 'elapsed_time': '4m 15s', 'remaining_time': '5m 7s'}
{'loss': 2.06854839, 'acc': 0.50773869, 'grad_norm': 1.2109375, 'learning_rate': 7.091e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.665608, 'epoch': 1.44, 'global_step/max_steps': '180/375', 'percentage': '48.00%', 'elapsed_time': '4m 29s', 'remaining_time': '4m 52s'}
{'loss': 1.97801056, 'acc': 0.51696234, 'grad_norm': 1.3046875, 'learning_rate': 6.727e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.665672, 'epoch': 1.52, 'global_step/max_steps'

Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.


{'loss': 1.99477005, 'acc': 0.52524137, 'grad_norm': 1.1796875, 'learning_rate': 6.364e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.666304, 'epoch': 1.6, 'global_step/max_steps': '200/375', 'percentage': '53.33%', 'elapsed_time': '4m 59s', 'remaining_time': '4m 22s'}


[INFO:swift] Saving model checkpoint to output/checkpoint-200


{'loss': 2.06805267, 'acc': 0.51131949, 'grad_norm': 1.28125, 'learning_rate': 6e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.665839, 'epoch': 1.68, 'global_step/max_steps': '210/375', 'percentage': '56.00%', 'elapsed_time': '5m 14s', 'remaining_time': '4m 7s'}
{'loss': 1.93453083, 'acc': 0.53590107, 'grad_norm': 1.2421875, 'learning_rate': 5.636e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.666412, 'epoch': 1.76, 'global_step/max_steps': '220/375', 'percentage': '58.67%', 'elapsed_time': '5m 29s', 'remaining_time': '3m 52s'}
{'loss': 2.01098404, 'acc': 0.52221432, 'grad_norm': 1.359375, 'learning_rate': 5.273e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.66674, 'epoch': 1.84, 'global_step/max_steps': '230/375', 'percentage': '61.33%', 'elapsed_time': '5m 44s', 'remaining_time': '3m 37s'}
{'loss': 2.007584, 'acc': 0.51915064, 'grad_norm': 1.1015625, 'learning_rate': 4.909e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.666855, 'epoch': 1.92, 'global_step/max_steps': 

Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.


{'loss': 2.01143417, 'acc': 0.52253165, 'grad_norm': 1.203125, 'learning_rate': 4.545e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.66687, 'epoch': 2.0, 'global_step/max_steps': '250/375', 'percentage': '66.67%', 'elapsed_time': '6m 14s', 'remaining_time': '3m 7s'}


[INFO:swift] Saving model checkpoint to output/checkpoint-250


{'loss': 1.80072651, 'acc': 0.56184654, 'grad_norm': 1.1015625, 'learning_rate': 4.182e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.666293, 'epoch': 2.08, 'global_step/max_steps': '260/375', 'percentage': '69.33%', 'elapsed_time': '6m 29s', 'remaining_time': '2m 52s'}
{'loss': 1.79801025, 'acc': 0.56745129, 'grad_norm': 1.2890625, 'learning_rate': 3.818e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.666325, 'epoch': 2.16, 'global_step/max_steps': '270/375', 'percentage': '72.00%', 'elapsed_time': '6m 44s', 'remaining_time': '2m 37s'}
{'loss': 1.79460678, 'acc': 0.55838823, 'grad_norm': 1.203125, 'learning_rate': 3.455e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.666679, 'epoch': 2.24, 'global_step/max_steps': '280/375', 'percentage': '74.67%', 'elapsed_time': '6m 59s', 'remaining_time': '2m 22s'}
{'loss': 1.81602955, 'acc': 0.55986834, 'grad_norm': 1.1953125, 'learning_rate': 3.091e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.666871, 'epoch': 2.32, 'global_step/ma

Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.


{'loss': 1.80803165, 'acc': 0.56534204, 'grad_norm': 1.4375, 'learning_rate': 2.727e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.667114, 'epoch': 2.4, 'global_step/max_steps': '300/375', 'percentage': '80.00%', 'elapsed_time': '7m 29s', 'remaining_time': '1m 52s'}


[INFO:swift] Saving model checkpoint to output/checkpoint-300


{'loss': 1.7729063, 'acc': 0.57090678, 'grad_norm': 1.1328125, 'learning_rate': 2.364e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.666537, 'epoch': 2.48, 'global_step/max_steps': '310/375', 'percentage': '82.67%', 'elapsed_time': '7m 44s', 'remaining_time': '1m 37s'}
{'loss': 1.78933201, 'acc': 0.56588635, 'grad_norm': 1.2890625, 'learning_rate': 2e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.666757, 'epoch': 2.56, 'global_step/max_steps': '320/375', 'percentage': '85.33%', 'elapsed_time': '7m 59s', 'remaining_time': '1m 22s'}
{'loss': 1.76110058, 'acc': 0.57279301, 'grad_norm': 1.2265625, 'learning_rate': 1.636e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.666659, 'epoch': 2.64, 'global_step/max_steps': '330/375', 'percentage': '88.00%', 'elapsed_time': '8m 14s', 'remaining_time': '1m 7s'}
{'loss': 1.81827374, 'acc': 0.55887861, 'grad_norm': 1.4140625, 'learning_rate': 1.273e-05, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.666953, 'epoch': 2.72, 'global_step/max_ste

Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.


{'loss': 1.8113409, 'acc': 0.56370974, 'grad_norm': 1.2421875, 'learning_rate': 9.09e-06, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.667178, 'epoch': 2.8, 'global_step/max_steps': '350/375', 'percentage': '93.33%', 'elapsed_time': '8m 44s', 'remaining_time': '37s'}


[INFO:swift] Saving model checkpoint to output/checkpoint-350


{'loss': 1.69155102, 'acc': 0.58140535, 'grad_norm': 1.28125, 'learning_rate': 5.45e-06, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.666877, 'epoch': 2.88, 'global_step/max_steps': '360/375', 'percentage': '96.00%', 'elapsed_time': '8m 59s', 'remaining_time': '22s'}
{'loss': 1.83493042, 'acc': 0.55252657, 'grad_norm': 1.2890625, 'learning_rate': 1.82e-06, 'memory(GiB)': 2.95, 'train_speed(iter/s)': 0.667086, 'epoch': 2.96, 'global_step/max_steps': '370/375', 'percentage': '98.67%', 'elapsed_time': '9m 14s', 'remaining_time': '7s'}


Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[INFO:swift] Saving model checkpoint to output/checkpoint-375


{'train_runtime': 562.2168, 'train_samples_per_second': 10.672, 'train_steps_per_second': 0.667, 'train_loss': 2.05023495, 'epoch': 3.0, 'global_step/max_steps': '375/375', 'percentage': '100.00%', 'elapsed_time': '9m 22s', 'remaining_time': '0s'}


TrainOutput(global_step=375, training_loss=2.0502349497477215, metrics={'train_runtime': 562.2168, 'train_samples_per_second': 10.672, 'train_steps_per_second': 0.667, 'total_flos': 1078855936012800.0, 'train_loss': 2.05023495, 'epoch': 3.0, 'global_step/max_steps': '375/375', 'percentage': '100.00%', 'elapsed_time': '9m 22s', 'remaining_time': '0s'})

In [16]:
output_directory = 'modified_model'
model.save_pretrained(output_directory)

* 测试

In [33]:
prompt_task = '''我需要你做中文概括任务，以下是一个示例
原句 : 24岁 的 男子 小罗 ( 化名 ) 因 患有 精神 病 被 送进 医院 , 为 防止 他 伤害 自己 , 医院 用 保护 带 将 其 绑 在床上 。第二天 , 护士 发现 小罗 被 同室 病人 掐死 。", "为此 , 小罗 母亲 提起 刑事 自诉 , 要求 追究 当班 护士 的 刑事责任 。", "法 晚 记者 上午 获悉 , 市 一中 院 终审 判处 当班 护士 杨某 犯 医疗 事故 罪 , 但 由于 医院 已 与 家属 达成 协议 , 赔偿 了 50万 元 , 且 杨某 已 被 医院 开除 , 故 对 其 免予 刑事 处罚 。", "住院 当晚 被 同室 病人 掐死 1999年 11月 29 日 , 24岁 的 被害人 小罗 因 精神 受到 刺激 被 送往 本市 海淀区 北京大学 第六 医院 治疗 。", "经 诊断 系 “ 急性 精神病 症 ” , 医嘱 为 精神科 特护 ( 防 冲动 、 巡视 )", "当晚 , 因 小罗 拒绝 服药 打针 , 医院 用 保护 带 将 其 绑 在床上 , 后 又 因其 吵闹 , 医师 给 其 注射 了 安定 10mg 。", "次日 早晨 6 点 10分 , 小罗 被 发现 已 死亡 。", "海淀 法院 一审 判决书 查明 , 1999年 11月 30 日 , 杨某 在 本市 海淀区 北京 医科 大学 附属 第六 医院 住院部 , 作为 大夜班 副 班 护士 , 未 严格 履行 巡视 职责 , 对 已 约束 的 病人 未 按 规定 定时 松解 保护 带 。", "导致 小罗 在 杨某 值班 期间 , 被 同室 39 岁 的 精神病人 唐某 扼 颈 机械 性窒息 死亡 。", "经 司法 精神病 鉴定 , 唐某 实施 违法行为 时 丧失 辨认 、 控制 能力 , 无责任 能力 。", "2000年 1 月 19日 , 北京 医科 大学 附属 第六 医院 与 被害人 家属 达成 协议 , 赔偿 被害人 家属 50万 元 并 承担 其他 损失 费用 。", "医院 对 护士 杨某 和 郝某 予以 行政 处分 , 决定 对 杨某 给予 开除 行政 处分 。", "当班 护士 认为 “ 应 由 医院 担责 ” 杨某 供述 称 , 1999年 11月 29 日 下午 1 时 许 , 护士 站 急 收 了 病人 小罗 , 有 3 名 家属 护送 。", "当时 , 小罗 比较 兴奋 吵闹 , 杨某 就 腾出 一个 单间 安排 其 入住 , 并 对 小罗 采取 了 保护 措施 , 用 绑带 把 他 绑 在 病床 上 。", "把 门锁 上后 , 杨某 于 当日 下午 3 时 就 下班 了 。", "晚上 11点 多 , 杨某 到 单位 上夜班 。", "到了 次日 凌晨 1点 30 分 , 他 和 另外 一 名 实习 护士 郝某 与 前 班 护士 办理 交接 。", "杨某 首先 隔着 门 玻璃 查看 清点 了 一下 人数 , 郝某 清点 医用 物品 , 后 一起 听取 了 前 一班 护士 的 交班 报告 。", "在 清点 人数 时 , 杨某 发现 小罗 的 病房 里 又新 进 了 一个 病人 唐某 。", "当晚 , 杨某 在 交接班 之后 , 只 在 凌晨 2 点 左右 巡视 过 1 次 , 只是 清点 了 人数 , 没有 进 病房 查看 , 之后 就 再 没有 巡视 查看 过 。", "次日 早上 6 点 多钟 , 郝某 找到 杨某 说 小罗 有些 不对劲 。", "杨某 到 小罗 床 前 掀开 被子 , 发现 小罗 还 被 捆着 , 身体 已经 僵 了 。", "杨某 认为 自己 虽有 过错 , 但 尚 不 构成 犯罪 , 受害人 小罗 的 死亡 结果 应当 由 医院 承担 责任 。", "杨某 辩护人 认为 , 受害人 死亡 的 原因 是 多 方面 的 , 既有 唐某 的 直接 原因 , 也 有 医院 管理 混乱 , 工作 交接 脱节 , 上 一班 医护 人员 错误 安排 病房 、 没有 及时 松解 保护 带 等 方面 原因 。", "杨某 未 按 规定 巡视 并不 必然 导致 被害人 小罗 死亡 的 结果 发生 。", "家属 向 护士 提起 刑事 自诉 郝某 称 , 按规定 , 应该 对 病人 每隔 10分钟 巡视 1 次 , 对 小罗 这样 的 病人 应该 重点 观察 。", "此外 , 对于 小罗 这样 有 被 约束 病人 的 病房 里 , 是 不能 再 入住 没有 被 约束 的 病人 的 。", "医院 出具 的 特护 记录 显示 , 杨某 的 前 一班 护士 对 小罗 都 有 详细 且 明确 的 护理 记录 , 但 从 当晚 1 点 半 杨某 接班 以后 , 就 没有 任何 关于 对 小罗 的 护理 记录 , 杨某 一 晚上 都 没有 对 小罗 进行 过 巡查 , 也 没有 按规定 护理 。", "2006年 , 北京 医学会 、 中华 医学会 两次 进行 医疗 事故 鉴定 , 结论 均 为 : 本 例 医疗 事故 争议 属于 一级 甲等 医疗 事故 , 医院 在 患者 的 损伤 结果 中 承担 次要 责任 。", "检察机关 认定 被告人 杨某 涉嫌 医疗 事故 罪 , 但 情节 轻微 , 决定 对 被告人 杨某 不起诉 。", "为此 , 小罗 的 母亲 赵某 向 海淀 法院 提起 刑事 自诉 。", "构成 医疗 事故 罪 免予 刑事 处罚 海淀 法院 认为 , 多项 证据 显示 , 虽然 被害人 小罗 的 死亡 是 由 第三人 病态 行为 直接 造成 , 但 该 死亡 结果 是 在 被害人 就诊 期间 发生 , 由于 医院 管理 不当 和 严重 失职 所 导致 的 。", "杨某 身为 当晚 值班 副 班 护士 , 是 事发 当时 代表 医院 承担 巡视 、 护理 职责 , 其 严重 不 负责 的 行为 是 医院 没有 履行 好 保护 患者 安全 职责 的 表现 之一 , 与 该 死亡 结果 存在 着 重要 的 因果关系 , 应当 以 医疗 事故 罪 追究 其 刑事责任 。", "鉴于 此次 医疗 事故 系 由 多 原因 所 造成 , 医院 多 方面 的 过失 并非 仅限于 杨某 单个 因素 。", "故 杨某 虽 构成 犯罪 , 但 情节 相对 轻微 , 且 系 初犯 , 到案 后 能 如实 供认 其 失职 行为 , 具有 悔罪 表现 , 同时 事后 杨某 已 被 医院 处以 开除 的 行政 处分 , 受到 相应 惩罚 , 已 无 判处 刑罚 之 必要 , 故 法院 认为 可以 对 其 免予 刑事 处罚 。", "据此 , 海淀 法院 作出 一审 判决 , 杨某 犯 医疗 事故 罪 , 免予 刑事 处罚 。", "一审 判决 后 , 小罗 家属 提起 上诉 , 认为 原判 对 杨某 的 处罚 过轻 。", "杨某 也 提起 了 上诉 , 杨某 认为 被害人 的 死亡 后果 并非 其 造成 的 , 其 不 构成 犯罪 。", "市 一中 院 审理 后 , 驳回 杨某 和 赵 女士 的 上诉 , 维持 原判 。"
概括 : 北京 精神病人 被 用 束缚 带 绑 床上 , 遭 病友 掐死 ; 法院 认定 医院 管理 不当 、 值班 护士 失职 , 构成 医疗 事故 罪 。<END>
用简短的语句概括以下内容,概括的句子 <END> 结尾
原句 :'''
import re
batch_size = 8  # 设置批处理大小（可以根据GPU的内存进行调整）
all_answer = []
all_pre = []
output_model_dir = 'modified_model'
from modelscope import Model
from swift import Swift
import torch
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.bfloat16, 
    device_map='auto', 
    trust_remote_code=True
)
model = Swift.from_pretrained(model, './output')

# 将数据分成小批次
for i in range(0, len(Summary_set), batch_size):
    batch_data = Summary_set[i:i+batch_size]
    print(f"Processing batch {i//batch_size + 1}...")

    # 准备输入数据
    batch_q = [prompt_task + ''.join(data['article']) + "\n概括 :" for data in batch_data]
    batch_a = [data['summary'] for data in batch_data]
    # print(batch_q)
    # 将批量数据转化为模型输入
    inputs = tokenizer(batch_q, padding=True, truncation=True, return_tensors="pt").to('cuda')
    
    # 生成输出
    generated_ids = model.generate(
        **inputs,
        max_new_tokens=128
    )

    # 解码生成的文本
    responses = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
   
    
    # 处理每个生成的文本
    for j, response in enumerate(responses):
        matches = re.findall(r"概括 :(.*?)\<END\>", response, re.DOTALL)
        if len(matches) > 1:
            all_pre.append(matches[1])
            all_answer.append(batch_a[j])
        else:
            print(f"第 {i + j} 个数据未匹配到足够的内容，重新提问...")

    

        

Downloading Model to directory: /mnt/workspace/.cache/modelscope/hub/Qwen/Qwen2.5-0.5B-Instruct


[INFO:modelscope] Creating symbolic link /mnt/workspace/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct -> /mnt/workspace/.cache/modelscope/hub/Qwen/Qwen2.5-0.5B-Instruct.
A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


Processing batch 1...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 0 个数据未匹配到足够的内容，重新提问...
第 2 个数据未匹配到足够的内容，重新提问...
第 3 个数据未匹配到足够的内容，重新提问...
第 4 个数据未匹配到足够的内容，重新提问...
第 5 个数据未匹配到足够的内容，重新提问...
第 6 个数据未匹配到足够的内容，重新提问...
Processing batch 2...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 9 个数据未匹配到足够的内容，重新提问...
第 10 个数据未匹配到足够的内容，重新提问...
第 11 个数据未匹配到足够的内容，重新提问...
第 12 个数据未匹配到足够的内容，重新提问...
第 15 个数据未匹配到足够的内容，重新提问...
Processing batch 3...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 16 个数据未匹配到足够的内容，重新提问...
第 20 个数据未匹配到足够的内容，重新提问...
第 21 个数据未匹配到足够的内容，重新提问...
第 23 个数据未匹配到足够的内容，重新提问...
Processing batch 4...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 25 个数据未匹配到足够的内容，重新提问...
第 27 个数据未匹配到足够的内容，重新提问...
第 28 个数据未匹配到足够的内容，重新提问...
第 29 个数据未匹配到足够的内容，重新提问...
第 30 个数据未匹配到足够的内容，重新提问...
第 31 个数据未匹配到足够的内容，重新提问...
Processing batch 5...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 33 个数据未匹配到足够的内容，重新提问...
第 35 个数据未匹配到足够的内容，重新提问...
第 36 个数据未匹配到足够的内容，重新提问...
第 37 个数据未匹配到足够的内容，重新提问...
第 39 个数据未匹配到足够的内容，重新提问...
Processing batch 6...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 40 个数据未匹配到足够的内容，重新提问...
第 42 个数据未匹配到足够的内容，重新提问...
第 43 个数据未匹配到足够的内容，重新提问...
第 44 个数据未匹配到足够的内容，重新提问...
第 46 个数据未匹配到足够的内容，重新提问...
Processing batch 7...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 49 个数据未匹配到足够的内容，重新提问...
第 50 个数据未匹配到足够的内容，重新提问...
第 52 个数据未匹配到足够的内容，重新提问...
第 53 个数据未匹配到足够的内容，重新提问...
第 55 个数据未匹配到足够的内容，重新提问...
Processing batch 8...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 56 个数据未匹配到足够的内容，重新提问...
第 58 个数据未匹配到足够的内容，重新提问...
第 59 个数据未匹配到足够的内容，重新提问...
第 60 个数据未匹配到足够的内容，重新提问...
第 61 个数据未匹配到足够的内容，重新提问...
第 62 个数据未匹配到足够的内容，重新提问...
第 63 个数据未匹配到足够的内容，重新提问...
Processing batch 9...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 64 个数据未匹配到足够的内容，重新提问...
第 65 个数据未匹配到足够的内容，重新提问...
第 66 个数据未匹配到足够的内容，重新提问...
第 67 个数据未匹配到足够的内容，重新提问...
第 68 个数据未匹配到足够的内容，重新提问...
第 69 个数据未匹配到足够的内容，重新提问...
第 70 个数据未匹配到足够的内容，重新提问...
第 71 个数据未匹配到足够的内容，重新提问...
Processing batch 10...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 74 个数据未匹配到足够的内容，重新提问...
第 76 个数据未匹配到足够的内容，重新提问...
第 78 个数据未匹配到足够的内容，重新提问...
第 79 个数据未匹配到足够的内容，重新提问...
Processing batch 11...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 81 个数据未匹配到足够的内容，重新提问...
第 82 个数据未匹配到足够的内容，重新提问...
第 83 个数据未匹配到足够的内容，重新提问...
第 84 个数据未匹配到足够的内容，重新提问...
第 86 个数据未匹配到足够的内容，重新提问...
Processing batch 12...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 88 个数据未匹配到足够的内容，重新提问...
第 89 个数据未匹配到足够的内容，重新提问...
第 90 个数据未匹配到足够的内容，重新提问...
第 91 个数据未匹配到足够的内容，重新提问...
第 92 个数据未匹配到足够的内容，重新提问...
第 94 个数据未匹配到足够的内容，重新提问...
Processing batch 13...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 96 个数据未匹配到足够的内容，重新提问...
第 97 个数据未匹配到足够的内容，重新提问...
第 100 个数据未匹配到足够的内容，重新提问...
第 103 个数据未匹配到足够的内容，重新提问...
Processing batch 14...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 105 个数据未匹配到足够的内容，重新提问...
第 106 个数据未匹配到足够的内容，重新提问...
第 107 个数据未匹配到足够的内容，重新提问...
第 108 个数据未匹配到足够的内容，重新提问...
第 111 个数据未匹配到足够的内容，重新提问...
Processing batch 15...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 112 个数据未匹配到足够的内容，重新提问...
第 115 个数据未匹配到足够的内容，重新提问...
第 116 个数据未匹配到足够的内容，重新提问...
第 117 个数据未匹配到足够的内容，重新提问...
第 118 个数据未匹配到足够的内容，重新提问...
第 119 个数据未匹配到足够的内容，重新提问...
Processing batch 16...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 120 个数据未匹配到足够的内容，重新提问...
第 121 个数据未匹配到足够的内容，重新提问...
第 122 个数据未匹配到足够的内容，重新提问...
第 123 个数据未匹配到足够的内容，重新提问...
第 125 个数据未匹配到足够的内容，重新提问...
第 126 个数据未匹配到足够的内容，重新提问...
第 127 个数据未匹配到足够的内容，重新提问...
Processing batch 17...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 129 个数据未匹配到足够的内容，重新提问...
第 131 个数据未匹配到足够的内容，重新提问...
第 132 个数据未匹配到足够的内容，重新提问...
第 135 个数据未匹配到足够的内容，重新提问...
Processing batch 18...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 136 个数据未匹配到足够的内容，重新提问...
第 137 个数据未匹配到足够的内容，重新提问...
第 143 个数据未匹配到足够的内容，重新提问...
Processing batch 19...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 146 个数据未匹配到足够的内容，重新提问...
第 148 个数据未匹配到足够的内容，重新提问...
第 149 个数据未匹配到足够的内容，重新提问...
第 151 个数据未匹配到足够的内容，重新提问...
Processing batch 20...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 152 个数据未匹配到足够的内容，重新提问...
第 153 个数据未匹配到足够的内容，重新提问...
第 157 个数据未匹配到足够的内容，重新提问...
第 158 个数据未匹配到足够的内容，重新提问...
Processing batch 21...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 160 个数据未匹配到足够的内容，重新提问...
第 161 个数据未匹配到足够的内容，重新提问...
第 162 个数据未匹配到足够的内容，重新提问...
第 163 个数据未匹配到足够的内容，重新提问...
第 165 个数据未匹配到足够的内容，重新提问...
第 167 个数据未匹配到足够的内容，重新提问...
Processing batch 22...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 168 个数据未匹配到足够的内容，重新提问...
第 169 个数据未匹配到足够的内容，重新提问...
第 171 个数据未匹配到足够的内容，重新提问...
第 173 个数据未匹配到足够的内容，重新提问...
第 174 个数据未匹配到足够的内容，重新提问...
第 175 个数据未匹配到足够的内容，重新提问...
Processing batch 23...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 178 个数据未匹配到足够的内容，重新提问...
第 179 个数据未匹配到足够的内容，重新提问...
第 181 个数据未匹配到足够的内容，重新提问...
第 182 个数据未匹配到足够的内容，重新提问...
第 183 个数据未匹配到足够的内容，重新提问...
Processing batch 24...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 184 个数据未匹配到足够的内容，重新提问...
第 187 个数据未匹配到足够的内容，重新提问...
第 188 个数据未匹配到足够的内容，重新提问...
第 189 个数据未匹配到足够的内容，重新提问...
第 190 个数据未匹配到足够的内容，重新提问...
第 191 个数据未匹配到足够的内容，重新提问...
Processing batch 25...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 192 个数据未匹配到足够的内容，重新提问...
第 194 个数据未匹配到足够的内容，重新提问...
第 195 个数据未匹配到足够的内容，重新提问...
第 197 个数据未匹配到足够的内容，重新提问...
第 198 个数据未匹配到足够的内容，重新提问...
第 199 个数据未匹配到足够的内容，重新提问...
Processing batch 26...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 202 个数据未匹配到足够的内容，重新提问...
第 203 个数据未匹配到足够的内容，重新提问...
第 204 个数据未匹配到足够的内容，重新提问...
第 206 个数据未匹配到足够的内容，重新提问...
第 207 个数据未匹配到足够的内容，重新提问...
Processing batch 27...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 212 个数据未匹配到足够的内容，重新提问...
第 213 个数据未匹配到足够的内容，重新提问...
Processing batch 28...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 216 个数据未匹配到足够的内容，重新提问...
第 217 个数据未匹配到足够的内容，重新提问...
第 220 个数据未匹配到足够的内容，重新提问...
第 221 个数据未匹配到足够的内容，重新提问...
第 223 个数据未匹配到足够的内容，重新提问...
Processing batch 29...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 224 个数据未匹配到足够的内容，重新提问...
第 225 个数据未匹配到足够的内容，重新提问...
第 226 个数据未匹配到足够的内容，重新提问...
第 227 个数据未匹配到足够的内容，重新提问...
第 229 个数据未匹配到足够的内容，重新提问...
第 231 个数据未匹配到足够的内容，重新提问...
Processing batch 30...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 232 个数据未匹配到足够的内容，重新提问...
第 234 个数据未匹配到足够的内容，重新提问...
第 235 个数据未匹配到足够的内容，重新提问...
第 236 个数据未匹配到足够的内容，重新提问...
第 237 个数据未匹配到足够的内容，重新提问...
Processing batch 31...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 240 个数据未匹配到足够的内容，重新提问...
第 241 个数据未匹配到足够的内容，重新提问...
第 242 个数据未匹配到足够的内容，重新提问...
第 243 个数据未匹配到足够的内容，重新提问...
第 244 个数据未匹配到足够的内容，重新提问...
第 245 个数据未匹配到足够的内容，重新提问...
第 246 个数据未匹配到足够的内容，重新提问...
第 247 个数据未匹配到足够的内容，重新提问...
Processing batch 32...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 248 个数据未匹配到足够的内容，重新提问...
第 249 个数据未匹配到足够的内容，重新提问...
第 250 个数据未匹配到足够的内容，重新提问...
第 251 个数据未匹配到足够的内容，重新提问...
第 253 个数据未匹配到足够的内容，重新提问...
Processing batch 33...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 257 个数据未匹配到足够的内容，重新提问...
第 260 个数据未匹配到足够的内容，重新提问...
第 261 个数据未匹配到足够的内容，重新提问...
第 263 个数据未匹配到足够的内容，重新提问...
Processing batch 34...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 265 个数据未匹配到足够的内容，重新提问...
第 268 个数据未匹配到足够的内容，重新提问...
第 271 个数据未匹配到足够的内容，重新提问...
Processing batch 35...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 273 个数据未匹配到足够的内容，重新提问...
第 274 个数据未匹配到足够的内容，重新提问...
第 275 个数据未匹配到足够的内容，重新提问...
第 276 个数据未匹配到足够的内容，重新提问...
第 277 个数据未匹配到足够的内容，重新提问...
第 278 个数据未匹配到足够的内容，重新提问...
Processing batch 36...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 280 个数据未匹配到足够的内容，重新提问...
第 281 个数据未匹配到足够的内容，重新提问...
第 282 个数据未匹配到足够的内容，重新提问...
Processing batch 37...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 289 个数据未匹配到足够的内容，重新提问...
第 290 个数据未匹配到足够的内容，重新提问...
第 292 个数据未匹配到足够的内容，重新提问...
第 293 个数据未匹配到足够的内容，重新提问...
第 295 个数据未匹配到足够的内容，重新提问...
Processing batch 38...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 297 个数据未匹配到足够的内容，重新提问...
第 298 个数据未匹配到足够的内容，重新提问...
Processing batch 39...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 304 个数据未匹配到足够的内容，重新提问...
第 306 个数据未匹配到足够的内容，重新提问...
第 307 个数据未匹配到足够的内容，重新提问...
第 308 个数据未匹配到足够的内容，重新提问...
第 310 个数据未匹配到足够的内容，重新提问...
Processing batch 40...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 312 个数据未匹配到足够的内容，重新提问...
第 313 个数据未匹配到足够的内容，重新提问...
第 314 个数据未匹配到足够的内容，重新提问...
第 316 个数据未匹配到足够的内容，重新提问...
第 317 个数据未匹配到足够的内容，重新提问...
Processing batch 41...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 323 个数据未匹配到足够的内容，重新提问...
第 325 个数据未匹配到足够的内容，重新提问...
第 326 个数据未匹配到足够的内容，重新提问...
Processing batch 42...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 328 个数据未匹配到足够的内容，重新提问...
第 332 个数据未匹配到足够的内容，重新提问...
第 333 个数据未匹配到足够的内容，重新提问...
第 334 个数据未匹配到足够的内容，重新提问...
第 335 个数据未匹配到足够的内容，重新提问...
Processing batch 43...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 337 个数据未匹配到足够的内容，重新提问...
第 338 个数据未匹配到足够的内容，重新提问...
第 339 个数据未匹配到足够的内容，重新提问...
Processing batch 44...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 345 个数据未匹配到足够的内容，重新提问...
第 347 个数据未匹配到足够的内容，重新提问...
第 349 个数据未匹配到足够的内容，重新提问...
Processing batch 45...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 353 个数据未匹配到足够的内容，重新提问...
第 355 个数据未匹配到足够的内容，重新提问...
第 356 个数据未匹配到足够的内容，重新提问...
Processing batch 46...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 360 个数据未匹配到足够的内容，重新提问...
第 361 个数据未匹配到足够的内容，重新提问...
第 365 个数据未匹配到足够的内容，重新提问...
第 366 个数据未匹配到足够的内容，重新提问...
Processing batch 47...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 368 个数据未匹配到足够的内容，重新提问...
第 369 个数据未匹配到足够的内容，重新提问...
第 370 个数据未匹配到足够的内容，重新提问...
第 372 个数据未匹配到足够的内容，重新提问...
第 374 个数据未匹配到足够的内容，重新提问...
第 375 个数据未匹配到足够的内容，重新提问...
Processing batch 48...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 376 个数据未匹配到足够的内容，重新提问...
第 379 个数据未匹配到足够的内容，重新提问...
第 380 个数据未匹配到足够的内容，重新提问...
第 381 个数据未匹配到足够的内容，重新提问...
Processing batch 49...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 386 个数据未匹配到足够的内容，重新提问...
第 387 个数据未匹配到足够的内容，重新提问...
第 388 个数据未匹配到足够的内容，重新提问...
第 389 个数据未匹配到足够的内容，重新提问...
第 391 个数据未匹配到足够的内容，重新提问...
Processing batch 50...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 392 个数据未匹配到足够的内容，重新提问...
第 393 个数据未匹配到足够的内容，重新提问...
第 394 个数据未匹配到足够的内容，重新提问...
第 396 个数据未匹配到足够的内容，重新提问...
第 397 个数据未匹配到足够的内容，重新提问...
第 399 个数据未匹配到足够的内容，重新提问...
Processing batch 51...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 400 个数据未匹配到足够的内容，重新提问...
第 401 个数据未匹配到足够的内容，重新提问...
第 402 个数据未匹配到足够的内容，重新提问...
第 403 个数据未匹配到足够的内容，重新提问...
第 404 个数据未匹配到足够的内容，重新提问...
第 405 个数据未匹配到足够的内容，重新提问...
第 406 个数据未匹配到足够的内容，重新提问...
第 407 个数据未匹配到足够的内容，重新提问...
Processing batch 52...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 410 个数据未匹配到足够的内容，重新提问...
第 411 个数据未匹配到足够的内容，重新提问...
第 413 个数据未匹配到足够的内容，重新提问...
第 414 个数据未匹配到足够的内容，重新提问...
Processing batch 53...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 416 个数据未匹配到足够的内容，重新提问...
第 418 个数据未匹配到足够的内容，重新提问...
第 420 个数据未匹配到足够的内容，重新提问...
第 421 个数据未匹配到足够的内容，重新提问...
第 423 个数据未匹配到足够的内容，重新提问...
Processing batch 54...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 424 个数据未匹配到足够的内容，重新提问...
第 425 个数据未匹配到足够的内容，重新提问...
第 426 个数据未匹配到足够的内容，重新提问...
第 427 个数据未匹配到足够的内容，重新提问...
第 431 个数据未匹配到足够的内容，重新提问...
Processing batch 55...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 432 个数据未匹配到足够的内容，重新提问...
第 434 个数据未匹配到足够的内容，重新提问...
第 435 个数据未匹配到足够的内容，重新提问...
第 437 个数据未匹配到足够的内容，重新提问...
第 439 个数据未匹配到足够的内容，重新提问...
Processing batch 56...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 440 个数据未匹配到足够的内容，重新提问...
第 442 个数据未匹配到足够的内容，重新提问...
第 443 个数据未匹配到足够的内容，重新提问...
第 444 个数据未匹配到足够的内容，重新提问...
第 445 个数据未匹配到足够的内容，重新提问...
第 447 个数据未匹配到足够的内容，重新提问...
Processing batch 57...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 448 个数据未匹配到足够的内容，重新提问...
第 450 个数据未匹配到足够的内容，重新提问...
第 452 个数据未匹配到足够的内容，重新提问...
Processing batch 58...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 459 个数据未匹配到足够的内容，重新提问...
第 460 个数据未匹配到足够的内容，重新提问...
第 461 个数据未匹配到足够的内容，重新提问...
Processing batch 59...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 464 个数据未匹配到足够的内容，重新提问...
第 465 个数据未匹配到足够的内容，重新提问...
第 467 个数据未匹配到足够的内容，重新提问...
第 470 个数据未匹配到足够的内容，重新提问...
Processing batch 60...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 472 个数据未匹配到足够的内容，重新提问...
第 474 个数据未匹配到足够的内容，重新提问...
第 475 个数据未匹配到足够的内容，重新提问...
第 476 个数据未匹配到足够的内容，重新提问...
第 478 个数据未匹配到足够的内容，重新提问...
第 479 个数据未匹配到足够的内容，重新提问...
Processing batch 61...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 480 个数据未匹配到足够的内容，重新提问...
第 483 个数据未匹配到足够的内容，重新提问...
第 485 个数据未匹配到足够的内容，重新提问...
第 487 个数据未匹配到足够的内容，重新提问...
Processing batch 62...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 488 个数据未匹配到足够的内容，重新提问...
第 489 个数据未匹配到足够的内容，重新提问...
第 491 个数据未匹配到足够的内容，重新提问...
第 492 个数据未匹配到足够的内容，重新提问...
第 493 个数据未匹配到足够的内容，重新提问...
第 495 个数据未匹配到足够的内容，重新提问...
Processing batch 63...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 497 个数据未匹配到足够的内容，重新提问...
第 500 个数据未匹配到足够的内容，重新提问...
第 501 个数据未匹配到足够的内容，重新提问...
第 502 个数据未匹配到足够的内容，重新提问...
第 503 个数据未匹配到足够的内容，重新提问...
Processing batch 64...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 506 个数据未匹配到足够的内容，重新提问...
第 507 个数据未匹配到足够的内容，重新提问...
第 509 个数据未匹配到足够的内容，重新提问...
Processing batch 65...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 512 个数据未匹配到足够的内容，重新提问...
第 514 个数据未匹配到足够的内容，重新提问...
第 515 个数据未匹配到足够的内容，重新提问...
第 516 个数据未匹配到足够的内容，重新提问...
第 519 个数据未匹配到足够的内容，重新提问...
Processing batch 66...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 520 个数据未匹配到足够的内容，重新提问...
第 521 个数据未匹配到足够的内容，重新提问...
第 524 个数据未匹配到足够的内容，重新提问...
第 526 个数据未匹配到足够的内容，重新提问...
第 527 个数据未匹配到足够的内容，重新提问...
Processing batch 67...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 528 个数据未匹配到足够的内容，重新提问...
第 529 个数据未匹配到足够的内容，重新提问...
第 531 个数据未匹配到足够的内容，重新提问...
第 532 个数据未匹配到足够的内容，重新提问...
第 535 个数据未匹配到足够的内容，重新提问...
Processing batch 68...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 536 个数据未匹配到足够的内容，重新提问...
第 537 个数据未匹配到足够的内容，重新提问...
第 538 个数据未匹配到足够的内容，重新提问...
第 541 个数据未匹配到足够的内容，重新提问...
第 543 个数据未匹配到足够的内容，重新提问...
Processing batch 69...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 544 个数据未匹配到足够的内容，重新提问...
第 545 个数据未匹配到足够的内容，重新提问...
第 546 个数据未匹配到足够的内容，重新提问...
第 549 个数据未匹配到足够的内容，重新提问...
第 551 个数据未匹配到足够的内容，重新提问...
Processing batch 70...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 553 个数据未匹配到足够的内容，重新提问...
第 554 个数据未匹配到足够的内容，重新提问...
第 555 个数据未匹配到足够的内容，重新提问...
第 556 个数据未匹配到足够的内容，重新提问...
第 557 个数据未匹配到足够的内容，重新提问...
第 558 个数据未匹配到足够的内容，重新提问...
第 559 个数据未匹配到足够的内容，重新提问...
Processing batch 71...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 560 个数据未匹配到足够的内容，重新提问...
第 561 个数据未匹配到足够的内容，重新提问...
第 562 个数据未匹配到足够的内容，重新提问...
第 567 个数据未匹配到足够的内容，重新提问...
Processing batch 72...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 568 个数据未匹配到足够的内容，重新提问...
第 569 个数据未匹配到足够的内容，重新提问...
第 570 个数据未匹配到足够的内容，重新提问...
第 571 个数据未匹配到足够的内容，重新提问...
第 573 个数据未匹配到足够的内容，重新提问...
第 575 个数据未匹配到足够的内容，重新提问...
Processing batch 73...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 577 个数据未匹配到足够的内容，重新提问...
第 579 个数据未匹配到足够的内容，重新提问...
第 580 个数据未匹配到足够的内容，重新提问...
第 581 个数据未匹配到足够的内容，重新提问...
第 582 个数据未匹配到足够的内容，重新提问...
Processing batch 74...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 584 个数据未匹配到足够的内容，重新提问...
第 588 个数据未匹配到足够的内容，重新提问...
第 589 个数据未匹配到足够的内容，重新提问...
第 590 个数据未匹配到足够的内容，重新提问...
Processing batch 75...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 592 个数据未匹配到足够的内容，重新提问...
第 593 个数据未匹配到足够的内容，重新提问...
第 594 个数据未匹配到足够的内容，重新提问...
第 595 个数据未匹配到足够的内容，重新提问...
第 597 个数据未匹配到足够的内容，重新提问...
Processing batch 76...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 600 个数据未匹配到足够的内容，重新提问...
第 601 个数据未匹配到足够的内容，重新提问...
第 602 个数据未匹配到足够的内容，重新提问...
第 603 个数据未匹配到足够的内容，重新提问...
第 605 个数据未匹配到足够的内容，重新提问...
第 606 个数据未匹配到足够的内容，重新提问...
Processing batch 77...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 608 个数据未匹配到足够的内容，重新提问...
第 610 个数据未匹配到足够的内容，重新提问...
第 611 个数据未匹配到足够的内容，重新提问...
Processing batch 78...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 616 个数据未匹配到足够的内容，重新提问...
第 619 个数据未匹配到足够的内容，重新提问...
第 621 个数据未匹配到足够的内容，重新提问...
第 622 个数据未匹配到足够的内容，重新提问...
第 623 个数据未匹配到足够的内容，重新提问...
Processing batch 79...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 624 个数据未匹配到足够的内容，重新提问...
第 625 个数据未匹配到足够的内容，重新提问...
第 626 个数据未匹配到足够的内容，重新提问...
第 630 个数据未匹配到足够的内容，重新提问...
Processing batch 80...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 635 个数据未匹配到足够的内容，重新提问...
第 637 个数据未匹配到足够的内容，重新提问...
第 638 个数据未匹配到足够的内容，重新提问...
第 639 个数据未匹配到足够的内容，重新提问...
Processing batch 81...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 640 个数据未匹配到足够的内容，重新提问...
第 641 个数据未匹配到足够的内容，重新提问...
第 642 个数据未匹配到足够的内容，重新提问...
第 645 个数据未匹配到足够的内容，重新提问...
第 647 个数据未匹配到足够的内容，重新提问...
Processing batch 82...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 649 个数据未匹配到足够的内容，重新提问...
第 650 个数据未匹配到足够的内容，重新提问...
第 651 个数据未匹配到足够的内容，重新提问...
第 652 个数据未匹配到足够的内容，重新提问...
Processing batch 83...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 656 个数据未匹配到足够的内容，重新提问...
第 657 个数据未匹配到足够的内容，重新提问...
第 658 个数据未匹配到足够的内容，重新提问...
第 660 个数据未匹配到足够的内容，重新提问...
第 661 个数据未匹配到足够的内容，重新提问...
第 663 个数据未匹配到足够的内容，重新提问...
Processing batch 84...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 667 个数据未匹配到足够的内容，重新提问...
第 668 个数据未匹配到足够的内容，重新提问...
第 670 个数据未匹配到足够的内容，重新提问...
第 671 个数据未匹配到足够的内容，重新提问...
Processing batch 85...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 673 个数据未匹配到足够的内容，重新提问...
第 676 个数据未匹配到足够的内容，重新提问...
第 677 个数据未匹配到足够的内容，重新提问...
第 679 个数据未匹配到足够的内容，重新提问...
Processing batch 86...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 681 个数据未匹配到足够的内容，重新提问...
第 684 个数据未匹配到足够的内容，重新提问...
第 686 个数据未匹配到足够的内容，重新提问...
Processing batch 87...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 688 个数据未匹配到足够的内容，重新提问...
第 689 个数据未匹配到足够的内容，重新提问...
第 690 个数据未匹配到足够的内容，重新提问...
第 692 个数据未匹配到足够的内容，重新提问...
第 693 个数据未匹配到足够的内容，重新提问...
第 695 个数据未匹配到足够的内容，重新提问...
Processing batch 88...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 698 个数据未匹配到足够的内容，重新提问...
第 699 个数据未匹配到足够的内容，重新提问...
第 700 个数据未匹配到足够的内容，重新提问...
第 702 个数据未匹配到足够的内容，重新提问...
Processing batch 89...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 704 个数据未匹配到足够的内容，重新提问...
第 705 个数据未匹配到足够的内容，重新提问...
第 706 个数据未匹配到足够的内容，重新提问...
第 709 个数据未匹配到足够的内容，重新提问...
第 711 个数据未匹配到足够的内容，重新提问...
Processing batch 90...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 713 个数据未匹配到足够的内容，重新提问...
第 714 个数据未匹配到足够的内容，重新提问...
第 715 个数据未匹配到足够的内容，重新提问...
第 716 个数据未匹配到足够的内容，重新提问...
第 718 个数据未匹配到足够的内容，重新提问...
Processing batch 91...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 720 个数据未匹配到足够的内容，重新提问...
第 724 个数据未匹配到足够的内容，重新提问...
第 726 个数据未匹配到足够的内容，重新提问...
Processing batch 92...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 729 个数据未匹配到足够的内容，重新提问...
第 730 个数据未匹配到足够的内容，重新提问...
第 731 个数据未匹配到足够的内容，重新提问...
第 732 个数据未匹配到足够的内容，重新提问...
第 733 个数据未匹配到足够的内容，重新提问...
第 734 个数据未匹配到足够的内容，重新提问...
第 735 个数据未匹配到足够的内容，重新提问...
Processing batch 93...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 737 个数据未匹配到足够的内容，重新提问...
第 738 个数据未匹配到足够的内容，重新提问...
第 740 个数据未匹配到足够的内容，重新提问...
第 741 个数据未匹配到足够的内容，重新提问...
第 743 个数据未匹配到足够的内容，重新提问...
Processing batch 94...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 748 个数据未匹配到足够的内容，重新提问...
第 749 个数据未匹配到足够的内容，重新提问...
第 751 个数据未匹配到足够的内容，重新提问...
Processing batch 95...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 752 个数据未匹配到足够的内容，重新提问...
第 756 个数据未匹配到足够的内容，重新提问...
第 759 个数据未匹配到足够的内容，重新提问...
Processing batch 96...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 760 个数据未匹配到足够的内容，重新提问...
第 762 个数据未匹配到足够的内容，重新提问...
第 764 个数据未匹配到足够的内容，重新提问...
第 765 个数据未匹配到足够的内容，重新提问...
第 766 个数据未匹配到足够的内容，重新提问...
第 767 个数据未匹配到足够的内容，重新提问...
Processing batch 97...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 768 个数据未匹配到足够的内容，重新提问...
第 772 个数据未匹配到足够的内容，重新提问...
第 773 个数据未匹配到足够的内容，重新提问...
第 775 个数据未匹配到足够的内容，重新提问...
Processing batch 98...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 776 个数据未匹配到足够的内容，重新提问...
第 778 个数据未匹配到足够的内容，重新提问...
第 779 个数据未匹配到足够的内容，重新提问...
第 780 个数据未匹配到足够的内容，重新提问...
第 781 个数据未匹配到足够的内容，重新提问...
第 782 个数据未匹配到足够的内容，重新提问...
Processing batch 99...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 785 个数据未匹配到足够的内容，重新提问...
第 786 个数据未匹配到足够的内容，重新提问...
第 787 个数据未匹配到足够的内容，重新提问...
第 788 个数据未匹配到足够的内容，重新提问...
第 790 个数据未匹配到足够的内容，重新提问...
第 791 个数据未匹配到足够的内容，重新提问...
Processing batch 100...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 792 个数据未匹配到足够的内容，重新提问...
第 794 个数据未匹配到足够的内容，重新提问...
第 796 个数据未匹配到足够的内容，重新提问...
第 797 个数据未匹配到足够的内容，重新提问...
第 798 个数据未匹配到足够的内容，重新提问...
Processing batch 101...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 800 个数据未匹配到足够的内容，重新提问...
第 802 个数据未匹配到足够的内容，重新提问...
第 804 个数据未匹配到足够的内容，重新提问...
第 806 个数据未匹配到足够的内容，重新提问...
Processing batch 102...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 810 个数据未匹配到足够的内容，重新提问...
第 811 个数据未匹配到足够的内容，重新提问...
第 812 个数据未匹配到足够的内容，重新提问...
Processing batch 103...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 816 个数据未匹配到足够的内容，重新提问...
第 817 个数据未匹配到足够的内容，重新提问...
第 818 个数据未匹配到足够的内容，重新提问...
第 820 个数据未匹配到足够的内容，重新提问...
第 821 个数据未匹配到足够的内容，重新提问...
第 822 个数据未匹配到足够的内容，重新提问...
第 823 个数据未匹配到足够的内容，重新提问...
Processing batch 104...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 825 个数据未匹配到足够的内容，重新提问...
第 826 个数据未匹配到足够的内容，重新提问...
第 827 个数据未匹配到足够的内容，重新提问...
第 828 个数据未匹配到足够的内容，重新提问...
第 831 个数据未匹配到足够的内容，重新提问...
Processing batch 105...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 832 个数据未匹配到足够的内容，重新提问...
第 835 个数据未匹配到足够的内容，重新提问...
第 836 个数据未匹配到足够的内容，重新提问...
第 837 个数据未匹配到足够的内容，重新提问...
Processing batch 106...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 840 个数据未匹配到足够的内容，重新提问...
第 842 个数据未匹配到足够的内容，重新提问...
第 845 个数据未匹配到足够的内容，重新提问...
第 846 个数据未匹配到足够的内容，重新提问...
Processing batch 107...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 848 个数据未匹配到足够的内容，重新提问...
第 849 个数据未匹配到足够的内容，重新提问...
第 850 个数据未匹配到足够的内容，重新提问...
第 851 个数据未匹配到足够的内容，重新提问...
第 852 个数据未匹配到足够的内容，重新提问...
第 853 个数据未匹配到足够的内容，重新提问...
第 854 个数据未匹配到足够的内容，重新提问...
第 855 个数据未匹配到足够的内容，重新提问...
Processing batch 108...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 856 个数据未匹配到足够的内容，重新提问...
第 857 个数据未匹配到足够的内容，重新提问...
第 858 个数据未匹配到足够的内容，重新提问...
第 859 个数据未匹配到足够的内容，重新提问...
第 860 个数据未匹配到足够的内容，重新提问...
第 861 个数据未匹配到足够的内容，重新提问...
第 862 个数据未匹配到足够的内容，重新提问...
Processing batch 109...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 865 个数据未匹配到足够的内容，重新提问...
第 866 个数据未匹配到足够的内容，重新提问...
第 868 个数据未匹配到足够的内容，重新提问...
第 869 个数据未匹配到足够的内容，重新提问...
第 870 个数据未匹配到足够的内容，重新提问...
第 871 个数据未匹配到足够的内容，重新提问...
Processing batch 110...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 872 个数据未匹配到足够的内容，重新提问...
第 875 个数据未匹配到足够的内容，重新提问...
第 876 个数据未匹配到足够的内容，重新提问...
第 878 个数据未匹配到足够的内容，重新提问...
第 879 个数据未匹配到足够的内容，重新提问...
Processing batch 111...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 881 个数据未匹配到足够的内容，重新提问...
第 882 个数据未匹配到足够的内容，重新提问...
第 883 个数据未匹配到足够的内容，重新提问...
第 884 个数据未匹配到足够的内容，重新提问...
第 885 个数据未匹配到足够的内容，重新提问...
第 887 个数据未匹配到足够的内容，重新提问...
Processing batch 112...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 888 个数据未匹配到足够的内容，重新提问...
第 890 个数据未匹配到足够的内容，重新提问...
第 892 个数据未匹配到足够的内容，重新提问...
第 895 个数据未匹配到足够的内容，重新提问...
Processing batch 113...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 896 个数据未匹配到足够的内容，重新提问...
第 898 个数据未匹配到足够的内容，重新提问...
第 899 个数据未匹配到足够的内容，重新提问...
第 900 个数据未匹配到足够的内容，重新提问...
第 901 个数据未匹配到足够的内容，重新提问...
第 902 个数据未匹配到足够的内容，重新提问...
第 903 个数据未匹配到足够的内容，重新提问...
Processing batch 114...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 904 个数据未匹配到足够的内容，重新提问...
第 906 个数据未匹配到足够的内容，重新提问...
第 907 个数据未匹配到足够的内容，重新提问...
第 909 个数据未匹配到足够的内容，重新提问...
Processing batch 115...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 914 个数据未匹配到足够的内容，重新提问...
Processing batch 116...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 920 个数据未匹配到足够的内容，重新提问...
第 922 个数据未匹配到足够的内容，重新提问...
第 923 个数据未匹配到足够的内容，重新提问...
第 925 个数据未匹配到足够的内容，重新提问...
Processing batch 117...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 928 个数据未匹配到足够的内容，重新提问...
第 929 个数据未匹配到足够的内容，重新提问...
第 930 个数据未匹配到足够的内容，重新提问...
第 931 个数据未匹配到足够的内容，重新提问...
第 934 个数据未匹配到足够的内容，重新提问...
Processing batch 118...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 936 个数据未匹配到足够的内容，重新提问...
第 937 个数据未匹配到足够的内容，重新提问...
第 938 个数据未匹配到足够的内容，重新提问...
第 939 个数据未匹配到足够的内容，重新提问...
第 940 个数据未匹配到足够的内容，重新提问...
第 942 个数据未匹配到足够的内容，重新提问...
第 943 个数据未匹配到足够的内容，重新提问...
Processing batch 119...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 944 个数据未匹配到足够的内容，重新提问...
第 945 个数据未匹配到足够的内容，重新提问...
第 946 个数据未匹配到足够的内容，重新提问...
第 947 个数据未匹配到足够的内容，重新提问...
第 948 个数据未匹配到足够的内容，重新提问...
第 950 个数据未匹配到足够的内容，重新提问...
Processing batch 120...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 952 个数据未匹配到足够的内容，重新提问...
第 953 个数据未匹配到足够的内容，重新提问...
第 954 个数据未匹配到足够的内容，重新提问...
第 955 个数据未匹配到足够的内容，重新提问...
第 956 个数据未匹配到足够的内容，重新提问...
第 957 个数据未匹配到足够的内容，重新提问...
第 959 个数据未匹配到足够的内容，重新提问...
Processing batch 121...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 960 个数据未匹配到足够的内容，重新提问...
第 965 个数据未匹配到足够的内容，重新提问...
Processing batch 122...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 969 个数据未匹配到足够的内容，重新提问...
第 971 个数据未匹配到足够的内容，重新提问...
第 974 个数据未匹配到足够的内容，重新提问...
第 975 个数据未匹配到足够的内容，重新提问...
Processing batch 123...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 978 个数据未匹配到足够的内容，重新提问...
第 979 个数据未匹配到足够的内容，重新提问...
第 980 个数据未匹配到足够的内容，重新提问...
第 981 个数据未匹配到足够的内容，重新提问...
Processing batch 124...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 984 个数据未匹配到足够的内容，重新提问...
第 985 个数据未匹配到足够的内容，重新提问...
第 986 个数据未匹配到足够的内容，重新提问...
第 988 个数据未匹配到足够的内容，重新提问...
第 991 个数据未匹配到足够的内容，重新提问...
Processing batch 125...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 992 个数据未匹配到足够的内容，重新提问...
第 995 个数据未匹配到足够的内容，重新提问...
第 996 个数据未匹配到足够的内容，重新提问...
第 997 个数据未匹配到足够的内容，重新提问...
Processing batch 126...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1001 个数据未匹配到足够的内容，重新提问...
第 1006 个数据未匹配到足够的内容，重新提问...
Processing batch 127...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1009 个数据未匹配到足够的内容，重新提问...
第 1010 个数据未匹配到足够的内容，重新提问...
第 1011 个数据未匹配到足够的内容，重新提问...
第 1013 个数据未匹配到足够的内容，重新提问...
Processing batch 128...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1017 个数据未匹配到足够的内容，重新提问...
第 1018 个数据未匹配到足够的内容，重新提问...
第 1019 个数据未匹配到足够的内容，重新提问...
第 1020 个数据未匹配到足够的内容，重新提问...
第 1021 个数据未匹配到足够的内容，重新提问...
第 1022 个数据未匹配到足够的内容，重新提问...
第 1023 个数据未匹配到足够的内容，重新提问...
Processing batch 129...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1024 个数据未匹配到足够的内容，重新提问...
第 1025 个数据未匹配到足够的内容，重新提问...
第 1026 个数据未匹配到足够的内容，重新提问...
第 1029 个数据未匹配到足够的内容，重新提问...
第 1030 个数据未匹配到足够的内容，重新提问...
Processing batch 130...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1032 个数据未匹配到足够的内容，重新提问...
第 1036 个数据未匹配到足够的内容，重新提问...
第 1038 个数据未匹配到足够的内容，重新提问...
Processing batch 131...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1040 个数据未匹配到足够的内容，重新提问...
第 1041 个数据未匹配到足够的内容，重新提问...
第 1045 个数据未匹配到足够的内容，重新提问...
Processing batch 132...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1048 个数据未匹配到足够的内容，重新提问...
第 1051 个数据未匹配到足够的内容，重新提问...
第 1052 个数据未匹配到足够的内容，重新提问...
第 1053 个数据未匹配到足够的内容，重新提问...
Processing batch 133...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1056 个数据未匹配到足够的内容，重新提问...
第 1059 个数据未匹配到足够的内容，重新提问...
第 1061 个数据未匹配到足够的内容，重新提问...
第 1062 个数据未匹配到足够的内容，重新提问...
Processing batch 134...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1066 个数据未匹配到足够的内容，重新提问...
第 1068 个数据未匹配到足够的内容，重新提问...
第 1069 个数据未匹配到足够的内容，重新提问...
第 1071 个数据未匹配到足够的内容，重新提问...
Processing batch 135...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1072 个数据未匹配到足够的内容，重新提问...
第 1074 个数据未匹配到足够的内容，重新提问...
第 1076 个数据未匹配到足够的内容，重新提问...
第 1078 个数据未匹配到足够的内容，重新提问...
第 1079 个数据未匹配到足够的内容，重新提问...
Processing batch 136...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1080 个数据未匹配到足够的内容，重新提问...
第 1081 个数据未匹配到足够的内容，重新提问...
第 1082 个数据未匹配到足够的内容，重新提问...
第 1083 个数据未匹配到足够的内容，重新提问...
第 1085 个数据未匹配到足够的内容，重新提问...
第 1086 个数据未匹配到足够的内容，重新提问...
第 1087 个数据未匹配到足够的内容，重新提问...
Processing batch 137...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1088 个数据未匹配到足够的内容，重新提问...
第 1091 个数据未匹配到足够的内容，重新提问...
第 1093 个数据未匹配到足够的内容，重新提问...
Processing batch 138...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1096 个数据未匹配到足够的内容，重新提问...
第 1097 个数据未匹配到足够的内容，重新提问...
第 1099 个数据未匹配到足够的内容，重新提问...
第 1102 个数据未匹配到足够的内容，重新提问...
Processing batch 139...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1107 个数据未匹配到足够的内容，重新提问...
第 1108 个数据未匹配到足够的内容，重新提问...
第 1109 个数据未匹配到足够的内容，重新提问...
第 1110 个数据未匹配到足够的内容，重新提问...
第 1111 个数据未匹配到足够的内容，重新提问...
Processing batch 140...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1112 个数据未匹配到足够的内容，重新提问...
第 1113 个数据未匹配到足够的内容，重新提问...
第 1117 个数据未匹配到足够的内容，重新提问...
Processing batch 141...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1121 个数据未匹配到足够的内容，重新提问...
第 1122 个数据未匹配到足够的内容，重新提问...
第 1123 个数据未匹配到足够的内容，重新提问...
第 1126 个数据未匹配到足够的内容，重新提问...
第 1127 个数据未匹配到足够的内容，重新提问...
Processing batch 142...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1128 个数据未匹配到足够的内容，重新提问...
第 1129 个数据未匹配到足够的内容，重新提问...
第 1131 个数据未匹配到足够的内容，重新提问...
第 1132 个数据未匹配到足够的内容，重新提问...
Processing batch 143...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1138 个数据未匹配到足够的内容，重新提问...
第 1140 个数据未匹配到足够的内容，重新提问...
第 1142 个数据未匹配到足够的内容，重新提问...
第 1143 个数据未匹配到足够的内容，重新提问...
Processing batch 144...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1145 个数据未匹配到足够的内容，重新提问...
第 1146 个数据未匹配到足够的内容，重新提问...
第 1147 个数据未匹配到足够的内容，重新提问...
第 1148 个数据未匹配到足够的内容，重新提问...
第 1149 个数据未匹配到足够的内容，重新提问...
第 1150 个数据未匹配到足够的内容，重新提问...
Processing batch 145...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1152 个数据未匹配到足够的内容，重新提问...
第 1153 个数据未匹配到足够的内容，重新提问...
第 1155 个数据未匹配到足够的内容，重新提问...
第 1159 个数据未匹配到足够的内容，重新提问...
Processing batch 146...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1160 个数据未匹配到足够的内容，重新提问...
第 1162 个数据未匹配到足够的内容，重新提问...
第 1163 个数据未匹配到足够的内容，重新提问...
第 1164 个数据未匹配到足够的内容，重新提问...
第 1165 个数据未匹配到足够的内容，重新提问...
第 1166 个数据未匹配到足够的内容，重新提问...
第 1167 个数据未匹配到足够的内容，重新提问...
Processing batch 147...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1171 个数据未匹配到足够的内容，重新提问...
第 1172 个数据未匹配到足够的内容，重新提问...
第 1173 个数据未匹配到足够的内容，重新提问...
第 1175 个数据未匹配到足够的内容，重新提问...
Processing batch 148...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1176 个数据未匹配到足够的内容，重新提问...
第 1177 个数据未匹配到足够的内容，重新提问...
第 1178 个数据未匹配到足够的内容，重新提问...
第 1179 个数据未匹配到足够的内容，重新提问...
第 1180 个数据未匹配到足够的内容，重新提问...
第 1183 个数据未匹配到足够的内容，重新提问...
Processing batch 149...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1185 个数据未匹配到足够的内容，重新提问...
第 1188 个数据未匹配到足够的内容，重新提问...
第 1190 个数据未匹配到足够的内容，重新提问...
第 1191 个数据未匹配到足够的内容，重新提问...
Processing batch 150...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1192 个数据未匹配到足够的内容，重新提问...
第 1193 个数据未匹配到足够的内容，重新提问...
第 1194 个数据未匹配到足够的内容，重新提问...
第 1195 个数据未匹配到足够的内容，重新提问...
第 1196 个数据未匹配到足够的内容，重新提问...
第 1198 个数据未匹配到足够的内容，重新提问...
第 1199 个数据未匹配到足够的内容，重新提问...
Processing batch 151...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1200 个数据未匹配到足够的内容，重新提问...
第 1202 个数据未匹配到足够的内容，重新提问...
第 1203 个数据未匹配到足够的内容，重新提问...
第 1204 个数据未匹配到足够的内容，重新提问...
第 1205 个数据未匹配到足够的内容，重新提问...
第 1206 个数据未匹配到足够的内容，重新提问...
Processing batch 152...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1208 个数据未匹配到足够的内容，重新提问...
第 1209 个数据未匹配到足够的内容，重新提问...
第 1210 个数据未匹配到足够的内容，重新提问...
第 1212 个数据未匹配到足够的内容，重新提问...
第 1213 个数据未匹配到足够的内容，重新提问...
第 1214 个数据未匹配到足够的内容，重新提问...
第 1215 个数据未匹配到足够的内容，重新提问...
Processing batch 153...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1217 个数据未匹配到足够的内容，重新提问...
第 1218 个数据未匹配到足够的内容，重新提问...
第 1219 个数据未匹配到足够的内容，重新提问...
第 1220 个数据未匹配到足够的内容，重新提问...
第 1221 个数据未匹配到足够的内容，重新提问...
第 1223 个数据未匹配到足够的内容，重新提问...
Processing batch 154...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1224 个数据未匹配到足够的内容，重新提问...
第 1225 个数据未匹配到足够的内容，重新提问...
第 1226 个数据未匹配到足够的内容，重新提问...
第 1229 个数据未匹配到足够的内容，重新提问...
Processing batch 155...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1232 个数据未匹配到足够的内容，重新提问...
第 1233 个数据未匹配到足够的内容，重新提问...
第 1234 个数据未匹配到足够的内容，重新提问...
第 1236 个数据未匹配到足够的内容，重新提问...
第 1237 个数据未匹配到足够的内容，重新提问...
第 1238 个数据未匹配到足够的内容，重新提问...
第 1239 个数据未匹配到足够的内容，重新提问...
Processing batch 156...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1240 个数据未匹配到足够的内容，重新提问...
第 1241 个数据未匹配到足够的内容，重新提问...
第 1243 个数据未匹配到足够的内容，重新提问...
第 1244 个数据未匹配到足够的内容，重新提问...
第 1245 个数据未匹配到足够的内容，重新提问...
第 1247 个数据未匹配到足够的内容，重新提问...
Processing batch 157...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1249 个数据未匹配到足够的内容，重新提问...
第 1250 个数据未匹配到足够的内容，重新提问...
第 1251 个数据未匹配到足够的内容，重新提问...
第 1252 个数据未匹配到足够的内容，重新提问...
第 1253 个数据未匹配到足够的内容，重新提问...
Processing batch 158...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1256 个数据未匹配到足够的内容，重新提问...
第 1257 个数据未匹配到足够的内容，重新提问...
第 1258 个数据未匹配到足够的内容，重新提问...
第 1260 个数据未匹配到足够的内容，重新提问...
第 1261 个数据未匹配到足够的内容，重新提问...
第 1262 个数据未匹配到足够的内容，重新提问...
第 1263 个数据未匹配到足够的内容，重新提问...
Processing batch 159...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1266 个数据未匹配到足够的内容，重新提问...
第 1267 个数据未匹配到足够的内容，重新提问...
第 1270 个数据未匹配到足够的内容，重新提问...
第 1271 个数据未匹配到足够的内容，重新提问...
Processing batch 160...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1272 个数据未匹配到足够的内容，重新提问...
第 1273 个数据未匹配到足够的内容，重新提问...
第 1275 个数据未匹配到足够的内容，重新提问...
第 1278 个数据未匹配到足够的内容，重新提问...
第 1279 个数据未匹配到足够的内容，重新提问...
Processing batch 161...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1280 个数据未匹配到足够的内容，重新提问...
第 1282 个数据未匹配到足够的内容，重新提问...
第 1283 个数据未匹配到足够的内容，重新提问...
第 1285 个数据未匹配到足够的内容，重新提问...
第 1286 个数据未匹配到足够的内容，重新提问...
第 1287 个数据未匹配到足够的内容，重新提问...
Processing batch 162...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1288 个数据未匹配到足够的内容，重新提问...
第 1289 个数据未匹配到足够的内容，重新提问...
第 1290 个数据未匹配到足够的内容，重新提问...
第 1292 个数据未匹配到足够的内容，重新提问...
第 1294 个数据未匹配到足够的内容，重新提问...
Processing batch 163...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1296 个数据未匹配到足够的内容，重新提问...
第 1297 个数据未匹配到足够的内容，重新提问...
第 1299 个数据未匹配到足够的内容，重新提问...
第 1301 个数据未匹配到足够的内容，重新提问...
第 1303 个数据未匹配到足够的内容，重新提问...
Processing batch 164...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1304 个数据未匹配到足够的内容，重新提问...
第 1305 个数据未匹配到足够的内容，重新提问...
第 1306 个数据未匹配到足够的内容，重新提问...
第 1307 个数据未匹配到足够的内容，重新提问...
第 1308 个数据未匹配到足够的内容，重新提问...
第 1309 个数据未匹配到足够的内容，重新提问...
第 1310 个数据未匹配到足够的内容，重新提问...
Processing batch 165...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1313 个数据未匹配到足够的内容，重新提问...
第 1315 个数据未匹配到足够的内容，重新提问...
Processing batch 166...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1320 个数据未匹配到足够的内容，重新提问...
第 1321 个数据未匹配到足够的内容，重新提问...
第 1323 个数据未匹配到足够的内容，重新提问...
第 1324 个数据未匹配到足够的内容，重新提问...
第 1325 个数据未匹配到足够的内容，重新提问...
第 1326 个数据未匹配到足够的内容，重新提问...
Processing batch 167...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1328 个数据未匹配到足够的内容，重新提问...
第 1329 个数据未匹配到足够的内容，重新提问...
第 1330 个数据未匹配到足够的内容，重新提问...
第 1331 个数据未匹配到足够的内容，重新提问...
第 1332 个数据未匹配到足够的内容，重新提问...
第 1333 个数据未匹配到足够的内容，重新提问...
第 1335 个数据未匹配到足够的内容，重新提问...
Processing batch 168...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1336 个数据未匹配到足够的内容，重新提问...
第 1338 个数据未匹配到足够的内容，重新提问...
第 1339 个数据未匹配到足够的内容，重新提问...
第 1340 个数据未匹配到足够的内容，重新提问...
第 1341 个数据未匹配到足够的内容，重新提问...
第 1342 个数据未匹配到足够的内容，重新提问...
第 1343 个数据未匹配到足够的内容，重新提问...
Processing batch 169...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1344 个数据未匹配到足够的内容，重新提问...
第 1346 个数据未匹配到足够的内容，重新提问...
第 1347 个数据未匹配到足够的内容，重新提问...
第 1348 个数据未匹配到足够的内容，重新提问...
第 1350 个数据未匹配到足够的内容，重新提问...
第 1351 个数据未匹配到足够的内容，重新提问...
Processing batch 170...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1353 个数据未匹配到足够的内容，重新提问...
第 1354 个数据未匹配到足够的内容，重新提问...
第 1356 个数据未匹配到足够的内容，重新提问...
第 1357 个数据未匹配到足够的内容，重新提问...
Processing batch 171...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1361 个数据未匹配到足够的内容，重新提问...
第 1362 个数据未匹配到足够的内容，重新提问...
第 1365 个数据未匹配到足够的内容，重新提问...
第 1367 个数据未匹配到足够的内容，重新提问...
Processing batch 172...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1368 个数据未匹配到足够的内容，重新提问...
第 1370 个数据未匹配到足够的内容，重新提问...
第 1371 个数据未匹配到足够的内容，重新提问...
第 1372 个数据未匹配到足够的内容，重新提问...
第 1374 个数据未匹配到足够的内容，重新提问...
第 1375 个数据未匹配到足够的内容，重新提问...
Processing batch 173...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1377 个数据未匹配到足够的内容，重新提问...
第 1379 个数据未匹配到足够的内容，重新提问...
第 1381 个数据未匹配到足够的内容，重新提问...
Processing batch 174...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1384 个数据未匹配到足够的内容，重新提问...
第 1386 个数据未匹配到足够的内容，重新提问...
第 1387 个数据未匹配到足够的内容，重新提问...
第 1388 个数据未匹配到足够的内容，重新提问...
第 1389 个数据未匹配到足够的内容，重新提问...
第 1390 个数据未匹配到足够的内容，重新提问...
Processing batch 175...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1393 个数据未匹配到足够的内容，重新提问...
第 1397 个数据未匹配到足够的内容，重新提问...
第 1398 个数据未匹配到足够的内容，重新提问...
Processing batch 176...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1400 个数据未匹配到足够的内容，重新提问...
第 1402 个数据未匹配到足够的内容，重新提问...
第 1404 个数据未匹配到足够的内容，重新提问...
第 1405 个数据未匹配到足够的内容，重新提问...
第 1406 个数据未匹配到足够的内容，重新提问...
第 1407 个数据未匹配到足够的内容，重新提问...
Processing batch 177...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1408 个数据未匹配到足够的内容，重新提问...
第 1410 个数据未匹配到足够的内容，重新提问...
第 1411 个数据未匹配到足够的内容，重新提问...
第 1415 个数据未匹配到足够的内容，重新提问...
Processing batch 178...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1416 个数据未匹配到足够的内容，重新提问...
第 1417 个数据未匹配到足够的内容，重新提问...
第 1421 个数据未匹配到足够的内容，重新提问...
Processing batch 179...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1424 个数据未匹配到足够的内容，重新提问...
第 1425 个数据未匹配到足够的内容，重新提问...
第 1426 个数据未匹配到足够的内容，重新提问...
第 1430 个数据未匹配到足够的内容，重新提问...
第 1431 个数据未匹配到足够的内容，重新提问...
Processing batch 180...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1432 个数据未匹配到足够的内容，重新提问...
第 1436 个数据未匹配到足够的内容，重新提问...
第 1438 个数据未匹配到足够的内容，重新提问...
Processing batch 181...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1440 个数据未匹配到足够的内容，重新提问...
第 1442 个数据未匹配到足够的内容，重新提问...
第 1444 个数据未匹配到足够的内容，重新提问...
第 1445 个数据未匹配到足够的内容，重新提问...
第 1446 个数据未匹配到足够的内容，重新提问...
第 1447 个数据未匹配到足够的内容，重新提问...
Processing batch 182...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1448 个数据未匹配到足够的内容，重新提问...
第 1449 个数据未匹配到足够的内容，重新提问...
第 1451 个数据未匹配到足够的内容，重新提问...
第 1453 个数据未匹配到足够的内容，重新提问...
第 1454 个数据未匹配到足够的内容，重新提问...
Processing batch 183...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1456 个数据未匹配到足够的内容，重新提问...
第 1458 个数据未匹配到足够的内容，重新提问...
第 1459 个数据未匹配到足够的内容，重新提问...
第 1460 个数据未匹配到足够的内容，重新提问...
第 1461 个数据未匹配到足够的内容，重新提问...
Processing batch 184...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1464 个数据未匹配到足够的内容，重新提问...
第 1465 个数据未匹配到足够的内容，重新提问...
第 1466 个数据未匹配到足够的内容，重新提问...
第 1467 个数据未匹配到足够的内容，重新提问...
第 1468 个数据未匹配到足够的内容，重新提问...
第 1469 个数据未匹配到足够的内容，重新提问...
第 1470 个数据未匹配到足够的内容，重新提问...
第 1471 个数据未匹配到足够的内容，重新提问...
Processing batch 185...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1472 个数据未匹配到足够的内容，重新提问...
第 1474 个数据未匹配到足够的内容，重新提问...
第 1476 个数据未匹配到足够的内容，重新提问...
第 1479 个数据未匹配到足够的内容，重新提问...
Processing batch 186...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1480 个数据未匹配到足够的内容，重新提问...
第 1481 个数据未匹配到足够的内容，重新提问...
第 1482 个数据未匹配到足够的内容，重新提问...
第 1483 个数据未匹配到足够的内容，重新提问...
第 1484 个数据未匹配到足够的内容，重新提问...
第 1486 个数据未匹配到足够的内容，重新提问...
第 1487 个数据未匹配到足够的内容，重新提问...
Processing batch 187...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1490 个数据未匹配到足够的内容，重新提问...
第 1491 个数据未匹配到足够的内容，重新提问...
第 1492 个数据未匹配到足够的内容，重新提问...
第 1495 个数据未匹配到足够的内容，重新提问...
Processing batch 188...


A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


第 1497 个数据未匹配到足够的内容，重新提问...
第 1498 个数据未匹配到足够的内容，重新提问...
第 1499 个数据未匹配到足够的内容，重新提问...
第 1500 个数据未匹配到足够的内容，重新提问...
第 1501 个数据未匹配到足够的内容，重新提问...
第 1502 个数据未匹配到足够的内容，重新提问...
第 1503 个数据未匹配到足够的内容，重新提问...
Processing batch 189...


OutOfMemoryError: CUDA out of memory. Tried to allocate 3.34 GiB. GPU 

In [1]:
import json
import evaluate

# 从文件中读取数据
with open('predictions.json', 'r') as f:
    all_pre = json.load(f)

with open('references.json', 'r') as f:
    all_answer = json.load(f)

# 确保数据已经正确读取
print(f"Number of predictions: {len(all_pre)}")
print(f"Number of references: {len(all_answer)}")

# 加载 ROUGE 评估器
rouge = evaluate.load('rouge')

# 计算 ROUGE 分数
results = rouge.compute(predictions=all_pre, references=all_answer)

# 输出结果
print("ROUGE Scores:")
print(f"ROUGE-1: {results['rouge1']:.4f}")
print(f"ROUGE-2: {results['rouge2']:.4f}")
print(f"ROUGE-L: {results['rougeL']:.4f}")

Number of predictions: 584
Number of references: 584
ROUGE Scores:
ROUGE-1: 0.0526
ROUGE-2: 0.0113
ROUGE-L: 0.0535


### 神经网络模型与LLM在NER任务上的对比
本质上：一个是分类器 一个是生成模型
在训练过程中
* LLM F1-macro  
  * 数次实验都低于 0.1；调整prompt并没有起到很好的效果；很大取决于模型能力与提示词的引导
  * 在预训练模型上，只需要少量数据，就可以达到一定效果,但整体效果不如BiLSTM模型
  * 泛化能力强，自身携带大量的知识，但是基于Prompt输出效果的提高具有随机性，是一个黑盒
  * 需要确定最后的输出内容，然后通过数据处理手段去提取生成的答案
  * 生成答案的长度也有可能与序列不一致，需要去调整，这是大模型本身就存在的问题，对数字不敏感
* BiLSTM模型 F1-macro 0.7
  * 需要大量数据训练
  * 在固定任务上，有明确的优化目标，更能够去调试模型
  * 结果明确，可以直接使用

根据先前的实验结果，有以下对比：

| 特性                    | BiLSTM                      | LLM + Prompt                  |
|-----------------------|--------------------------------------------|--------------------------------------------|
| **模型结构**          | Glove + BiLSTM      **分类模型**            | Qwen  **生成式模型**      |
| **输入数据处理**      | 需要标签化数据，配合词嵌入        |依赖 tokenizer 将文本转为 token 序列，再引导生成基于上下文的输出        |
| **特征提取方式**      | 预训练嵌入向量，已经LSTM提取语义             | 自动从上下文中提取特征，无需手动特征设计      |
| **训练复杂度**        | 较低，参数量相对较少，易于调参               | 非常高，参数量大，依赖大规模计算资源        |
| **训练数据需求**      | 需要大量标签数据以提高效果                   | 可以通过few-shot并配合 prompt 调整效果，少量数据更强   |
| **推理速度**          | 快速，适合实时应用                           | 较慢，尤其是在大型模型情况下                 |
| **适应性**            | 针对任务训练，较难泛化到其他任务              | 通过 prompt 调整，具备一定的跨任务泛化能力   |
| **性能**              | 表现稳定，准确性依赖于标注数据和训练         | 数据稀少情况下，由于自身的知识更多，比LSTM表现好，整体上准确率提高太依赖prompt了，有随机性       |
| **输出控制**          | 明确控制输出，通过模型结构和损失函数调节       | 通过 prompt 控制输出，灵活性较高但难于完全控制；需要最后通过数据处理手段去提取答案 |
| **解释性**            | 结构清晰，易于理解输出和调试                 | 黑盒性强，输出依赖模型内部推断过程           |
| **资源需求**          | 资源需求相对较低                             | 资源需求大，需要 GPU 等计算设备支持         |



### 总结
#### 结果
* NER 
  * Test1
    F1 Score: 0.0239
  * Test2
    F1 Score: 0.0344
    
* Summary
  * Test1
    ROUGE Scores:
    ROUGE-1: 0.0695
    ROUGE-2: 0.0099
    ROUGE-L: 0.0690
  * Test2
    ROUGE Scores:
    ROUGE-1: 0.0526
    ROUGE-2: 0.0113
    ROUGE-L: 0.0535
#### 想法
* 预训练模型能力很大决定了任务的效果上限，GPT3.5输出的结果明显比Qwen更符合要求
* prompt只能起到锦上添花的作用，总不能让奔波儿灞去除掉唐僧师徒吧；GPT3.5都干不好的活，Qwen 0.5b....
* prompt可能会起到反作用 ，例如NER任务的例子第一个tag是S-PRE，那么很容易的结果的第一个就会被引导成S-PRE
* 微调模型需要更为细致的数据集分配，粗糙的数据集可以让模型输出内容更符合要求，但质量不一定能提高
* 训练模型需要的资源太大了，Cuda OOM 真的让人痛苦
* 对固定的NLP任务，传统方法是具有一定优势的，而大模型泛化能力更强
  