### 2.2.1 微调任务数据集

In [1]:
import json
import codecs
import re
from tqdm import tqdm
import os

# 加载文件内容
def load_json_file(file_path):
    with codecs.open(file_path, "r", "utf-8") as f:
        return json.load(f)

def load_txt_file(file_path):
    with open(file_path, "r", encoding="utf-8") as f:
        return [line.strip() for line in f]

# 提取对话问答对
def extract_conversations(dialog_list, dialog_ids):
    qa_pairs = []
    for dialog in tqdm(dialog_list, desc="Extracting Conversations"):
        if dialog["dialog_id"] in dialog_ids:
            content = dialog["content"]
            # 确保对话轮数为偶数（问答成对出现）
            if len(content) % 2 == 0:
                for i in range(0, len(content), 2):
                    question = content[i].strip()
                    answer = content[i + 1].strip()
                    qa_pairs.append({"question": question, "answer": answer})
    return qa_pairs


# 主函数
def prepare_naturalconv_data(dialog_file, train_ids_file, dev_ids_file, test_ids_file, output_dir):
    # 加载对话和 id 列表
    dialog_list = load_json_file(dialog_file)
    train_ids = load_txt_file(train_ids_file)
    dev_ids = load_txt_file(dev_ids_file)
    test_ids = load_txt_file(test_ids_file)

    # 提取训练、验证和测试集的问答对
    train_data = extract_conversations(dialog_list, train_ids)
    dev_data = extract_conversations(dialog_list, dev_ids)
    test_data = extract_conversations(dialog_list, test_ids)

    return train_data, dev_data, test_data

# 调用主函数
if __name__ == "__main__":
    dialog_file = "data/chatdata/dialog_release.json"
    train_ids_file = "data/chatdata/train.txt"
    dev_ids_file = "data/chatdata/dev.txt"
    test_ids_file = "data/chatdata/test.txt"
    output_dir = "data/chatdata/output"
    dialog_list = load_json_file(dialog_file)
    train_ids = load_txt_file(train_ids_file)
    train_data = extract_conversations(dialog_list, train_ids)
    print(train_data[:40])
    print(len(train_data))

    train_data, dev_data, test_data = prepare_naturalconv_data(dialog_file, train_ids_file, dev_ids_file, test_ids_file, output_dir)


Extracting Conversations: 100%|███████████████████████████████████████████████| 19919/19919 [00:01<00:00, 16346.60it/s]


[{'question': '嗨！', 'answer': '你好。'}, {'question': '你最近有听说过《中国女排》这部电影嘛？', 'answer': '不好意思唉，我已经很久没有去关注电影了，你可以给我讲述一下这是什么电影嘛。'}, {'question': '当然可以了，这部片子主要是讲述了女排这些年的历史，而且听说这部戏里面的郎平教练会是巩俐来出演。', 'answer': '真的啊，我觉得我都好久没有看过巩俐的电影了，我突然好期待这部电影啊。'}, {'question': '是呀，我觉得这部《中国女排》应该能拿下很高的收视率。', 'answer': '肯定会的，毕竟这也是中宣部与国家体育总局联合拍摄，肯定是会很好看的。'}, {'question': '也是哈，毕竟后面还有国家呢，应该也不会差到哪里去的。', 'answer': '哎呀，你这说我真的好期待的啊。'}, {'question': '嘿嘿，好像在过年的时候就会上映，也没有多久了。', 'answer': '也是哈，不过我听说巩俐还会参演迪士尼出品的那部《花木兰》是吧。'}, {'question': '是的，不过这段时间不是说，迪士尼在抹黑中国文化嘛。', 'answer': '你说的是之前发出来的预告片里面的妆容太过于浓重的事情吧。'}, {'question': '是啊，毕竟我们中国的历史上也没有过那么浓重的妆容吧。', 'answer': '这就不知道，毕竟也我们中国曾经有过那么多的国家，谁知道他们从哪里找来的妆容呢。'}, {'question': '也是哈，不过花木兰不是南北朝的人嘛，用得妆容也应该要符合这个朝代吧。', 'answer': '但是谁也不知道那个时候的妆容是什么样子的呀，也只能根据那些古画和文献来推理。'}, {'question': '这就难说了，反正到时候出来了好看就看呗，也没有逼着我们去看呐。', 'answer': '你说得也对，想不想看也是我们自己的意思。'}, {'question': '哎呀，我要去吃饭了，再见哈！', 'answer': '好的，再见。'}, {'question': '嗨，你好。', 'answer': '你好。'}, {'question': '你最近在看排球比赛了吗？', 'answer': '看了，中国女排真的

Extracting Conversations: 100%|███████████████████████████████████████████████| 19919/19919 [00:01<00:00, 15897.00it/s]
Extracting Conversations: 100%|██████████████████████████████████████████████| 19919/19919 [00:00<00:00, 643718.87it/s]
Extracting Conversations: 100%|██████████████████████████████████████████████| 19919/19919 [00:00<00:00, 450059.48it/s]


In [2]:
def save_data_to_txt(data, file_path):
    """
    将列表数据保存为 txt 文件
    :param data: 数据列表，每个元素是字典
    :param file_path: 保存的文件路径
    """
    # 创建目标目录（如果不存在）
    os.makedirs(os.path.dirname(file_path), exist_ok=True)
    with open(file_path, "w", encoding="utf-8") as f:
        for item in data:
            f.write(f"{item}\n")

# prepare_naturalconv_data 返回的数据是列表
train_data, dev_data, test_data = prepare_naturalconv_data(
    dialog_file, train_ids_file, dev_ids_file, test_ids_file, output_dir
)

# 保存到对应的 txt 文件
save_data_to_txt(train_data, "chat_data/train_data.txt")
save_data_to_txt(dev_data, "chat_data/dev_data.txt")
save_data_to_txt(test_data, "chat_data/test_data.txt")

Extracting Conversations: 100%|███████████████████████████████████████████████| 19919/19919 [00:01<00:00, 16138.48it/s]
Extracting Conversations: 100%|██████████████████████████████████████████████| 19919/19919 [00:00<00:00, 623512.73it/s]
Extracting Conversations: 100%|██████████████████████████████████████████████| 19919/19919 [00:00<00:00, 547281.43it/s]


In [5]:
def read_txt_as_dict_list(file_path):
    """
    从 txt 文件中读取数据为列表，其中每个元素是字典。
    :param file_path: txt 文件路径
    :return: 列表类型，每个元素是字典
    """
    data = []
    with open(file_path, "r", encoding="utf-8") as f:
        for line in f:
            line = line.strip()  # 去除首尾空格和换行符
            if line:  # 忽略空行
                data.append(eval(line))  # 将字符串解析为字典并加入列表
    return data

file_path = "chat_data/train_data.txt" 
train_data = read_txt_as_dict_list(file_path)
file_path = "chat_data/dev_data.txt" 
val_data = read_txt_as_dict_list(file_path)

# 打印结果
for item in train_data[100:110]:
    print(item)

print(len(train_data))

{'question': '我也是，我平时周末没事就会去家附近的网球场打球', 'answer': '哦哦，好吧，我都没什么时间去打，但是我还是比较喜欢打球的'}
{'question': '好吧，要不以后我去打网球的时候把你也叫上一起？', 'answer': '哈哈，可以啊，不过得看我有没有时间，我工作真的太忙了'}
{'question': '好的吧，留个联系方式吧，以后好找你', 'answer': '行，嗯我有事先去忙了，我们手机上聊，拜拜'}
{'question': '哈喽，你好', 'answer': '你好呀'}
{'question': '你平时喜欢看新闻不？', 'answer': '还好，我就在吃饭的时候看看新闻直播那些，平时很少看新闻'}
{'question': '哈哈，这样啊，最近新闻报道说苹果又出来搞事情了', 'answer': '是吗，出什么事情了？难不成又有什么商业机密被泄露了？'}
{'question': '哈哈哈，不是，苹果最近推出了他们正在开发的mini LED屏幕技术，很让人震惊呢', 'answer': '我对这种高科技类的新闻不是很了解呢，而且这个mini LED屏幕技术我更不懂'}
{'question': '呵呵呵，这个mini LED的技术特点很适合大屏幕，会让屏幕保持新，不会和以前一样用久了屏幕就会老化', 'answer': '这样啊，我觉得对我来说没什么区别，因为我不是很喜欢用苹果的产品'}
{'question': '苹果产品很好了，苹果里面所用的技术都是超前的，就像苹果手机和电脑的系统，每年都在更新换代', 'answer': '我朋友之前买过一个苹果手机，然后她的手机系统升级，升级了以后又要重新认证身份那些，我看她都在那儿整了大半天'}
{'question': '哈哈，这说明苹果安全系数高呀，也不至于你手机被偷了以后会泄露你的隐私呀', 'answer': '你这样说也没错，但是我是一个不想麻烦的人，简单点最好'}
183205
