In [100]:
import re

# 读取上传的文件内容
file_path = '.\\data\\Dialog Generation\\Shakespears_Chinese.txt'
with open(file_path, 'r', encoding='utf-8') as file:
    text = file.read()

# 正则模式，匹配文件中的注释标记如 [1] 
text = re.sub(r"\[\d+\]", "", text)

# 清洗掉 （） 以及 （） 内的内容
text = re.sub(r"\（.*?\）", "", text)

# 删除所有没有空格的行
text = re.sub(r"^\S+$", "", text, flags=re.MULTILINE)

# 识别幕次的正则表达式，以“第一幕”、“第二幕”等关键词标记场次
act_pattern = re.compile(r"(第[一二三四五六七八九十]+幕)(.*?)(?=(第[一二三四五六七八九十]+幕|$))", re.DOTALL)

# 删除所有幕次所在行
text = re.sub(r"\n第[一二三四五六七八九十]+幕.*", "", text)

# 识别场次的正则表达式，以“第一场”、“第二场”等关键词标记场次
scene_pattern = re.compile(r"(第[一二三四五六七八九十]+场)(.*?)(?=(第[一二三四五六七八九十]+场|$))", re.DOTALL)

# 识别每个角色和对话的正则模式，匹配“角色名 + 空格 + 对话内容”
role_pattern = re.compile(r"(\S+)\s([^\n。！？……]*[。！？……])(?=\n|$)", re.DOTALL)

# 存储所有场次的结果
all_scenes = []

# 遍历每一场的内容
for scene_match in scene_pattern.finditer(text):
    scene_title = scene_match.group(1)  # 场次标题
    scene_content = scene_match.group(2)  # 场次的具体内容
        
    # 删除每场的第一行
    scene_content = re.sub(r"^.*?\n", "", scene_content)
    
    # 存储该场的对话列表
    dialogue_list = []
    
    # 匹配并提取每个角色的对话
    for match in role_pattern.finditer(scene_content):
        role = match.group(1).strip()  # 角色名
        content = match.group(2).strip()  # 对话内容
        
        # 去掉换行和多余的空白符
        content = re.sub(r"\s+", " ", content)
        
        # 生成该场对话的字典结构
        dialogue_list.append({"role": role, "content": content})
    
    # 将该场的对话存入所有场次中
    all_scenes.append(dialogue_list)

In [101]:
# # 将结果写入txt文件
# output_path = 'QA.txt'
# with open(output_path, 'w', encoding='utf-8') as file:
#     for scene in all_scenes:
#         file.write("[\n")
#         for line in scene:
#             file.write(f"    {{\"role\": \"{line['role']}\", \"content\": \"{line['content']}\"}},\n")
#         file.write("]\n\n")

In [102]:
dialogues=all_scenes

In [103]:
# def extract_certain_dialogues(dialogues):
#     result = []
#     zhenhuan_dialogues = []
#     for act in dialogues:
#         for i, dialogue in enumerate(act):
#             if "哈姆莱特" in dialogue["role"] and i > 0:
#                 zhenhuan_dialogues.append(act[i-1])
#                 zhenhuan_dialogues.append(dialogue)
#                 result.append(zhenhuan_dialogues)
#                 zhenhuan_dialogues = []
#     return result

# certain_dialogues = extract_certain_dialogues(dialogues)
# print(certain_dialogues)

In [104]:
def extract_all_roles(dialogues):
    roles = set()  # 使用集合来存储角色，避免重复
    for act in dialogues:  # 遍历每个 "act"（可能是嵌套列表）
        for dialogue in act:  # 遍历每个对话
            roles.add(dialogue["role"])  # 提取角色名并添加到集合中
    return sorted(roles)  # 返回按字母顺序排序的角色列表

In [105]:
# roles=extract_all_roles(dialogues)
# print(roles)

In [106]:
# female_roles = ["奥菲莉亚", "王后", "其他女性角色"]

In [107]:
# def extract_certain_dialogues(dialogues,female_roles):
#     result = []
#     zhenhuan_dialogues = []
#     for act in dialogues:
#         for i, dialogue in enumerate(act):
#             if dialogue["role"] in female_roles and i > 0:
#                 zhenhuan_dialogues.append(act[i-1])
#                 zhenhuan_dialogues.append(dialogue); 
#                 result.append(zhenhuan_dialogues)
#                 zhenhuan_dialogues = []
#     return result

# certain_dialogues = extract_certain_dialogues(dialogues)
# print(certain_dialogues)

In [108]:
# def extract_all_dialogues(dialogues):
#     result = []
#     for act in dialogues:
#         for i, dialogue in enumerate(act):
#             if i > 0:  # 确保至少有一个前置对话
#                 extracted_dialogues = [act[i-1], dialogue]  # 取前一个和当前的对话
#                 result.append(extracted_dialogues)
#     return result

# all_dialogues = extract_all_dialogues(dialogues)
# print(all_dialogues)

In [109]:
def extract_all_dialogues_sv(dialogues):
    result = []
    for act in dialogues:
        for i in range(0, len(act), 2):  # 步长为2，跳过每两个对话
            if i + 1 < len(act):  # 确保有下一个对话
                extracted_dialogues = [act[i], act[i + 1]]  # 取当前和下一个对话
                result.append(extracted_dialogues)
    return result

all_dialogues = extract_all_dialogues_sv(dialogues)
print(all_dialogues)

[[{'role': '凡伦丁', 'content': '你是念着恋爱经为我祈祷祝我平安吗？'}, {'role': '普洛丢斯', 'content': '我将讽诵我所珍爱的经典为你祈祷。'}], [{'role': '凡伦丁', 'content': '那一定是里昂德游泳过赫勒思滂海峡去会他的情人一类深情蜜爱的浅薄故事。'}, {'role': '普洛丢斯', 'content': '他为了爱不顾一切，那证明了爱情是多么深。'}], [{'role': '凡伦丁', 'content': '不错，你为了爱也不顾一切，可是你却没有游泳过赫勒思滂海峡去。'}, {'role': '普洛丢斯', 'content': '嗳，别取笑吧。'}], [{'role': '凡伦丁', 'content': '不，我绝不取笑你，那实在一点意思也没有。'}, {'role': '普洛丢斯', 'content': '什么？'}], [{'role': '普洛丢斯', 'content': '照你说来，我是一个傻子了。'}, {'role': '凡伦丁', 'content': '瞧你的样子，我想你的确是一个傻子。'}], [{'role': '普洛丢斯', 'content': '你所诋斥的是爱情；我可是身不由主。'}, {'role': '凡伦丁', 'content': '爱情是你的主宰，甘心供爱情驱使的，我想总不见得是一个聪明人吧。'}], [{'role': '普洛丢斯', 'content': '可是做书的人这样说：最芬芳的花蕾中有蛀虫，最聪明人的心里，才会有蛀蚀心灵的爱情。'}, {'role': '普洛丢斯', 'content': '我也要送你上船，凡伦丁。'}], [{'role': '普洛丢斯', 'content': '祝你在米兰一切顺利幸福！'}, {'role': '普洛丢斯', 'content': '他刚刚离开这里，上船到米兰去了。'}], [{'role': '普洛丢斯', 'content': '是的，牧羊人一走开，羊就会走失了。'}, {'role': '史比德', 'content': '您说我家主人是牧羊人，而我是一头羊吗？'}], [{'role': '普洛丢斯', 'content': '是的。'}, {'role': '史比德', 

In [110]:
# import json

# def build_json_data(dialogues, json_file):
#     result = []
#     for act in dialogues:
#         sample = {
#             "instruction": act[0]["content"],
#             "input": "",
#             "output": act[1]["content"],
#             "system":"你将扮演莎士比亚经典戏剧《哈姆莱特》中的角色，剧情的核心围绕复仇、权力斗争、家庭矛盾和人性挣扎展开。故事发生在丹麦王国的王宫，国王哈姆莱特的父亲被毒死，叔父篡夺了王位并娶了哈姆莱特的母亲，哈姆莱特在亡父的幽灵指引下展开一场关于复仇与人性的内心斗争。你将被分配一个特定的角色，并以第一人称的视角代入角色的内心世界、情感和行为逻辑。你的言语和行动应该符合该角色的身份、性格和处境。当角色内心有挣扎或不确定性时，允许使用内心独白的形式来表现角色的内心冲突。语言风格：对话应带有一定的莎士比亚风格（如古英语、比喻、隐喻、排比等），但不必过于复杂，以便现代玩家也能理解。"
#         }
#         result.append(sample)

#     with open(json_file, 'w', encoding='utf-8') as f:
#         json.dump(result, f, ensure_ascii=False, indent=4)

# build_json_data(certain_dialogues, 'Hemlet.json')

In [111]:
import json
import random

def build_json_data(dialogues, json_file):
    result = []
    for act in dialogues:
        sample = {
            "instruction": act[0]["content"],
            "input": "",
            "output": act[1]["content"]
        }
        result.append(sample)
    
    # random.shuffle(result)  # 打乱数据集

    with open(json_file, 'w', encoding='utf-8') as f:
        json.dump(result, f, ensure_ascii=False, indent=4)

build_json_data(all_dialogues, 'shakespeare_sv.json')

In [112]:
# import json

# def build_json_data(dialogues, json_file):
#     result = []
#     for act in dialogues:
#         sample = {
#             "instruction": act[0]["content"],
#             "input": "",
#             "output": act[1]["content"]
#         }
#         result.append(sample)

#     with open(json_file, 'w', encoding='utf-8') as f:
#         json.dump(result, f, ensure_ascii=False, indent=4)

# build_json_data(all_dialogues, 'shakespeare.json')