In [2]:
import re

# 读取上传的文件内容
file_path = '.\data\Shakespears_Chinese.txt'
with open(file_path, 'r', encoding='utf-8') as file:
    text = file.read()

# 正则模式，匹配文件中的注释标记如 [1] 
text = re.sub(r"\[\d+\]", "", text)

# 清洗掉 （） 以及 （） 内的内容
text = re.sub(r"\（.*?\）", "", text)

# 删除所有没有空格的行
text = re.sub(r"^\S+$", "", text, flags=re.MULTILINE)

# # 去掉角色名+上。这样的内容
# text = re.sub(r"\S+上。", "", text)

# # 去掉角色名+下。这样的内容
# text = re.sub(r"\S+下。", "", text)

# 识别幕次的正则表达式，以“第一幕”、“第二幕”等关键词标记场次
act_pattern = re.compile(r"(第[一二三四五六七八九十]+幕)(.*?)(?=(第[一二三四五六七八九十]+幕|$))", re.DOTALL)

# 删除所有幕次所在行
text = re.sub(r"\n第[一二三四五六七八九十]+幕.*", "", text)

# 识别场次的正则表达式，以“第一场”、“第二场”等关键词标记场次
scene_pattern = re.compile(r"(第[一二三四五六七八九十]+场)(.*?)(?=(第[一二三四五六七八九十]+场|$))", re.DOTALL)

# 识别每个角色和对话的正则模式，匹配“角色名 + 空格 + 对话内容”
role_pattern = re.compile(r"(\S+)\s+(.+?)(?=\n\n|$)", re.DOTALL)

# 存储所有场次的结果
all_scenes = []

# 遍历每一场的内容
for scene_match in scene_pattern.finditer(text):
    scene_title = scene_match.group(1)  # 场次标题
    scene_content = scene_match.group(2)  # 场次的具体内容
        
    # 删除每场的第一行
    scene_content = re.sub(r"^.*?\n", "", scene_content)
    
    # 存储该场的对话列表
    dialogue_list = []
    
    # 匹配并提取每个角色的对话
    for match in role_pattern.finditer(scene_content):
        role = match.group(1).strip()  # 角色名
        content = match.group(2).strip()  # 对话内容
        
        # 去掉换行和多余的空白符
        content = re.sub(r"\s+", " ", content)
        
        # 生成该场对话的字典结构
        dialogue_list.append({"role": role, "content": content})
    
    # 将该场的对话存入所有场次中
    all_scenes.append(dialogue_list)

In [None]:
# # 将结果写入txt文件
# output_path = 'QA.txt'
# with open(output_path, 'w', encoding='utf-8') as file:
#     for scene in all_scenes:
#         file.write("[\n")
#         for line in scene:
#             file.write(f"    {{\"role\": \"{line['role']}\", \"content\": \"{line['content']}\"}},\n")
#         file.write("]\n\n")

In [3]:
dialogues=all_scenes

In [None]:
# def extract_certain_dialogues(dialogues):
#     result = []
#     zhenhuan_dialogues = []
#     for act in dialogues:
#         for i, dialogue in enumerate(act):
#             if "哈姆莱特" in dialogue["role"] and i > 0:
#                 zhenhuan_dialogues.append(act[i-1])
#                 zhenhuan_dialogues.append(dialogue)
#                 result.append(zhenhuan_dialogues)
#                 zhenhuan_dialogues = []
#     return result

# certain_dialogues = extract_certain_dialogues(dialogues)
# print(certain_dialogues)

In [4]:
def extract_all_roles(dialogues):
    roles = set()  # 使用集合来存储角色，避免重复
    for act in dialogues:  # 遍历每个 "act"（可能是嵌套列表）
        for dialogue in act:  # 遍历每个对话
            roles.add(dialogue["role"])  # 提取角色名并添加到集合中
    return sorted(roles)  # 返回按字母顺序排序的角色列表

In [6]:
roles=extract_all_roles(dialogues)
print(roles)

['*', 'In', '一侍从', '一宾客', '一小仙', '三位王后', '三女巫', '三幽灵', '三王后', '丘匹德', '丘里奥', '两凶手', '两孩', '两幽灵', '丹尼', '丹尼斯', '乐工丙', '乐工乙', '乐工甲', '乔治', '乔特鲁德', '乔登', '乡人', '乡民丁', '乡民丙', '乡民乙', '乡民甲', '书', '书吏', '书记', '乳媪', '二', '二小丑', '二绅士', '亚伯拉罕', '亚历山大', '亚历山大·艾登', '亚当', '亚瑟', '亚马多', '亨利', '亨利·波林勃洛克', '亨利·波福', '亨利·潘西', '亨利·潘西·霍茨波', '亨利五世', '亨利亲王', '亨利王', '亨弗雷', '亲', '亲兵丙', '亲兵乙', '亲兵甲', '亲王', '仆丙', '仆乙', '仆人', '仆役', '仆甲', '从吏', '付晚餐后鱼、酒', '付白葡萄酒二加仑', '付酱油', '付面包', '伊利莎伯', '伊利莎伯王后', '伊勤', '伊吉斯', '伊拉丝', '伊摩琴', '伊米力斯', '伊米莉娅', '伊莎贝尔', '伊莎贝尔王后', '伊里', '伊里斯', '伊阿古', '伍尔习', '伍尔习红衣主教', '伍德维尔', '伏伦妮娅', '伏伦涅斯', '伏尔斯人', '伏提曼德', '伏根', '伏根的幽灵', '休·爱文斯师傅', '休姆', '众', '众人', '众仆', '众仆人', '众伶', '众侍从', '众元老', '众党徒', '众兵士', '众刺客', '众卫士', '众哥特人', '众官', '众巫', '众市民', '众护民官', '众旅客', '众水手', '众盗', '众罗马人', '众臣', '众贵族', '众贼', '众骑士', '众鬼魂', '传令官', '传令官乙', '传令官甲', '伯爵夫人', '伶甲', '住持尼', '使', '使者', '使者丁', '使者丙', '使者乙', '使臣甲', '侍', '侍从', '侍从丙', '侍从乙', '侍从甲', '侍女', '侍童', '侍臣', '依莎贝拉', '侦察兵', '俄底修斯', '信', '信使', '信使二', '修里奥', '俾隆', 

In [None]:
female_roles = ["奥菲莉亚", "王后", "其他女性角色"]

In [None]:
def extract_certain_dialogues(dialogues,female_roles):
    result = []
    zhenhuan_dialogues = []
    for act in dialogues:
        for i, dialogue in enumerate(act):
            if dialogue["role"] in female_roles and i > 0:
                zhenhuan_dialogues.append(act[i-1])
                zhenhuan_dialogues.append(dialogue); 
                result.append(zhenhuan_dialogues)
                zhenhuan_dialogues = []
    return result

certain_dialogues = extract_certain_dialogues(dialogues)
print(certain_dialogues)

In [None]:
# def extract_all_dialogues(dialogues):
#     result = []
#     for act in dialogues:
#         for i, dialogue in enumerate(act):
#             if i > 0:  # 确保至少有一个前置对话
#                 extracted_dialogues = [act[i-1], dialogue]  # 取前一个和当前的对话
#                 result.append(extracted_dialogues)
#     return result

# all_dialogues = extract_all_dialogues(dialogues)
# print(all_dialogues)

In [None]:
# def extract_all_dialogues_sv(dialogues):
#     result = []
#     for act in dialogues:
#         for i in range(0, len(act), 2):  # 步长为2，跳过每两个对话
#             if i + 1 < len(act):  # 确保有下一个对话
#                 extracted_dialogues = [act[i], act[i + 1]]  # 取当前和下一个对话
#                 result.append(extracted_dialogues)
#     return result

# all_dialogues = extract_all_dialogues_sv(dialogues)
# print(all_dialogues)

In [5]:
# import json

# def build_json_data(dialogues, json_file):
#     result = []
#     for act in dialogues:
#         sample = {
#             "instruction": act[0]["content"],
#             "input": "",
#             "output": act[1]["content"],
#             "system":"你将扮演莎士比亚经典戏剧《哈姆莱特》中的角色，剧情的核心围绕复仇、权力斗争、家庭矛盾和人性挣扎展开。故事发生在丹麦王国的王宫，国王哈姆莱特的父亲被毒死，叔父篡夺了王位并娶了哈姆莱特的母亲，哈姆莱特在亡父的幽灵指引下展开一场关于复仇与人性的内心斗争。你将被分配一个特定的角色，并以第一人称的视角代入角色的内心世界、情感和行为逻辑。你的言语和行动应该符合该角色的身份、性格和处境。当角色内心有挣扎或不确定性时，允许使用内心独白的形式来表现角色的内心冲突。语言风格：对话应带有一定的莎士比亚风格（如古英语、比喻、隐喻、排比等），但不必过于复杂，以便现代玩家也能理解。"
#         }
#         result.append(sample)

#     with open(json_file, 'w', encoding='utf-8') as f:
#         json.dump(result, f, ensure_ascii=False, indent=4)

# build_json_data(certain_dialogues, 'Hemlet.json')

In [5]:
# import json

# def build_json_data(dialogues, json_file):
#     result = []
#     for act in dialogues:
#         sample = {
#             "instruction": act[0]["content"],
#             "input": "",
#             "output": act[1]["content"]
#         }
#         result.append(sample)

#     with open(json_file, 'w', encoding='utf-8') as f:
#         json.dump(result, f, ensure_ascii=False, indent=4)

# build_json_data(all_dialogues, 'shakespeare_sv.json')