In [None]:
!pip install opencc-python-reimplemented

In [2]:
import json
import os
from opencc import OpenCC

In [3]:
# 创建目标文件夹
os.makedirs("c3_tw", exist_ok=True)

In [4]:
#初始化繁体转换器
cc = OpenCC('s2twp') # 使用 s2twp 转换器，它能提供更好的转换质量

In [7]:
files = ["test1.1.json", "test1.0.json", "d-dev.json", "d-train.json", "m-dev.json", "m-train.json"]

In [6]:
def convert_to_traditional(data, cc):
    """递归地将简体中文转换为繁体中文"""
    if isinstance(data, str):
        return cc.convert(data)
    elif isinstance(data, list):
        return [convert_to_traditional(item, cc) for item in data]
    elif isinstance(data, dict):
        return {key: convert_to_traditional(value, cc) for key, value in data.items()}
    else:
        return data

In [9]:
for file in files:
    try:
        with open(f"c3_cn/{file}", 'r', encoding='utf-8') as f:
            data = json.load(f)

        # 遍历数据并进行繁体转换
        converted_data = convert_to_traditional(data, cc)

        # 保存转换后的数据
        with open(os.path.join("c3_tw", file), 'w', encoding='utf-8') as outfile:
            json.dump(converted_data, outfile, ensure_ascii=False, indent=4)  # indent=4 用于格式化输出
        print(f"已成功将 {file} 转换为繁体中文并保存到 c3_tw 文件夹。")

    except FileNotFoundError:
        print(f"未找到文件: {file}")
    except json.JSONDecodeError:
        print(f"文件 {file} 解析失败，请检查文件格式。")
    except Exception as e:
        print(f"转换文件 {file} 发生错误: {e}")

已成功将 test1.1.json 转换为繁体中文并保存到 c3_tw 文件夹。
已成功将 test1.0.json 转换为繁体中文并保存到 c3_tw 文件夹。
已成功将 d-dev.json 转换为繁体中文并保存到 c3_tw 文件夹。
已成功将 d-train.json 转换为繁体中文并保存到 c3_tw 文件夹。
已成功将 m-dev.json 转换为繁体中文并保存到 c3_tw 文件夹。
已成功将 m-train.json 转换为繁体中文并保存到 c3_tw 文件夹。
