In [None]:
# 方言翻译数据集合准备


# 基本流程
    - 抽取中文对话数据集
    - 统计出现最多的词
    - 建立词表
    - 人工标注
    - 简单替换词翻译
    - 检查翻译结果

## Step1 中文对话数据集合

In [2]:
import json

from datasets import Dataset

input_file = "./train.jsonl"


def load_jsonl_data(file_path):
    json_data = []
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            json_data.append(json.loads(line.strip()))
    return json_data


# 将数据加载为 Dataset 格式
data = load_jsonl_data(input_file)
dataset = Dataset.from_list(data)
dataset

Dataset({
    features: ['question', 'answer'],
    num_rows: 274148
})

In [3]:
questions = dataset['question']

In [4]:
answers = dataset['answer']

# Step2 统计出现最多的词

In [None]:
import jieba, re
from collections import Counter

# 将所有标题合并为一个长字符串
text = " ".join(questions)

# 使用 jieba 进行分词
words = jieba.lcut(text)

# 使用 Counter 统计词频
# 去掉标点符号并过滤掉单字词
filtered_words = [word for word in words if len(word) > 1 and re.match(r'[\u4e00-\u9fff]+', word)]

# 使用 Counter 统计词频
word_counts = Counter(filtered_words)

# 找出出现次数最多的词
most_common_words = word_counts.most_common(200)  # 获取出现次数最多的200个词

# 写入CSV
print("出现次数最多的词：")
with open('most_common_words.csv', 'w', encoding='utf-8') as f:
    for word, count in most_common_words:
        print(f"{word},{count}")
        f.write(f"{word},{count}\n")

# Step3 人工标注
## 因为没有相关的翻译数据集，只能将常用的词人工翻译。

# Step4根据人工标注数据，简单替换词翻译

In [20]:
with open('translate_dict.csv', 'r', encoding='gbk') as f:
    lines = f.readlines()
    translate_dict = {line.split(',')[1].strip(): line.split(',')[0].strip() for line in lines}
    # 根据字符长度排序
    translate_dict = sorted(translate_dict.items(), key=lambda x: len(x[0]), reverse=True)

translate_dict

[('小声说话', '噏'),
 ('怀恨在心', '努'),
 ('哪些方面', '嘘呢方面'),
 ('拿东西', '孭'),
 ('不知道', '矛day'),
 ('有没有', '有矛'),
 ('为什么', '点解'),
 ('是不是', '系矛系'),
 ('怎么样', '点样'),
 ('地方', '埞'),
 ('躲藏', '奄'),
 ('小孩', '侬'),
 ('那里', '嘘'),
 ('这些', '匿'),
 ('没有', '矛'),
 ('蹲坐', '踎'),
 ('爬上', '唛'),
 ('扳开', '唛'),
 ('看护', '共'),
 ('一起', '共'),
 ('背着', '孭'),
 ('一块', '嚿'),
 ('正好', '啱'),
 ('省钱', '悭'),
 ('生气', '嬲'),
 ('女人', '夫乸'),
 ('男人', '马甩佬'),
 ('雌性', '乸'),
 ('殴打', '抦'),
 ('靠着', 'beng'),
 ('稀泥', '泥湴'),
 ('抬起', '掂'),
 ('欺负', '虾'),
 ('害怕', '狂'),
 ('挑逗', '撩'),
 ('什么', '乜野'),
 ('哪些', '嘘呢'),
 ('是否', '系矛'),
 ('如何', '点子'),
 ('一些', '一呢'),
 ('哪个', '嘘只'),
 ('知道', 'day到'),
 ('这个', '个只'),
 ('告诉', '讲'),
 ('工作', '做工'),
 ('使用', '使'),
 ('提供', '俾'),
 ('能否', '可以'),
 ('一个', '一只'),
 ('著名', '出名'),
 ('最近', '近排'),
 ('怎样', '点子'),
 ('几个', '几只'),
 ('通常', '往事'),
 ('哪位', '嘘只'),
 ('今天', '个日'),
 ('近期', '近排'),
 ('这种', '个种'),
 ('多少', '几多'),
 ('现在', '个阵'),
 ('哪里', '嘘女'),
 ('人们', '大家'),
 ('说明', '讲明'),
 ('完成', '做齐'),
 ('怎么', '点子'),
 ('选择', '简'),
 ('喜欢', '中意'),
 (

In [None]:
# Step5简单翻译数据集

In [21]:
def translate(trans_text):
    total_replaced_chars = 0  # 记录替换的字数

    for k, v in translate_dict:
        while k in trans_text:
            # 记录替换前后长度的差值（即替换的字数）
            replaced_count = trans_text.count(k) * len(k)
            total_replaced_chars += replaced_count

            # 进行替换
            trans_text = trans_text.replace(k, v)

    return trans_text, total_replaced_chars

In [22]:
trans_data = []

# 翻译结果写入为jsonl
for question, answer in zip(questions, answers):
    trans_question, question_replaced = translate(question)
    if question != trans_question:
        sc = question_replaced / len(question)
        if sc > 0.2:
            trans_data.append({"input_text": question, "target_text": trans_question, "replaced_chars": question_replaced})

    trans_answer, answer_replaced = translate(answer)
    if answer != trans_answer:
        if question_replaced / len(question) > 0.2:
            trans_data.append({"input_text": answer, "target_text": trans_answer, "replaced_chars": answer_replaced})

# 随机打乱数据集
import random

random.shuffle(trans_data)
with open('translate_trans_data.jsonl', 'w', encoding='utf-8') as f:
    for item in trans_data[:40000]:
        f.write(json.dumps(item, ensure_ascii=False) + '\n')