# Genshin语料数据
> 来源：https://github.com/DimbreathBot/AnimeGameData/tree/master

在以上链接中，除去文件夹BinOutput和ExcelBinOutput（与多语言平行语料相关的文件夹为：Readable(txt文件)、Subtitle（srt文件）和TextMap（json文件）），其项目结构为：
<pre>
.
├─Readable
│  ├─CHS
│  ├─CHT
│  ├─DE
│  ├─EN
│  ├─ES
│  ├─FR
│  ├─ID
│  ├─IT
│  ├─JP
│  ├─KR
│  ├─PT
│  ├─RU
│  ├─TH
│  ├─TR
│  └─VI
├─Subtitle
│  ├─CHS
│  ├─CHT
│  ├─DE
│  ├─EN
│  ├─ES
│  ├─FR
│  ├─ID
│  ├─IT
│  ├─JP
│  ├─KR
│  ├─PT
│  ├─RU
│  ├─TH
│  ├─TR
│  └─VI
└─TextMap
</pre>


In [1]:
import os
import hashlib
import pandas as pd
import re
import json
import datetime

root_directory = os.getcwd()

# 数据抽取
> 将语料文本提取为dataframe以便整理

## txt文件处理(Readable文件夹)
由于这些文件中不包含id可以对齐文本，只能使用文件名或同文件名下同一行的文本作为不同语料之间的对齐

In [2]:
txt_directory = os.path.join(root_directory, 'Readable')
txt_folders = [x for x in os.listdir(txt_directory)]
# 数据读取
def process_folder(path, folder):
    folder_path = os.path.join(path, folder)
    all_files_data = []

    # 遍历文件夹中的所有txt文件
    for txt_file in os.listdir(folder_path):
        if txt_file.endswith(".txt"):
            file_path = os.path.join(folder_path, txt_file)
            with open(file_path, 'r', encoding='utf-8') as file:
                lines = file.readlines()
            
            for idx, line in enumerate(lines):
                cleaned_line = line.strip()

                file_name = re.sub(f'_{folder}.txt', '.txt', txt_file)
                all_files_data.append({
                    'file_name': file_name,
                    'line_number': idx + 1,
                    f'text_{folder}': cleaned_line
                })           
                  
    return all_files_data

df_CHS = pd.DataFrame(process_folder(txt_directory, 'CHS'))
df_CHS

Unnamed: 0,file_name,line_number,text_CHS
0,AmborLicense.txt,1,1、飞行前请确认您的身心健康状态。
1,AmborLicense.txt,2,
2,AmborLicense.txt,3,2、起飞时请借助风场或较高的地势。
3,AmborLicense.txt,4,
4,AmborLicense.txt,5,3、使用风之翼飞行时请注意风势与风向，维持飞行平衡。
...,...,...,...
23980,Wq7724401.txt,1,<image name=UI_ScribbledMap_01 />
23981,Wq7724401.txt,2,…按惯例，夜间在<color=#FFE14BFF>「后山枯树」</color>进行交易，至于...
23982,Wq7724401.txt,3,…事实上只要利用元素转化后的能量进行充能，即能恢复运作功能呢，至于转化充能所用容器，自然不必...
23983,Wq7724401.txt,4,…不过还望到时能携带特殊个体「奔奔」，我们的研究员对此十分感兴趣，或可作为研究参考…


In [3]:
df_txt_merge = df_CHS.copy()
del df_CHS
for folder in txt_folders:
    if folder != 'CHS':
        df = pd.DataFrame(process_folder(txt_directory, folder)) 
        df_txt_merge = pd.merge(df_txt_merge, df, on=['file_name', 'line_number'], how='outer')
        print(f'成功读取{folder}文件夹语料')

df_txt_merge

成功读取CHT文件夹语料
成功读取DE文件夹语料
成功读取EN文件夹语料
成功读取ES文件夹语料
成功读取FR文件夹语料
成功读取ID文件夹语料
成功读取IT文件夹语料
成功读取JP文件夹语料
成功读取KR文件夹语料
成功读取PT文件夹语料
成功读取RU文件夹语料
成功读取TH文件夹语料
成功读取TR文件夹语料
成功读取VI文件夹语料


Unnamed: 0,file_name,line_number,text_CHS,text_CHT,text_DE,text_EN,text_ES,text_FR,text_ID,text_IT,text_JP,text_KR,text_PT,text_RU,text_TH,text_TR,text_VI
0,AmborLicense.txt,1,1、飞行前请确认您的身心健康状态。,1、飛行前請確認您的身心健康狀態。,1. Vergewissere dich deiner geistigen und körp...,"1. Before gliding, make sure you are physicall...","1. Antes de volar, compruebe que está en buen ...",1. Veuillez vous assurer que vous êtes physiqu...,"1. Sebelum terbang, pastikan kesehatan tubuh d...","1. Prima di usare un aliante, preparati fisica...",1、飛行前に心身の健康状態を確認すること。,1. 비행 전 심신의 건강 상태를 체크하세요.,"1. Antes de planar, certifique-se de que você ...","1. Перед полётом убедитесь в том, что вы готов...",1. เตรียมตัวให้พร้อมทั้งสภาพร่างกายและจิตใจก่อ...,1. Uçuştan önce fiziksel ve zihinsel olarak ha...,1. Trước khi bay hãy xác nhận trạng thái thể c...
1,AmborLicense.txt,2,,,,,,,,,,,,,,,
2,AmborLicense.txt,3,2、起飞时请借助风场或较高的地势。,2、起飛時請借助風場或較高的地勢。,2. Starte von einem Windfeld oder hoch gelegen...,2. Make use of a wind current or elevated terr...,2. Despegue ayudándose de una corriente de vie...,2. Commencez par vous entraîner avec un champ ...,2. Manfaatkan arus angin atau ketinggian yang ...,2. Per il decollo sfrutta le correnti d'aria o...,2、飛び立つ時は風域、または高い地形を利用すること。,2. 날아오를 때는 윈드 필드를 이용하거나 높은 곳이 좋습니다.,2. Faça uso de uma corrente de vento ou de um ...,2. Для взлёта используйте ветряные потоки или ...,2. พุ่งตัวออกจากพื้นที่สูงชัน หรือกระแสลมแรง,2. Kalkış için rüzgar akımından ya da yüksek b...,2. Khi cất cánh hãy mượn sức gió hoặc nơi có đ...
3,AmborLicense.txt,4,,,,,,,,,,,,,,,
4,AmborLicense.txt,5,3、使用风之翼飞行时请注意风势与风向，维持飞行平衡。,3、使用風之翼飛行時請注意風勢與風向，維持飛行平衡。,3. Achte bei der Nutzung eines Windgleiters au...,3. Keep an eye on the wind conditions while gl...,3. Tenga en cuenta la velocidad y dirección de...,3. Faites attention à la force et la direction...,3. Perhatikanlah kondisi angin di setiap waktu...,3. Mentre voli tieni d'occhio le condizioni de...,3、風の翼を使用する時は風力と風向きに注意して、バランスを維持すること。,3. 바람의 날개를 사용해 비행할 때에는 바람의 세기와 방향에 유의하여 평형을 유지...,3. Fique de olho nas condições do vento enquan...,"3. Следите за воздушными потоками, чтобы не по...",3. ตรวจสอบกระแสลมในขณะที่ใช้เครื่องร่อนเวหาบิน...,3. Uçuş sırasında dengenizi koruyabilmek için ...,3. Khi dùng Phong Chi Dực bay lên hãy chú ý sứ...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
23980,Wq7724401.txt,1,<image name=UI_ScribbledMap_01 />,<image name=UI_ScribbledMap_01 />,<image name=UI_ScribbledMap_01 />,<image name=UI_ScribbledMap_01 />,<image name=UI_ScribbledMap_01 />,<image name=UI_ScribbledMap_01 />,<image name=UI_ScribbledMap_01 />,<image name=UI_ScribbledMap_01 />,<image name=UI_ScribbledMap_01 />,<image name=UI_ScribbledMap_01 />,<image name=UI_ScribbledMap_01 />,<image name=UI_ScribbledMap_01 />,<image name=UI_ScribbledMap_01 />,<image name=UI_ScribbledMap_01 />,<image name=UI_ScribbledMap_01 />
23981,Wq7724401.txt,2,…按惯例，夜间在<color=#FFE14BFF>「后山枯树」</color>进行交易，至于...,…按慣例，夜間在<color=#FFE14BFF>「後山枯樹」</color>進行交易，至於...,... Wie immer treffen wir uns am Abend unter d...,"...As per usual, our exchange will be carried ...","... Como de costumbre, nos reuniremos por la n...","... Comme d'habitude, nous effectuerons la tra...","... Seperti biasanya, perdagangan dilakukan pa...","...Come al solito, la negoziazione si svolgerà...",…いつも通り、夜に<color=#FFE14BFF>「裏山の枯れ木」</color>で取引を...,…관례에 따라 거래는 늦은 밤 <color=#FFE14BFF>「뒷산의 고목」</co...,"...Como de costume, fizemos o combinado na <co...","...Сделка пройдёт по обычной схеме, встречаемс...",...โดยปกติแล้ว การค้าขายจะดำเนินที่ <color=#FF...,... Takas her zamanki gibi <color=#FFE14BFF>da...,"...Theo thường lệ, tiến hành giao dịch tại <co..."
23982,Wq7724401.txt,3,…事实上只要利用元素转化后的能量进行充能，即能恢复运作功能呢，至于转化充能所用容器，自然不必...,…事實上只要利用元素轉化後的能量進行充能，即能恢復運作功能呢，至於轉化充能所用容器，自然不必...,... Tatsächlich kann es durch Aufladen mit der...,...It just needs to be charged using energy ob...,"... En realidad, solo hay que cargarlo utiliza...",... Il suffit de le charger en utilisant de l'...,"... Sebenarnya, fungsinya dapat bekerja kembal...",...Ha solo bisogno di essere ricaricato usando...,…実のところ、元素変化を起こした後のエネルギーでチャージすれば、すぐに再起動できる。チャージ...,…원소 전환을 마친 에너지로 충전을 한다면 운동 기능을 바로 회복할 수 있을 겁니다...,"...Na verdade, ele só precisa ser carregado us...",...Решение довольно простое: чтобы вернуть объ...,...อันที่จริง เพียงแค่ใช้พลังงานที่ได้รับจากกา...,"... Aslında, sadece Element Dönüşümünden elde ...",...Trên thực tế chỉ cần tận dụng năng lượng sa...
23983,Wq7724401.txt,4,…不过还望到时能携带特殊个体「奔奔」，我们的研究员对此十分感兴趣，或可作为研究参考…,…不過還望到時能攜帶特殊個體「奔奔」，我們的研究員對此十分感興趣，或可作為研究參考…,"... Aber es wird erwartet, dass das spezielle ...","...However, we hope you could bring along that...","... Sin embargo, esperamos que pueda traer ese...","... Cependant, nous espérons que vous pourrez ...",... Tetapi kami juga berharap kamu dapat memba...,"...A ogni modo, speriamo ancora di riuscire ad...",…だが、その時はぜひ特殊個体「ブンブン」を連れて来てほしい。研究員たちはそれについて大変な興...,…거래 현장에 오실 때는 특수 개체 「붐붐」과 함께 오시기 바랍니다. 저희 쪽 연구...,"...Entretanto, ainda esperamos conseguir o obj...","...Однако мы надеемся, что вы возьмёте объект ...","...อย่างไรก็ตาม เราหวังว่าคุณจะนำวัตถุพิเศษ ""B...","... Ancak yine de özel nesne olan ""Benben""i de...",...Nhưng vẫn mong đến lúc đó có thể đem theo c...


In [4]:
# len(df_txt_merge[df_txt_merge['zh_text_md5'].isna()])

## srt文件处理(Subtitle文件夹)
以下为srt字幕数据的结构：
<pre>
1
00:00:02,603 --> 00:00:07,228
在世上的第一缕风刚开始吹拂时

2
00:00:07,228 --> 00:00:10,928
向往高空的鸟雀拥有翅膀

3
00:00:10,928 --> 00:00:13,128
却无法飞翔
...
</pre>

可知其文件内容结构为：
- 文本内容序号（一般字幕数据没有这行）
- 字幕时间，会因为语言版本不同而不同
- 文本内容

存在问题：
>- 有109个文件存在文本内容不对齐的情况。在原文件排查原因，可能是不同语言版本单独配了不同的音频导致内容不同，例如日语版本的文件与中文的有出入。
>- 不同语言在句式上的不同(如句子成分顺序不同)导致匹配错位等情况
>
虽然想过通过srt的字幕时间进行不同语种间的对齐，但没达到理想效果，因此选择**将同一文件下的所有文本内容提取，使用换行符进行间隔，通过文件名进行语料对齐。**

In [5]:
# 提取示例1
srt_file = r".\Subtitle\CHS\Cs_GY11030_GYPersonal_CHS.srt"
with open(srt_file, 'r', encoding='utf-8') as file:
    lines = file.readlines()

i = 0
j = 2
line_num = 0
for line in lines:
    if line_num == i:
        print(line)
        i = i + 4
    if line_num == j:
        print(line)
        j = j + 4

    line_num = line_num + 1


1

麒麟是众仙中的仁兽

2

饮必甘露，食必嘉禾

3

但或许，绝云间的仙山与洞府…

4

对她「人类」的一面来说

5

有些太过寂寞

6

昨夜月光之下

7

我望见甘雨独自站在崖边

8

眺望山间岚气

9

苍茫云海

10

将她单薄的身影淹没

11

我看到了她的孤独

12

所以想要上前劝她回归凡尘…

13

但也正是在那时

14

我听见了那几句话

15

「璃月港的孤独」

16

「比绝云间更加孤独」

17

「在绝云间看云」

18

「只不过是一个人看云的孤独」

19

「走入璃月的人海」

20

「却是『非人之物』」

21

「在世间的孤独」



In [6]:
# 示例2,对比以上简中文件，在内容上行数并未对齐，例如这里的第七句对应上面的第十一句
srt_file = r".\Subtitle\FR\Cs_GY11030_GYPersonal_FR.srt"
def parse_srt(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
    
    blocks = re.findall(r'(\d+)\n(\d{2}:\d{2}:\d{2},\d{3}) --> (\d{2}:\d{2}:\d{2},\d{3})\n(.*?)\n\n', content, re.DOTALL)
    parsed = []
    for block in blocks:
        seq, start_time, end_time, text = block
        parsed.append({
            'seq': int(seq),
            'start_time': start_time,
            'end_time': end_time,
            'text': text.replace('\n', '')
        })
    return parsed

pd.DataFrame(parse_srt(srt_file))

Unnamed: 0,seq,start_time,end_time,text
0,1,"00:00:00,600","00:00:04,300",Les Qilin sont les plus bienveillants parmi to...
1,2,"00:00:04,575","00:00:09,152",Ils ne boivent que de l'eau de source et ne ma...
2,3,"00:00:09,817","00:00:14,000",Mais peut-être que les habitations montagneuse...
3,4,"00:00:14,725","00:00:17,648",Sa moitié humaine lui fait ressentir quelque s...
4,5,"00:00:17,825","00:00:21,175","À la lumière de la lune hier soir,"
5,6,"00:00:21,175","00:00:26,825",j'ai vu Ganyu se tenir sur la falaise contempl...
6,7,"00:00:27,208","00:00:31,375",Son visage fin tout entier absorbé par le vast...
7,8,"00:00:32,025","00:00:34,055",J'ai senti sa solitude
8,9,"00:00:34,055","00:00:37,750",et ai essayé de la convaincre de revenir dans ...
9,10,"00:00:38,375","00:00:43,325",Mais c'est alors qu'elle a prononcé les mots s...


In [7]:
srt_directory = os.path.join(root_directory, 'Subtitle')
srt_folders = [x for x in os.listdir(srt_directory)]

def extract_text_from_srt(srt_file):
    with open(srt_file, 'r', encoding='utf-8') as file:
        lines = file.readlines()

    i = 3
    line_num = 0
    extracted_lines = ''
    for line in lines:
        line_num += 1
        if line_num == i:
            extracted_lines += line
            i += 4

    return extracted_lines

def process_folder(path, folder):
    folder_path = os.path.join(path, folder)
    all_files_data = []

    # 遍历文件夹中的所有txt文件
    for srt_file in os.listdir(folder_path):
        if srt_file.endswith(".srt"):
            file_path = os.path.join(folder_path, srt_file)
            file_text = extract_text_from_srt(file_path)

            file_name = re.sub(f'_{folder}.srt', '.srt', srt_file)

            all_files_data.append({
                'file_name': file_name,
                f'text_{folder}': file_text
            })
                  
    return all_files_data

df_srt_merge = pd.DataFrame(process_folder(srt_directory, 'CHS'))

for folder in srt_folders:
    if folder != 'CHS':
        df = pd.DataFrame(process_folder(srt_directory, folder)) 
        df_srt_merge = pd.merge(df_srt_merge, df, on=['file_name'], how='outer')
        print(f'成功读取{folder}文件夹语料')

df_srt_merge['line_number'] = 1

成功读取CHT文件夹语料
成功读取DE文件夹语料
成功读取EN文件夹语料
成功读取ES文件夹语料
成功读取FR文件夹语料
成功读取ID文件夹语料
成功读取IT文件夹语料
成功读取JP文件夹语料
成功读取KR文件夹语料
成功读取PT文件夹语料
成功读取RU文件夹语料
成功读取TH文件夹语料
成功读取TR文件夹语料
成功读取VI文件夹语料


In [8]:
df_srt_merge

Unnamed: 0,file_name,text_CHS,text_CHT,text_DE,text_EN,text_ES,text_FR,text_ID,text_IT,text_JP,text_KR,text_PT,text_RU,text_TH,text_TR,text_VI,line_number
0,Ambor_Readings.srt,在世上的第一缕风刚开始吹拂时\n向往高空的鸟雀拥有翅膀\n却无法飞翔\n他们询问风神\n自己...,在世上的第一縷風剛開始吹拂時\n嚮往高空的鳥雀擁有翅膀\n卻無法飛翔\n他們詢問風神\n自己...,Als der erste Wind dieser Welt über das Land z...,When the first wisp of wind brushed across the...,Cuando la primera brizna de viento rozó la tie...,"Lorsque la première brise effleura la terre,\n...",Saat angin pertama kali berhembus di dunia\nBu...,Quando il primo soffio di vento sfiorò la terr...,世界に最初の風が吹いた時\n空に羨望を抱いたスズメは翼があるにもかかわらず\n飛ぶことができ...,세상에 최초의 바람이 불기 시작할 때\n하늘을 동경하던 새들은 날개가 있었지만\n날...,Quando a primeira brisa do mundo começou a sop...,"Когда первый ветер пронёсся по земле,\nУ птиц,...",เมื่อลมกระแสแรกพัดผ่านดินแดน\nเหล่านกที่มีปีกต...,Rüzgarın ilk esintisi vurduğunda tüm diyara\ng...,Khi ngọn gió đầu tiên bắt đầu thổi qua thế giớ...,1
1,battlePass.srt,曾经，天上有一个荣光的王国。\n那国王派遣第一位王储去黑暗之国寻找创世的珍珠。\n于是第一位...,曾經，天上有一個榮光的王國\n那國王派遣第一位王儲去黑暗之國尋找創世的珍珠\n於是第一位王儲...,"Es war einmal ein glanzvolles Königreich, dess...","Once, there was a glorious kingdom established...",Érase una vez un glorioso reino en los cielos....,Autrefois existait dans les cieux un royaume g...,"Pada zaman dahulu, terdapat sebuah kerajaan ya...","Un tempo, tra i cieli vi era un regno florido....",かつて 天空には栄光の王国があった\n国王は 王位継承者第一位に暗黒の国へと行き 創世の真珠...,"한때, 하늘엔 영광의 왕국이 있었어\n그 나라의 왕은 첫째 왕녀를 보내 어둠의 나라...","Antes, havia um reino glorioso estabelecido en...",Однажды среди небес было славное королевство.\...,ครั้งหนึ่ง มีอาณาจักรอันแสนรุ่งโรจน์อยู่บนท้อง...,Bir zamanlar gökyüzünde görkemli bir krallık v...,Đã từng có một vương quốc rộng lớn trên bầu tr...,1
2,Cs_102106_Summon_Boy.srt,拭目以待吧，失去神明的国度\n会不会被远古的恶意重新吞没？\n不过，如果你们也想陪璃月人一起...,拭目以待吧，失去神明的國度\n會不會被遠古的惡意重新吞沒？\n不過，如果你們也想陪璃月人一起...,"Mal sehen, ob die Stadt, die ihre Gottheit ver...",Hahahahaha! Let's see — will the nation that h...,"Veamos, ¿creen que la nación que perdió a su d...",Attendons et voyons. Le pays qui a perdu son d...,"Hahahahaha, kita lihat saja, akankah negara ya...",Ahahahahah!\nChissà se la nazione che ha perso...,神を失った国は 上古の悪意に再び呑み込まれるのか\n楽しみだ\nもちろん 璃月の人と一緒に溺...,지켜봐. 과연 신을 잃은 나라는\n또다시 고대 악에 의해 삼켜질까?\n그래도 너희가...,Vejamos - será que a nação que perdeu sua divi...,"Посмотрим, не погрузится ли в смуту нация\nПот...",คอยดูละกัน ว่าอาณาจักรที่สูญเสียเทพเจ้าไปน่ะ\n...,Hahaha! Bakalım ilahını kaybeden bir ulus\nbir...,"Hãy cùng chờ xem, liệu vương quốc mất đi thần ...",1
3,Cs_102106_Summon_Girl.srt,拭目以待吧，失去神明的国度\n会不会被远古的恶意重新吞没？\n不过，如果你们也想陪璃月人一起...,拭目以待吧，失去神明的國度\n會不會被遠古的惡意重新吞沒？\n不過，如果你們也想陪璃月人一起...,"Mal sehen, ob die Stadt, die ihre Gottheit ver...",Hahahahaha! Let's see — will the nation that h...,"Veamos, ¿creen que la nación que perdió a su d...",Attendons et voyons. Le pays qui a perdu son d...,"Hahahahaha, kita lihat saja, akankah negara ya...",Ahahahahah! \nChissà se la nazione che ha pers...,神を失った国は 上古の悪意に再び呑み込まれるのか\n楽しみだ\nもちろん 璃月の人と一緒に溺...,지켜봐. 과연 신을 잃은 나라는\n또다시 고대 악에 의해 삼켜질까?\n그래도 너희가...,Vejamos - será que a nação que perdeu sua divi...,"Посмотрим, не погрузится ли в смуту нация\nПот...",คอยดูละกัน ว่าอาณาจักรที่สูญเสียเทพเจ้าไปน่ะ\n...,Hahaha! Bakalım ilahını kaybeden bir ulus\nbir...,"Hãy cùng chờ xem, liệu vương quốc mất đi thần ...",1
4,Cs_102203_BeforeBattle_Boy.srt,是「愚人众」！\n他们朝「归终机」来了！\n,是「愚人眾」！\n他們朝「歸終機」來了！\n,Die Fatui!\nSie greifen das Guizhong-Geschütz ...,The Fatui!\nThey're attacking the Guizhong Bal...,¡Son los Fatui!\n¡Están atacando la Balista Gu...,Les Fatui !\nIls se dirigent vers la baliste d...,Ada orang-orang Fatui!\nMereka menyerang Guizh...,I Fatui!\nStanno attaccando la balista Guizhon...,ファデュイだ！\n「帰終機」に向かって来たぞ！\n,「우인단」이야!\n「귀종기」 쪽으로 오고 있어!\n,Os Fatuis!\nEles estão atacando a Balista Guiz...,Это Фатуи!\nОни хотят сломать баллисту!\n,พวก Fatui นี่นา!\nพวกมันบุกมาโจมตี Guizhong Ba...,Fatui!\nGuizhong Balistasına saldırıyorlar!\n,Là Fatui!\nChúng đang hướng về phía máy Guizho...,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
187,MDAQ041.srt,我要说的故事开始于太古\n那时众神还行走于大地\n天空之龙自天空降下\n对世间的一切都充满好...,我要說的故事開始於太古\n那時眾神還行走於大地\n天空之龍自天空降下\n對世間的一切都充滿好...,"Diese Geschichte handelt in grauer Vorzeit,\na...",What is to be sung transpired in days of yore\...,La historia que les contaré comenzó en los día...,L'histoire qui va vous être contée remonte à d...,Kisah ini dimulai dari zaman dahulu kala\nSaat...,La storia che sto per narrare è accaduta in gi...,ボクが話すは 古の始まり\n神々がまだ 大地を歩く時代の物語\n天空の龍が 空から降り立ち\...,이건 아주 오래전 태고 시절부터 시작된 이야기야\n신들이 아직 살아 숨 쉬고 있을 ...,A história que vou contar começou desde os pri...,"То, что должно быть спето, произошло в дни был...",เรื่องราวที่จะเล่านี้เกิดขึ้นในโบราณกาล\nครั้ง...,Anlatacaklarım çok eski zamanlara dayanır...\n...,Câu chuyện tôi muốn kể bắt đầu từ ngày xa xưa\...,1
188,MDAQ063_ZhaiXingYaSideB.srt,殿下…您的仆人又为您带回了一场胜利\n当您的国度重临尘世\n我们将分享它的荣光\n,殿下…您的僕人又為您帶回了一場勝利\n當您的國度重臨塵世\n我們將分享它的榮光\n,Eure Hoheit ... Euer getreuer Diener hat erneu...,Your Highness... Your humble servant returns\n...,Su Alteza... Su humilde sirviente regresó.\nCu...,"Votre Altesse, votre humble serviteur vous app...",Tuanku... hamba-hambamu lagi-lagi kembali memb...,Maestà... Il suo umile servo ha fatto ritorno....,殿下 貴方様のしもべはまた勝利を勝ち取りました \n貴方様の国がこの世に再び降臨する時\n我...,전하...전하의 종복이 또다시 승리를 쟁취해왔나이다\n전하의 나라가 다시 세상에 모...,Vossa Alteza... seu humilde servente voltou de...,Ваше высочество... Ваш покорный слуга возвраща...,นายท่าน...ข้ารับใช้ผู้ซื่อสัตย์ของท่านกลับมาพร...,Majesteleri... Mütevazı hizmetkarınız geri dön...,Điện hạ... kẻ bề tôi của ngài lại đem thêm một...,1
189,OpeningSequence_Boy.srt,你从极寒中复苏，希望与这世界相处愉快\n然而当你睁眼，却见到妹妹正被锁链刺穿——\n陌生的神...,你從極寒中復甦，希望與這世界相處愉快\n然而當你睜眼，卻見到妹妹正被鎖鏈刺穿——\n陌生的神...,Du erwachst aus der Kälte und trägst große Hof...,You opened your eyes in the bitter cold with t...,Renaces en medio del gélido frío con la espera...,Vos yeux s'ouvrent dans l'espoir de voir un mo...,"Kamu terbangun dalam kedinginan, berharap untu...","Sperando in un mondo migliore, apri gli occhi ...",極寒から蘇った君は、この世界との懇意を願っていた\nしかし、目を開けた先に映ったのは、鎖に貫...,혹한 속에서 깨어난 당신은 이 세계와 화목하게 지내길 바랐지만\n\n하늘에서 내려온...,Você abre seus olhos no frio com a esperança d...,Вы просыпаетесь от сильного холода и с надеждо...,คุณลืมตาตื่นขึ้นในสถานที่อันแสนหนาวเหน็บ พร้อม...,Dondurucu soğuk içine işlerken daha iyi bir dü...,"Bạn tỉnh lại trong cực hàn, hy vọng sẽ được số...",1
190,OpeningSequence_Girl.srt,你从极寒中复苏，希望与这世界相处愉快\n然而当你睁眼，却见到哥哥正被锁链刺穿——\n陌生的神...,妳從極寒中復甦，希望與這世界相處愉快\n然而當妳睜眼，卻見到哥哥正被鎖鏈刺穿——\n陌生的神...,Du erwachst aus der Kälte und trägst große Hof...,You opened your eyes in the bitter cold with t...,Renaces en medio del gélido frío con la espera...,Vos yeux s'ouvrent dans l'espoir de voir un mo...,"Kamu terbangun dalam kedinginan, berharap untu...","Sperando in un mondo migliore, apri gli occhi ...",極寒から蘇った君は、この世界との懇意を願っていた\nしかし、目を開けた先に映ったのは、鎖に貫...,혹한 속에서 깨어난 당신은 이 세계와 화목하게 지내길 바랐지만\n눈에 들어온 건 차...,Você abre seus olhos no frio com a esperança d...,Вы просыпаетесь от сильного холода и с надеждо...,คุณลืมตาตื่นขึ้นในสถานที่อันแสนหนาวเหน็บ พร้อม...,Dondurucu soğuk içine işlerken daha iyi bir dü...,"Bạn tỉnh lại trong cực hàn, hy vọng sẽ được số...",1


In [9]:
# df_srt_merge[df_srt_merge['zh_text_md5'].isna()]

## json文件处理(TextMap文件夹)
文件数据示例：
<pre>
{
  "1014324224": "演奏开始后，俱利鼓每闪烁一次视为一个节拍。按照鼓谱，在对应的节拍击出相应的鼓声，便可以完成演奏！",
  "1037323264": "遍布繁茂植被的郊野景致，荟萃了枫丹寻常可见的多种花卉与灌木。花与草木是绘画中寻常可见的主题，以及对于「色彩」探索的起点之一。枫丹的部分画家认为，世界的调色盘以众多植株向他们示范了「完美搭配」的典例，因此，若是一幅画中的所有色彩都能在植物身上找到原型，那这幅画必然有着自然风光般的和谐美感。当然，前提是千万别将多种植物的色彩混为一谈…",
  "1037903872": "艾琳",
...
}
</pre>
由于json数据中包含id号，可以直接使用id进行合并，而不需要和处理txt或srt文件那般根据文件名和语句所在行数进行对齐。

> 因为json文件中有TextMapTH_1.json和TextMapTH_2.json，因此写了针对泰语的抽取（其实也可以直接记事本打开复制粘贴统一成一个文件）。

In [10]:
json_directory = os.path.join(root_directory, 'TextMap')
language = ['CHS', 'CHT', 'DE', 'EN', 'ES', 'FR', 'ID', 'IT', 'JP', 'KR', 'PT', 'RU', 'TH', 'TR', 'VI']
json_files = [x for x in os.listdir(json_directory)]

def language_check(filename):
    for lang in language:
        if lang in filename:
            return lang
    return None

# 初始化
# df_json_merge = pd.DataFrame()
merged_df = pd.DataFrame()

# 专门处理 TH 数据
th_dfs = []

for file in json_files:
    print(f'正在处理 {file} 文件夹语料')
    lang = language_check(file)
    file_path = os.path.join(json_directory, file)

    with open(file_path, 'r', encoding='utf-8') as f:
        data = json.load(f)

    # 构造 DataFrame
    df = pd.DataFrame(list(data.items()), columns=['id', f'text_{lang}'])

    if lang == 'TH':  # 对 TH 特殊处理
        th_dfs.append(df)
        continue

    # 合并到总的 DataFrame
    if merged_df.empty:
        merged_df = df
    else:
        merged_df = pd.merge(merged_df, df, on='id', how='outer')

# 合并 TH 的两个文件
if th_dfs:
    combined_th_df = pd.concat(th_dfs, ignore_index=True).drop_duplicates(subset='id', keep='first')
    combined_th_df = combined_th_df.rename(columns={f'text_TH': 'text_TH'})  # 标准化列名
    # 合并到总的 DataFrame
    merged_df = pd.merge(merged_df, combined_th_df, on='id', how='outer')

# json文件名列，以中文语料的 json 文件为准，其余语料对齐
merged_df['file_name'] = 'TextMapCHS.json'

# 新增行号列
merged_df['line_number'] = merged_df.index + 1

正在处理 TextMapCHS.json 文件夹语料
正在处理 TextMapCHT.json 文件夹语料
正在处理 TextMapDE.json 文件夹语料
正在处理 TextMapEN.json 文件夹语料
正在处理 TextMapES.json 文件夹语料
正在处理 TextMapFR.json 文件夹语料
正在处理 TextMapID.json 文件夹语料
正在处理 TextMapIT.json 文件夹语料
正在处理 TextMapJP.json 文件夹语料
正在处理 TextMapKR.json 文件夹语料
正在处理 TextMapPT.json 文件夹语料
正在处理 TextMapRU.json 文件夹语料
正在处理 TextMapTH_1.json 文件夹语料
正在处理 TextMapTH_2.json 文件夹语料
正在处理 TextMapTR.json 文件夹语料
正在处理 TextMapVI.json 文件夹语料


In [11]:
merged_df

Unnamed: 0,id,text_CHS,text_CHT,text_DE,text_EN,text_ES,text_FR,text_ID,text_IT,text_JP,text_KR,text_PT,text_RU,text_TR,text_VI,text_TH,file_name,line_number
0,1014324224,演奏开始后，俱利鼓每闪烁一次视为一个节拍。按照鼓谱，在对应的节拍击出相应的鼓声，便可以完成演奏！,演奏開始後，俱利鼓每閃爍一次視為一個節拍。按照鼓譜，在對應的節拍擊出相應的鼓聲，便可以完成演奏！,"Sobald du anfängst zu spielen, gilt jedes Blin...","After your performance begins, each glimmer of...","Cuando la actuación haya comenzado, cada deste...","Après le début de votre performance, chaque sc...","Setelah pertunjukan dimulai, setiap kilauan Dr...","Dopo l'inizio della tua esibizione, ogni bagli...",演奏開始後、コリュの太鼓が1回点滅するごとに1つの拍となります。楽譜に従って、正しいリズムと...,연주에서 코리 북이 한 번 빛나는 것을 한 박자로 간주합니다. 악보에 맞춰 알맞은 ...,"Após sua performance iniciar, cada brilho de u...","Когда начнётся выступление, каждая вспышка кор...",Müzik performansın başladığında bir Kori Davul...,"Sau khi bắt đầu diễn tấu, mỗi khi Trống Kory n...",หลังจากที่การแสดงเริ่มขึ้น ประกายแสงของกลอง Ko...,TextMapCHS.json,1
1,1037323264,遍布繁茂植被的郊野景致，荟萃了枫丹寻常可见的多种花卉与灌木。花与草木是绘画中寻常可见的主题，...,遍布繁茂植被的郊野景致，薈萃了楓丹尋常可見的多種花卉與灌木。花與草木是繪畫中尋常可見的主題，...,Eine Landschaft mit üppiger Vegetation und ein...,A countryside scene full of luxurious plants. ...,Un bucólico paisaje de vegetación exuberante q...,Une scène de campagne envahie par des plantes ...,Pemandangan alam liar yang dipenuhi dengan tum...,Un panorama rurale ricco di piante rigogliose....,一面に草木が広がる郊外の野には、フォンテーヌでよく目にする様々な草花や低木が一堂に会している...,무성한 식물이 자라있는 야외 풍경. 폰타인에서 자주 볼 수 있는 꽃과 관목이 모여 ...,Uma cena rural repleta de plantas exuberantes....,Сельская местность с пышной растительностью. З...,Gösterişli bitkilerle dolu bir kır manzarası. ...,"Khung cảnh ngoại ô với thảm thực vật tươi tốt,...",พื้นที่ชนบทที่ปกคลุมไปด้วยพืชพรรณเขียวชอุ่ม มี...,TextMapCHS.json,2
2,1037903872,艾琳,艾琳,Ellin,Ellin,Ellin,Eileen,Ellin,Ellin,エリン,엘린,Ellin,Айлин,Ellin,Ellin,Ellin,TextMapCHS.json,3
3,1061516288,少女薇拉的忧郁·卷二,少女薇拉的憂鬱·卷二,Veras Trübsinn – Band II,Vera's Melancholy (II),La melancolía de Vera (II),La Mélancolie de Véra - Tome II,Kemelankolisan Vera (II),Malinconia di Vera (II),少女ヴィーラの憂鬱·2,소녀 베라의 우울·2권,Melancolia de Vera (II),Меланхолия Веры. Том II,Vera'nın Melankolisi (II),Vera Sầu Muộn (II),ความเศร้าโศกของ Vera (II),TextMapCHS.json,4
4,1083215872,派蒙,派蒙,Paimon,Paimon,Paimon,Paimon,Paimon,Paimon,パイモン,페이몬,Paimon,Паймон,Paimon,Paimon,Paimon,TextMapCHS.json,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
567870,1352415965,,遠古寶玉造的，能守護一國的勁弓，以匯聚一線的翠光為幻造的弦。,Ein aus uralter Jade gefertigter Bogen zum Sch...,"A strong bow that was made from ancient jade, ...",Un gran arco hecho de un ámbar antiguo complet...,Un arc puissant fait de jade antique qui peut ...,Sebuah busur kuat yang tubuhnya terbuat dari g...,,上古の宝玉で作られた、一国を守れる弓。一線に集まる光は幻造の弦になる。,고대 보옥으로 만들어진 일국을 수호할 수 있는 강한 활. 푸른빛 줄기가 모여 활시위...,"Um arco forte feito de jade antigo, com uma co...","Лук, сделанный из древнего нефрита, с тетивой,...",,"Tạo ra từ bảo ngọc viễn cổ, có thể bảo vệ một ...",คันธนูที่แข็งแกร่งที่ทำจากหยกโบราณด้วยสายที่ทำ...,TextMapCHS.json,567871
567871,1994081075,,懸黎千鈞,Urzeitlicher Jadebogen,Primordial Jade Vista,Vista de Jade Primordial,Vue de jade primordial,Primordial Jade Vista,,高価なオーブ,현려천균,Vista da Jade Primordial,Древняя Нефритовая Виста,,Cung Huyền Lê,Primordial Jade Vista,TextMapCHS.json,567872
567872,2871507766,,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,TextMapCHS.json,567873
567873,2865597243,,驟起的魔花,Aufstieg der Teufelsblume,Rise of the Fell Flower,El ascenso de la flor maldita,L'ascension de la Gangrefleur,Bangkitnya Bunga yang Jatuh,L'ascesa del Demonfiore,蔓延る魔の花,악마의 꽃의 습격,Ascensão da Flor Maldita,Восстание Злоцвета,Düşen Çiçeğin Yükselişi,Hoa Quỷ Nở Rộ,การลุกฮือของดอกไม้ปีศาจ,TextMapCHS.json,567874


In [12]:
# len(merged_df[merged_df.zh_text_md5.isna()])

# 数据合并

In [13]:
merged_df = merged_df.drop(columns=['id'])

# 确保列顺序相同
columns_order = ['file_name', 'line_number', 'text_CHS', 'text_CHT', 'text_DE',
                  'text_EN', 'text_ES', 'text_FR', 'text_ID', 'text_IT', 'text_JP',
                  'text_KR', 'text_PT', 'text_RU', 'text_TH', 'text_TR', 'text_VI']

merged_df = merged_df[columns_order]
df_srt_merge = df_srt_merge[columns_order]
df_txt_merge = df_txt_merge[columns_order]

# 合并所读取的txt,srt,json文件的数据框
merged_all_df = pd.concat([df_txt_merge, df_srt_merge, merged_df], axis=0, ignore_index=True)
merged_all_df

Unnamed: 0,file_name,line_number,text_CHS,text_CHT,text_DE,text_EN,text_ES,text_FR,text_ID,text_IT,text_JP,text_KR,text_PT,text_RU,text_TH,text_TR,text_VI
0,AmborLicense.txt,1,1、飞行前请确认您的身心健康状态。,1、飛行前請確認您的身心健康狀態。,1. Vergewissere dich deiner geistigen und körp...,"1. Before gliding, make sure you are physicall...","1. Antes de volar, compruebe que está en buen ...",1. Veuillez vous assurer que vous êtes physiqu...,"1. Sebelum terbang, pastikan kesehatan tubuh d...","1. Prima di usare un aliante, preparati fisica...",1、飛行前に心身の健康状態を確認すること。,1. 비행 전 심신의 건강 상태를 체크하세요.,"1. Antes de planar, certifique-se de que você ...","1. Перед полётом убедитесь в том, что вы готов...",1. เตรียมตัวให้พร้อมทั้งสภาพร่างกายและจิตใจก่อ...,1. Uçuştan önce fiziksel ve zihinsel olarak ha...,1. Trước khi bay hãy xác nhận trạng thái thể c...
1,AmborLicense.txt,2,,,,,,,,,,,,,,,
2,AmborLicense.txt,3,2、起飞时请借助风场或较高的地势。,2、起飛時請借助風場或較高的地勢。,2. Starte von einem Windfeld oder hoch gelegen...,2. Make use of a wind current or elevated terr...,2. Despegue ayudándose de una corriente de vie...,2. Commencez par vous entraîner avec un champ ...,2. Manfaatkan arus angin atau ketinggian yang ...,2. Per il decollo sfrutta le correnti d'aria o...,2、飛び立つ時は風域、または高い地形を利用すること。,2. 날아오를 때는 윈드 필드를 이용하거나 높은 곳이 좋습니다.,2. Faça uso de uma corrente de vento ou de um ...,2. Для взлёта используйте ветряные потоки или ...,2. พุ่งตัวออกจากพื้นที่สูงชัน หรือกระแสลมแรง,2. Kalkış için rüzgar akımından ya da yüksek b...,2. Khi cất cánh hãy mượn sức gió hoặc nơi có đ...
3,AmborLicense.txt,4,,,,,,,,,,,,,,,
4,AmborLicense.txt,5,3、使用风之翼飞行时请注意风势与风向，维持飞行平衡。,3、使用風之翼飛行時請注意風勢與風向，維持飛行平衡。,3. Achte bei der Nutzung eines Windgleiters au...,3. Keep an eye on the wind conditions while gl...,3. Tenga en cuenta la velocidad y dirección de...,3. Faites attention à la force et la direction...,3. Perhatikanlah kondisi angin di setiap waktu...,3. Mentre voli tieni d'occhio le condizioni de...,3、風の翼を使用する時は風力と風向きに注意して、バランスを維持すること。,3. 바람의 날개를 사용해 비행할 때에는 바람의 세기와 방향에 유의하여 평형을 유지...,3. Fique de olho nas condições do vento enquan...,"3. Следите за воздушными потоками, чтобы не по...",3. ตรวจสอบกระแสลมในขณะที่ใช้เครื่องร่อนเวหาบิน...,3. Uçuş sırasında dengenizi koruyabilmek için ...,3. Khi dùng Phong Chi Dực bay lên hãy chú ý sứ...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
592047,TextMapCHS.json,567871,,遠古寶玉造的，能守護一國的勁弓，以匯聚一線的翠光為幻造的弦。,Ein aus uralter Jade gefertigter Bogen zum Sch...,"A strong bow that was made from ancient jade, ...",Un gran arco hecho de un ámbar antiguo complet...,Un arc puissant fait de jade antique qui peut ...,Sebuah busur kuat yang tubuhnya terbuat dari g...,,上古の宝玉で作られた、一国を守れる弓。一線に集まる光は幻造の弦になる。,고대 보옥으로 만들어진 일국을 수호할 수 있는 강한 활. 푸른빛 줄기가 모여 활시위...,"Um arco forte feito de jade antigo, com uma co...","Лук, сделанный из древнего нефрита, с тетивой,...",คันธนูที่แข็งแกร่งที่ทำจากหยกโบราณด้วยสายที่ทำ...,,"Tạo ra từ bảo ngọc viễn cổ, có thể bảo vệ một ..."
592048,TextMapCHS.json,567872,,懸黎千鈞,Urzeitlicher Jadebogen,Primordial Jade Vista,Vista de Jade Primordial,Vue de jade primordial,Primordial Jade Vista,,高価なオーブ,현려천균,Vista da Jade Primordial,Древняя Нефритовая Виста,Primordial Jade Vista,,Cung Huyền Lê
592049,TextMapCHS.json,567873,,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988
592050,TextMapCHS.json,567874,,驟起的魔花,Aufstieg der Teufelsblume,Rise of the Fell Flower,El ascenso de la flor maldita,L'ascension de la Gangrefleur,Bangkitnya Bunga yang Jatuh,L'ascesa del Demonfiore,蔓延る魔の花,악마의 꽃의 습격,Ascensão da Flor Maldita,Восстание Злоцвета,การลุกฮือของดอกไม้ปีศาจ,Düşen Çiçeğin Yükselişi,Hoa Quỷ Nở Rộ


In [14]:
# len(merged_all_df[merged_all_df['zh_text_md5'].isna()])

# 数据清洗

In [15]:
def clean_text(text):
    if pd.isna(text):  # 跳过空值
        return text
    # 去除 HTML 样式标签
    text = re.sub(r'<[^>]+>', '', text)
    # 去除其他可能的占位符或多余符号
    # text = re.sub(r'\[.*?\]', '', text)
    # text = re.sub(r'/\*.*?\*/', '', text)
    return text

for col in list(merged_all_df.columns[2:]):
    merged_all_df[col] = merged_all_df[col].apply(clean_text)

In [16]:
def calculate_md5(text):
    return hashlib.md5(text.encode('utf-8')).hexdigest() if pd.notna(text) else None

merged_all_df['zh_text_md5'] = merged_all_df['text_CHS'].apply(calculate_md5)

In [17]:
# 定义 is_low_quality 函数
def is_low_quality(row):
    # 中文语料为空：检查 zh_text_md5 是否为 NaN
    if pd.isna(row['zh_text_md5']):
        return True
    
    # 中英文语料为空：检查 text_CHS 和 text_EN 是否同时为 NaN
    if pd.isna(row.get('text_CHS')) and pd.isna(row.get('text_EN')):
        return True
    
    # 中文语料为非中文：检查 text_CHS 是否为空字符串或不包含中文字符
    if row.get('text_CHS') == '' or not contains_chinese(row.get('text_CHS', '')):
        return True
    
    return False

# 正则匹配检查字符串是否包含中文字符
def contains_chinese(text):
    chinese_pattern = re.compile(r'[\u4e00-\u9fff]')
    return chinese_pattern.search(text) is not None

merged_all_df['is_low_quality'] = merged_all_df.apply(is_low_quality, axis=1)

# 定义is_duplicate列
merged_all_df['is_duplicate'] = merged_all_df.duplicated(subset='zh_text_md5', keep='first')

# 定义duplicated_crossing_file列，由于目前不需要检查改行所以注释掉了
# cross_file_duplicates = merged_all_df.groupby(['file_name', 'zh_text_md5']).size().reset_index(name='文件内出现次数')
# cross_file_duplicates = cross_file_duplicates.groupby('zh_text_md5').size().reset_index(name='文件数')
# merged_all_df = merged_all_df.merge(cross_file_duplicates[['zh_text_md5', '文件数']], on='zh_text_md5', how='left')
# merged_all_df['duplicated_crossing_file'] = merged_all_df['文件数'] > 1
# merged_all_df.drop(columns=['文件数'], inplace=True)

In [18]:
merged_all_df[merged_all_df['is_low_quality']==True]

Unnamed: 0,file_name,line_number,text_CHS,text_CHT,text_DE,text_EN,text_ES,text_FR,text_ID,text_IT,text_JP,text_KR,text_PT,text_RU,text_TH,text_TR,text_VI,zh_text_md5,is_low_quality,is_duplicate
1,AmborLicense.txt,2,,,,,,,,,,,,,,,,d41d8cd98f00b204e9800998ecf8427e,True,False
3,AmborLicense.txt,4,,,,,,,,,,,,,,,,d41d8cd98f00b204e9800998ecf8427e,True,True
5,AmborLicense.txt,6,,,,,,,,,,,,,,,,d41d8cd98f00b204e9800998ecf8427e,True,True
7,AmborLicense.txt,8,,,,,,,,,,,,,,,,d41d8cd98f00b204e9800998ecf8427e,True,True
9,AmborLicense.txt,10,,,,,,,,,,,,,,,,d41d8cd98f00b204e9800998ecf8427e,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
592047,TextMapCHS.json,567871,,遠古寶玉造的，能守護一國的勁弓，以匯聚一線的翠光為幻造的弦。,Ein aus uralter Jade gefertigter Bogen zum Sch...,"A strong bow that was made from ancient jade, ...",Un gran arco hecho de un ámbar antiguo complet...,Un arc puissant fait de jade antique qui peut ...,Sebuah busur kuat yang tubuhnya terbuat dari g...,,上古の宝玉で作られた、一国を守れる弓。一線に集まる光は幻造の弦になる。,고대 보옥으로 만들어진 일국을 수호할 수 있는 강한 활. 푸른빛 줄기가 모여 활시위...,"Um arco forte feito de jade antigo, com uma co...","Лук, сделанный из древнего нефрита, с тетивой,...",คันธนูที่แข็งแกร่งที่ทำจากหยกโบราณด้วยสายที่ทำ...,,"Tạo ra từ bảo ngọc viễn cổ, có thể bảo vệ một ...",,True,True
592048,TextMapCHS.json,567872,,懸黎千鈞,Urzeitlicher Jadebogen,Primordial Jade Vista,Vista de Jade Primordial,Vue de jade primordial,Primordial Jade Vista,,高価なオーブ,현려천균,Vista da Jade Primordial,Древняя Нефритовая Виста,Primordial Jade Vista,,Cung Huyền Lê,,True,True
592049,TextMapCHS.json,567873,,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,goto -39 229 9988,,True,True
592050,TextMapCHS.json,567874,,驟起的魔花,Aufstieg der Teufelsblume,Rise of the Fell Flower,El ascenso de la flor maldita,L'ascension de la Gangrefleur,Bangkitnya Bunga yang Jatuh,L'ascesa del Demonfiore,蔓延る魔の花,악마의 꽃의 습격,Ascensão da Flor Maldita,Восстание Злоцвета,การลุกฮือของดอกไม้ปีศาจ,Düşen Çiçeğin Yükselişi,Hoa Quỷ Nở Rộ,,True,True


# 数据导出

In [20]:
time = datetime.datetime.now().strftime('%Y%m%d')
# 去重段落数: 以 zh_text 为依据，“重复了的段落”的个数
duplicate_sum = len(merged_all_df[merged_all_df['is_duplicate'] == True])
low_quality_sum = len(merged_all_df[merged_all_df['is_low_quality'] == True])
# 段落数: 等于整份文件中jsonl的行数
paragraphs_sum = merged_all_df.shape[0]

output_list = []
file_name_prefix = 'Genshin_AnimeGameData' #若更换输出文件名，请记得修改
# 由于Datacheck文件限制512MB文件输入,因此设置输出文件大小为510MB
max_file_size = 510 * 1024 * 1024 
current_file_index = 1
current_file_size = 0
current_output_path = os.path.join(root_directory, f"{file_name_prefix}_{current_file_index}.jsonl")

# 初始化
current_file = open(current_output_path, 'w', encoding='utf-8')

for idx, row in merged_all_df.iterrows():
    # 储存额外的小语种，可添加至扩展字段中
    other_texts = {
        'tr': str(row['text_TR'])
    }
    key = str(row['file_name']) + '_' + str(row['line_number'])

    entry = {
        "文件名": f"{file_name_prefix}_{current_file_index}.jsonl",
        "是否待查文件": False,
        "是否重复文件": False,
        "段落数": paragraphs_sum,
        "去重段落数": duplicate_sum,
        "低质量段落数": low_quality_sum,
        "行号": int(idx + 1),  # 段落下标，是一个取值范围在 [1, 段落数] 之间的整数
        "是否重复": bool(row['is_duplicate']),
        "是否跨文件重复": False,
        "it_text": str(row['text_IT']),
        "zh_text": str(row['text_CHS']),
        "en_text": str(row['text_EN']),
        "ar_text": "",
        "nl_text": "",
        "de_text": str(row['text_DE']),
        "eo_text": "",
        "fr_text": str(row['text_FR']),
        "he_text": "",
        "ja_text": str(row['text_JP']),
        "pt_text": str(row['text_PT']),
        "ru_text": str(row['text_RU']),
        "es_text": str(row['text_ES']),
        "sv_text": "",
        "ko_text": str(row['text_KR']),
        "th_text": str(row['text_TH']),
        "id_text": str(row['text_ID']),
        "cht_text": str(row['text_CHT']),
        "vi_text": str(row['text_VI']),
        "扩展字段": json.dumps({"k": key, "other_texts": other_texts}, ensure_ascii=False),
        "时间": time,
        "zh_text_md5": str(row['zh_text_md5'])
    }

    # 输出部分
    entry_json = json.dumps(entry, ensure_ascii=False) + '\n'
    entry_size = len(entry_json.encode('utf-8'))

    # 检查是否超出文件大小限制
    if current_file_size + entry_size > max_file_size:
        current_file.close()

        current_file_index += 1
        current_file_size = 0
        current_output_path = os.path.join(root_directory, f"{file_name_prefix}_{current_file_index}.jsonl")
        current_file = open(current_output_path, 'w', encoding='utf-8')

    current_file.write(entry_json)
    current_file_size += entry_size

current_file.close()

print('数据输出完成')


数据输出完成
