# 数据读取

In [1]:
import os
import hashlib
import pandas as pd
import re

# 数据来源：https://github.com/Milkve/GenshinData/tree/master

# 获取当前工作目录
root_directory = os.path.join(os.getcwd(), "Readable")

# 数据读取
def process_folder(folder):
    folder_path = os.path.join(root_directory, folder)
    all_files_data = []

    # 遍历文件夹中的所有txt文件
    for txt_file in os.listdir(folder_path):
        if txt_file.endswith(".txt"):
            file_path = os.path.join(folder_path, txt_file)
            with open(file_path, 'r', encoding='utf-8') as file:
                lines = file.readlines()
            
            for idx, line in enumerate(lines):
                cleaned_line = line.strip()
                md5_hash = hashlib.md5(cleaned_line.encode()).hexdigest() 
                
                #正则化文件名，便于之后的merge操作
                if(folder != 'CHS'):
                    file_name = re.sub(f'_{folder}.txt', '.txt', txt_file)
                    all_files_data.append({
                        '文件名': file_name,
                        '行号': idx + 1,
                        f'文本_{folder}': cleaned_line
                    })
                else:
                    file_name = txt_file
                    all_files_data.append({
                        '文件名': file_name,
                        '行号': idx + 1,
                        'zh_text_md5': md5_hash,
                        f'文本_{folder}': cleaned_line
                    })
                
                  
    return all_files_data

# 处理CHS文件夹中的所有txt文件
df_CHS = pd.DataFrame(process_folder('CHS')) #简中
df_CHT = pd.DataFrame(process_folder('CHT')) #繁中
df_DE = pd.DataFrame(process_folder('DE'))   #德语
df_EN = pd.DataFrame(process_folder('EN'))   #英
df_ES = pd.DataFrame(process_folder('ES'))   #西
df_FR = pd.DataFrame(process_folder('FR'))   #法
df_ID = pd.DataFrame(process_folder('ID'))   #印地
df_JP = pd.DataFrame(process_folder('JP'))   #日
df_KR = pd.DataFrame(process_folder('KR'))   #韩
df_PT = pd.DataFrame(process_folder('PT'))   #葡
df_RU = pd.DataFrame(process_folder('RU'))   #俄
df_TH = pd.DataFrame(process_folder('TH'))   #泰
df_VI = pd.DataFrame(process_folder('VI'))   #越南


# df_VI.iloc[22:27]

# 有三个数据集（FR、ID、VI）文本存在多/少一行的情况
# df_FR.loc[df_FR['文件名'] == 'Relic15015_2.txt']
df_CHS

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS
0,AmborLicense.txt,1,01674ca9360b3b11441f1641717c6ed2,1、飞行前请确认您的身心健康状态。
1,AmborLicense.txt,2,d41d8cd98f00b204e9800998ecf8427e,
2,AmborLicense.txt,3,6f336a7ddcfffcbc380a51fd0edd5e96,2、起飞时请借助风场或较高的地势。
3,AmborLicense.txt,4,d41d8cd98f00b204e9800998ecf8427e,
4,AmborLicense.txt,5,b102a70ba0c1d31d1d0009c42c5e11e0,3、使用风之翼飞行时请注意风势与风向，维持飞行平衡。
...,...,...,...,...
7139,Wings140007.txt,19,a346d75c30264a25179c0665ff7e3610,就这样，「龙」的时代结束了。
7140,Wings140007.txt,20,d41d8cd98f00b204e9800998ecf8427e,
7141,Wings140007.txt,21,aed19d28acb7ca09f992fb1b05653a5f,这件风之翼就是这个大灭绝事件的纪念，而且它本来也不是这个颜色的。原本它是蓝白色的。
7142,Wings140007.txt,22,435b1d53cfea4b58fd06bbe8acc678c8,可莉的妈妈把这个风之翼换成了她们一家的配色，也就是现在这个样子。她短暂归家，留下了这对风之翼...


In [2]:
df_FR[df_FR['文件名'] == 'Book168.txt']

Unnamed: 0,文件名,行号,文本_FR
1799,Book168.txt,1,...
1800,Book168.txt,2,
1801,Book168.txt,3,"Grâce à l'aide de ██████████, j'ai enfin █████..."
1802,Book168.txt,4,
1803,Book168.txt,5,█████████████████████ haut ██ dangereux par ic...
1804,Book168.txt,6,
1805,Book168.txt,7,...
1806,Book168.txt,8,
1807,Book168.txt,9,Je n'ai ██ personne ████████. Ceux qui ███████...
1808,Book168.txt,10,


In [3]:
# 数据合并
df_testmerge = df_CHS

df_testmerge = df_testmerge.merge(df_CHT, on=['文件名', '行号'], how='outer')
df_testmerge = df_testmerge.merge(df_DE, on=['文件名', '行号'], how='outer')
df_testmerge = df_testmerge.merge(df_EN, on=['文件名', '行号'], how='outer')
df_testmerge = df_testmerge.merge(df_ES, on=['文件名', '行号'], how='outer')
df_testmerge = df_testmerge.merge(df_FR, on=['文件名', '行号'], how='outer')
df_testmerge = df_testmerge.merge(df_ID, on=['文件名', '行号'], how='outer')
df_testmerge = df_testmerge.merge(df_JP, on=['文件名', '行号'], how='outer')
df_testmerge = df_testmerge.merge(df_KR, on=['文件名', '行号'], how='outer')
df_testmerge = df_testmerge.merge(df_PT, on=['文件名', '行号'], how='outer')
df_testmerge = df_testmerge.merge(df_RU, on=['文件名', '行号'], how='outer')
df_testmerge = df_testmerge.merge(df_TH, on=['文件名', '行号'], how='outer')
df_testmerge = df_testmerge.merge(df_VI, on=['文件名', '行号'], how='outer')


df_testmerge

# df_testmerge.loc[df_testmerge['文件名'] == 'Relic15015_2.txt']


Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
0,AmborLicense.txt,1,01674ca9360b3b11441f1641717c6ed2,1、飞行前请确认您的身心健康状态。,1、飛行前請確認您的身心健康狀態。,1. Vergewissere dich deiner geistigen und körp...,"1. Before gliding, make sure you are physicall...","1. Antes de volar, compruebe que está en buen ...",1. Veuillez vous assurer que vous êtes physiqu...,"1. Sebelum terbang, pastikan kesehatan tubuh d...",1、飛行前に心身の健康状態を確認すること。,1. 비행 전 심신의 건강 상태를 체크하세요.,"1. Antes de planar, certifique-se de que você ...","1. Перед полётом убедитесь в том, что вы готов...",1. เตรียมตัวให้พร้อมทั้งสภาพร่างกายและจิตใจก่อ...,1. Trước khi bay hãy xác nhận trạng thái thể c...
1,AmborLicense.txt,2,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
2,AmborLicense.txt,3,6f336a7ddcfffcbc380a51fd0edd5e96,2、起飞时请借助风场或较高的地势。,2、起飛時請借助風場或較高的地勢。,2. Starte von einem Windfeld oder hoch gelegen...,2. Make use of a wind current or elevated terr...,2. Despegue ayudándose de una corriente de vie...,2. Commencez par vous entraîner avec un champ ...,2. Manfaatkan arus angin atau ketinggian yang ...,2、飛び立つ時は風域、または高い地形を利用すること。,2. 날아오를 때는 윈드 필드를 이용하거나 높은 곳이 좋습니다.,2. Faça uso de uma corrente de vento ou de um ...,2. Для взлёта используйте ветряные потоки или ...,2. พุ่งตัวออกจากพื้นที่สูงชัน หรือกระแสลมแรง,2. Khi cất cánh hãy mượn sức gió hoặc nơi có đ...
3,AmborLicense.txt,4,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
4,AmborLicense.txt,5,b102a70ba0c1d31d1d0009c42c5e11e0,3、使用风之翼飞行时请注意风势与风向，维持飞行平衡。,3、使用風之翼飛行時請注意風勢與風向，維持飛行平衡。,3. Achte bei der Nutzung eines Windgleiters au...,3. Keep an eye on the wind conditions while gl...,3. Tenga en cuenta la velocidad y dirección de...,3. Faites attention à la force et la direction...,3. Perhatikanlah kondisi angin di setiap waktu...,3、風の翼を使用する時は風力と風向きに注意して、バランスを維持すること。,3. 바람의 날개를 사용해 비행할 때에는 바람의 세기와 방향에 유의하여 평형을 유지...,3. Fique de olho nas condições do vento enquan...,"3. Следите за воздушными потоками, чтобы не по...",3. ตรวจสอบกระแสลมในขณะที่ใช้เครื่องร่อนเวหาบิน...,3. Khi dùng Phong Chi Dực bay lên hãy chú ý sứ...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7141,Wings140007.txt,21,aed19d28acb7ca09f992fb1b05653a5f,这件风之翼就是这个大灭绝事件的纪念，而且它本来也不是这个颜色的。原本它是蓝白色的。,這件風之翼就是這個大滅絕事件的紀念，而且它本來也不是這個顏色的。原本它是藍白色的。,Dieser Windgleiter erinnert an das große Ausst...,This wind glider commemorates that great extin...,Este planeador conmemora su terrible extinción...,Ce planeur commémore cette extinction. Il n'a ...,Wind glider ini memperingati kepunahan yang lu...,この風の翼はあの大絶滅事件の記念だ。本来はこのような色ではなく、青と白だった。,이 바람의 날개는 바로 이 멸종 사건을 기념하기 위해 만들어진 것이다. 참고로 원래...,"Este Planador celebra aquela grande extinção, ...",Этот планер служит памятью о том великом вымир...,ปีกแห่งสายลมนี้เป็นของที่ระลึกของเหตุการณ์การส...,Phong Chi Dực này là một đài tưởng niệm về sự ...
7142,Wings140007.txt,22,435b1d53cfea4b58fd06bbe8acc678c8,可莉的妈妈把这个风之翼换成了她们一家的配色，也就是现在这个样子。她短暂归家，留下了这对风之翼...,可莉的媽媽把這個風之翼換成了她們一家的配色，也就是現在這個樣子。她短暫歸家，留下了這對風之翼...,"Klees Mutter änderte das Farbschema, um es bes...",Klee's mother changed its color scheme to be m...,La madre de Klee cambió su color para que conj...,La mère de Klee en a modifié les couleurs pour...,Ibu Klee mengubah skema warnanya agar lebih co...,クレーの母親は風の翼を家族の色に変え、これが今の姿だ。彼女は少しの間家に帰り、この風の翼を残...,클레의 엄마가 이 바람의 날개를 그녀 가문의 색으로 염색하여 지금의 모습이 됐다. ...,A mãe de Klee mudou o esquema de cores para um...,"Мать Кли перекрасила планер в цвета семьи, поэ...",แม่ของ Klee ได้เปลี่ยนสีเครื่องร่อนเวหานี้ให้เ...,Mẹ của Klee đã biến Phong Chi Dực này thành mà...
7143,Wings140007.txt,23,3848cd4f63a53a4c514239f89fa04596,「妈妈忙起来了。最近两年提瓦特的边界可是越来越脆弱了。」,「媽媽忙起來了。最近兩年提瓦特的邊界可是越來越脆弱了。」,„Die Grenzen von Teyvat sind in den letzten zw...,"""Teyvat's borders have grown fragile these pas...","“Hija, voy a estar muy ocupada. En estos últim...",« Il y a des problèmes à la frontière ces dern...,"""Perbatasan Teyvat semakin rapuh selama dua ta...",「お母さんは忙しくなってきたの。ここ数年、テイワットの辺境はますます脆弱になったからね。」,「엄마가 많이 바쁜가 봐. 요즘 티바트의 경계가 점점 약해지고 있데」,"""As fronteiras da Teyvat ficaram mais desprote...",«За последние два года границы Тейвата ослабли...,"""แม่ไม่ว่างซะแล้ว พรมแดนของ Teyvat นั้นเปราะบา...","""Mẹ lại bận rộn rồi. Hai năm gần đây tình hình..."
7144,Book168.txt,41,,,,,,,...,,,,,,,


In [4]:
df_testmerge[df_testmerge['文件名'] == 'Book168.txt'][['zh_text_md5','文本_FR']]

Unnamed: 0,zh_text_md5,文本_FR
1854,a567268bff00afebab2701b97a726d0c,...
1855,d41d8cd98f00b204e9800998ecf8427e,
1856,5ab95c8d2dddc51fa60277fd19decc0e,"Grâce à l'aide de ██████████, j'ai enfin █████..."
1857,d41d8cd98f00b204e9800998ecf8427e,
1858,66f5663d3fe961335c254be1bdffcedf,█████████████████████ haut ██ dangereux par ic...
1859,d41d8cd98f00b204e9800998ecf8427e,
1860,a567268bff00afebab2701b97a726d0c,...
1861,d41d8cd98f00b204e9800998ecf8427e,
1862,4fadaa36bc91376b617913567c74ce88,Je n'ai ██ personne ████████. Ceux qui ███████...
1863,d41d8cd98f00b204e9800998ecf8427e,


In [5]:
df_testmerge.loc[df_testmerge['文件名'] == 'Book10.txt']
# df_testmerge.to_csv('check.csv', index=False, encoding='utf-8')

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
47,Book10.txt,1,e050ff9cd670d79c11c83a27360a2e48,在这不知道位于何方的，四周都是望也望不到头的蒲公英海里，看着风一吹，蒲公英就轻飘飘地飞起来的...,在這不知道位於何方的，四周都是望也望不到頭的蒲公英海裡，看著風一吹，蒲公英就輕飄飄地飛起來的...,"Egal in welche Richtung ich blickte, sah ich e...",In a boundless sea of dandelions that existed ...,En el infinito mar de dientes de león situado ...,"Dans cette immense mer de pissenlits sans fin,...","Di suatu tempat yang tidak diketahui, sejauh m...",どの位置に存在するのかも分からない、この一面に広がる蒲公英達を見て、俺はやっと理解した。,"어디인지 모를 끝이 보이지 않는 민들레 밭에 서서, 바람이 일 때마다 하늘하늘 흩날...",Num mar sem fim de Dandelion que existia no me...,"Среди бескрайнего моря одуванчиков я наблюдал,...",ท่ามกลางทุ่งดอกแดนดิไลออนอันไร้ขอบเขตและไม่รู้...,"Không rõ đây là đâu, xung quanh đều là biển bồ..."
48,Book10.txt,2,270d60dccd22973a3a270a6e650212d9,「打猎的时候，追着追着就消失了的狐狸，原来都躲在这里啊。」,「打獵的時候，追著追著就消失了的狐狸，原來都躲在這裡啊。」,"„Die Füchse, die während der Jagd plötzlich ve...","""So all the foxes that disappear during the hu...",“Así que este es el sitio donde se esconden lo...,« C'est ici que les renards viennent se cacher...,"""Ternyata semua rubah yang dikejar-kejar oleh ...",（狩りの最中に、追いかけていた狐が消えるのは、ここに逃げ込んだからか）,「사냥하면서 쫓다가 갑자기 사라진 여우들이 다 여기에 숨어있었구나」,"""Então é aqui que se escondem as raposas quand...","«Наверное, именно сюда попадают лисы, за котор...","""ที่พวกจิ้งจอกหนีหายไปตอนโดนพวกนายพรานไล่มา คื...","""Khi đi săn, mấy con hồ ly bị đuổi bắt đều biế..."
49,Book10.txt,3,e43dfcce31d030c91bfb556e5d119603,我心想。,我心想。,So dachte ich bei mir.,I thought to myself.,pensé.,pensai-je.,Aku berpikir.,俺は思う。,난 이렇게 생각했다.,Vou pensar.,Подумал я.,ฉันคิด,Tôi nghĩ thầm.
50,Book10.txt,4,da36f4ae521105b293651ae125110817,「真是个漂亮的好地方。」,「真是個漂亮的好地方。」,„Dieser Ort ist wirklich wunderschön.“,"""What a beautiful place.""",“Qué lugar tan bonito”.,« Quel endroit magnifique. »,"""Tempat ini indah sekali.""",（本当に美しい場所だ）,「참 아름다운 곳이야」,“É realmente um lugar belo.”,- Какая же красота.,"""ช่างเป็นที่ที่สวยเหลือเกิน""","""Thật là một nơi tuyệt đẹp""."
51,Book10.txt,5,a5bba59841eb12c603fd2c91e8a85cf4,但是，在教小狐狸说通用语的时候，心里总是觉得空落落的，就像有风在里面吹一样。,但是，在教小狐狸說通用語的時候，心裡總是覺得空落落的，就像有風在裡面吹一樣。,Doch als ich der jungen Füchsin unsere Sprache...,But when I began teaching the little fox to sp...,"Pero, cuando empecé a enseñarle al pequeño zor...","Cependant, un sentiment de vide emplissait tou...",Tetapi waktu aku mengajari rubah kecil itu unt...,だが、子狐に共通語を教えているとき、心は空っぽで風が吹き込んでいるかのように冷たかった。,꼬마 여우에게 말을 가르쳐줄 때마다 마음 한구석이 뭔가 텅 빈 것만 같았다. 마치 ...,Mas quando eu comecei a ensinar a pequena rapo...,Но когда я начал учить лисёнка говорить на общ...,แต่เวลาที่ฉันสอนภาษาของเราให้เจ้าจิ้งจอกตัวน้อ...,"Có điều, khi dạy bé hồ ly nói tiếng người, tro..."
52,Book10.txt,6,20d56c3262c99af10c00639e854ea8b5,和她说话的时候，看着那双像湖水里的宝石一样的眼眸，总觉得是在和再也没有机会说话的，很久以前喜...,和她說話的時候，看著那雙像湖水裡的寶石一樣的眼眸，總覺得是在和再也沒有機會說話的，很久以前喜...,Während ich mit ihr sprach und in ihre Augen b...,"When we talked, I would look into her gemstone...",Al hablar con ella y mirarle a esos ojos que p...,"À chaque fois que nous discutions, je me perda...",Saat melihat ke dalam matanya yang berwarna se...,彼女の湖に沈んだ宝石のような瞳を眺めながら、会話をする時も、もしかしたらこれが最後かもしれな...,"그녀의 호수에 잠긴 보석 같은 눈동자를 바라보며 이야기할 때면, 이젠 말을 걸 기회...","Quando conversamos, eu me fixava nos seus olho...",Разговаривая с ней и глядя в её похожие на дра...,เมื่อได้พูดคุยและได้มองเข้าไปในดวงตาของเธอ แวว...,"Khi nói chuyện với cô ấy, nhìn vào đôi mắt tro..."
53,Book10.txt,7,5e3cb7e9489257c1833056d44995242f,所以，和小狐狸在一起的时候，感觉就像喜欢的人有了孩子一样。虽然相处得很愉快，但总感觉有些难过。,所以，和小狐狸在一起的時候，感覺就像喜歡的人有了孩子一樣。雖然相處得很愉快，但總感覺有些難過。,"Deshalb war es, als wäre ich mit jemandem zusa...","And so, when she was around me, it was as if I...","Por eso, cuando el zorro y yo estábamos juntos...","Lorsque nous étions ensemble, c'était comme si...","Karena itu, waktu bersama rubah kecil itu, ras...",だから子狐を見ていると、片思いの相手に既に子供がいたような感覚に陥り、楽しさと同時に、どこか...,그런 까닭에 꼬마 여우랑 같이 있을 때면 마치 좋아하는 사람에게 아이가 생긴 것 같...,"Então, quando eu e a raposa estávamos juntos, ...",Вот почему я ощущал себя немного подавленным к...,นั่นคือเหตุผลว่าทำไมฉันจึงรู้สึกเศร้าเมื่อมีเธ...,"Vì thế, khi sống cùng bé hồ ly, cứ cảm giác nh..."
54,Book10.txt,8,000e6a47a63cb05ddaf8ce56b0449c89,但一想到——狐狸答应说，只要留在这里，教她的孩子学会说通用语，,但一想到——狐狸答應說，只要留在這裡，教她的孩子學會說通用語，,Doch dann dachte ich wieder an ihr Versprechen...,But the thought of her promise — if I succeede...,En cuanto pensaba en su promesa —el zorro dijo...,Mais à la pensée de la promesse qu'elle m'avai...,Tapi begitu teringat janjinya untuk mengajari ...,だがあの時狐と交わした約束——ここに残り、彼女の子供に共通語を教えれば,여우는 내가 여기에 남아 그녀의 아이들에게 말을 가르쳐주면,Mas o pensamento de sua promessa — se eu tives...,Но вспоминая её обещание: если мне удастся нау...,แต่หากคำนึงถึงสัญญาเธอมีให้ - หากฉันสอนให้ลูกข...,Có điều mỗi lần nghĩ đến việc mà hồ ly đã đồng...
55,Book10.txt,9,5c7551710e1491e3ee4eaec1787edea4,「届时，我就将狐狸的变化戏法给你。」,「屆時，我就將狐狸的變化戲法給你。」,„So werde ich dir den Zauber der Füchse zeigen.“,"""I shall impart the magic of transformation to...","entonces, me enseñaría el truco para transform...",elle me transmettrait l'art magique des renard...,"""Aku akan memberikan sihir rubah kepadamu.""",「狐の変化の術をお教えいたします」,「여우의 요술을 가르쳐줄게요」,"“Quando a hora chegar, eu vou ensinar os truqu...","«Я поделюсь с тобой нашей лисьей магией, когда...","""เมื่อเวลานั้นมาถึง ฉันจะบอกความลับเวทมนตร์ของ...","""Đến lúc đó, tôi sẽ dạy anh ảo thuật của hồ ly."""
56,Book10.txt,10,3b15a47007084afa32b64214c2c030e9,——她庄严地承诺时的模样，我就充满了干劲。,——她莊嚴地承諾時的模樣，我就充滿了幹勁。,"Dachte ich an dieses ernste Versprechen, war i...",Remembering the way she made that solemn promi...,"y en lo seriamente que la hizo, me sentía comp...",et au souvenir de l'air solennel avec lequel e...,"Mendengar janji itu, hatiku kembali penuh deng...",——そう厳かに承諾した彼女の姿を思い出すと、やる気が満ちてくる。,라고 약속했다. 그 진지한 모습에 힘이 나곤했다.,Ao lembrar da maneira que ela fez aquela prome...,"...обещание, данное только мне. Я чувствую нов...",เมื่อได้เห็นเธอสัญญากับฉันไว้อย่างนั้น มันทำให...,"...Nhìn dáng vẻ trang trọng khi hứa của cô, tô..."


# 数据探查

## 基本情况

In [6]:
# 基本信息
print("数据框的形状:", df_testmerge.shape)
print("数据类型:\n", df_testmerge.dtypes)

数据框的形状: (7146, 16)
数据类型:
 文件名            object
行号              int64
zh_text_md5    object
文本_CHS         object
文本_CHT         object
文本_DE          object
文本_EN          object
文本_ES          object
文本_FR          object
文本_ID          object
文本_JP          object
文本_KR          object
文本_PT          object
文本_RU          object
文本_TH          object
文本_VI          object
dtype: object


In [7]:
# 缺失值分析
print("缺失值数量:\n", df_testmerge.isnull().sum())

缺失值数量:
 文件名            0
行号             0
zh_text_md5    2
文本_CHS         2
文本_CHT         2
文本_DE          2
文本_EN          2
文本_ES          2
文本_FR          1
文本_ID          3
文本_JP          2
文本_KR          2
文本_PT          2
文本_RU          2
文本_TH          2
文本_VI          1
dtype: int64


In [8]:
# 唯一值分析
print("zh_text_md5唯一值数量:", df_testmerge['zh_text_md5'].nunique())
# 检查具体某列的值分布
column_name = '文本_EN'
print(f"{column_name}的唯一值数量:", df_testmerge[column_name].nunique())

zh_text_md5唯一值数量: 5305
文本_EN的唯一值数量: 5293


In [9]:
# 统计分析
print("描述性统计:\n", df_testmerge.describe())

描述性统计:
                 行号
count  7146.000000
mean     14.046460
std      15.826706
min       1.000000
25%       4.000000
50%      10.000000
75%      17.000000
max     123.000000


## NaN情况
### BarbaraBlackmail.txt	
对比CHS缺失一行，不确定补齐后是否翻译准确，选择后面直接移除该行数据

ps: 
鉴于BarbaraBlackmail文件文本数据不大且质量一般，**选择移除整个文本数据**

### Book168.txt
对比CHS,Book168_FR在处12行（即第二段）结尾多空了一行，**手动删除该行**

### Relic14001_5
对比CHS，Relic14001_5_VI在源文本第九行多空了一行，**手动删除该行**


In [10]:
df_testmerge[df_testmerge.isnull().any(axis=1)]

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
26,BarbaraBlackmail.txt,5,ac589c193a97b7ba32d5558e4cb7260b,偷走你最重要的东西埋在土里」,偷走妳最重要的東西埋在土裡」,"ich habe das gestohlen, was dir am wertvollste...",I've stolen the thing most precious to you and...,"Tu bien más preciado, y que yo te robé, está e...",J'ai dérobé la chose qui vous est la plus préc...,,あなたの一番大切な物を盗み、土の中に埋めました」,당신에게 가장 중요한 것을 훔쳐서 땅에 묻었습니다」,"Roubei o seu objeto mais importante, e está en...",Я украл самую дорогую тебе вещь и закопал её...»,ฉันได้ขโมยของที่สำคัญที่สุดของคุณและเอามันไปฝั...,"Cướp lấy thứ quan trọng của cô chôn sâu vào đất"""
7144,Book168.txt,41,,,,,,,...,,,,,,,
7145,Relic14001_5.txt,14,,,,,,,,,,,,,,Dù là anh hùng cũng sẽ tiêu tan theo dòng ký ức.


In [11]:
df_miss = df_testmerge[(df_testmerge['文本_CHS'] != '') & 
                       (df_testmerge.iloc[:, 4:].eq('').all(axis=1))]
df_miss

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
3644,Relic10001_1.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,
3655,Relic10001_2.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,
3670,Relic10001_3.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,
3684,Relic10001_4.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,
3698,Relic10001_5.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6564,Weapon14505.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,
6589,Weapon15101.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,
6593,Weapon15201.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,
6934,Weapon15504.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,


### 根据zh_text_md5字段查找

总体情况：

选择zh_text_md5字段重复出现高于3次作为统计：共58种情况。

其中：

- d41d8cd98f00b204e9800998ecf8427e （重复1529次）空白制表符
- ecaa88f7fa0bf610a5a26cf545dcd3aa （重复66次）空白制表符
- a567268bff00afebab2701b97a726d0c （重复26次）省略号
- a567268bff00afebab2701b97a726d0c （重复20次）旁白提示(含文字)
- d76c713224743197fe4849d1811db6c4 （重复10次）破折号
- ...

选择删除：
- d41d8cd98f00b204e9800998ecf8427e （重复1529次）空白制表符
- ecaa88f7fa0bf610a5a26cf545dcd3aa （重复66次）空白制表符
- a567268bff00afebab2701b97a726d0c （重复26次）省略号
- d76c713224743197fe4849d1811db6c4 （重复10次）破折号


In [12]:
zh_text_md5_counts = df_testmerge.groupby('zh_text_md5').size().reset_index(
    name='出现次数').sort_values(by='出现次数', ascending=False)

print(zh_text_md5_counts[zh_text_md5_counts.出现次数 > 2].count())
zh_text_md5_counts[zh_text_md5_counts.出现次数 > 2]


zh_text_md5    58
出现次数           58
dtype: int64


Unnamed: 0,zh_text_md5,出现次数
4389,d41d8cd98f00b204e9800998ecf8427e,1529
4913,ecaa88f7fa0bf610a5a26cf545dcd3aa,66
3407,a567268bff00afebab2701b97a726d0c,26
5213,fb6139a1ebab3d2c042bbbc5173b19b5,20
4462,d76c713224743197fe4849d1811db6c4,10
1418,45a03717cf5a75e8c9f0a1107ea80995,6
3312,a106c5a3620566e535cfb0b866d302e4,5
1822,58775559ec92879a0ea78e115ac9bdc2,5
4543,db06c78d1e24cf708a14ce81c9b617ec,5
1933,5d3da50c18baee5845aeacf4d3950e58,5


In [13]:
df_testmerge.loc[df_testmerge['zh_text_md5'] == 'd41d8cd98f00b204e9800998ecf8427e']
# 可能是空白制表符，选择删除

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
1,AmborLicense.txt,2,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
3,AmborLicense.txt,4,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
5,AmborLicense.txt,6,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
7,AmborLicense.txt,8,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
9,AmborLicense.txt,10,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7119,Wings140006.txt,35,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
7122,Wings140007.txt,2,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
7125,Wings140007.txt,5,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
7129,Wings140007.txt,9,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,


In [14]:
df_testmerge.loc[df_testmerge['zh_text_md5'] == 'ecaa88f7fa0bf610a5a26cf545dcd3aa']
# 可能是空白制表符，选择删除

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
3644,Relic10001_1.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,
3655,Relic10001_2.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,
3670,Relic10001_3.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,
3684,Relic10001_4.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,
3698,Relic10001_5.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6564,Weapon14505.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,
6589,Weapon15101.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,
6593,Weapon15201.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,
6934,Weapon15504.txt,1,ecaa88f7fa0bf610a5a26cf545dcd3aa,﻿,,,,,,,,,,,,


In [15]:
df_testmerge.loc[df_testmerge['zh_text_md5'] == 'a567268bff00afebab2701b97a726d0c']
# 文本为省略号，似乎存在‘……’与‘…’的不同版本，选择保留？

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
39,Book1.txt,13,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,...,......,……,……,...,...,......,...
811,Book134.txt,11,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,...,......,……,……,...,...,......,...
958,Book14.txt,8,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,...,......,……,……,...,...,......,...
1803,Book166.txt,1,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,...,......,……,……,...,...,......,...
1809,Book166.txt,7,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,...,......,……,……,...,...,......,...
1813,Book166.txt,11,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,...,......,……,……,...,...,......,...
1817,Book166.txt,15,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,...,......,……,……,...,...,......,...
1821,Book166.txt,19,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,...,......,……,……,...,...,......,...
1825,Book166.txt,23,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,...,......,……,……,...,...,......,...
1829,Book166.txt,27,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,...,......,……,……,...,...,......,...


In [16]:
df_testmerge.loc[df_testmerge['zh_text_md5'] == 'fb6139a1ebab3d2c042bbbc5173b19b5']
# 保留

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
1959,Book174.txt,10,fb6139a1ebab3d2c042bbbc5173b19b5,（白）,（白）,(Monolog),(Aside),(Aparte),(À part),(Bicara),（話）,(방백),(Branco),(Проза),(ตอบ),(Bạch)
1982,Book174.txt,33,fb6139a1ebab3d2c042bbbc5173b19b5,（白）,（白）,(Monolog),(Aside),(Aparte),(À part),(Bicara),（話）,(방백),(Branco),(Проза),(ตอบ),(Bạch)
1988,Book174.txt,39,fb6139a1ebab3d2c042bbbc5173b19b5,（白）,（白）,(Monolog),(Aside),(Aparte),(À part),(Bicara),（話）,(방백),(Branco),(Проза),(ตอบ),(Bạch)
1996,Book174.txt,47,fb6139a1ebab3d2c042bbbc5173b19b5,（白）,（白）,(Monolog),(Aside),(Aparte),(À part),(Bicara),（話）,(방백),(Branco),(Проза),(ตอบ),(Bạch)
2012,Book174.txt,63,fb6139a1ebab3d2c042bbbc5173b19b5,（白）,（白）,(Monolog),(Aside),(Aparte),(À part),(Bicara),（話）,(방백),(Branco),(Проза),(ตอบ),(Bạch)
2018,Book174.txt,69,fb6139a1ebab3d2c042bbbc5173b19b5,（白）,（白）,(Monolog),(Aside),(Aparte),(À part),(Bicara),（話）,(방백),(Branco),(Проза),(ตอบ),(Bạch)
2023,Book174.txt,74,fb6139a1ebab3d2c042bbbc5173b19b5,（白）,（白）,(Monolog),(Aside),(Aparte),(À part),(Bicara),（話）,(방백),(Branco),(Проза),(ตอบ),(Bạch)
2034,Book175.txt,9,fb6139a1ebab3d2c042bbbc5173b19b5,（白）,（白）,(Monolog),(Aside),(Aparte),(À part),(Bicara),（話）,(방백),(Branco),(Проза),(ตอบ),(Bạch)
2047,Book175.txt,22,fb6139a1ebab3d2c042bbbc5173b19b5,（白）,（白）,(Monolog),(Aside),(Aparte),(À part),(Bicara),（話）,(방백),(Branco),(Проза),(ตอบ),(Bạch)
2061,Book175.txt,36,fb6139a1ebab3d2c042bbbc5173b19b5,（白）,（白）,(Monolog),(Aside),(Aparte),(À part),(Bicara),（話）,(방백),(Branco),(Проза),(ตอบ),(Bạch)


In [17]:
df_testmerge.loc[df_testmerge['zh_text_md5'] == 'd76c713224743197fe4849d1811db6c4']
# 保留？

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
95,Book101.txt,5,d76c713224743197fe4849d1811db6c4,————,————,————,————,————,,————,————,————,————,----,————,————
127,Book101.txt,37,d76c713224743197fe4849d1811db6c4,————,————,————,————,————,,————,————,————,————,----,————,————
158,Book102.txt,5,d76c713224743197fe4849d1811db6c4,————,————,————,————,————,,————,————,————,————,----,————,————
189,Book102.txt,36,d76c713224743197fe4849d1811db6c4,————,————,————,————,————,,————,————,————,————,----,————,————
200,Book102.txt,47,d76c713224743197fe4849d1811db6c4,————,————,————,————,————,,————,————,————,————,----,————,————
214,Book103.txt,5,d76c713224743197fe4849d1811db6c4,————,————,————,————,————,,————,————,————,————,----,————,————
245,Book103.txt,36,d76c713224743197fe4849d1811db6c4,————,————,————,————,————,,————,————,————,————,----,————,————
274,Book104.txt,5,d76c713224743197fe4849d1811db6c4,————,————,————,————,————,,————,————,————,————,----,————,————
298,Book104.txt,29,d76c713224743197fe4849d1811db6c4,————,————,————,————,————,,————,————,————,————,----,————,————
327,Book104.txt,58,d76c713224743197fe4849d1811db6c4,————,————,————,————,————,,————,————,————,————,----,————,————


In [18]:
df_testmerge.loc[df_testmerge['zh_text_md5'] == '45a03717cf5a75e8c9f0a1107ea80995']
# 保留

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
4804,Relic15009_3.txt,2,45a03717cf5a75e8c9f0a1107ea80995,据说：,據說：,"Es wird gesagt,","They say that,","Según algunas personas,",La légende raconte :,Dikatakan bahwa:,話しによると、,들어보라:,Dizem que:,"Говорят, что",ว่ากันว่า:,Chuyện kể rằng:
4818,Relic15010_3.txt,2,45a03717cf5a75e8c9f0a1107ea80995,据说：,據說：,"Es wird gesagt,","They say that,","Según algunas personas,",La légende raconte :,Dikatakan bahwa:,話しによると、,들어보라:,Dizem que:,"Говорят, что",ว่ากันว่า:,Chuyện kể rằng:
4832,Relic15011_3.txt,2,45a03717cf5a75e8c9f0a1107ea80995,据说：,據說：,"Es wird gesagt,","They say that,","Según algunas personas,",La légende raconte :,Dikatakan bahwa:,話しによると、,들어보라:,Dizem que:,"Говорят, что",ว่ากันว่า:,Chuyện kể rằng:
4847,Relic15012_3.txt,2,45a03717cf5a75e8c9f0a1107ea80995,据说：,據說：,"Es wird gesagt,","They say that,","Según algunas personas,",La légende raconte :,Dikatakan bahwa:,話しによると、,들어보라:,Dizem que:,"Говорят, что",ว่ากันว่า:,Chuyện kể rằng:
4864,Relic15013_3.txt,2,45a03717cf5a75e8c9f0a1107ea80995,据说：,據說：,"Es wird gesagt,","They say that,","Según algunas personas,",La légende raconte :,Dikatakan bahwa:,話しによると、,들어보라:,Dizem que:,"Говорят, что",ว่ากันว่า:,Chuyện kể rằng:
4877,Relic15013_3.txt,15,45a03717cf5a75e8c9f0a1107ea80995,据说：,據說：,"Es wird gesagt,","They say that,","Según algunas personas,",La légende raconte :,Dikatakan bahwa:,話しによると、,들어보라:,Dizem que:,"Говорят, что",ว่ากันว่า:,Chuyện kể rằng:


In [19]:
df_testmerge.loc[df_testmerge['zh_text_md5'] == 'a106c5a3620566e535cfb0b866d302e4']

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
591,Book129.txt,13,a106c5a3620566e535cfb0b866d302e4,用语范例：,用語範例：,"Angemessene Sprache, ein Beispiel:",Approved Language:,Formas de hablar:,Langage correct :,Contoh kalimat yang dianjurkan:,用語規範：,좋은 예시:,Linguagem aprovada:,Образцы высказываний:,ตัวอย่างคำพูดที่ใช้:,Các mẫu dùng từ:
603,Book129.txt,25,a106c5a3620566e535cfb0b866d302e4,用语范例：,用語範例：,"Angemessene Sprache, ein Beispiel:",Approved Language:,Formas de hablar:,Langage correct :,Contoh kalimat yang dianjurkan:,用語規範：,좋은 예시:,Linguagem aprovada:,Образцы высказываний:,ตัวอย่างคำพูดที่ใช้:,Các mẫu dùng từ:
623,Book129.txt,45,a106c5a3620566e535cfb0b866d302e4,用语范例：,用語範例：,"Angemessene Sprache, ein Beispiel:",Approved Language:,Formas de hablar:,Langage correct :,Contoh kalimat yang dianjurkan:,用語規範：,좋은 예시:,Linguagem aprovada:,Образцы высказываний:,ตัวอย่างคำพูดที่ใช้:,Các mẫu dùng từ:
637,Book129.txt,59,a106c5a3620566e535cfb0b866d302e4,用语范例：,用語範例：,"Angemessene Sprache, ein Beispiel:",Approved Language:,Formas de hablar:,Langage correct :,Contoh kalimat yang dianjurkan:,用語規範：,좋은 예시:,Linguagem aprovada:,Образцы высказываний:,ตัวอย่างคำพูดที่ใช้:,Các mẫu dùng từ:
644,Book129.txt,66,a106c5a3620566e535cfb0b866d302e4,用语范例：,用語範例：,"Angemessene Sprache, ein Beispiel:",Approved Language:,Formas de hablar:,Langage correct :,Contoh kalimat yang dianjurkan:,用語規範：,좋은 예시:,Linguagem aprovada:,Образцы высказываний:,ตัวอย่างคำพูดที่ใช้:,Các mẫu dùng từ:


In [20]:
df_testmerge.loc[df_testmerge['zh_text_md5'] == '58775559ec92879a0ea78e115ac9bdc2']

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
1962,Book174.txt,13,58775559ec92879a0ea78e115ac9bdc2,（东塘摇桨）,（東塘搖槳）,"(Dongtang, langsam)","(Dongtang, lento, innig)","(Dongtang, lento)","(Dongtang, lento)","(Dongtang, lento, innig)",（東塘揺櫂）,(얼쑤),(Remando no Lago do Leste),"(Дунтан. Медленно, тихо, душевно)","(Dongtang, lento, innig)",(Đông Đường Dao Tưởng)
2020,Book174.txt,71,58775559ec92879a0ea78e115ac9bdc2,（东塘摇桨）,（東塘搖槳）,"(Dongtang, langsam)","(Dongtang, lento, innig)","(Dongtang, lento)","(Dongtang, lento)","(Dongtang, lento, innig)",（東塘揺櫂）,(얼쑤),(Remando no Lago do Leste),"(Дунтан. Медленно, тихо, душевно)","(Dongtang, lento, innig)",(Đông Đường Dao Tưởng)
2127,Book175.txt,102,58775559ec92879a0ea78e115ac9bdc2,（东塘摇桨）,（東塘搖槳）,"(Dongtang, langsam)","(Dongtang, lento, innig)","(Dongtang, lento)","(Dongtang, lento)","(Dongtang, lento, innig)",（東塘揺櫂）,(얼쑤),(Remando no Lago do Leste),"(Дунтан. Медленно, тихо, душевно)","(Dongtang, lento, innig)",(Đông Đường Dao Tưởng)
2175,Book176.txt,27,58775559ec92879a0ea78e115ac9bdc2,（东塘摇桨）,（東塘搖槳）,"(Dongtang, langsam)","(Dongtang, lento, innig)","(Dongtang, lento)","(Dongtang, lento)","(Dongtang, lento, innig)",（東塘揺櫂）,(얼쑤),(Remando no Lago do Leste),"(Дунтан. Медленно, тихо, душевно)","(Dongtang, lento, innig)",(Đông Đường Dao Tưởng)
2204,Book176.txt,56,58775559ec92879a0ea78e115ac9bdc2,（东塘摇桨）,（東塘搖槳）,"(Dongtang, langsam)","(Dongtang, lento, innig)","(Dongtang, lento)","(Dongtang, lento)","(Dongtang, lento, innig)",（東塘揺櫂）,(얼쑤),(Remando no Lago do Leste),"(Дунтан. Медленно, тихо, душевно)","(Dongtang, lento, innig)",(Đông Đường Dao Tưởng)


In [21]:
df_testmerge.loc[df_testmerge['zh_text_md5'] == 'db06c78d1e24cf708a14ce81c9b617ec']

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
5517,Weapon11506.txt,1,db06c78d1e24cf708a14ce81c9b617ec,测试,測試,Test,Test,Prueba,Test,Ujian,テスト,테스트,Teste,Тест,ทดสอบ,Thử nghiệm
5518,Weapon11507.txt,1,db06c78d1e24cf708a14ce81c9b617ec,测试,測試,Test,Test,Prueba,Test,Ujian,テスト,테스트,Teste,Тест,ทดสอบ,Thử nghiệm
5905,Weapon12506.txt,1,db06c78d1e24cf708a14ce81c9b617ec,测试,測試,Test,Test,Prueba,Test,Ujian,テスト,테스트,Teste,Тест,ทดสอบ,Thử nghiệm
6588,Weapon14506.txt,1,db06c78d1e24cf708a14ce81c9b617ec,测试,測試,Test,Test,Prueba,Test,Ujian,テスト,테스트,Teste,Тест,ทดสอบ,Thử nghiệm
6986,Weapon15506.txt,1,db06c78d1e24cf708a14ce81c9b617ec,测试,測試,Test,Test,Prueba,Test,Ujian,テスト,테스트,Teste,Тест,ทดสอบ,Thử nghiệm


In [22]:
df_testmerge.loc[df_testmerge['zh_text_md5'] == '5d3da50c18baee5845aeacf4d3950e58']

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
5270,Weapon11407.txt,2,5d3da50c18baee5845aeacf4d3950e58,天下都向璃月来，这是伟大商港的荣誉。,天下都向璃月來，這是偉大商港的榮譽。,Die Welt ist zu Gast in Liyue. Dies ist eine g...,The whole world flocks to the commercial port ...,Todo el mundo viene a Liyue. Ese es el honor d...,De tout temps le monde entier s'est retrouvé a...,Seluruh dunia berduyun-duyun ke pelabuhan kome...,世の全てが璃月にあり。これは偉大な璃月港への讃美である。,천하는 리월항으로 모인다. 이 표현은 무역항으로서 더할 나위 없는 영광이다.,O mundo vem para Liyue. Esta é uma grande honr...,"Люди со всего света стекаются в гавань Ли Юэ, ...",โลกกำลังหันมามอง Liyue นี่คือเกียรติของท่าเรือ...,"Khắp nơi trên thế giới đều tìm đến Liyue, đó l..."
5661,Weapon12407.txt,2,5d3da50c18baee5845aeacf4d3950e58,天下都向璃月来，这是伟大商港的荣誉。,天下都向璃月來，這是偉大商港的榮譽。,Die Welt ist zu Gast in Liyue. Dies ist eine g...,The whole world flocks to the commercial port ...,Todo el mundo viene a Liyue. Ese es el honor d...,De tout temps le monde entier s'est retrouvé a...,Seluruh dunia berduyun-duyun ke pelabuhan kome...,世の全てが璃月にあり。これは偉大な璃月港への讃美である。,천하는 리월항으로 모인다. 이 표현은 무역항으로서 더할 나위 없는 영광이다.,O mundo vem para Liyue. Esta é uma grande honr...,"Люди со всего света стекаются в гавань Ли Юэ, ...",โลกกำลังหันมามอง Liyue นี่คือเกียรติของท่าเรือ...,"Khắp nơi trên thế giới đều tìm đến Liyue, đó l..."
5976,Weapon13403.txt,2,5d3da50c18baee5845aeacf4d3950e58,天下都向璃月来，这是伟大商港的荣誉。,天下都向璃月來，這是偉大商港的榮譽。,Die Welt ist zu Gast in Liyue. Dies ist eine g...,The whole world flocks to the commercial port ...,Todo el mundo viene a Liyue. Ese es el honor d...,De tout temps le monde entier s'est retrouvé a...,Seluruh dunia berduyun-duyun ke pelabuhan kome...,世の全てが璃月にあり。これは偉大な璃月港への讃美である。,천하는 리월항으로 모인다. 이 표현은 무역항으로서 더할 나위 없는 영광이다.,O mundo vem para Liyue. Esta é uma grande honr...,"Люди со всего света стекаются в гавань Ли Юэ, ...",โลกกำลังหันมามอง Liyue นี่คือเกียรติของท่าเรือ...,"Khắp nơi trên thế giới đều tìm đến Liyue, đó l..."
6349,Weapon14407.txt,2,5d3da50c18baee5845aeacf4d3950e58,天下都向璃月来，这是伟大商港的荣誉。,天下都向璃月來，這是偉大商港的榮譽。,Die Welt ist zu Gast in Liyue. Dies ist eine g...,The whole world flocks to the commercial port ...,Todo el mundo viene a Liyue. Ese es el honor d...,De tout temps le monde entier s'est retrouvé a...,Seluruh dunia berduyun-duyun ke pelabuhan kome...,世の全てが璃月にあり。これは偉大な璃月港への讃美である。,천하는 리월항으로 모인다. 이 표현은 무역항으로서 더할 나위 없는 영광이다.,O mundo vem para Liyue. Esta é uma grande honr...,"Люди со всего света стекаются в гавань Ли Юэ, ...",โลกกำลังหันมามอง Liyue นี่คือเกียรติของท่าเรือ...,"Khắp nơi trên thế giới đều tìm đến Liyue, đó l..."
6733,Weapon15407.txt,2,5d3da50c18baee5845aeacf4d3950e58,天下都向璃月来，这是伟大商港的荣誉。,天下都向璃月來，這是偉大商港的榮譽。,Die Welt ist zu Gast in Liyue. Dies ist eine g...,The whole world flocks to the commercial port ...,Todo el mundo viene a Liyue. Ese es el honor d...,De tout temps le monde entier s'est retrouvé a...,Seluruh dunia berduyun-duyun ke pelabuhan kome...,世の全てが璃月にあり。これは偉大な璃月港への讃美である。,천하는 리월항으로 모인다. 이 표현은 무역항으로서 더할 나위 없는 영광이다.,O mundo vem para Liyue. Esta é uma grande honr...,"Люди со всего света стекаются в гавань Ли Юэ, ...",โลกกำลังหันมามอง Liyue นี่คือเกียรติของท่าเรือ...,"Khắp nơi trên thế giới đều tìm đến Liyue, đó l..."


In [23]:
df_testmerge.loc[df_testmerge['zh_text_md5'] == '2f8ed7fafd3c1784a3be4da8eb3d106a']

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
78,Book100.txt,11,2f8ed7fafd3c1784a3be4da8eb3d106a,…,……,...,...,...,...,...,…,…,...,...,...,...
2255,Book177.txt,1,2f8ed7fafd3c1784a3be4da8eb3d106a,…,……,...,...,...,...,...,…,…,...,...,...,...
2529,Book190.txt,17,2f8ed7fafd3c1784a3be4da8eb3d106a,…,「…」,...,...,...,...,...,…,…,...,...,...,...
3210,Book77.txt,5,2f8ed7fafd3c1784a3be4da8eb3d106a,…,「…」,...,...,...,...,...,…,…,...,...,...,...
3216,Book77.txt,11,2f8ed7fafd3c1784a3be4da8eb3d106a,…,「…」,...,...,...,...,...,…,…,...,...,...,...


In [24]:
df_testmerge.loc[df_testmerge['zh_text_md5'] == 'b4cd6068ed62b56c84215a8bd1d53ff5']

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
3097,Book63.txt,1,b4cd6068ed62b56c84215a8bd1d53ff5,…璃月港的石山吸引了很多骑士的注意力，但是我却不喜欢，因为那些石头太粗糙了，会挫伤你的手。我...,…璃月港的石山吸引了很多騎士的注意力，但是我卻不喜歡，因為那些石頭太粗糙了，會挫傷你的手。我...,Die Steinklippen in Liyue haben seit jeher vie...,The stone peaks in Liyue have attracted the at...,Los picos rocosos de Liyue atraen el interés d...,Les montagnes rocheuses de Liyue attirent beau...,...gunung-gunung batu besar di Liyue menarik p...,……璃月港の石山は多くの騎士を惹きつけたが、私はあまり好きではない。あそこの石はキメが粗く、...,"...리월항의 석산은 많은 기사의 관심을 사로잡았지만, 난 별로 좋아하지 않아. 바...",Os picos de pedra em Liyue atraíram a atenção ...,Горы гавани Ли Юэ привлекают множество рыцарей...,...ภูเขาหินของท่าเรือ Liyue นั้นดึงดูดความสนใจ...,Núi đá ở cảng Liyue thu hút sự chú ý của rất n...
3098,Book64.txt,1,b4cd6068ed62b56c84215a8bd1d53ff5,…璃月港的石山吸引了很多骑士的注意力，但是我却不喜欢，因为那些石头太粗糙了，会挫伤你的手。我...,…璃月港的石山吸引了很多騎士的注意力，但是我卻不喜歡，因為那些石頭太粗糙了，會挫傷你的手。我...,Die Steinklippen in Liyue haben seit jeher vie...,The stone peaks in Liyue have attracted the at...,Los picos rocosos de Liyue atraen el interés d...,Les montagnes rocheuses de Liyue attirent beau...,...gunung-gunung batu besar di Liyue menarik p...,……璃月港の石山は多くの騎士を惹きつけたが、私はあまり好きではない。あそこの石はキメが粗く、...,"...리월항의 석산은 많은 기사의 관심을 사로잡았지만, 난 별로 좋아하지 않아. 바...",Os picos de pedra em Liyue atraíram a atenção ...,Горы гавани Ли Юэ привлекают множество рыцарей...,...ภูเขาหินของท่าเรือ Liyue นั้นดึงดูดความสนใจ...,Núi đá ở cảng Liyue thu hút sự chú ý của rất n...
3107,Book69.txt,1,b4cd6068ed62b56c84215a8bd1d53ff5,…璃月港的石山吸引了很多骑士的注意力，但是我却不喜欢，因为那些石头太粗糙了，会挫伤你的手。我...,…璃月港的石山吸引了很多騎士的注意力，但是我卻不喜歡，因為那些石頭太粗糙了，會挫傷你的手。我...,Die Steinklippen in Liyue haben seit jeher vie...,The stone peaks in Liyue have attracted the at...,Los picos rocosos de Liyue atraen el interés d...,Les montagnes rocheuses de Liyue attirent beau...,...gunung-gunung batu besar di Liyue menarik p...,……璃月港の石山は多くの騎士を惹きつけたが、私はあまり好きではない。あそこの石はキメが粗く、...,"...리월항의 석산은 많은 기사의 관심을 사로잡았지만, 난 별로 좋아하지 않아. 바...",Os picos de pedra em Liyue atraíram a atenção ...,Горы гавани Ли Юэ привлекают множество рыцарей...,...ภูเขาหินของท่าเรือ Liyue นั้นดึงดูดความสนใจ...,Núi đá ở cảng Liyue thu hút sự chú ý của rất n...
3132,Book70.txt,1,b4cd6068ed62b56c84215a8bd1d53ff5,…璃月港的石山吸引了很多骑士的注意力，但是我却不喜欢，因为那些石头太粗糙了，会挫伤你的手。我...,…璃月港的石山吸引了很多騎士的注意力，但是我卻不喜歡，因為那些石頭太粗糙了，會挫傷你的手。我...,Die Steinklippen in Liyue haben seit jeher vie...,The stone peaks in Liyue have attracted the at...,Los picos rocosos de Liyue atraen el interés d...,Les montagnes rocheuses de Liyue attirent beau...,...gunung-gunung batu besar di Liyue menarik p...,……璃月港の石山は多くの騎士を惹きつけたが、私はあまり好きではない。あそこの石はキメが粗く、...,"...리월항의 석산은 많은 기사의 관심을 사로잡았지만, 난 별로 좋아하지 않아. 바...",Os picos de pedra em Liyue atraíram a atenção ...,Горы гавани Ли Юэ привлекают множество рыцарей...,...ภูเขาหินของท่าเรือ Liyue นั้นดึงดูดความสนใจ...,Núi đá ở cảng Liyue thu hút sự chú ý của rất n...
3133,Book71.txt,1,b4cd6068ed62b56c84215a8bd1d53ff5,…璃月港的石山吸引了很多骑士的注意力，但是我却不喜欢，因为那些石头太粗糙了，会挫伤你的手。我...,…璃月港的石山吸引了很多騎士的注意力，但是我卻不喜歡，因為那些石頭太粗糙了，會挫傷你的手。我...,Die Steinklippen in Liyue haben seit jeher vie...,The stone peaks in Liyue have attracted the at...,Los picos rocosos de Liyue atraen el interés d...,Les montagnes rocheuses de Liyue attirent beau...,...gunung-gunung batu besar di Liyue menarik p...,……璃月港の石山は多くの騎士を惹きつけたが、私はあまり好きではない。あそこの石はキメが粗く、...,"...리월항의 석산은 많은 기사의 관심을 사로잡았지만, 난 별로 좋아하지 않아. 바...",Os picos de pedra em Liyue atraíram a atenção ...,Горы гавани Ли Юэ привлекают множество рыцарей...,...ภูเขาหินของท่าเรือ Liyue นั้นดึงดูดความสนใจ...,Núi đá ở cảng Liyue thu hút sự chú ý của rất n...


In [25]:
df_testmerge.loc[df_testmerge['zh_text_md5'] == 'e43dfcce31d030c91bfb556e5d119603']

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
49,Book10.txt,3,e43dfcce31d030c91bfb556e5d119603,我心想。,我心想。,So dachte ich bei mir.,I thought to myself.,pensé.,pensai-je.,Aku berpikir.,俺は思う。,난 이렇게 생각했다.,Vou pensar.,Подумал я.,ฉันคิด,Tôi nghĩ thầm.
445,Book12.txt,17,e43dfcce31d030c91bfb556e5d119603,我心想。,我心想。,So dachte ich bei mir.,I thought to myself.,pensé.,pensai-je.,Aku berpikir.,俺は思った。,난 이렇게 생각했다.,Vou pensar.,Подумал я.,ฉันคิด,Tôi nghĩ thầm.
692,Book13.txt,7,e43dfcce31d030c91bfb556e5d119603,我心想。,我心想。,So dachte ich bei mir.,I thought to myself.,pensé.,pensai-je.,Aku berpikir.,俺は思った。,난 이렇게 생각했다.,Vou pensar.,Подумал я.,ฉันคิด,Tôi nghĩ thầm.
3458,Book9.txt,13,e43dfcce31d030c91bfb556e5d119603,我心想。,我心想。,So dachte ich bei mir.,I thought to myself.,pensé.,pensai-je.,Aku berpikir.,俺は思った。,난 이렇게 생각했다.,Vou pensar.,Подумал я.,ฉันคิด,Tôi nghĩ thầm.


### 其他方法检查
#### ID文件夹：
**关于BarbaraBlackmail.txt**

缺失一行，处理方式同上。
#### FR VI文件夹：
**关于Book10.txt**

Book10_VI.txt在经过2.1处理后暂未发现问题。FR在以下字段下存在问题（仅FR文本缺失，其余12个文本并无问题）：
- d41d8cd98f00b204e9800998ecf8427e （空白制表符，同行数据均删除）
- ecaa88f7fa0bf610a5a26cf545dcd3aa （空白制表符，同行数据均删除）
- 1b415158c70d78b1b562bca23dbd3eb4 （唯一文本，文件为Book10.txt）
- d76c713224743197fe4849d1811db6c4 （破折号）

针对Book10.txt，原因在于Book10_FR.txt文件中对应行缺失

稍微观察了下文本数据，这其实是语法上的倒置所致，法语文本里面在说完一句话后才插入主语作为补充。

解决手段：基于英语进行翻译补充，在Book10_FR.txt文件第19行添加：**J'ai continué:**

ps：在该法语文本上存在说完一句话补充主语的情况，而其他文本通常在人物对话发生前点明主语，可能会导致翻译法语文本质量下降...?

**关于 Book168_FR.txt**

经排查源文件10-11行空了两行导致数据对不齐，选择手动删除一行。


In [26]:
df_chs_check = df_CHS[['文件名','行号']]
df_id_check = df_ID[['文件名','行号']]

df_id_check = df_id_check.rename(columns={'文件名':'文件名_ID','行号':'行号_ID'})
combined = pd.concat([df_chs_check, df_id_check], axis=1)
for index, row in combined.iterrows():
    if(row['行号'] != row['行号_ID']):
        print(index)
        print(row['文件名'])
        break

# 处理手段：删除所有BarbaraBlackmail.txt


26
BarbaraBlackmail.txt


In [27]:
df_FR_check = df_FR[['文件名','行号']]

df_FR_check = df_FR_check.rename(columns={'文件名':'文件名_FR','行号':'行号_FR'})
combined = pd.concat([df_chs_check, df_FR_check], axis=1)
for index, row in combined.iterrows():
    if(row['行号'] != row['行号_FR']):
        print(index)
        print(row['文件名'])
        break
        
# 处理手段：源文件更改

47
Book10.txt


In [28]:
df_VI_check = df_VI[['文件名','行号']]

df_VI_check = df_VI_check.rename(columns={'文件名':'文件名_VI','行号':'行号_VI'})
combined = pd.concat([df_chs_check, df_VI_check], axis=1)
for index, row in combined.iterrows():
    if(row['行号'] != row['行号_VI']):
        print(index)
        print(row['文件名'])
        break
        
# 处理手段：在源文件中并未发现异常

47
Book10.txt


In [29]:
# df_testmerge[df_testmerge['文件名'] == 'Book10.txt']
df_testmerge.iloc[65:66]

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
65,Book10.txt,19,1b415158c70d78b1b562bca23dbd3eb4,我接着问：,我接著問：,"Ich fragte weiter,",I continued:,"Entonces, le pregunté:",,Aku bertanya lagi:,俺はさらに聞いた。,난 계속 물었다.,Eu continuei perguntando:,Я спросил:,ฉันจึงถามต่อไปว่า,Tôi lại hỏi tiếp:


#### 排查该情况是否为FR文本特有

In [30]:
df_testmerge[df_testmerge.applymap(lambda x: isinstance(x, str) and x.strip() == '').any(axis=1)]

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
1,AmborLicense.txt,2,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
3,AmborLicense.txt,4,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
5,AmborLicense.txt,6,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
7,AmborLicense.txt,8,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
9,AmborLicense.txt,10,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7119,Wings140006.txt,35,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
7122,Wings140007.txt,2,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
7125,Wings140007.txt,5,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
7129,Wings140007.txt,9,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,


In [31]:
df_testmerge[df_testmerge['文件名'] == 'Book168.txt']

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
1854,Book168.txt,1,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,...,......,……,……,...,...,......,...
1855,Book168.txt,2,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
1856,Book168.txt,3,5ab95c8d2dddc51fa60277fd19decc0e,感谢████████帮助，我████████████,感謝████████幫助，我████████████,"Dank der Hilfe von ████████, ich ████████████",Thanks ██ ███ ███ ██████ ████ I ███ ████ ███ █...,"Gracias a la ayuda ████████, pude ████████████...","Grâce à l'aide de ██████████, j'ai enfin █████...","Terima kasih████████bantuannya, aku ████████████",████の助けに感謝する。おかげで████████,████의 도움에 감사하다. 덕분에████████,"Agradeço a████████pela ajuda, agora eu ███████...",Благодаря ████████ █ помощи... я ████ ████████...,ขอบคุณ ██████████สำหรับความช่วยเหลือ ฉัน██████...,Nhờ sự giúp đỡ của ███████ tôi ███████████████...
1857,Book168.txt,4,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
1858,Book168.txt,5,66f5663d3fe961335c254be1bdffcedf,████████高耸███凶险，恕我████看████████或许█████████慢慢██...,████████高聳███兇險，恕我████看████████或許█████████慢慢██...,"████████Gipfel███gefährlichste, ████Hut-Gipfel...",██ ███ █ ██ tallest █████ ███ ██ ████ dangerou...,█████████ altísima████ peligrosa. Perdonen mi ...,█████████████████████ haut ██ dangereux par ic...,"████████tinggi███berbahaya, maaf tapi aku████m...",████高く険しく、私が███████にちなんで████████████観察し███████...,████████높고███ 감히██████관찰██████천천히██████바람을████...,"████████alta███perigosa, perdoe minha████ao ol...","███ ████ ████ ██████████ высок, █ ██████ █████...",███████████สูง████อันตราย███ขอโทษด้วยที่ฉัน███...,"████ cao ngất ngưởng, ████ hiểm trở, thứ █████..."
1859,Book168.txt,6,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
1860,Book168.txt,7,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,...,......,……,……,...,...,......,...
1861,Book168.txt,8,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,
1862,Book168.txt,9,4fadaa36bc91376b617913567c74ce88,小伙██都████████山峰，即使有███████████他们████这么说。██████...,小夥██都████████山峰，即使有███████████他們████這麼說。██████...,Keiner der anderen Burschen██diesen███████████...,████ ██ ███ young folks ███ █████ ██ ███ ██ ██...,Nadie ███████████████ esta montaña. Algunos es...,Je n'ai ██ personne ████████. Ceux qui ███████...,"Anak laki-laki██semua████████berada di puncak,...",若者█誰も██山に█████。たまに█████████████████████彼らは████...,젊은이██산을██████가끔██████████그들은████말했다. ██████그들의...,"Nenhum de██colegas████████montanha, ainda que ...",Никто ██ ребят ██ ███████████ ███████████ ██ п...,███เด็กหนุ่มสาวคนไหน████ปีนเขา██████ แม้แต่███...,"██ họ đều ███████ đỉnh núi ██████, cho dù có █..."
1863,Book168.txt,10,d41d8cd98f00b204e9800998ecf8427e,,,,,,,,,,,,,


In [32]:
df_fr_check = df_testmerge
df_fr_check.drop(df_fr_check[df_fr_check['文件名'] == 'BarbaraBlackmail.txt'].index, inplace=True)
df_fr_check.drop(df_fr_check[(df_fr_check['zh_text_md5'] == 'd41d8cd98f00b204e9800998ecf8427e')|
                            (df_fr_check['zh_text_md5'] == 'ecaa88f7fa0bf610a5a26cf545dcd3aa') |
                            (df_fr_check['zh_text_md5'] == 'd76c713224743197fe4849d1811db6c4')].index, inplace=True)
# df_fr_check.drop(df_fr_check[df_fr_check['zh_text_md5'] == 'ecaa88f7fa0bf610a5a26cf545dcd3aa'].index, inplace=True)
# df_fr_check.drop(df_fr_check[df_fr_check['zh_text_md5'] == 'd76c713224743197fe4849d1811db6c4'].index, inplace=True)
df_fr_check = df_fr_check[df_fr_check.applymap(lambda x: isinstance(x, str) and x.strip() == '').any(axis=1)]
df_fr_check

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
65,Book10.txt,19,1b415158c70d78b1b562bca23dbd3eb4,我接着问：,我接著問：,"Ich fragte weiter,",I continued:,"Entonces, le pregunté:",,Aku bertanya lagi:,俺はさらに聞いた。,난 계속 물었다.,Eu continuei perguntando:,Я спросил:,ฉันจึงถามต่อไปว่า,Tôi lại hỏi tiếp:
1864,Book168.txt,11,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,,......,……,……,...,...,......,...
1866,Book168.txt,13,4913682a4821ac683337ef4abbb27b4e,好消息，阿尔力克███████上山█████孤身一人！,好消息，阿爾力克███████上山█████孤身一人！,Gute Neuigkeiten! Alric███████den Berg█████war...,Good news! Alrik ██ █████ ██ climb the mountai...,¡Buenas noticias! Alrik escalará █████████████...,,"Kabar baik, Alrik███████naik gunung█████sendir...",いい知らせだ。エルリックが███山へ█████一人では███ていた！,좋은 소식이다. 알릭이██████산에████혼자가 아니었다!,Boas noticías! Alrik não escalará ████████████...,Хорошие новости. Алрик ██████████ пойти ██████...,ข่าวดี Alrik ███ปีนเขา█████████████โดดเดี่ยวหรอก!,"Tin tốt, Alrik ████████ leo núi.████████ cô độ..."
1868,Book168.txt,15,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,,......,……,……,...,...,......,...
1870,Book168.txt,17,8fb41a2eec31aa98841fc2641aaf79e1,我████████爬上山体，才███几乎████████精雕细琢█████突兀██████族...,我████████爬上山體，才███幾乎████████精雕細琢█████突兀██████族...,"Ich ████████ Berg unterschätzt, ███nur████████...",I ████ ███████████ ███ ███████ Not until █ ███...,"█████ esta montaña. Al escalarla, uno ██████ a...",,"Aku████████ mendaki gunung, hanya███hampir ███...",この山████登ってから███████████まるで、██彫ら███のよう█一族が████食...,이 산을████████산에 오르고 나서야███거의██████████정교하게 조각된█...,Eu ████████ esta montanha. Ao escala-la ██████...,Я ██████████ ███ ████. ██████ начав подъём ███...,ฉัน█████████████ปีนขึ้นมา█████ถึง███ ดูเหมือน█...,"Tôi ██████████████, khi leo ████ thì mới █████..."
1872,Book168.txt,19,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,,......,……,……,...,...,......,...
1874,Book168.txt,21,08f44481aa38fae5a81977d1993982e3,又一次███腿伤████████两个手指█████████右手███████养██████但...,又一次███腿傷████████兩個手指█████████右手███████養██████但...,Eine weitere ███ Verletzung████████ zwei Finge...,"Another ████ ██ leg █ █ █ ███ bad shape, ███ █...",He vuelto a ███████████ herida ████████████ pi...,,Lagi-lagi███kakiku cedera████████kedua jariku█...,また████足の傷が████二本の指も███████右手は██完治に██████今は█諦め████,또███다리의 상처████████두 손가락████████오른손███████정양███...,Voltei a ███████████ ferida ████████████ perna...,Опять травма. ████████ ███████ ногу █ ███ паль...,███อีกแล้ว ขาได้รับบาดเจ็บ████นิ้วทั้งสอง█████...,"Lại █████ nữa. Vết thương ở chân ████████, hai..."
1876,Book168.txt,23,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,,......,……,……,...,...,......,...
1878,Book168.txt,25,59b451510cb97f4863a72780cf0cbbee,███████阿尔力克██撑过去███太大████████严寒的██████████给他██...,███████阿爾力克██撐過去███太大████████嚴寒的██████████給他██...,███████Alric██nicht überstanden███zu alt██████...,███ ████ █████ Alrik ███ ██ limit ██ ███ too o...,█████████ Alrik ███ sobrevivido██ demasiado ██...,,███████Alrik██bertahan███terlalu besar████████...,█████エルリックが█なった。█寒さと険し██████を取りすぎ████彼を███葬式██...,██████알릭이 버████너무 많았다████████장례식██████술을██████...,███████Alrik██aguentou███avançada████████gélid...,██████ ███████. Алрик ██ ███████. ██ ███ слишк...,██████ Alrik █████รอดไปได้ ████มากเกินไป █████...,████████ Alrik █████ vượt qua nổi. ██████ đã l...
1880,Book168.txt,27,a567268bff00afebab2701b97a726d0c,……,……,...,...,...,,......,……,……,...,...,......,...


### 总结
后续细想了2.3的检查方式，还是有疏漏的地方，但确实在Book10.txt里发现了有缺失的段落，即使这并不完全是数据的问题而是不同语言之间的语法问题。所以试了一次之后没有用这个想法继续排查下去了，基本上仅将可能存在nan或者null的地方排除后进行merge进行对齐。

异常数据量级不大，均可手动处理，另外储存在一个文档中

# 数据导出

### 数据再导入

In [33]:
root_directory = os.path.join(os.getcwd(), "Readable_cleaned")

df_CHS_clean = pd.DataFrame(process_folder('CHS'))
df_CHT_clean = pd.DataFrame(process_folder('CHT')) 
df_DE_clean = pd.DataFrame(process_folder('DE'))
df_EN_clean = pd.DataFrame(process_folder('EN'))
df_ES_clean = pd.DataFrame(process_folder('ES'))
df_FR_clean = pd.DataFrame(process_folder('FR'))
df_ID_clean = pd.DataFrame(process_folder('ID'))
df_JP_clean = pd.DataFrame(process_folder('JP'))
df_KR_clean = pd.DataFrame(process_folder('KR'))
df_PT_clean = pd.DataFrame(process_folder('PT'))
df_RU_clean = pd.DataFrame(process_folder('RU'))
df_TH_clean = pd.DataFrame(process_folder('TH'))
df_VI_clean = pd.DataFrame(process_folder('VI'))


folders = ['CHT', 'DE', 'EN', 'ES', 'FR', 'ID', 'JP', 'KR', 'PT', 'RU', 'TH', 'VI']
df_all_clean = df_CHS_clean.copy()

for folder in folders:
    df = eval(f'df_{folder}_clean')
    df_all_clean = pd.merge(df_all_clean, df, on=['文件名', '行号'], how='outer')

# 若希望执行数据清洗，可注释以下代码
# 执行效果参照 2.2
df_all_clean.drop(df_all_clean[(df_all_clean['zh_text_md5'] == 'd41d8cd98f00b204e9800998ecf8427e')|
                                (df_all_clean['zh_text_md5'] == 'ecaa88f7fa0bf610a5a26cf545dcd3aa')|
                                (df_all_clean['zh_text_md5'] == 'd76c713224743197fe4849d1811db6c4')|
                                (df_all_clean['zh_text_md5'] == 'a567268bff00afebab2701b97a726d0c')].index, inplace=True)

df_all_clean = df_all_clean.reset_index(drop=True)
df_all_clean

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
0,AmborLicense.txt,1,01674ca9360b3b11441f1641717c6ed2,1、飞行前请确认您的身心健康状态。,1、飛行前請確認您的身心健康狀態。,1. Vergewissere dich deiner geistigen und körp...,"1. Before gliding, make sure you are physicall...","1. Antes de volar, compruebe que está en buen ...",1. Veuillez vous assurer que vous êtes physiqu...,"1. Sebelum terbang, pastikan kesehatan tubuh d...",1、飛行前に心身の健康状態を確認すること。,1. 비행 전 심신의 건강 상태를 체크하세요.,"1. Antes de planar, certifique-se de que você ...","1. Перед полётом убедитесь в том, что вы готов...",1. เตรียมตัวให้พร้อมทั้งสภาพร่างกายและจิตใจก่อ...,1. Trước khi bay hãy xác nhận trạng thái thể c...
1,AmborLicense.txt,3,6f336a7ddcfffcbc380a51fd0edd5e96,2、起飞时请借助风场或较高的地势。,2、起飛時請借助風場或較高的地勢。,2. Starte von einem Windfeld oder hoch gelegen...,2. Make use of a wind current or elevated terr...,2. Despegue ayudándose de una corriente de vie...,2. Commencez par vous entraîner avec un champ ...,2. Manfaatkan arus angin atau ketinggian yang ...,2、飛び立つ時は風域、または高い地形を利用すること。,2. 날아오를 때는 윈드 필드를 이용하거나 높은 곳이 좋습니다.,2. Faça uso de uma corrente de vento ou de um ...,2. Для взлёта используйте ветряные потоки или ...,2. พุ่งตัวออกจากพื้นที่สูงชัน หรือกระแสลมแรง,2. Khi cất cánh hãy mượn sức gió hoặc nơi có đ...
2,AmborLicense.txt,5,b102a70ba0c1d31d1d0009c42c5e11e0,3、使用风之翼飞行时请注意风势与风向，维持飞行平衡。,3、使用風之翼飛行時請注意風勢與風向，維持飛行平衡。,3. Achte bei der Nutzung eines Windgleiters au...,3. Keep an eye on the wind conditions while gl...,3. Tenga en cuenta la velocidad y dirección de...,3. Faites attention à la force et la direction...,3. Perhatikanlah kondisi angin di setiap waktu...,3、風の翼を使用する時は風力と風向きに注意して、バランスを維持すること。,3. 바람의 날개를 사용해 비행할 때에는 바람의 세기와 방향에 유의하여 평형을 유지...,3. Fique de olho nas condições do vento enquan...,"3. Следите за воздушными потоками, чтобы не по...",3. ตรวจสอบกระแสลมในขณะที่ใช้เครื่องร่อนเวหาบิน...,3. Khi dùng Phong Chi Dực bay lên hãy chú ý sứ...
3,AmborLicense.txt,7,e05a61247050b0330bf7aa69c973ef5d,4、请注意空中交通状况，在飞行执照编号规定的日期使用风之翼出行。,4、請注意空中交通狀況，在飛行執照編號規定的日期使用風之翼移動。,4. Achte auf den Luftverkehr und verwende den ...,4. Pay attention to air traffic conditions and...,4. Tome en cuenta el tráfico aéreo y vuele sol...,4. Veuillez faire attention au trafic aérien e...,"4. Perhatikanlah lalu lintas di udara, dan pas...",4、空中の交通状況に注意して、飛行免許で決められた日に風の翼を使用すること。,4. 공중 교통 상황에 주의하고 비행 면허 번호에 규정된 일자에 바람의 날개를 사용...,4. Preste atenção às condições do tráfego aére...,4. Внимательно ознакомьтесь с состоянием возду...,4. กรุณาเคารพกฎหมายการร่อนเวหา และใช้เครื่องร่...,"4. Hãy chú ý giao thông trên không, số hiệu tr..."
4,AmborLicense.txt,9,51905ed44594fcce9951cbb8a6f51015,5、降落时请注意维持平衡，并在安全高度收起风之翼。,5、降落時請注意維持平衡，並在安全高度收起風之翼。,5. Achte beim Landen unbedingt auf das Gleichg...,5. Keep your balance while gliding and retract...,5. Mantenga el equilibrio al aterrizar y recoj...,"5. Lors de l'atterrissage, maintenez votre équ...","5. Jaga keseimbanganmu waktu meluncur, dan pas...",5、降下時はバランスを保ちつつ、安全な高度で風の翼を収納すること。,5. 착륙 시 평형을 유지하고 안전한 고도에서 바람의 날개를 접으세요.,5. Mantenha seu equilíbrio enquanto plana e re...,5. Следите за равновесием во время полёта и уб...,5. รักษาสมดุลของคุณไว้ในระหว่างทำการร่อนบิน แล...,5. Khi hạ cánh hãy chú ý giữ thăng bằng và thu...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5505,Wings140007.txt,18,abe62226918874c6be31d6d4fe55d010,他们这么宣称。,他們這麼宣稱。,Und so jubelten alle.,And so everyone cheered.,"semana!”, proclamaron todos.",Tous se réjouirent.,Dan semua orang bersorak-sorai.,人類はそう宣言した。,이들은 이렇게 공언했다.,E então todos se animaram.,На том дружно и порешили.,พวกเขาประกาศเช่นนี้,Bọn họ đã tuyên bố như thế.
5506,Wings140007.txt,19,a346d75c30264a25179c0665ff7e3610,就这样，「龙」的时代结束了。,就這樣，「龍」的時代結束了。,Also ging die Zeit der Drachen zu Ende.,And that was how the time of the dragons come ...,"Y así, la era de los dragones terminó.",Et c'est de cette manière que prit fin l'ère d...,Dan begitulah akhir dari era para naga.,こうして、「龍」の時代は終わった。,「드래곤」의 시대는 이렇게 끝이 나고 만다.,E foi assim que a época dos dragões chegou ao ...,Таким вот образом время драконов подошло к концу.,"เรื่องก็เป็นแบบนี้ ยุคสมัยของ ""มังกร"" ได้สิ้นส...","Cứ như vậy, thời đại của ""Rồng"" đã chấm dứt."
5507,Wings140007.txt,21,aed19d28acb7ca09f992fb1b05653a5f,这件风之翼就是这个大灭绝事件的纪念，而且它本来也不是这个颜色的。原本它是蓝白色的。,這件風之翼就是這個大滅絕事件的紀念，而且它本來也不是這個顏色的。原本它是藍白色的。,Dieser Windgleiter erinnert an das große Ausst...,This wind glider commemorates that great extin...,Este planeador conmemora su terrible extinción...,Ce planeur commémore cette extinction. Il n'a ...,Wind glider ini memperingati kepunahan yang lu...,この風の翼はあの大絶滅事件の記念だ。本来はこのような色ではなく、青と白だった。,이 바람의 날개는 바로 이 멸종 사건을 기념하기 위해 만들어진 것이다. 참고로 원래...,"Este Planador celebra aquela grande extinção, ...",Этот планер служит памятью о том великом вымир...,ปีกแห่งสายลมนี้เป็นของที่ระลึกของเหตุการณ์การส...,Phong Chi Dực này là một đài tưởng niệm về sự ...
5508,Wings140007.txt,22,435b1d53cfea4b58fd06bbe8acc678c8,可莉的妈妈把这个风之翼换成了她们一家的配色，也就是现在这个样子。她短暂归家，留下了这对风之翼...,可莉的媽媽把這個風之翼換成了她們一家的配色，也就是現在這個樣子。她短暫歸家，留下了這對風之翼...,"Klees Mutter änderte das Farbschema, um es bes...",Klee's mother changed its color scheme to be m...,La madre de Klee cambió su color para que conj...,La mère de Klee en a modifié les couleurs pour...,Ibu Klee mengubah skema warnanya agar lebih co...,クレーの母親は風の翼を家族の色に変え、これが今の姿だ。彼女は少しの間家に帰り、この風の翼を残...,클레의 엄마가 이 바람의 날개를 그녀 가문의 색으로 염색하여 지금의 모습이 됐다. ...,A mãe de Klee mudou o esquema de cores para um...,"Мать Кли перекрасила планер в цвета семьи, поэ...",แม่ของ Klee ได้เปลี่ยนสีเครื่องร่อนเวหานี้ให้เ...,Mẹ của Klee đã biến Phong Chi Dực này thành mà...


### 异常值检测

In [34]:
df_all_clean[df_all_clean.isnull().any(axis=1)]

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI


In [35]:
df_all_clean[df_all_clean.isna().any(axis=1)]

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI


In [36]:
df_all_clean.loc[df_all_clean['文件名'] == 'Book168.txt']

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
1362,Book168.txt,3,5ab95c8d2dddc51fa60277fd19decc0e,感谢████████帮助，我████████████,感謝████████幫助，我████████████,"Dank der Hilfe von ████████, ich ████████████",Thanks ██ ███ ███ ██████ ████ I ███ ████ ███ █...,"Gracias a la ayuda ████████, pude ████████████...","Grâce à l'aide de ██████████, j'ai enfin █████...","Terima kasih████████bantuannya, aku ████████████",████の助けに感謝する。おかげで████████,████의 도움에 감사하다. 덕분에████████,"Agradeço a████████pela ajuda, agora eu ███████...",Благодаря ████████ █ помощи... я ████ ████████...,ขอบคุณ ██████████สำหรับความช่วยเหลือ ฉัน██████...,Nhờ sự giúp đỡ của ███████ tôi ███████████████...
1363,Book168.txt,5,66f5663d3fe961335c254be1bdffcedf,████████高耸███凶险，恕我████看████████或许█████████慢慢██...,████████高聳███兇險，恕我████看████████或許█████████慢慢██...,"████████Gipfel███gefährlichste, ████Hut-Gipfel...",██ ███ █ ██ tallest █████ ███ ██ ████ dangerou...,█████████ altísima████ peligrosa. Perdonen mi ...,█████████████████████ haut ██ dangereux par ic...,"████████tinggi███berbahaya, maaf tapi aku████m...",████高く険しく、私が███████にちなんで████████████観察し███████...,████████높고███ 감히██████관찰██████천천히██████바람을████...,"████████alta███perigosa, perdoe minha████ao ol...","███ ████ ████ ██████████ высок, █ ██████ █████...",███████████สูง████อันตราย███ขอโทษด้วยที่ฉัน███...,"████ cao ngất ngưởng, ████ hiểm trở, thứ █████..."
1364,Book168.txt,9,4fadaa36bc91376b617913567c74ce88,小伙██都████████山峰，即使有███████████他们████这么说。██████...,小夥██都████████山峰，即使有███████████他們████這麼說。██████...,Keiner der anderen Burschen██diesen███████████...,████ ██ ███ young folks ███ █████ ██ ███ ██ ██...,Nadie ███████████████ esta montaña. Algunos es...,Je n'ai ██ personne ████████. Ceux qui ███████...,"Anak laki-laki██semua████████berada di puncak,...",若者█誰も██山に█████。たまに█████████████████████彼らは████...,젊은이██산을██████가끔██████████그들은████말했다. ██████그들의...,"Nenhum de██colegas████████montanha, ainda que ...",Никто ██ ребят ██ ███████████ ███████████ ██ п...,███เด็กหนุ่มสาวคนไหน████ปีนเขา██████ แม้แต่███...,"██ họ đều ███████ đỉnh núi ██████, cho dù có █..."
1365,Book168.txt,13,4913682a4821ac683337ef4abbb27b4e,好消息，阿尔力克███████上山█████孤身一人！,好消息，阿爾力克███████上山█████孤身一人！,Gute Neuigkeiten! Alric███████den Berg█████war...,Good news! Alrik ██ █████ ██ climb the mountai...,¡Buenas noticias! Alrik escalará █████████████...,Bonne nouvelle ! Alric ███████████ la montagne...,"Kabar baik, Alrik███████naik gunung█████sendir...",いい知らせだ。エルリックが███山へ█████一人では███ていた！,좋은 소식이다. 알릭이██████산에████혼자가 아니었다!,Boas noticías! Alrik não escalará ████████████...,Хорошие новости. Алрик ██████████ пойти ██████...,ข่าวดี Alrik ███ปีนเขา█████████████โดดเดี่ยวหรอก!,"Tin tốt, Alrik ████████ leo núi.████████ cô độ..."
1366,Book168.txt,17,8fb41a2eec31aa98841fc2641aaf79e1,我████████爬上山体，才███几乎████████精雕细琢█████突兀██████族...,我████████爬上山體，才███幾乎████████精雕細琢█████突兀██████族...,"Ich ████████ Berg unterschätzt, ███nur████████...",I ████ ███████████ ███ ███████ Not until █ ███...,"█████ esta montaña. Al escalarla, uno ██████ a...","J'avais ███████████████████ En l'escaladant, █...","Aku████████ mendaki gunung, hanya███hampir ███...",この山████登ってから███████████まるで、██彫ら███のよう█一族が████食...,이 산을████████산에 오르고 나서야███거의██████████정교하게 조각된█...,Eu ████████ esta montanha. Ao escala-la ██████...,Я ██████████ ███ ████. ██████ начав подъём ███...,ฉัน█████████████ปีนขึ้นมา█████ถึง███ ดูเหมือน█...,"Tôi ██████████████, khi leo ████ thì mới █████..."
1367,Book168.txt,21,08f44481aa38fae5a81977d1993982e3,又一次███腿伤████████两个手指█████████右手███████养██████但...,又一次███腿傷████████兩個手指█████████右手███████養██████但...,Eine weitere ███ Verletzung████████ zwei Finge...,"Another ████ ██ leg █ █ █ ███ bad shape, ███ █...",He vuelto a ███████████ herida ████████████ pi...,Je me suis encore ████████████ sur ma jambe ██...,Lagi-lagi███kakiku cedera████████kedua jariku█...,また████足の傷が████二本の指も███████右手は██完治に██████今は█諦め████,또███다리의 상처████████두 손가락████████오른손███████정양███...,Voltei a ███████████ ferida ████████████ perna...,Опять травма. ████████ ███████ ногу █ ███ паль...,███อีกแล้ว ขาได้รับบาดเจ็บ████นิ้วทั้งสอง█████...,"Lại █████ nữa. Vết thương ở chân ████████, hai..."
1368,Book168.txt,25,59b451510cb97f4863a72780cf0cbbee,███████阿尔力克██撑过去███太大████████严寒的██████████给他██...,███████阿爾力克██撐過去███太大████████嚴寒的██████████給他██...,███████Alric██nicht überstanden███zu alt██████...,███ ████ █████ Alrik ███ ██ limit ██ ███ too o...,█████████ Alrik ███ sobrevivido██ demasiado ██...,███████████ Alric █████ pas réussi ███████ vie...,███████Alrik██bertahan███terlalu besar████████...,█████エルリックが█なった。█寒さと険し██████を取りすぎ████彼を███葬式██...,██████알릭이 버████너무 많았다████████장례식██████술을██████...,███████Alrik██aguentou███avançada████████gélid...,██████ ███████. Алрик ██ ███████. ██ ███ слишк...,██████ Alrik █████รอดไปได้ ████มากเกินไป █████...,████████ Alrik █████ vượt qua nổi. ██████ đã l...
1369,Book168.txt,29,432273229bb0b778b2b1926faa9250fa,又摔断了█████████骨折█████卷挟着冰晶█████深渊██万幸██████████...,又摔斷了█████████骨折█████卷挾著冰晶█████深淵██萬幸██████████...,Ich habe mir wieder das Bein gebrochen████████...,█ broke ██ ██ again ██ ███████ █ ███ ███ █ ███...,Volví a caerme y me rompí ██████████████████ f...,Je me suis encore ████████████████████ fêlure ...,Kakiku patah lagi█████████patah█████dengan kri...,また█折った██骨折█████氷を纏った███落された██まだ██████しめ、████を登...,██████또 부러졌██████████얼음이 가득한██████운 좋게도███████...,Voltei a cair█████████ligeiro█████abismo█████c...,"Опять повредил █████. ██████, ███ ████ трещина...",ขาหักอีกแล้ว █████กระดูกหัก████████ถูกพายุน้ำแ...,Lại bị ngã gãy ████████ gãy xương ████████████...
1370,Book168.txt,30,f2f6b1d13b50eb48238c7a655d828c2d,███████冰壁█████岩缝███████凶多吉少███████旧伤█████一年多█████,███████冰壁█████岩縫███████凶多吉少███████舊傷█████一年多█████,███████Eiswand█████Felsspalte███████sicherer T...,█ █ ███ ████ █████ █████ ███ wall of ice ██ ██...,"██████████████ muro de hielo, ████████████████...","████████████ mur de glace, ████████████ dans u...",███████dinding es█████celah batu███████nasib b...,███氷に█████岩の間に██████危なかった███傷が開████一年以上は████,██████얼음 절벽██████바위틈████위험했을██████옛 상처██████1년...,███████muro de gelo█████pedras afiadas███████f...,████ ██ █ █████ ████████ █ ледяную стену ███ █...,██████████████กำแพงน้ำแข็ง ██████ซอกหินล่ะก็ โ...,"██████████ vách băng ███████ khe núi, ███████ ..."
1371,Book168.txt,34,517b4607ee83c7bdfbb7bd4472436d64,天很蓝，这几天████████风雪。我看到██████几乎██████高空——████到达不...,天很藍，這幾天████████風雪。我看到██████幾乎██████高空——████到達不...,Der Himmel war strahlend blau und für einige T...,███ sky █ so blue █ ██ ███ █████ ██████ snowst...,El cielo está muy azul. ████ estos días ██████...,"Le ciel est dégagé, ██████████████████ vent ou...","Langit begitu biru, beberapa hari████████badai...",空が青い。ここ数日は吹雪が████████よりも高い雲█████を見た。██届かない██,████아주 파란 걸 보니 며칠████눈보라는████닿지 않을███,"O céu está muito azul, ████ estes dias ██████ ...","Развиднелось. В эти дни на горе, ████████, бур...",ท้องฟ้าเป็นสีฟ้าสดใส █████████พายุหิมะไปหลายวั...,"Trời rất xanh, mấy ngày này ███████████ gió tu..."


In [37]:
# index = 60 处FR文本为手动添加内容，视情况可删除
df_all_clean.loc[df_all_clean['文件名'] == 'Book10.txt']

Unnamed: 0,文件名,行号,zh_text_md5,文本_CHS,文本_CHT,文本_DE,文本_EN,文本_ES,文本_FR,文本_ID,文本_JP,文本_KR,文本_PT,文本_RU,文本_TH,文本_VI
29,Book10.txt,1,e050ff9cd670d79c11c83a27360a2e48,在这不知道位于何方的，四周都是望也望不到头的蒲公英海里，看着风一吹，蒲公英就轻飘飘地飞起来的...,在這不知道位於何方的，四周都是望也望不到頭的蒲公英海裡，看著風一吹，蒲公英就輕飄飄地飛起來的...,"Egal in welche Richtung ich blickte, sah ich e...",In a boundless sea of dandelions that existed ...,En el infinito mar de dientes de león situado ...,"Dans cette immense mer de pissenlits sans fin,...","Di suatu tempat yang tidak diketahui, sejauh m...",どの位置に存在するのかも分からない、この一面に広がる蒲公英達を見て、俺はやっと理解した。,"어디인지 모를 끝이 보이지 않는 민들레 밭에 서서, 바람이 일 때마다 하늘하늘 흩날...",Num mar sem fim de Dandelion que existia no me...,"Среди бескрайнего моря одуванчиков я наблюдал,...",ท่ามกลางทุ่งดอกแดนดิไลออนอันไร้ขอบเขตและไม่รู้...,"Không rõ đây là đâu, xung quanh đều là biển bồ..."
30,Book10.txt,2,270d60dccd22973a3a270a6e650212d9,「打猎的时候，追着追着就消失了的狐狸，原来都躲在这里啊。」,「打獵的時候，追著追著就消失了的狐狸，原來都躲在這裡啊。」,"„Die Füchse, die während der Jagd plötzlich ve...","""So all the foxes that disappear during the hu...",“Así que este es el sitio donde se esconden lo...,« C'est ici que les renards viennent se cacher...,"""Ternyata semua rubah yang dikejar-kejar oleh ...",（狩りの最中に、追いかけていた狐が消えるのは、ここに逃げ込んだからか）,「사냥하면서 쫓다가 갑자기 사라진 여우들이 다 여기에 숨어있었구나」,"""Então é aqui que se escondem as raposas quand...","«Наверное, именно сюда попадают лисы, за котор...","""ที่พวกจิ้งจอกหนีหายไปตอนโดนพวกนายพรานไล่มา คื...","""Khi đi săn, mấy con hồ ly bị đuổi bắt đều biế..."
31,Book10.txt,3,e43dfcce31d030c91bfb556e5d119603,我心想。,我心想。,So dachte ich bei mir.,I thought to myself.,pensé.,pensai-je.,Aku berpikir.,俺は思う。,난 이렇게 생각했다.,Vou pensar.,Подумал я.,ฉันคิด,Tôi nghĩ thầm.
32,Book10.txt,4,da36f4ae521105b293651ae125110817,「真是个漂亮的好地方。」,「真是個漂亮的好地方。」,„Dieser Ort ist wirklich wunderschön.“,"""What a beautiful place.""",“Qué lugar tan bonito”.,« Quel endroit magnifique. »,"""Tempat ini indah sekali.""",（本当に美しい場所だ）,「참 아름다운 곳이야」,“É realmente um lugar belo.”,- Какая же красота.,"""ช่างเป็นที่ที่สวยเหลือเกิน""","""Thật là một nơi tuyệt đẹp""."
33,Book10.txt,5,a5bba59841eb12c603fd2c91e8a85cf4,但是，在教小狐狸说通用语的时候，心里总是觉得空落落的，就像有风在里面吹一样。,但是，在教小狐狸說通用語的時候，心裡總是覺得空落落的，就像有風在裡面吹一樣。,Doch als ich der jungen Füchsin unsere Sprache...,But when I began teaching the little fox to sp...,"Pero, cuando empecé a enseñarle al pequeño zor...","Cependant, un sentiment de vide emplissait tou...",Tetapi waktu aku mengajari rubah kecil itu unt...,だが、子狐に共通語を教えているとき、心は空っぽで風が吹き込んでいるかのように冷たかった。,꼬마 여우에게 말을 가르쳐줄 때마다 마음 한구석이 뭔가 텅 빈 것만 같았다. 마치 ...,Mas quando eu comecei a ensinar a pequena rapo...,Но когда я начал учить лисёнка говорить на общ...,แต่เวลาที่ฉันสอนภาษาของเราให้เจ้าจิ้งจอกตัวน้อ...,"Có điều, khi dạy bé hồ ly nói tiếng người, tro..."
34,Book10.txt,6,20d56c3262c99af10c00639e854ea8b5,和她说话的时候，看着那双像湖水里的宝石一样的眼眸，总觉得是在和再也没有机会说话的，很久以前喜...,和她說話的時候，看著那雙像湖水裡的寶石一樣的眼眸，總覺得是在和再也沒有機會說話的，很久以前喜...,Während ich mit ihr sprach und in ihre Augen b...,"When we talked, I would look into her gemstone...",Al hablar con ella y mirarle a esos ojos que p...,"À chaque fois que nous discutions, je me perda...",Saat melihat ke dalam matanya yang berwarna se...,彼女の湖に沈んだ宝石のような瞳を眺めながら、会話をする時も、もしかしたらこれが最後かもしれな...,"그녀의 호수에 잠긴 보석 같은 눈동자를 바라보며 이야기할 때면, 이젠 말을 걸 기회...","Quando conversamos, eu me fixava nos seus olho...",Разговаривая с ней и глядя в её похожие на дра...,เมื่อได้พูดคุยและได้มองเข้าไปในดวงตาของเธอ แวว...,"Khi nói chuyện với cô ấy, nhìn vào đôi mắt tro..."
35,Book10.txt,7,5e3cb7e9489257c1833056d44995242f,所以，和小狐狸在一起的时候，感觉就像喜欢的人有了孩子一样。虽然相处得很愉快，但总感觉有些难过。,所以，和小狐狸在一起的時候，感覺就像喜歡的人有了孩子一樣。雖然相處得很愉快，但總感覺有些難過。,"Deshalb war es, als wäre ich mit jemandem zusa...","And so, when she was around me, it was as if I...","Por eso, cuando el zorro y yo estábamos juntos...","Lorsque nous étions ensemble, c'était comme si...","Karena itu, waktu bersama rubah kecil itu, ras...",だから子狐を見ていると、片思いの相手に既に子供がいたような感覚に陥り、楽しさと同時に、どこか...,그런 까닭에 꼬마 여우랑 같이 있을 때면 마치 좋아하는 사람에게 아이가 생긴 것 같...,"Então, quando eu e a raposa estávamos juntos, ...",Вот почему я ощущал себя немного подавленным к...,นั่นคือเหตุผลว่าทำไมฉันจึงรู้สึกเศร้าเมื่อมีเธ...,"Vì thế, khi sống cùng bé hồ ly, cứ cảm giác nh..."
36,Book10.txt,8,000e6a47a63cb05ddaf8ce56b0449c89,但一想到——狐狸答应说，只要留在这里，教她的孩子学会说通用语，,但一想到——狐狸答應說，只要留在這裡，教她的孩子學會說通用語，,Doch dann dachte ich wieder an ihr Versprechen...,But the thought of her promise — if I succeede...,En cuanto pensaba en su promesa —el zorro dijo...,Mais à la pensée de la promesse qu'elle m'avai...,Tapi begitu teringat janjinya untuk mengajari ...,だがあの時狐と交わした約束——ここに残り、彼女の子供に共通語を教えれば,여우는 내가 여기에 남아 그녀의 아이들에게 말을 가르쳐주면,Mas o pensamento de sua promessa — se eu tives...,Но вспоминая её обещание: если мне удастся нау...,แต่หากคำนึงถึงสัญญาเธอมีให้ - หากฉันสอนให้ลูกข...,Có điều mỗi lần nghĩ đến việc mà hồ ly đã đồng...
37,Book10.txt,9,5c7551710e1491e3ee4eaec1787edea4,「届时，我就将狐狸的变化戏法给你。」,「屆時，我就將狐狸的變化戲法給你。」,„So werde ich dir den Zauber der Füchse zeigen.“,"""I shall impart the magic of transformation to...","entonces, me enseñaría el truco para transform...",elle me transmettrait l'art magique des renard...,"""Aku akan memberikan sihir rubah kepadamu.""",「狐の変化の術をお教えいたします」,「여우의 요술을 가르쳐줄게요」,"“Quando a hora chegar, eu vou ensinar os truqu...","«Я поделюсь с тобой нашей лисьей магией, когда...","""เมื่อเวลานั้นมาถึง ฉันจะบอกความลับเวทมนตร์ของ...","""Đến lúc đó, tôi sẽ dạy anh ảo thuật của hồ ly."""
38,Book10.txt,10,3b15a47007084afa32b64214c2c030e9,——她庄严地承诺时的模样，我就充满了干劲。,——她莊嚴地承諾時的模樣，我就充滿了幹勁。,"Dachte ich an dieses ernste Versprechen, war i...",Remembering the way she made that solemn promi...,"y en lo seriamente que la hizo, me sentía comp...",et au souvenir de l'air solennel avec lequel e...,"Mendengar janji itu, hatiku kembali penuh deng...",——そう厳かに承諾した彼女の姿を思い出すと、やる気が満ちてくる。,라고 약속했다. 그 진지한 모습에 힘이 나곤했다.,Ao lembrar da maneira que ela fez aquela prome...,"...обещание, данное только мне. Я чувствую нов...",เมื่อได้เห็นเธอสัญญากับฉันไว้อย่างนั้น มันทำให...,"...Nhìn dáng vẻ trang trọng khi hứa của cô, tô..."


### jsonl导出
最终导出的jsonl文件有483行，每一行对应一个文件的内容，共11.3MB

之后执行数据检查，使用数据检查工具

检查工具输出的txt文件参考check_log_Genshin_data_output.txt，格式为平行语料格式，符合目前规范

In [39]:
import json
import datetime

grouped = df_all_clean.groupby('文件名')

output_list = []

time = datetime.datetime.now().strftime('%Y%m%d')

for file_name, group in grouped:
    paragraphs = []

    for i, row in group.iterrows():
        paragraph = {
            '行号': row['行号'],
            '是否重复': False,  # 需根据实际逻辑进行设置检测方法
            '是否跨文件重复': False,  # 同上
            'zh_text_md5': row['zh_text_md5'],
            'zh_text': row['文本_CHS'],
            'en_text': row.get('文本_EN', ''),
            'ar_text':'',
            'nl_text':'',
            'de_text': row.get('文本_DE', ''),
            'eo_text':'',
            'fr_text': row.get('文本_FR', ''),
            'he_text':'',
            'it_text':'',
            'ja_text': row.get('文本_JP', ''),
            'pt_text': row.get('文本_PT', ''),
            'ru_text': row.get('文本_RU', ''),
            'es_text': row.get('文本_ES', ''),
            'sv_text':'',
            'ko_text': row.get('文本_KR', ''),
            'th_text': row.get('文本_TH', ''),
            'id_text': row.get('文本_ID', ''),
            'vi_text': row.get('文本_VI', ''),
            'cht_text': row.get('文本_CHT', ''),           
            'other1_text': '',
            'other2_text': '',
            '扩展字段': '',
            '时间': time
        }
        paragraphs.append(paragraph)
    
    entry = {
        '文件名': file_name,
        '是否待查文件': False,
        '是否重复文件': False,
        '段落数': len(paragraphs),  
        '去重段落数': 0,  #待设置
        '低质量段落数': 0,  # 同上
        '段落': paragraphs,
        '扩展字段': '',
        '时间': time
    }
    output_list.append(entry)

jsonl_str = "\n".join(json.dumps(entry, ensure_ascii=False) for entry in output_list)
with open('Genshin_data_output.jsonl', 'w', encoding='utf-8') as file:
    file.write(jsonl_str)
