In [1]:
# !wget http://downloads.tatoeba.org/exports/sentences.tar.bz2
# !bunzip2 sentences.tar.bz2
# !tar xvf sentences.tar

In [2]:
import pandas as pd

df = pd.read_csv('sentences.csv', sep = '\t')
df.head()

Unnamed: 0,1,cmn,我們試試看！
0,2,cmn,我该去睡觉了。
1,3,cmn,你在干什麼啊？
2,4,cmn,這是什麼啊？
3,5,cmn,今天是６月１８号，也是Muiriel的生日！
4,6,cmn,生日快乐，Muiriel！


In [3]:
eng = df.loc[df['cmn'] == 'eng']
eng = eng.sample(n = 500000)
eng = eng.iloc[:,-1].tolist()

In [4]:
cmn = df.loc[df['cmn'] == 'cmn']
cmn = cmn.iloc[:,-1].tolist()

In [5]:
import re
import cleaning
from tqdm import tqdm

def preprocessing(string):
    string = re.sub(
        'http\S+|www.\S+',
        '',
        ' '.join(
            [i for i in string.split() if i.find('#') < 0 and i.find('@') < 0]
        ),
    )
    
    chars = ',.()!:\'"/;=-'
    for c in chars:
        string = string.replace(c, f' {c} ')
        
    string = re.sub(
        u'[0-9!@#$%^&*()_\-+{}|\~`\'";:?/.>,<]',
        ' ',
        string,
        flags = re.UNICODE,
    )
    string = re.sub(r'[ ]+', ' ', string).strip()
    
    return string.lower()

def loop(strings):
    for i in tqdm(range(len(strings))):
        strings[i] = preprocessing(strings[i])
    return strings

In [6]:
eng = cleaning.multiprocessing(eng, loop)

100%|██████████| 31250/31250 [00:00<00:00, 68720.18it/s]
100%|██████████| 31250/31250 [00:00<00:00, 65161.03it/s]
100%|██████████| 31250/31250 [00:00<00:00, 67952.25it/s]
100%|██████████| 31250/31250 [00:00<00:00, 61597.20it/s]
100%|██████████| 31250/31250 [00:00<00:00, 63790.44it/s]
 84%|████████▍ | 26250/31250 [00:00<00:00, 64412.25it/s]

100%|██████████| 31250/31250 [00:00<00:00, 56553.45it/s]
100%|██████████| 31250/31250 [00:00<00:00, 67175.00it/s]
100%|██████████| 31250/31250 [00:00<00:00, 61307.99it/s]
100%|██████████| 31250/31250 [00:00<00:00, 67666.30it/s]
100%|██████████| 31250/31250 [00:00<00:00, 59015.12it/s]
100%|██████████| 31250/31250 [00:00<00:00, 67078.61it/s]
100%|██████████| 31250/31250 [00:00<00:00, 66392.40it/s]
100%|██████████| 31250/31250 [00:00<00:00, 56988.22it/s]
100%|██████████| 31250/31250 [00:00<00:00, 58814.03it/s]


In [7]:
eng[:10]

['he stuck to the original plan',
 'i ve been short of breath lately',
 'tom gives to many charities',
 'this is still my office right',
 'i struck up an acquaintance with tom',
 'together they had eight children',
 'has tom come back already',
 'sami was in love with a cheerleader',
 'sami regrets his decision',
 'it might ve taken longer if tom hadn t helped us']

In [8]:
import json

with open('eng.json', 'w') as fopen:
    json.dump(eng, fopen)

In [9]:
cmn = cleaning.multiprocessing(cmn, loop)

100%|██████████| 3823/3823 [00:00<00:00, 94857.60it/s]

100%|██████████| 14/14 [00:00<00:00, 51105.53it/s]t/s]

100%|██████████| 3823/3823 [00:00<00:00, 97647.69it/s]
100%|██████████| 3823/3823 [00:00<00:00, 78636.39it/s]

100%|██████████| 3823/3823 [00:00<00:00, 100199.49it/s]

100%|██████████| 3823/3823 [00:00<00:00, 93587.01it/s]
100%|██████████| 3823/3823 [00:00<00:00, 98831.54it/s]

100%|██████████| 3823/3823 [00:00<00:00, 95200.58it/s]
100%|██████████| 3823/3823 [00:00<00:00, 103996.63it/s]
100%|██████████| 3823/3823 [00:00<00:00, 92974.91it/s]
100%|██████████| 3823/3823 [00:00<00:00, 101283.66it/s]



In [10]:
cmn[:100]

['我该去睡觉了。',
 '你在干什麼啊？',
 '這是什麼啊？',
 '今天是６月１８号，也是muiriel的生日！',
 '生日快乐，muiriel！',
 'muiriel现在 岁了。',
 '密码是 muiriel 。',
 '我很快就會回來。',
 '我不知道。',
 '我不知道應該說什麼才好。',
 '這個永遠完不了了。',
 '我只是不知道應該說什麼而已……',
 '那是一隻有惡意的兔子。',
 '我以前在山里。',
 '那是一张近照吗？',
 '我不知道我有沒有時間。',
 '剛才我的麥克風沒起作用，不知道為什麼。',
 '到了最後，大家一定要靠自己學習。',
 '世界上的教育都讓我失望。',
 '选择什么是“对”或“错”是一项艰难的任务，我们却必须要完成它。',
 '這樣做的話什麼都不會改變的。',
 '這個要三十歐元。',
 '我一天賺一百歐元。',
 '也许我会马上放弃然后去睡一觉。',
 '那是不會發生的。',
 '我会尽量不打扰你复习。',
 '不要擔心。',
 '我很想你。',
 '我明天回來的時候會跟他們聯絡。',
 '我一直都比較喜歡神秘一點的人物。',
 '你應該去睡覺了吧。',
 '我要走了。',
 '我請他們再寄給我一張票。',
 '我不能活那種命。',
 '我曾經想過當個太空物理學家。',
 '我從來沒喜歡過生物學。',
 '可惜这是真的。',
 '大部份的人覺得我瘋了。',
 '不，我不是！你才是！',
 '那是我該說的話',
 '他在踢我！',
 '你肯定吗？',
 '那就表示有問題',
 '哦！有一隻蝴蝶！',
 '趕快',
 '如果我可以像那樣的話',
 '你是在跟我開玩笑吧？！',
 '我長大後想當國王。',
 '我好胖哦。',
 '那又怎樣',
 '我要把他射下來。',
 '那是因為妳是女生。',
 '我会不高兴，但我不会自杀。',
 '以前讀高中的時候﹐我每天早上六點起床。',
 '你問這個幹什麼',
 '你待了多久',
 '我不知道它是从哪里来的。',
 '這個不重要。',
 '哪裡有問題',
 '不要再把我当成“正常” 人',
 '所有被发明的都是真的。',
 '感到惊讶、感到惊奇就是明白的开始。',
 '宇宙毫无疑问是无限的。',
 '要变得完美，她就是少了一个缺点。',
 '然而，相反的理论往往也是真的。

In [11]:
import json

with open('cmn.json', 'w') as fopen:
    json.dump(cmn, fopen)