In [1]:
import re
import random

punctuation = '!()&%{}[];:\'",./?\\<>'

def remove_punc(string):
    string = re.sub('[^A-Za-z0-9 ]+', ' ', string)
    string = re.sub(r'[ ]+', ' ', string).strip()
    return string

def remove_punc_random(string, threshold = 0.3):
    result = []
    for c in string:
        if c in punctuation and random.random() >= threshold:
            continue
            
        result.append(c)
    return ''.join(result)

def add_punc_random(string, threshold = 0.7):
    string = string.split()
    for i in range(len(string)):
        if random.random() >= threshold and string[i][-1] not in punctuation:
            string[i] = string[i] + random.choice(punctuation)
    return ' '.join(string)

def add_space_after_punc(string, threshold = 0.3):
    string = string.split()
    for i in range(len(string)):
        if random.random() >= threshold and string[i][-1] in punctuation:
            string[i] = string[i][:-1] + ' ' + string[i][-1]
    return ' '.join(string)

def replace_random_punc(string):
    string = string.split()
    for i in range(len(string)):
        if string[i][-1] in punctuation:
            string[i] = string[i][:-1] + random.choice(punctuation)
    return ' '.join(string)

def random_upper(string, threshold = 0.5):
    string = string.split()
    for i in range(len(string)):
        if random.random() >= threshold:
            string[i] = string[i].upper()
    return ' '.join(string)

def random_title(string, threshold = 0.5):
    string = string.split()
    for i in range(len(string)):
        if random.random() >= threshold:
            string[i] = string[i].title()
    return ' '.join(string)

def random_char_upper(string, threshold = 0.7):
    result = []
    for c in string:
        if random.random() >= threshold:
            c = c.upper()
        result.append(c)
    return ''.join(result)

def remove_space(string, threshold = 0.5):
    string = [s for s in string if not (s == ' ' and random.random() >= threshold)]
    return ''.join(string)

funcs = [remove_punc, remove_punc_random, add_punc_random, add_space_after_punc, 
         random_upper, random_title, random_char_upper, replace_random_punc]

chain_funcs = [remove_punc_random, add_punc_random, add_space_after_punc, 
         random_upper, random_title, random_char_upper, replace_random_punc]

In [2]:
def package(string, repeat = 2, repeat_chain = 5, threshold = 0.5, maintain_space = True):
    
    result = [string]
    result.append(string.lower())
    result.append(string.upper())
    result.append(string.title())
    
    for _ in range(repeat):
    
        for func in funcs:
            result.append(func(string))

        for func in funcs:
            result.append(func(string.lower()))

        for func in funcs:
            result.append(func(string.upper()))

        for func in funcs:
            result.append(func(string.title()))
    
    for _ in range(repeat_chain):
        s = string[:]
        for func in chain_funcs:
            if random.random() > threshold:
                s = func(s)
        result.append(s)
        
    result = list(set(result))
    if not maintain_space:
        result = [remove_space(r) for r in result]
        result = list(set(result))
        
    return [(r, string) for r in result]

def slide(strings, n = 2):
    result = []
    for i in range(0, len(strings), len(strings) - (n - 1)):
        result.append(strings[i: i + n])
    return result

In [3]:
files = ['/home/husein/pure-text/filtered-dumping-wiki.txt',
        '/home/husein/pure-text/dumping-cleaned-news.txt',]

In [4]:
with open(files[0]) as fopen:
    data = fopen.read().split('\n')
    
results, result = [], []
for i in data:
    if len(i) and i[-1] != '.':
        i = i + '.'
    if not len(i) and len(result):
        results.append(result)
        result = []
    else:
        if len(i):
            result.append(i)
        
if len(result):
    results.append(result)
    
len(results)

363578

In [5]:
from tqdm import tqdm

def loop(strings):
    results = []
    for i in tqdm(range(len(strings))):
        try:
            slided = slide(strings[i])
            slided = [s for s in slided if len(s) > 1]
            for s in slided:
                s = ' '.join(s)
                p = package(s)
                results.extend(p)
        except :
            pass
    return results

In [6]:
import cleaning

results1 = cleaning.multiprocessing(random.sample(results, 200), loop)

100%|██████████| 12/12 [00:00<00:00, 1524.83it/s]
100%|██████████| 12/12 [00:00<00:00, 1096.86it/s]
100%|██████████| 12/12 [00:00<00:00, 1100.03it/s]

100%|██████████| 12/12 [00:00<00:00, 757.53it/s]
100%|██████████| 12/12 [00:00<00:00, 956.86it/s]
100%|██████████| 12/12 [00:00<00:00, 704.21it/s]
100%|██████████| 12/12 [00:00<00:00, 581.81it/s]

100%|██████████| 8/8 [00:00<00:00, 714.00it/s]
100%|██████████| 12/12 [00:00<00:00, 535.17it/s]
100%|██████████| 12/12 [00:00<00:00, 530.83it/s]


100%|██████████| 12/12 [00:00<00:00, 430.84it/s]
100%|██████████| 12/12 [00:00<00:00, 917.14it/s]
100%|██████████| 12/12 [00:00<00:00, 721.59it/s]


In [7]:
testset = []
testset.extend(results1)

In [8]:
len(testset)

7428

In [9]:
with open(files[1]) as fopen:
    data = fopen.read().split('\n')
    
len(data)

3656919

In [10]:
results, result = [], []
for i in data:
    if len(i) and i[-1] != '.':
        i = i + '.'
    if not len(i) and len(result):
        results.append(result)
        result = []
    else:
        if len(i):
            result.append(i)
        
if len(result):
    results.append(result)

In [11]:
results = random.sample(results, 100)
results1 = cleaning.multiprocessing(results, loop)

100%|██████████| 6/6 [00:00<00:00, 533.92it/s]


  0%|          | 0/4 [00:00<?, ?it/s]5.74it/s]
100%|██████████| 6/6 [00:00<00:00, 406.77it/s]

100%|██████████| 6/6 [00:00<00:00, 362.06it/s]
100%|██████████| 6/6 [00:00<00:00, 409.39it/s]

100%|██████████| 4/4 [00:00<00:00, 668.52it/s]
100%|██████████| 6/6 [00:00<00:00, 294.14it/s]
100%|██████████| 6/6 [00:00<00:00, 249.39it/s]

100%|██████████| 6/6 [00:00<00:00, 227.70it/s]

100%|██████████| 6/6 [00:00<00:00, 281.12it/s]



In [12]:
testset.extend(results1)

In [13]:
len(testset)

13404

In [14]:
testset[:10]

[('Format Terbuka. Format Terbuka Ialah Suatu Format Fail Untuk Tujuan Menyimpan Data Digital Di Mana Format Ini Ditakrifkan Berdasarkan Spesifikasi Yang Diterbitkan Dan Dikendalikan Pertubuhan Piawaian Serta Boleh Digunapakai Khalayak Ramai.',
  'Format terbuka. Format terbuka ialah suatu format fail untuk tujuan menyimpan data digital, di mana format ini ditakrifkan berdasarkan spesifikasi yang diterbitkan dan dikendalikan pertubuhan piawaian, serta boleh digunapakai khalayak ramai.'),
 ('Format Terbuka. Format Terbuka Ialah Suatu Format Fail Untuk Tujuan Menyimpan Data Digital, Di Mana Format Ini Ditakrifkan Berdasarkan Spesifikasi Yang Diterbitkan Dan Dikendalikan Pertubuhan Piawaian, Serta Boleh Digunapakai Khalayak Ramai.',
  'Format terbuka. Format terbuka ialah suatu format fail untuk tujuan menyimpan data digital, di mana format ini ditakrifkan berdasarkan spesifikasi yang diterbitkan dan dikendalikan pertubuhan piawaian, serta boleh digunapakai khalayak ramai.'),
 ('Format te

In [15]:
def generate_short(string):
    splitted = string.split()
    random_length = random.randint(2, min(len(splitted), 20))
    end = random.randint(0 + random_length, len(splitted))
    return ' '.join(splitted[end - random_length: end])

In [16]:
with open(files[0]) as fopen:
    data = list(filter(None, fopen.read().split('\n')))
    
data = [i for i in data if len(i) >= 2]

len(data)


2037249

In [17]:
data = random.sample(data, 100)

In [18]:
def loop(strings):
    results = []
    for i in tqdm(range(len(strings))):
        try:
            p = package(generate_short(strings[i]))
            results.extend(p)
        except:
            pass
    return results

In [19]:
results1 = cleaning.multiprocessing(data, loop)

  0%|          | 0/6 [00:00<?, ?it/s]00.14it/s]

100%|██████████| 6/6 [00:00<00:00, 837.63it/s]
100%|██████████| 6/6 [00:00<00:00, 1229.46it/s]
  0%|          | 0/6 [00:00<?, ?it/s]98.18it/s]
100%|██████████| 4/4 [00:00<00:00, 770.48it/s]]
100%|██████████| 6/6 [00:00<00:00, 734.25it/s]







100%|██████████| 6/6 [00:00<00:00, 1049.98it/s]
100%|██████████| 6/6 [00:00<00:00, 718.31it/s]
100%|██████████| 6/6 [00:00<00:00, 213.90it/s]


In [20]:
results1[:10]

[('Caixon\\ ialah komun di jabatan Hautes-Pyrenees di barat-daya',
  'Caixon ialah komun di jabatan Hautes-Pyrenees di barat-daya'),
 ('Caixon Ialah komun Di jabatan Hautes-Pyrenees di Barat-Daya',
  'Caixon ialah komun di jabatan Hautes-Pyrenees di barat-daya'),
 ('caixon ialah komun di jabatan hautes-pyrenees di barat-daya',
  'Caixon ialah komun di jabatan Hautes-Pyrenees di barat-daya'),
 ('Caixon Ialah Komun Di JABATAN HAUTES-PYRENEES Di Barat-Daya',
  'Caixon ialah komun di jabatan Hautes-Pyrenees di barat-daya'),
 ('CaiXoN IalAh KomUn Di JaBatan HaUtes-PYrEneES Di BaRAt-Daya',
  'Caixon ialah komun di jabatan Hautes-Pyrenees di barat-daya'),
 ('Caixon Ialah! Komun Di Jabatan Hautes-Pyrenees% Di Barat-Daya',
  'Caixon ialah komun di jabatan Hautes-Pyrenees di barat-daya'),
 ('CaIXoN IaLah KoMUN Di JaBAtan HautEs-PyreNEEs DI BaRat-DAyA',
  'Caixon ialah komun di jabatan Hautes-Pyrenees di barat-daya'),
 ('CAIXON ialah KOMUN DI jabatan Hautes-Pyrenees di BARAT-DAYA',
  'Caixon iala

In [21]:
testset.extend(results1)

In [22]:
with open(files[1]) as fopen:
    data = list(filter(None, fopen.read().split('\n')))
    
data = random.sample(data, 100)

In [23]:
results1 = cleaning.multiprocessing(data, loop)

100%|██████████| 6/6 [00:00<00:00, 1529.47it/s]
  0%|          | 0/4 [00:00<?, ?it/s]3.38it/s]]
100%|██████████| 6/6 [00:00<00:00, 1443.24it/s]


100%|██████████| 6/6 [00:00<00:00, 858.02it/s]]



100%|██████████| 6/6 [00:00<00:00, 824.27it/s]

100%|██████████| 4/4 [00:00<00:00, 1338.11it/s]



100%|██████████| 6/6 [00:00<00:00, 1146.51it/s]



In [24]:
testset.extend(results1)

In [25]:
len(testset)

21525

In [26]:
def loop(strings):
    results = []
    for i in tqdm(range(len(strings))):
        p = package(strings[i])
        results.extend(p)
    return results

In [27]:
with open(files[0]) as fopen:
    data = list(filter(None, fopen.read().split('\n')))
    
data = [i for i in data if len(i) >= 2]

In [28]:
data = random.sample(data, 100)
results1 = cleaning.multiprocessing(data, loop)

100%|██████████| 6/6 [00:00<00:00, 961.37it/s]
100%|██████████| 6/6 [00:00<00:00, 1108.77it/s]
100%|██████████| 6/6 [00:00<00:00, 693.81it/s]

100%|██████████| 6/6 [00:00<00:00, 787.71it/s]
100%|██████████| 6/6 [00:00<00:00, 630.74it/s]
100%|██████████| 6/6 [00:00<00:00, 656.92it/s]
100%|██████████| 6/6 [00:00<00:00, 711.86it/s]
100%|██████████| 6/6 [00:00<00:00, 661.34it/s]

100%|██████████| 6/6 [00:00<00:00, 564.70it/s]



100%|██████████| 6/6 [00:00<00:00, 400.13it/s]
100%|██████████| 6/6 [00:00<00:00, 399.79it/s]



In [29]:
results1[:10]

[('SElaMA Ini, NizaM MenyembuNYikan KUmpulan INi UNtUk KepeNtIngaN DIRI SeTeLaH DIbubarkaN OLeh SharAmAN.',
  'Selama ini, Nizam menyembunyikan kumpulan ini untuk kepentingan diri setelah dibubarkan oleh Sharaman.'),
 ('Selama ini, Nizam menyembunyikan kumpulan ini untuk kepentingan diri setelah dibubarkan oleh Sharaman',
  'Selama ini, Nizam menyembunyikan kumpulan ini untuk kepentingan diri setelah dibubarkan oleh Sharaman.'),
 ('selama ini , nizam menyembunyikan kumpulan ini untuk kepentingan diri setelah dibubarkan oleh sharaman.',
  'Selama ini, Nizam menyembunyikan kumpulan ini untuk kepentingan diri setelah dibubarkan oleh Sharaman.'),
 ('SELAMA Ini, NIZAM Menyembunyikan KUMPULAN Ini UNTUK KEPENTINGAN DIRI Setelah DIBUBARKAN Oleh Sharaman.',
  'Selama ini, Nizam menyembunyikan kumpulan ini untuk kepentingan diri setelah dibubarkan oleh Sharaman.'),
 ('selama ini, nizAm menyembUnYikAn kUMpulaN inI uNtuk kePentIngan Diri setelAH dIbubarkaN oleh SHarAmaN.',
  'Selama ini, Nizam men

In [30]:
testset.extend(results1)

In [31]:
with open(files[1]) as fopen:
    data = list(filter(None, fopen.read().split('\n')))
    
data = random.sample(data, 100)
results1 = cleaning.multiprocessing(data, loop)

100%|██████████| 6/6 [00:00<00:00, 906.16it/s]

100%|██████████| 6/6 [00:00<00:00, 732.57it/s]

100%|██████████| 6/6 [00:00<00:00, 467.02it/s]

100%|██████████| 6/6 [00:00<00:00, 423.71it/s]

100%|██████████| 6/6 [00:00<00:00, 505.44it/s]



100%|██████████| 6/6 [00:00<00:00, 452.18it/s]
100%|██████████| 6/6 [00:00<00:00, 296.26it/s]

100%|██████████| 6/6 [00:00<00:00, 363.63it/s]



In [32]:
results1[:10]

[('UnTuk MEmaHami SITuAsi seBenar, sAma Ada kitA BeNaR-Benar bAHAGiA atAu tiDak, mariLAH KITA menganaLisis pelbagAi fakTa dAn STatistIK berKAitAn gaya hiDup rAKyaT mAlaysiA.',
  'Untuk memahami situasi sebenar, sama ada kita benar-benar bahagia atau tidak, marilah kita menganalisis pelbagai fakta dan statistik berkaitan gaya hidup rakyat Malaysia.'),
 ('Untuk MEMAHAMI SITUASI SEBENAR, SAMA Ada KITA BENAR-BENAR Bahagia ATAU Tidak, Marilah KITA Menganalisis Pelbagai FAKTA DAN STATISTIK BERKAITAN Gaya Hidup RAKYAT Malaysia.',
  'Untuk memahami situasi sebenar, sama ada kita benar-benar bahagia atau tidak, marilah kita menganalisis pelbagai fakta dan statistik berkaitan gaya hidup rakyat Malaysia.'),
 ('Untuk; Memahami Situasi Sebenar, Sama Ada Kita Benar-Benar) Bahagia" Atau\' Tidak, Marilah Kita Menganalisis Pelbagai Fakta Dan Statistik Berkaitan" Gaya Hidup Rakyat Malaysia.',
  'Untuk memahami situasi sebenar, sama ada kita benar-benar bahagia atau tidak, marilah kita menganalisis pelba

In [33]:
testset.extend(results1)

In [34]:
len(testset)

32404

In [35]:
import os

b2_application_key_id = os.environ['b2_application_key_id']
b2_application_key = os.environ['b2_application_key']

In [36]:
from b2sdk.v1 import *
info = InMemoryAccountInfo()
b2_api = B2Api(info)
application_key_id = b2_application_key_id
application_key = b2_application_key
b2_api.authorize_account("production", application_key_id, application_key)
file_info = {'how': 'good-file'}
b2_bucket = b2_api.get_bucket_by_name('malay-dataset')

In [37]:
import json

with open('test-set-true-case.json', 'w') as fopen:
    json.dump(testset, fopen)

In [38]:
b2_bucket.upload_local_file(
    local_file='test-set-true-case.json',
    file_name='true-case/test-set-true-case.json',
    file_infos=file_info,
)

<b2sdk.file_version.FileVersionInfo at 0x7fb75b99abe0>