In [1]:
import os

os.environ['CUDA_VISIBLE_DEVICES'] = ''

In [2]:
import sys

SOURCE_DIR = os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__name__))))
SOURCE_DIR
sys.path.insert(0, SOURCE_DIR)

In [3]:
%%time

import malaya
malaya

CPU times: user 3.08 s, sys: 3.17 s, total: 6.24 s
Wall time: 2.46 s


<module 'malaya' from '/home/husein/dev/malaya/malaya/__init__.py'>

In [4]:
normalizer = malaya.normalize.normalizer(date = False)

In [5]:
segmenter = malaya.segmentation.huggingface()
segmenter_func = lambda x: segmenter.generate([x], max_length = 256)[0]

In [6]:
%%time
segmenter_func('takkisah')

You're using a T5TokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


CPU times: user 677 ms, sys: 4.98 ms, total: 682 ms
Wall time: 64.2 ms


'tak kisah'

In [7]:
fasttext = malaya.language_detection.fasttext()
lang_word_model = malaya.language_detection.substring_rules(model = fasttext)

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)




In [10]:
from glob import glob

twitters = glob('/home/husein/malaya/2022-06-08/*.json')
twitters.extend(glob('/home/husein/malaya/compiled/*.json'))
twitters = sorted(twitters)

In [11]:
twitters

['/home/husein/malaya/2022-06-08/2022-06-08-bahasa-0.json',
 '/home/husein/malaya/2022-06-08/2022-06-08-bahasa-1.json',
 '/home/husein/malaya/2022-06-08/2022-06-08-bahasa-10.json',
 '/home/husein/malaya/2022-06-08/2022-06-08-bahasa-11.json',
 '/home/husein/malaya/2022-06-08/2022-06-08-bahasa-12.json',
 '/home/husein/malaya/2022-06-08/2022-06-08-bahasa-13.json',
 '/home/husein/malaya/2022-06-08/2022-06-08-bahasa-14.json',
 '/home/husein/malaya/2022-06-08/2022-06-08-bahasa-15.json',
 '/home/husein/malaya/2022-06-08/2022-06-08-bahasa-16.json',
 '/home/husein/malaya/2022-06-08/2022-06-08-bahasa-17.json',
 '/home/husein/malaya/2022-06-08/2022-06-08-bahasa-18.json',
 '/home/husein/malaya/2022-06-08/2022-06-08-bahasa-19.json',
 '/home/husein/malaya/2022-06-08/2022-06-08-bahasa-2.json',
 '/home/husein/malaya/2022-06-08/2022-06-08-bahasa-20.json',
 '/home/husein/malaya/2022-06-08/2022-06-08-bahasa-21.json',
 '/home/husein/malaya/2022-06-08/2022-06-08-bahasa-22.json',
 '/home/husein/malaya/2022-

In [12]:
rejected_words = ['sik', 'aktivitas', 'lanat', 'keren', 'loh', 'akh', 'pake', 'goblok', 'ivo',
                 'listrik', 'ludes', 'pemudik', 'stasiun', 'ketidaknyamananya', 'gawe', 'jempol',
                 'kesahatan', 'sivitas', 'ngasih', 'pasokan', 'esdm', 'miliar', 'domisili',
                 'nyengine', 'indonesia', 'ndak', 'mbak', 'gimana', 'verif']

In [13]:
import requests

def query(text, from_lang = 'en', to_lang = 'ms'):
    return requests.get(f'http://100.105.246.81:8999/api?from={from_lang}&to={to_lang}&text={text}').json()

In [14]:
text_scorer = lambda x: lm.score(x)

In [15]:
import re

def fix_spacing_punct(string):
    string = string.replace(' , ', ', ').replace(' !', '!').replace(' . ', '. ').replace('( ', '(') \
    .replace(' )', ')')
    return re.sub(r'[ ]+', ' ', string).strip()

In [18]:
from tqdm import tqdm
import traceback
import json

for f in twitters:
    filename = os.path.split(f)[1]
    output = f'{filename}.v2.normalized'
    output_requested = f"{filename.replace('.json', '')}.v2.normalized.jsonl.requested"
    print(filename, output, output_requested)
    
    if os.path.exists(output_requested):
        print(f'skip {filename}')
        continue
    
    with open(f) as fopen:
        data = json.load(fopen)

    results = []
    already_in = set()
    for row in tqdm(data):
        if row['retweet_text_full'] == 'NULL':
            t = row['data_text']
        else:
            t = row['retweet_text_full']

        if fasttext.predict([t])[0] not in ['malay', 'rojak']:
            continue

        if t.lower() in already_in:
            continue

        tokenized = normalizer._tokenizer(t.lower())
        if any([w in tokenized for w in rejected_words]):
            continue

        if not len(t):
            continue

        try:
            normalized = normalizer.normalize(
                t, normalize_hingga = False, normalize_cardinal = False,
                normalize_ordinal = False, normalize_pada_hari_bulan = False,
                normalize_fraction = False, normalize_money = False, normalize_date = False,
                normalize_time = False, normalize_ic = False,
                normalize_units = False,
                normalize_url = False, normalize_percent=False, normalize_telephone = False,
                not_a_word_threshold = 1e-9,
            )['normalize']
            
            normalized = fix_spacing_punct(normalized)
            
        except Exception as e:
            print(traceback.format_exc())
            print(e)
            normalized = t
        
        results.append({'original': t, 'normalized': normalized})
        already_in.add(t.lower())
    
    with open(output, 'w') as fopen:
        json.dump(results, fopen)

2022-06-08-bahasa-0.json 2022-06-08-bahasa-0.json.v2.normalized 2022-06-08-bahasa-0.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:38<00:00, 2625.30it/s]


2022-06-08-bahasa-1.json 2022-06-08-bahasa-1.json.v2.normalized 2022-06-08-bahasa-1.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:42<00:00, 2351.24it/s]


2022-06-08-bahasa-10.json 2022-06-08-bahasa-10.json.v2.normalized 2022-06-08-bahasa-10.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:45<00:00, 2192.72it/s]


2022-06-08-bahasa-11.json 2022-06-08-bahasa-11.json.v2.normalized 2022-06-08-bahasa-11.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:42<00:00, 2350.15it/s]


2022-06-08-bahasa-12.json 2022-06-08-bahasa-12.json.v2.normalized 2022-06-08-bahasa-12.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:41<00:00, 2407.09it/s]


2022-06-08-bahasa-13.json 2022-06-08-bahasa-13.json.v2.normalized 2022-06-08-bahasa-13.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:42<00:00, 2371.55it/s]


2022-06-08-bahasa-14.json 2022-06-08-bahasa-14.json.v2.normalized 2022-06-08-bahasa-14.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:42<00:00, 2332.91it/s]


2022-06-08-bahasa-15.json 2022-06-08-bahasa-15.json.v2.normalized 2022-06-08-bahasa-15.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:42<00:00, 2363.11it/s]


2022-06-08-bahasa-16.json 2022-06-08-bahasa-16.json.v2.normalized 2022-06-08-bahasa-16.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:41<00:00, 2393.85it/s]


2022-06-08-bahasa-17.json 2022-06-08-bahasa-17.json.v2.normalized 2022-06-08-bahasa-17.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:43<00:00, 2288.50it/s]


2022-06-08-bahasa-18.json 2022-06-08-bahasa-18.json.v2.normalized 2022-06-08-bahasa-18.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:40<00:00, 2493.05it/s]


2022-06-08-bahasa-19.json 2022-06-08-bahasa-19.json.v2.normalized 2022-06-08-bahasa-19.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:42<00:00, 2350.23it/s]


2022-06-08-bahasa-2.json 2022-06-08-bahasa-2.json.v2.normalized 2022-06-08-bahasa-2.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:42<00:00, 2358.92it/s]


2022-06-08-bahasa-20.json 2022-06-08-bahasa-20.json.v2.normalized 2022-06-08-bahasa-20.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:45<00:00, 2193.77it/s]


2022-06-08-bahasa-21.json 2022-06-08-bahasa-21.json.v2.normalized 2022-06-08-bahasa-21.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:41<00:00, 2415.01it/s]


2022-06-08-bahasa-22.json 2022-06-08-bahasa-22.json.v2.normalized 2022-06-08-bahasa-22.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:43<00:00, 2300.02it/s]


2022-06-08-bahasa-23.json 2022-06-08-bahasa-23.json.v2.normalized 2022-06-08-bahasa-23.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:38<00:00, 2590.37it/s]


2022-06-08-bahasa-24.json 2022-06-08-bahasa-24.json.v2.normalized 2022-06-08-bahasa-24.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:40<00:00, 2452.73it/s]


2022-06-08-bahasa-25.json 2022-06-08-bahasa-25.json.v2.normalized 2022-06-08-bahasa-25.v2.normalized.jsonl.requested


100%|█████████████████████████████████████████████████████████████████████████████████| 79802/79802 [00:31<00:00, 2508.44it/s]


2022-06-08-bahasa-3.json 2022-06-08-bahasa-3.json.v2.normalized 2022-06-08-bahasa-3.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:37<00:00, 2633.35it/s]


2022-06-08-bahasa-4.json 2022-06-08-bahasa-4.json.v2.normalized 2022-06-08-bahasa-4.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:42<00:00, 2338.05it/s]


2022-06-08-bahasa-5.json 2022-06-08-bahasa-5.json.v2.normalized 2022-06-08-bahasa-5.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:43<00:00, 2284.79it/s]


2022-06-08-bahasa-6.json 2022-06-08-bahasa-6.json.v2.normalized 2022-06-08-bahasa-6.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:42<00:00, 2378.27it/s]


2022-06-08-bahasa-7.json 2022-06-08-bahasa-7.json.v2.normalized 2022-06-08-bahasa-7.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:40<00:00, 2457.34it/s]


2022-06-08-bahasa-8.json 2022-06-08-bahasa-8.json.v2.normalized 2022-06-08-bahasa-8.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:40<00:00, 2484.59it/s]


2022-06-08-bahasa-9.json 2022-06-08-bahasa-9.json.v2.normalized 2022-06-08-bahasa-9.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:42<00:00, 2355.19it/s]


2021-dump-bahasa-twitter-0.json 2021-dump-bahasa-twitter-0.json.v2.normalized 2021-dump-bahasa-twitter-0.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:35<00:00, 2788.43it/s]


2021-dump-bahasa-twitter-1.json 2021-dump-bahasa-twitter-1.json.v2.normalized 2021-dump-bahasa-twitter-1.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:37<00:00, 2674.36it/s]


2021-dump-bahasa-twitter-10.json 2021-dump-bahasa-twitter-10.json.v2.normalized 2021-dump-bahasa-twitter-10.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:35<00:00, 2780.23it/s]


2021-dump-bahasa-twitter-11.json 2021-dump-bahasa-twitter-11.json.v2.normalized 2021-dump-bahasa-twitter-11.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:41<00:00, 2416.49it/s]


2021-dump-bahasa-twitter-12.json 2021-dump-bahasa-twitter-12.json.v2.normalized 2021-dump-bahasa-twitter-12.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:41<00:00, 2399.08it/s]


2021-dump-bahasa-twitter-13.json 2021-dump-bahasa-twitter-13.json.v2.normalized 2021-dump-bahasa-twitter-13.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:40<00:00, 2486.97it/s]


2021-dump-bahasa-twitter-14.json 2021-dump-bahasa-twitter-14.json.v2.normalized 2021-dump-bahasa-twitter-14.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:35<00:00, 2837.66it/s]


2021-dump-bahasa-twitter-15.json 2021-dump-bahasa-twitter-15.json.v2.normalized 2021-dump-bahasa-twitter-15.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:31<00:00, 3159.98it/s]


2021-dump-bahasa-twitter-16.json 2021-dump-bahasa-twitter-16.json.v2.normalized 2021-dump-bahasa-twitter-16.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:34<00:00, 2859.63it/s]


2021-dump-bahasa-twitter-17.json 2021-dump-bahasa-twitter-17.json.v2.normalized 2021-dump-bahasa-twitter-17.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:36<00:00, 2747.10it/s]


2021-dump-bahasa-twitter-18.json 2021-dump-bahasa-twitter-18.json.v2.normalized 2021-dump-bahasa-twitter-18.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:35<00:00, 2785.73it/s]


2021-dump-bahasa-twitter-19.json 2021-dump-bahasa-twitter-19.json.v2.normalized 2021-dump-bahasa-twitter-19.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:36<00:00, 2734.89it/s]


2021-dump-bahasa-twitter-2.json 2021-dump-bahasa-twitter-2.json.v2.normalized 2021-dump-bahasa-twitter-2.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:38<00:00, 2599.48it/s]


2021-dump-bahasa-twitter-20.json 2021-dump-bahasa-twitter-20.json.v2.normalized 2021-dump-bahasa-twitter-20.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:36<00:00, 2728.61it/s]


2021-dump-bahasa-twitter-21.json 2021-dump-bahasa-twitter-21.json.v2.normalized 2021-dump-bahasa-twitter-21.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:38<00:00, 2577.69it/s]


2021-dump-bahasa-twitter-22.json 2021-dump-bahasa-twitter-22.json.v2.normalized 2021-dump-bahasa-twitter-22.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:36<00:00, 2731.91it/s]


2021-dump-bahasa-twitter-23.json 2021-dump-bahasa-twitter-23.json.v2.normalized 2021-dump-bahasa-twitter-23.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:37<00:00, 2686.25it/s]


2021-dump-bahasa-twitter-24.json 2021-dump-bahasa-twitter-24.json.v2.normalized 2021-dump-bahasa-twitter-24.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:33<00:00, 3011.88it/s]


2021-dump-bahasa-twitter-25.json 2021-dump-bahasa-twitter-25.json.v2.normalized 2021-dump-bahasa-twitter-25.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:36<00:00, 2768.51it/s]


2021-dump-bahasa-twitter-26.json 2021-dump-bahasa-twitter-26.json.v2.normalized 2021-dump-bahasa-twitter-26.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:37<00:00, 2647.77it/s]


2021-dump-bahasa-twitter-27.json 2021-dump-bahasa-twitter-27.json.v2.normalized 2021-dump-bahasa-twitter-27.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:35<00:00, 2851.62it/s]


2021-dump-bahasa-twitter-28.json 2021-dump-bahasa-twitter-28.json.v2.normalized 2021-dump-bahasa-twitter-28.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:37<00:00, 2677.00it/s]


2021-dump-bahasa-twitter-29.json 2021-dump-bahasa-twitter-29.json.v2.normalized 2021-dump-bahasa-twitter-29.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:36<00:00, 2754.61it/s]


2021-dump-bahasa-twitter-3.json 2021-dump-bahasa-twitter-3.json.v2.normalized 2021-dump-bahasa-twitter-3.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:37<00:00, 2701.31it/s]


2021-dump-bahasa-twitter-30.json 2021-dump-bahasa-twitter-30.json.v2.normalized 2021-dump-bahasa-twitter-30.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:39<00:00, 2505.85it/s]


2021-dump-bahasa-twitter-31.json 2021-dump-bahasa-twitter-31.json.v2.normalized 2021-dump-bahasa-twitter-31.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:31<00:00, 3169.80it/s]


2021-dump-bahasa-twitter-32.json 2021-dump-bahasa-twitter-32.json.v2.normalized 2021-dump-bahasa-twitter-32.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:33<00:00, 2970.28it/s]


2021-dump-bahasa-twitter-33.json 2021-dump-bahasa-twitter-33.json.v2.normalized 2021-dump-bahasa-twitter-33.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:35<00:00, 2788.83it/s]


2021-dump-bahasa-twitter-34.json 2021-dump-bahasa-twitter-34.json.v2.normalized 2021-dump-bahasa-twitter-34.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:39<00:00, 2533.07it/s]


2021-dump-bahasa-twitter-35.json 2021-dump-bahasa-twitter-35.json.v2.normalized 2021-dump-bahasa-twitter-35.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:40<00:00, 2446.16it/s]


2021-dump-bahasa-twitter-36.json 2021-dump-bahasa-twitter-36.json.v2.normalized 2021-dump-bahasa-twitter-36.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:34<00:00, 2863.45it/s]


2021-dump-bahasa-twitter-37.json 2021-dump-bahasa-twitter-37.json.v2.normalized 2021-dump-bahasa-twitter-37.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:33<00:00, 3011.35it/s]


2021-dump-bahasa-twitter-38.json 2021-dump-bahasa-twitter-38.json.v2.normalized 2021-dump-bahasa-twitter-38.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:32<00:00, 3109.15it/s]


2021-dump-bahasa-twitter-39.json 2021-dump-bahasa-twitter-39.json.v2.normalized 2021-dump-bahasa-twitter-39.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:39<00:00, 2513.29it/s]


2021-dump-bahasa-twitter-4.json 2021-dump-bahasa-twitter-4.json.v2.normalized 2021-dump-bahasa-twitter-4.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:35<00:00, 2802.70it/s]


2021-dump-bahasa-twitter-40.json 2021-dump-bahasa-twitter-40.json.v2.normalized 2021-dump-bahasa-twitter-40.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:43<00:00, 2303.49it/s]


2021-dump-bahasa-twitter-41.json 2021-dump-bahasa-twitter-41.json.v2.normalized 2021-dump-bahasa-twitter-41.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:38<00:00, 2589.09it/s]


2021-dump-bahasa-twitter-5.json 2021-dump-bahasa-twitter-5.json.v2.normalized 2021-dump-bahasa-twitter-5.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:36<00:00, 2725.51it/s]


2021-dump-bahasa-twitter-6.json 2021-dump-bahasa-twitter-6.json.v2.normalized 2021-dump-bahasa-twitter-6.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:34<00:00, 2897.15it/s]


2021-dump-bahasa-twitter-7.json 2021-dump-bahasa-twitter-7.json.v2.normalized 2021-dump-bahasa-twitter-7.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:34<00:00, 2861.06it/s]


2021-dump-bahasa-twitter-8.json 2021-dump-bahasa-twitter-8.json.v2.normalized 2021-dump-bahasa-twitter-8.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:38<00:00, 2572.11it/s]


2021-dump-bahasa-twitter-9.json 2021-dump-bahasa-twitter-9.json.v2.normalized 2021-dump-bahasa-twitter-9.v2.normalized.jsonl.requested


100%|███████████████████████████████████████████████████████████████████████████████| 100000/100000 [00:37<00:00, 2671.38it/s]


In [None]:
len(results)

In [None]:
results

In [None]:
fix_spacing_punct(results[5]['normalized'])

In [None]:
normalizer._tokenizer('RM35.92 . Get')

In [None]:
tokenizer = malaya.tokenizer.Tokenizer(parliament = True).tokenize

In [None]:
tokenizer('RM35.92 . Get')

In [None]:
tokenizer('RM35.92. Get')