In [1]:
import os
import tensorflow as tf
import malaya
import json

In [2]:
import re

tokenizer = malaya.preprocessing._SocialTokenizer().tokenize

def is_number_regex(s):
    if re.match("^\d+?\.\d+?$", s) is None:
        return s.isdigit()
    return True

def detect_money(word):
    if word[:2] == 'rm' and is_number_regex(word[2:]):
        return True
    else:
        return False

def preprocessing(string):
    tokenized = tokenizer(string)
    tokenized = [malaya.stem.naive(w) for w in tokenized]
    tokenized = [w.lower() for w in tokenized if len(w) > 1]
    tokenized = ['<NUM>' if is_number_regex(w) else w for w in tokenized]
    tokenized = ['<MONEY>' if detect_money(w) else w for w in tokenized]
    return tokenized

def clean_label(label):
    string = re.sub('[^A-Za-z\- ]+', ' ', label)
    return re.sub(r'[ ]+', ' ', string.lower()).strip()

In [3]:
with open('augmented-relevancy.json') as fopen:
    loaded = json.load(fopen)
    
X = loaded['X']
Y = loaded['Y']

In [4]:
preprocessing('Sesungguhnya menjadi tradisi, mana-mana calon presiden AS pasti perlu mendapat sokongan masyarakat Yahudi yang mengawal ekonomi di AS untuk jadi presiden, namun tidak ramai seberani Trump dalam mengotakan dan mengabui mata Yahudi dan Zionism Israel')

['sesungguh',
 'jadi',
 'tradisi',
 'mana',
 'mana',
 'calon',
 'presiden',
 'as',
 'pasti',
 'lu',
 'dapat',
 'sokong',
 'masyarakat',
 'yahudi',
 'yang',
 'awal',
 'ekonomi',
 'as',
 'untuk',
 'jadi',
 'presiden',
 'namun',
 'tidak',
 'ramai',
 'berani',
 'trump',
 'dalam',
 'ota',
 'abui',
 'mata',
 'yahudi',
 'zionism',
 'israel']

In [5]:
X[0]

'dalam masa-masa yang mencabar, jackie mason mewakili suara sebab. dalam klip eksklusif minggu ini untuk perkhabaran pembicaraan, jackie membincangkan bahaya korea utara, dan menjelaskan namun presiden donald trump mampu memenangkan pekerjaan hollywood kiri jika anda. s. perlu menyerang terlebih dahulu. "Jika dia memutuskan untuk mengebom mereka, seluruh negara akan berada di belakangnya, kerana semua orang akan melihat dia tidak mengizinkan pilihan dan itu satu-satunya kes yang utama dilakukan," kata Jackie. "kecuali hollywood yang tersisa, mereka akan mendapat nauseous." "Trump sanggup larang di samping kiri, mereka akan menjatuhkan cintai dengannya dalam satu minit, jika dia membom menjadualkan untuk sengketa yang lebih baik," jelas Jackie. "seperti jika mereka tidak mempunyai tandas transgender." Jackie juga mengatakan tidak hairanlah bahawa selebriti hollywood tidak menyendal mogok truf di lapangan angin syrian bulan ini. "mereka marah," katanya. "kerana ia hanya dapat menyelamatk

In [6]:
for i in range(len(X)):
    if (i + 1) % 10000 == 0:
        print(i + 1)
    X[i] = preprocessing(X[i])

10000
20000
30000
40000
50000
60000
70000
80000
90000
100000
110000
120000
130000
140000
150000
160000
170000
180000
190000
200000


In [7]:
len(X), len(Y)

(209519, 209519)

In [8]:
with open('tokenized.json', 'w') as fopen:
    json.dump(X, fopen)