In [1]:
import os

os.environ['CUDA_VISIBLE_DEVICES'] = ''
os.environ['TF_FORCE_GPU_ALLOW_GROWTH'] = 'true'

In [2]:
# !wget https://huggingface.co/huseinzol05/bpe/resolve/main/ms-en.subwords

In [3]:
from malaya.text.t2t import text_encoder
import malaya



2022-07-04 22:02:50.018541: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library libcudart.so.11.0
  from .autonotebook import tqdm as notebook_tqdm


In [4]:
encoder = text_encoder.SubwordTextEncoder('ms-en.subwords')

In [5]:
encoder.decode([25891])

''

In [6]:
encoder.encode('saya')

[197]

In [7]:
encoder.vocab_size

25880

In [8]:
# !~/tf-nvidia/bin/pip3 install fasttext

In [9]:
fast_text = malaya.language_detection.fasttext()



In [10]:
fast_text.predict(['saya suka', 'i like'])

['malay', 'eng']

In [11]:
class Encoder:
    def __init__(self, encoder):
        self.encoder = encoder
        self.vocab_size = encoder.vocab_size

    def encode(self, s):
        s = [self.encoder.encode(s_) for s_ in s]
        s = [i + [1] for i in s]
        return s

    def decode(self, ids, strip_extraneous = False):
        return self.encoder.decode(ids)

In [12]:
s_encoder = Encoder(encoder)

In [13]:
from tensor2tensor.data_generators import problem
from tensor2tensor.data_generators import text_problems
from tensor2tensor.utils import registry
from tqdm import tqdm
from glob import glob
import json

In [14]:
augmented = glob('augmented-ms-en-*.json')
augmented

['augmented-ms-en-v2.json',
 'augmented-ms-en-3.json',
 'augmented-ms-en-2.json',
 'augmented-ms-en-test.json',
 'augmented-ms-en-v3.json',
 'augmented-ms-en-1.json']

In [16]:
@registry.register_problem
class Translation(text_problems.Text2TextProblem):
    @property
    def approx_vocab_size(self):
        return encoder.vocab_size

    @property
    def is_generate_per_split(self):
        # generate_data will shard the data into TRAIN and EVAL for us.
        return False

    @property
    def dataset_splits(self):
        return [
            {'split': problem.DatasetSplit.TRAIN, 'shards': 100},
        ]

    def generate_samples(self, data_dir, tmp_dir, dataset_split):

        for file in augmented:
            with open(file) as fopen:
                data = json.load(fopen)

            for i in tqdm(range(len(data['ms']))):
                if len(data['ms'][i]) and len(data['en'][i]):
                    i, o = s_encoder.encode([data['ms'][i], data['en'][i]])
                    yield {'inputs': i, 'targets': o}
                
        with open('train/left.txt') as fopen:
            left = fopen.read().split('\n')
        
        with open('train/right.txt') as fopen:
            right = fopen.read().split('\n')
            
        
        for i in tqdm(range(len(left))):
            if len(left[i]) and len(right[i]):
                lang_left, lang_right = fast_text.predict([left[i], right[i]])
                if lang_left not in ['malay', 'eng']:
                    continue
                if lang_right not in ['eng']:
                    continue
                i, o = s_encoder.encode([left[i], right[i]])
                yield {'inputs': i, 'targets': o}

    def generate_encoded_samples(self, data_dir, tmp_dir, dataset_split):

        generator = self.generate_samples(data_dir, tmp_dir, dataset_split)
        for sample in generator:
            yield sample

In [17]:
import os
import tensorflow as tf

In [18]:
os.system('rm -rf t2t-noisy-ms-en/data')
DATA_DIR = os.path.expanduser('t2t-noisy-ms-en/data')
TMP_DIR = os.path.expanduser('t2t-noisy-ms-en/tmp')

In [19]:
tf.compat.v1.io.gfile.mkdir(DATA_DIR)
tf.compat.v1.io.gfile.mkdir(TMP_DIR)




In [20]:
from tensor2tensor.utils import registry
from tensor2tensor import problems

In [21]:
PROBLEM = 'translation'
t2t_problem = problems.problem(PROBLEM)
t2t_problem.generate_data(DATA_DIR, TMP_DIR)

  0%|                                                                                                                       | 0/84178 [00:00<?, ?it/s]

INFO:tensorflow:Generating case 0.


INFO:tensorflow:Generating case 0.
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 84178/84178 [00:09<00:00, 9268.54it/s]
  5%|████▋                                                                                                   | 15131/335872 [00:01<00:32, 9750.78it/s]

INFO:tensorflow:Generating case 100000.


INFO:tensorflow:Generating case 100000.
 34%|██████████████████████████████████▉                                                                   | 114886/335872 [00:11<00:21, 10517.15it/s]

INFO:tensorflow:Generating case 200000.


INFO:tensorflow:Generating case 200000.
 64%|█████████████████████████████████████████████████████████████████▍                                    | 215451/335872 [00:21<00:11, 10562.80it/s]

INFO:tensorflow:Generating case 300000.


INFO:tensorflow:Generating case 300000.
 94%|███████████████████████████████████████████████████████████████████████████████████████████████▊      | 315557/335872 [00:31<00:01, 10187.75it/s]

INFO:tensorflow:Generating case 400000.


INFO:tensorflow:Generating case 400000.
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 335872/335872 [00:33<00:00, 9963.50it/s]
 58%|████████████████████████████████████████████████████████████▏                                           | 79919/138131 [00:07<00:06, 9413.59it/s]

INFO:tensorflow:Generating case 500000.


INFO:tensorflow:Generating case 500000.
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████| 138131/138131 [00:13<00:00, 10157.06it/s]
 63%|█████████████████████████████████████████████████████████████████▉                                       | 41243/65642 [00:04<00:02, 9648.88it/s]

INFO:tensorflow:Generating case 600000.


INFO:tensorflow:Generating case 600000.
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 65642/65642 [00:06<00:00, 10187.39it/s]
 18%|██████████████████▊                                                                                     | 76119/419750 [00:08<00:34, 9996.03it/s]

INFO:tensorflow:Generating case 700000.


INFO:tensorflow:Generating case 700000.
 42%|██████████████████████████████████████████▉                                                            | 175234/419750 [00:18<00:25, 9564.09it/s]

INFO:tensorflow:Generating case 800000.


INFO:tensorflow:Generating case 800000.
 66%|███████████████████████████████████████████████████████████████████                                   | 275785/419750 [00:28<00:13, 10301.18it/s]

INFO:tensorflow:Generating case 900000.


INFO:tensorflow:Generating case 900000.
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏          | 375503/419750 [00:39<00:04, 9892.93it/s]

INFO:tensorflow:Generating case 1000000.


INFO:tensorflow:Generating case 1000000.
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 419750/419750 [00:43<00:00, 9606.69it/s]
 21%|█████████████████████▏                                                                                 | 56116/273070 [00:05<00:21, 10222.07it/s]

INFO:tensorflow:Generating case 1100000.


INFO:tensorflow:Generating case 1100000.
 57%|██████████████████████████████████████████████████████████▏                                           | 155693/273070 [00:15<00:10, 11090.25it/s]

INFO:tensorflow:Generating case 1200000.


INFO:tensorflow:Generating case 1200000.
 94%|███████████████████████████████████████████████████████████████████████████████████████████████▌      | 255830/273070 [00:25<00:01, 10722.16it/s]

INFO:tensorflow:Generating case 1300000.


INFO:tensorflow:Generating case 1300000.
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████| 273070/273070 [00:26<00:00, 10213.82it/s]
  3%|██▉                                                                                                   | 104645/3712555 [00:21<12:03, 4985.58it/s]

INFO:tensorflow:Generating case 1400000.


INFO:tensorflow:Generating case 1400000.
  6%|██████▎                                                                                               | 230534/3712555 [00:45<11:08, 5212.07it/s]

INFO:tensorflow:Generating case 1500000.


INFO:tensorflow:Generating case 1500000.
 10%|█████████▊                                                                                            | 356284/3712555 [01:09<10:31, 5316.92it/s]

INFO:tensorflow:Generating case 1600000.


INFO:tensorflow:Generating case 1600000.
 13%|█████████████▏                                                                                        | 481573/3712555 [01:35<10:47, 4986.84it/s]

INFO:tensorflow:Generating case 1700000.


INFO:tensorflow:Generating case 1700000.
 16%|████████████████▋                                                                                     | 606974/3712555 [02:02<11:08, 4644.20it/s]

INFO:tensorflow:Generating case 1800000.


INFO:tensorflow:Generating case 1800000.
 20%|████████████████████                                                                                  | 732475/3712555 [02:27<09:18, 5340.26it/s]

INFO:tensorflow:Generating case 1900000.


INFO:tensorflow:Generating case 1900000.
 23%|███████████████████████▌                                                                              | 857928/3712555 [02:51<09:01, 5272.98it/s]

INFO:tensorflow:Generating case 2000000.


INFO:tensorflow:Generating case 2000000.
 26%|███████████████████████████                                                                           | 983710/3712555 [03:16<09:12, 4938.94it/s]

INFO:tensorflow:Generating case 2100000.


INFO:tensorflow:Generating case 2100000.
 30%|██████████████████████████████▏                                                                      | 1109725/3712555 [03:40<08:19, 5207.91it/s]

INFO:tensorflow:Generating case 2200000.


INFO:tensorflow:Generating case 2200000.
 33%|█████████████████████████████████▌                                                                   | 1235111/3712555 [04:05<08:37, 4787.65it/s]

INFO:tensorflow:Generating case 2300000.


INFO:tensorflow:Generating case 2300000.
 37%|█████████████████████████████████████                                                                | 1361101/3712555 [04:29<07:11, 5448.93it/s]

INFO:tensorflow:Generating case 2400000.


INFO:tensorflow:Generating case 2400000.
 40%|████████████████████████████████████████▍                                                            | 1486406/3712555 [04:54<07:02, 5274.07it/s]

INFO:tensorflow:Generating case 2500000.


INFO:tensorflow:Generating case 2500000.
 43%|███████████████████████████████████████████▊                                                         | 1612648/3712555 [05:18<06:40, 5241.90it/s]

INFO:tensorflow:Generating case 2600000.


INFO:tensorflow:Generating case 2600000.
 47%|███████████████████████████████████████████████▎                                                     | 1738168/3712555 [05:43<06:06, 5381.62it/s]

INFO:tensorflow:Generating case 2700000.


INFO:tensorflow:Generating case 2700000.
 50%|██████████████████████████████████████████████████▋                                                  | 1863968/3712555 [06:08<06:11, 4978.94it/s]

INFO:tensorflow:Generating case 2800000.


INFO:tensorflow:Generating case 2800000.
 54%|██████████████████████████████████████████████████████▏                                              | 1990053/3712555 [06:33<05:49, 4927.27it/s]

INFO:tensorflow:Generating case 2900000.


INFO:tensorflow:Generating case 2900000.
 57%|█████████████████████████████████████████████████████████▌                                           | 2115361/3712555 [06:58<05:01, 5304.73it/s]

INFO:tensorflow:Generating case 3000000.


INFO:tensorflow:Generating case 3000000.
 60%|████████████████████████████████████████████████████████████▉                                        | 2241628/3712555 [07:23<04:45, 5144.62it/s]

INFO:tensorflow:Generating case 3100000.


INFO:tensorflow:Generating case 3100000.
 64%|████████████████████████████████████████████████████████████████▍                                    | 2367230/3712555 [07:47<04:14, 5290.30it/s]

INFO:tensorflow:Generating case 3200000.


INFO:tensorflow:Generating case 3200000.
 67%|███████████████████████████████████████████████████████████████████▊                                 | 2492897/3712555 [08:12<03:47, 5350.40it/s]

INFO:tensorflow:Generating case 3300000.


INFO:tensorflow:Generating case 3300000.
 71%|███████████████████████████████████████████████████████████████████████▏                             | 2618326/3712555 [08:37<03:30, 5198.90it/s]

INFO:tensorflow:Generating case 3400000.


INFO:tensorflow:Generating case 3400000.
 74%|██████████████████████████████████████████████████████████████████████████▋                          | 2743927/3712555 [09:02<03:20, 4830.40it/s]

INFO:tensorflow:Generating case 3500000.


INFO:tensorflow:Generating case 3500000.
 77%|██████████████████████████████████████████████████████████████████████████████                       | 2869527/3712555 [09:27<02:35, 5412.26it/s]

INFO:tensorflow:Generating case 3600000.


INFO:tensorflow:Generating case 3600000.
 81%|█████████████████████████████████████████████████████████████████████████████████▍                   | 2995066/3712555 [09:52<02:15, 5305.65it/s]

INFO:tensorflow:Generating case 3700000.


INFO:tensorflow:Generating case 3700000.
 84%|████████████████████████████████████████████████████████████████████████████████████▉                | 3121213/3712555 [10:17<01:49, 5388.38it/s]

INFO:tensorflow:Generating case 3800000.


INFO:tensorflow:Generating case 3800000.
 87%|████████████████████████████████████████████████████████████████████████████████████████▎            | 3246257/3712555 [10:41<01:28, 5252.86it/s]

INFO:tensorflow:Generating case 3900000.


INFO:tensorflow:Generating case 3900000.
 91%|███████████████████████████████████████████████████████████████████████████████████████████▋         | 3372203/3712555 [11:06<01:07, 5050.22it/s]

INFO:tensorflow:Generating case 4000000.


INFO:tensorflow:Generating case 4000000.
 94%|███████████████████████████████████████████████████████████████████████████████████████████████▏     | 3497539/3712555 [11:31<00:44, 4798.57it/s]

INFO:tensorflow:Generating case 4100000.


INFO:tensorflow:Generating case 4100000.
 98%|██████████████████████████████████████████████████████████████████████████████████████████████████▌  | 3623299/3712555 [11:55<00:22, 3952.58it/s]

INFO:tensorflow:Generating case 4200000.


INFO:tensorflow:Generating case 4200000.
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 3712555/3712555 [12:13<00:00, 5062.52it/s]


INFO:tensorflow:Generated 4270649 Examples


INFO:tensorflow:Generated 4270649 Examples


INFO:tensorflow:Shuffling data...


INFO:tensorflow:Shuffling data...


INFO:tensorflow:Data shuffled.


INFO:tensorflow:Data shuffled.
