In [1]:
import sys
sys.path.append('/source/main')

In [2]:
import pandas as pd

from naruto_skills.voc import Voc


In [3]:
df = pd.read_csv('/source/main/data_for_train/output/my_train.csv')

In [4]:
df.shape

(1531381, 2)

In [5]:
df.dropna(inplace=True)

In [6]:
df.sample(10)

Unnamed: 0,tgt,src
1495441,rạn san hô chắn bờ,ran san ho chan bo
52569,một phương pháp hành động chống ngoại xâm khác...,mot phuong phap hanh dong chong ngoai xam khac...
646348,"để thực hiện được mục tiêu trên , bộ tài chính...","de thuc hien duoc muc tieu tren , bo tai chinh..."
1321831,chỉ mới cuối năm numpatt bộ xử lý 1ghz dường n...,chi moi cuoi nam numpatt bo xu ly 1ghz duong n...
212887,anh là một giáo viên dạy nhạc tại trường trung...,anh la mot giao vien day nhac tai truong trung...
937830,"đặc biệt , chỉ trong ngày numpatt và numpatt /...","dac biet , chi trong ngay numpatt va numpatt /..."
506771,"ngoài ra , hai nhãn hàng tài trợ decolgen và c...","ngoai ra , hai nhan hang tai tro decolgen va c..."
886753,liên bộ họp tìm sự thật việc tăng giá sữa .,lien bo hop tim su that viec tang gia sua .
1413391,parasenecio leucocephalus là một loài thực vật...,parasenecio leucocephalus la mot loai thuc vat...
1233312,"trong thời gian tới , chúng tôi sẽ tiếp tục đó...","trong thoi gian toi , chung toi se tiep tuc do..."


# Vocab for src

In [7]:
voc = Voc('src')
voc.space_char = ' '
voc.tokenize_func = str.split
for doc in df['src']:
    voc.add_sentence(doc)

In [8]:
len(voc.word2count)

280421

## Trim out infrequent vocabs

In [9]:
freq = [(k, v) for k, v in voc.word2count.items() ]
freq.sort(key=lambda x: x[1], reverse=True)

In [10]:
freq[4000:4100]

[('pasteur', 117),
 ('party', 117),
 ('5/6', 117),
 ('hemidactylus', 117),
 ('gardner', 117),
 ('mus', 117),
 ('hagel', 117),
 ('vuu', 117),
 ('bryan', 117),
 ('hc', 117),
 ('lead', 117),
 ('africana', 117),
 ('celtic', 116),
 ('pallida', 116),
 ('ballad', 116),
 ('drepanosticta', 116),
 ('bruce', 116),
 ('leptotyphlopidae', 116),
 ('drama', 116),
 ('gp', 116),
 ('microsd', 116),
 ('id', 116),
 ('revo', 116),
 ('mou', 116),
 ('valeton', 116),
 ('romney', 116),
 ('neville', 116),
 ('k-pop', 116),
 ('apodidae', 116),
 ('tal', 116),
 ('harrison', 116),
 ('argentea', 116),
 ('dichaea', 116),
 ('nicholas', 116),
 ('levante', 116),
 ('cercopithecidae', 116),
 ('amd', 115),
 ('vanilla', 115),
 ('sochi', 115),
 ('prain', 115),
 ('heterophylla', 115),
 ('claoxylon', 115),
 ('8/8', 115),
 ('fryxell', 115),
 ('hungund', 115),
 ('tcm', 115),
 ('uniflora', 115),
 ('singh', 115),
 ('ditassa', 115),
 ('chart', 115),
 ('philippe', 115),
 ('seri', 115),
 ('samson', 115),
 ('neoregelia', 115),
 ('decipi

In [11]:
voc.trim(100)

keep_words 4576 / 280421 = 0.0163


## Clean vocab

In [12]:
len(voc.word2index)

4576

In [13]:
def is_alpha(tok):
    if len(tok) == 1:
        return True
    return all([c.isalpha() for c in tok])

def is_valid_len(tok):
    return len(tok) <= 7

def is_valid_token(tok):
    if not is_alpha(tok):
        return False
    if not is_valid_len(tok):
        return False
    return True

In [14]:
vocabs = [vocab for vocab in voc.word2index if is_valid_token(vocab)]

In [15]:
len(vocabs)

3517

In [16]:
del voc

In [17]:
voc = Voc('src')
voc.space_char = ' '
voc.tokenize_func = str.split
voc.add_sentence(' '.join(vocabs))

In [18]:
len(voc.word2index)

3517

In [19]:
len(voc.index2word)

3519

In [20]:
voc.word2index['.']

26

In [21]:
voc.dump('/source/main/vocab/output/src.json')
print('Done')
del voc

Done


# Vocab for tgt

In [22]:
voc = Voc('tgt')
voc.space_char = ' '
voc.tokenize_func = str.split
for doc in df['tgt']:
    voc.add_sentence(doc)

In [23]:
len(voc.word2count)

293291

## Trim out infrequent vocabs

In [24]:
freq = [(k, v) for k, v in voc.word2count.items() ]
freq.sort(key=lambda x: x[1], reverse=True)

In [33]:
freq[50000:50100]

[('pogonomelomys', 5),
 ('kinase', 5),
 ('betti', 5),
 ('markovic', 5),
 ('patridge', 5),
 ('bucco', 5),
 ('barangay', 5),
 ('mediplast', 5),
 ('antalyensis', 5),
 ('bow', 5),
 ('sandakanensis', 5),
 ('autocar', 5),
 ('takuma', 5),
 ('haplostichanthus', 5),
 ('kostermansiana', 5),
 ('khasianus', 5),
 ('leptocarpus', 5),
 ('-lào', 5),
 ('lamiifolia', 5),
 ('inspire', 5),
 ('heydei', 5),
 ('kubota', 5),
 ('continentalis', 5),
 ('baldschuanica', 5),
 ('cooley', 5),
 ('kimiko', 5),
 ('suberosus', 5),
 ('floweri', 5),
 ('oxyodontus', 5),
 ('caryodendron', 5),
 ('brainiest', 5),
 ('chantal', 5),
 ('campylorhamphus', 5),
 ('ielts…', 5),
 ('aleutian', 5),
 ('novae-hollandiae', 5),
 ('nạy', 5),
 ('ruwenzorii', 5),
 ('生徒会の一存', 5),
 ('nghe-nói', 5),
 ('zambesica', 5),
 ('yanga-mbiwa', 5),
 ('0:2', 5),
 ('baikiaea', 5),
 ('rags', 5),
 ('placidia', 5),
 ('-đã', 5),
 ('plica', 5),
 ('islampur', 5),
 ('thermalis', 5),
 ('ba-sa', 5),
 ('cornigerum', 5),
 ('1hcđ', 5),
 ('taisen', 5),
 ('louis-marie', 5

In [34]:
voc.trim(5)

keep_words 54134 / 293291 = 0.1846


## Clean vocab

In [35]:
len(voc.word2index)

54134

In [36]:
def is_alpha(tok):
    if len(tok) == 1:
        return True
    return all([c.isalpha() for c in tok])

def is_valid_len(tok):
    return len(tok) <= 7

def is_valid_token(tok):
    if not is_alpha(tok):
        return False
    if not is_valid_len(tok):
        return False
    return True

In [37]:
vocabs = [vocab for vocab in voc.word2index if is_valid_token(vocab)]

In [38]:
len(vocabs)

31183

In [42]:
del voc

In [43]:
voc = Voc('tgt')
voc.space_char = ' '
voc.tokenize_func = str.split
voc.add_sentence(' '.join(vocabs))

In [44]:
len(voc.word2index)

31183

In [45]:
len(voc.index2word)

31185

In [46]:
voc.word2index['.']

26

In [47]:
voc.dump('/source/main/vocab/output/tgt.json')
print('Done')
del voc

Done
