In [45]:
import glob
import numpy as np
from pythainlp.tokenize import word_tokenize
import pickle

## Sum Data

In [46]:
def read_data_readline(file):
    with open(file, 'r', encoding='utf-8') as f:
        data = f.readlines()
    return data
def read_data(file):
    with open(file, 'r', encoding='utf-8') as f:
        data = f.read()
    return data
def write_data(file, data):
    with open(file, 'w', encoding='utf-8') as f:
        f.write(data)


In [47]:
NaratFile = 'Dataset/DataNirat/Niras.txt'
NitanFiles = glob.glob('Dataset/DataNitan/*.txt')

files = [NaratFile] + NitanFiles
names = [file.split('/')[-1].split('.')[0] for file in files]
for i in range(len(files)):
    print(i+1, names[i]+'\t', files[i])

1 Niras	 Dataset/DataNirat/Niras.txt
2 Lugsanawong	 Dataset/DataNitan/Lugsanawong.txt
3 Phaapaimanee	 Dataset/DataNitan/Phaapaimanee.txt
4 Cobuut	 Dataset/DataNitan/Cobuut.txt
5 Singtaipop	 Dataset/DataNitan/Singtaipop.txt


In [48]:
data = []
count_line = 0
for i in range(len(files)):
    temp = read_data(files[i])
    count_line += len(temp.split('\n'))
    print('Line of', names[i], '\t\t', len(temp.split('\n')))
    data.append(temp)
print('Total line:', count_line)

text = '\n'.join(data)
write_data('Dataset/AllData.txt', text)
print('Write file: Dataset/AllData.txt')

Line of Niras 		 2652
Line of Lugsanawong 		 4591
Line of Phaapaimanee 		 48688
Line of Cobuut 		 2606
Line of Singtaipop 		 6740
Total line: 65277
Write file: Dataset/AllData.txt


## Read AllData file And Normalize data

In [49]:
file = 'Dataset/AllData.txt'
data = read_data_readline(file)

print('Line:', len(data))

# Split each line by whitespace and remove words with length less than 2
data2 = [[word for word in line.split() if len(word) >= 2] for line in data]
# Remove lines with a length of 1
data2 = [line for line in data2 if len(line) > 1]
# Join word in line
data2 = [' '.join(line) for line in data2]


# show before and after data and data2  
print('Before:', data[:3])
print('Length data :', len(data))
print('After:', data2[:3])
print('Length data2 :', len(data2))

Line: 65277
Before: ['                                                โอ้สังเวชวาสนานิจจาเอ๋ย\n', 'จะมีคู่มิได้อยู่ประคองเชย\t            ต้องละเลยดวงใจไว้ไกลตา\n', 'ถึงทุกข์ใครในโลกที่โศกเศร้า\tไม่เหมือนเราภุมรินถวิลหา\n']
Length data : 65277
After: ['จะมีคู่มิได้อยู่ประคองเชย ต้องละเลยดวงใจไว้ไกลตา', 'ถึงทุกข์ใครในโลกที่โศกเศร้า ไม่เหมือนเราภุมรินถวิลหา', 'จะพลัดพรากจากกันไม่ทันลา ใช้แต่ตาต่างถ้อยสุนทรวอน']
Length data2 : 65258


In [50]:
text = '\n'.join([line for line in np.array(data2[:4]).flatten()])
print(text)

จะมีคู่มิได้อยู่ประคองเชย ต้องละเลยดวงใจไว้ไกลตา
ถึงทุกข์ใครในโลกที่โศกเศร้า ไม่เหมือนเราภุมรินถวิลหา
จะพลัดพรากจากกันไม่ทันลา ใช้แต่ตาต่างถ้อยสุนทรวอน
โอ้จำใจไกลนุชสุดสวาท จึงนิราศเรื่องรักเป็นอักษร


In [51]:
c = ['๑', '๒', '๓', '๔', '๕', '๗', '[', ']', '๏', '๐', '๖', '๘', '๙']
# Remove characters in c from text lines
data2 = [''.join([char for char in line if char not in c]) for line in data2]

In [52]:
text = '\n'.join([line for line in np.array(data2).flatten()])

# create mapping of unique chars to integers
chars = sorted(list(set(text)))
char_to_int = dict((c, i) for i, c in enumerate(chars))

 
# summarize the loaded data
n_chars = len(text)
n_vocab = len(chars)
print("Total Characters: ", n_chars)
print("Total Vocab: ", n_vocab)

Total Characters:  3471448
Total Vocab:  74


In [53]:
print(chars)

['\n', ' ', '-', '.', 'ก', 'ข', 'ฃ', 'ค', 'ฆ', 'ง', 'จ', 'ฉ', 'ช', 'ซ', 'ฌ', 'ญ', 'ฎ', 'ฏ', 'ฐ', 'ฑ', 'ฒ', 'ณ', 'ด', 'ต', 'ถ', 'ท', 'ธ', 'น', 'บ', 'ป', 'ผ', 'ฝ', 'พ', 'ฟ', 'ภ', 'ม', 'ย', 'ร', 'ฤ', 'ล', 'ฦ', 'ว', 'ศ', 'ษ', 'ส', 'ห', 'ฬ', 'อ', 'ฮ', 'ฯ', 'ะ', 'ั', 'า', 'ำ', 'ิ', 'ี', 'ึ', 'ื', 'ุ', 'ู', 'ฺ', 'เ', 'แ', 'โ', 'ใ', 'ไ', 'ๅ', '็', '่', '้', '๊', '๋', '์', 'ํ']


In [54]:
# Create the file and write the normalized text
text = '\n'.join([line for line in np.array(data2)])
file = 'Dataset/TextAfterNormalize.txt'
write_data(file, text)
print('Write file:', file)

Write file: Dataset/TextAfterNormalize.txt


## Create dataset file

In [55]:
file = 'Dataset/TextAfterNormalize.txt'
data = read_data(file).split('\n')
data = [line for line in data if len(line) > 1]
text = '\n'.join([line for line in data[:4]])
print("Sample : \n", text)
print('Length Line :', len(data))

Sample : 
 จะมีคู่มิได้อยู่ประคองเชย ต้องละเลยดวงใจไว้ไกลตา
ถึงทุกข์ใครในโลกที่โศกเศร้า ไม่เหมือนเราภุมรินถวิลหา
จะพลัดพรากจากกันไม่ทันลา ใช้แต่ตาต่างถ้อยสุนทรวอน
โอ้จำใจไกลนุชสุดสวาท จึงนิราศเรื่องรักเป็นอักษร
Length Line : 65258


In [56]:
maxlen = 0
########## Word Count ############
word_dict_count = {}
for i in range(len(data)):
    tmp = []
    count_slash = 0
    for j in data[i].split(' '):
        tmp.extend(word_tokenize(j, engine="newmm"))
        tmp.append("/")
    # print(tmp)
    data[i] = tmp[0:-1]
    if( len(data[i]) > maxlen):
        maxlen = len(data[i])
    for word_poem in data[i]:
        if(word_poem not in word_dict_count.keys()):
            word_dict_count[word_poem] = 1
        else:
            word_dict_count[word_poem]+=1
print("Finished Counting")

Finished Counting


In [57]:
print(maxlen) # 21
print(len(word_dict_count)) # 16144
print(word_dict_count)

21
16144
{'จะ': 14301, 'มี': 3221, 'คู่': 382, 'มิได้': 784, 'อยู่': 4198, 'ประคอง': 449, 'เชย': 295, '/': 65264, 'ต้อง': 1517, 'ละเลย': 45, 'ดวงใจ': 48, 'ไว้': 1763, 'ไกลตา': 21, 'ถึง': 3223, 'ทุกข์': 342, 'ใคร': 1089, 'ใน': 5529, 'โลก': 81, 'ที่': 4781, 'โศกเศร้า': 72, 'ไม่': 9921, 'เหมือน': 3517, 'เรา': 1598, 'ภุมริน': 19, 'ถวิลหา': 18, 'พลัด': 281, 'พรากจากกัน': 6, 'ทัน': 330, 'ลา': 1308, 'ใช้': 407, 'แต่': 3573, 'ตา': 842, 'ต่าง': 2075, 'ถ้อย': 54, 'สุนทร': 85, 'วอน': 205, 'โอ้': 559, 'จำใจ': 30, 'ไกล': 314, 'นุช': 377, 'สุด': 1385, 'สวาท': 339, 'จึง': 2727, 'นิราศ': 56, 'เรื่อง': 439, 'รัก': 1664, 'เป็น': 6170, 'อักษร': 119, 'ให้': 12127, 'เห็น': 4200, 'อก': 300, 'ตกยาก': 18, 'เมื่อ': 942, 'จาก': 854, 'จร': 412, 'ไป': 9557, 'ดง': 257, 'ดอน': 61, 'แดน': 260, 'ป่า': 417, 'พนา': 64, 'วัน': 832, 'กับ': 2574, 'ศิษย์': 177, 'น้อง': 1997, 'สอง': 1676, 'นาย': 1212, 'ล้วน': 931, 'ชายหนุ่ม': 4, 'น้อย': 919, 'พุ่ม': 78, 'เพื่อน': 182, 'ไร้': 53, 'ไพรสัณฑ์': 73, 'แสง': 632, 'แจ้ง': 1100, 'ทา

In [62]:
data[1]

['ถึง',
 'ทุกข์',
 'ใคร',
 'ใน',
 'โลก',
 'ที่',
 'โศกเศร้า',
 '/',
 'ไม่',
 'เหมือน',
 'เรา',
 'ภุมริน',
 'ถวิลหา']

In [63]:
word_dict_count.items()

dict_items([('จะ', 14301), ('มี', 3221), ('คู่', 382), ('มิได้', 784), ('อยู่', 4198), ('ประคอง', 449), ('เชย', 295), ('/', 65264), ('ต้อง', 1517), ('ละเลย', 45), ('ดวงใจ', 48), ('ไว้', 1763), ('ไกลตา', 21), ('ถึง', 3223), ('ทุกข์', 342), ('ใคร', 1089), ('ใน', 5529), ('โลก', 81), ('ที่', 4781), ('โศกเศร้า', 72), ('ไม่', 9921), ('เหมือน', 3517), ('เรา', 1598), ('ภุมริน', 19), ('ถวิลหา', 18), ('พลัด', 281), ('พรากจากกัน', 6), ('ทัน', 330), ('ลา', 1308), ('ใช้', 407), ('แต่', 3573), ('ตา', 842), ('ต่าง', 2075), ('ถ้อย', 54), ('สุนทร', 85), ('วอน', 205), ('โอ้', 559), ('จำใจ', 30), ('ไกล', 314), ('นุช', 377), ('สุด', 1385), ('สวาท', 339), ('จึง', 2727), ('นิราศ', 56), ('เรื่อง', 439), ('รัก', 1664), ('เป็น', 6170), ('อักษร', 119), ('ให้', 12127), ('เห็น', 4200), ('อก', 300), ('ตกยาก', 18), ('เมื่อ', 942), ('จาก', 854), ('จร', 412), ('ไป', 9557), ('ดง', 257), ('ดอน', 61), ('แดน', 260), ('ป่า', 417), ('พนา', 64), ('วัน', 832), ('กับ', 2574), ('ศิษย์', 177), ('น้อง', 1997), ('สอง', 1676), ('น

In [64]:
word_to_idx = {'UNK': 0}
idx_to_word = {0: 'UNK'}
word_count = 1
# Create word2idx and idx2word dictionaries
for idx, (word, count) in enumerate(word_dict_count.items()):
    current_idx = idx + 1 # UNK is first index
    if word_dict_count[word] > 3 :
        word_to_idx[word] = current_idx
        idx_to_word[current_idx] = word
        word_count+=1
vocab_size = len(idx_to_word)

print('Length all word :', len(word_dict_count))
print('Length word count < 3 :', len(word_dict_count)-word_count)
print("Length of word_to_idx: ", len(word_to_idx))
print("Length of idx_to_word: ", len(idx_to_word))
print('word_count :', word_count)


Length all word : 16144
Length word count < 3 : 6601
Length of word_to_idx:  9543
Length of idx_to_word:  9543
word_count : 9543


In [65]:
# Saving word_to_idx and idx_to_word
with open('Dict/word_to_idx.pkl', 'wb') as f:
    pickle.dump(word_to_idx, f)

with open('Dict/idx_to_word.pkl', 'wb') as f:
    pickle.dump(idx_to_word, f)