In [45]:
import glob
import numpy as np
from pythainlp.tokenize import word_tokenize
import pickle

## Sum Data

In [46]:
def read_data_readline(file):
    with open(file, 'r', encoding='utf-8') as f:
        data = f.readlines()
    return data
def read_data(file):
    with open(file, 'r', encoding='utf-8') as f:
        data = f.read()
    return data
def write_data(file, data):
    with open(file, 'w', encoding='utf-8') as f:
        f.write(data)


In [47]:
NaratFile = 'Dataset/DataNirat/Niras.txt'
NitanFiles = glob.glob('Dataset/DataNitan/*.txt')

files = [NaratFile] + NitanFiles
names = [file.split('/')[-1].split('.')[0] for file in files]
for i in range(len(files)):
    print(i+1, names[i]+'\t', files[i])

1 Niras	 Dataset/DataNirat/Niras.txt
2 Lugsanawong	 Dataset/DataNitan/Lugsanawong.txt
3 Phaapaimanee	 Dataset/DataNitan/Phaapaimanee.txt
4 Cobuut	 Dataset/DataNitan/Cobuut.txt
5 Singtaipop	 Dataset/DataNitan/Singtaipop.txt


In [48]:
data = []
count_line = 0
for i in range(len(files)):
    temp = read_data(files[i])
    count_line += len(temp.split('\n'))
    print('Line of', names[i], '\t\t', len(temp.split('\n')))
    data.append(temp)
print('Total line:', count_line)

text = '\n'.join(data)
write_data('Dataset/AllData.txt', text)
print('Write file: Dataset/AllData.txt')

Line of Niras 		 2652
Line of Lugsanawong 		 4591
Line of Phaapaimanee 		 48688
Line of Cobuut 		 2606
Line of Singtaipop 		 6740
Total line: 65277
Write file: Dataset/AllData.txt


## Read AllData file And Normalize data

In [49]:
file = 'Dataset/AllData.txt'
data = read_data_readline(file)

print('Line:', len(data))

# Split each line by whitespace and remove words with length less than 2
data2 = [[word for word in line.split() if len(word) >= 2] for line in data]
# Remove lines with a length of 1
data2 = [line for line in data2 if len(line) > 1]
# Join word in line
data2 = [' '.join(line) for line in data2]


# show before and after data and data2  
print('Before:', data[:3])
print('Length data :', len(data))
print('After:', data2[:3])
print('Length data2 :', len(data2))

Line: 65277
Before: ['                                                โอ้สังเวชวาสนานิจจาเอ๋ย\n', 'จะมีคู่มิได้อยู่ประคองเชย\t            ต้องละเลยดวงใจไว้ไกลตา\n', 'ถึงทุกข์ใครในโลกที่โศกเศร้า\tไม่เหมือนเราภุมรินถวิลหา\n']
Length data : 65277
After: ['จะมีคู่มิได้อยู่ประคองเชย ต้องละเลยดวงใจไว้ไกลตา', 'ถึงทุกข์ใครในโลกที่โศกเศร้า ไม่เหมือนเราภุมรินถวิลหา', 'จะพลัดพรากจากกันไม่ทันลา ใช้แต่ตาต่างถ้อยสุนทรวอน']
Length data2 : 65258


In [50]:
text = '\n'.join([line for line in np.array(data2[:4]).flatten()])
print(text)

จะมีคู่มิได้อยู่ประคองเชย ต้องละเลยดวงใจไว้ไกลตา
ถึงทุกข์ใครในโลกที่โศกเศร้า ไม่เหมือนเราภุมรินถวิลหา
จะพลัดพรากจากกันไม่ทันลา ใช้แต่ตาต่างถ้อยสุนทรวอน
โอ้จำใจไกลนุชสุดสวาท จึงนิราศเรื่องรักเป็นอักษร


In [51]:
c = ['๑', '๒', '๓', '๔', '๕', '๗', '[', ']', '๏', '๐', '๖', '๘', '๙']
# Remove characters in c from text lines
data2 = [''.join([char for char in line if char not in c]) for line in data2]

In [52]:
text = '\n'.join([line for line in np.array(data2).flatten()])

# create mapping of unique chars to integers
chars = sorted(list(set(text)))
char_to_int = dict((c, i) for i, c in enumerate(chars))

 
# summarize the loaded data
n_chars = len(text)
n_vocab = len(chars)
print("Total Characters: ", n_chars)
print("Total Vocab: ", n_vocab)

Total Characters:  3471448
Total Vocab:  74


In [53]:
print(chars)

['\n', ' ', '-', '.', 'ก', 'ข', 'ฃ', 'ค', 'ฆ', 'ง', 'จ', 'ฉ', 'ช', 'ซ', 'ฌ', 'ญ', 'ฎ', 'ฏ', 'ฐ', 'ฑ', 'ฒ', 'ณ', 'ด', 'ต', 'ถ', 'ท', 'ธ', 'น', 'บ', 'ป', 'ผ', 'ฝ', 'พ', 'ฟ', 'ภ', 'ม', 'ย', 'ร', 'ฤ', 'ล', 'ฦ', 'ว', 'ศ', 'ษ', 'ส', 'ห', 'ฬ', 'อ', 'ฮ', 'ฯ', 'ะ', 'ั', 'า', 'ำ', 'ิ', 'ี', 'ึ', 'ื', 'ุ', 'ู', 'ฺ', 'เ', 'แ', 'โ', 'ใ', 'ไ', 'ๅ', '็', '่', '้', '๊', '๋', '์', 'ํ']


In [54]:
# Create the file and write the normalized text
text = '\n'.join([line for line in np.array(data2)])
file = 'Dataset/TextAfterNormalize.txt'
write_data(file, text)
print('Write file:', file)

Write file: Dataset/TextAfterNormalize.txt


## Test Load dataset file

In [55]:
file = 'Dataset/TextAfterNormalize.txt'
data = read_data(file).split('\n')
data = [line for line in data if len(line) > 1]
text = '\n'.join([line for line in data[:4]])
print("Sample : \n", text)
print('Length Line :', len(data))

Sample : 
 จะมีคู่มิได้อยู่ประคองเชย ต้องละเลยดวงใจไว้ไกลตา
ถึงทุกข์ใครในโลกที่โศกเศร้า ไม่เหมือนเราภุมรินถวิลหา
จะพลัดพรากจากกันไม่ทันลา ใช้แต่ตาต่างถ้อยสุนทรวอน
โอ้จำใจไกลนุชสุดสวาท จึงนิราศเรื่องรักเป็นอักษร
Length Line : 65258
