In [2]:
import os
import pandas as pd
import numpy as np

from keras.preprocessing.sequence import pad_sequences
from keras.layers import Embedding, LSTM, Dense, Dropout, GRU
from keras.callbacks import EarlyStopping
from keras.models import Sequential 
from keras.utils import to_categorical
from keras.optimizers import Adam
from keras.callbacks import ModelCheckpoint
from qrnn import *

In [3]:
import re

def clean_text(text):
    return cleanhtml(text.replace('\n', ''))

def cleanhtml(raw_html):
    cleaner = re.compile('<.*?>')
    cleantext = re.sub(cleaner, '', raw_html)
    return cleantext

def remove_punc(test_string):
    pattern = re.compile(r"[^\u0E00-\u0E7Fa-zA-Z' ]|^'|'$''")
    char_to_remove = [e for e in re.findall(pattern, test_string) if e != '|']
    list_with_char_removed = [char for char in test_string if not char in char_to_remove]
    result_string = ''.join(list_with_char_removed)
    return result_string

def tokenize(text):
    text = clean_text(text)
    text = remove_punc(text)
    return [e.strip() for e in text.split('|') if len(e) > 0]

In [4]:
sets = [ e for e in os.listdir('./BEST2010/training_set/') if e[0] != '.']

In [5]:
train = []
for s in sets:
    training_data_path = os.path.join('./BEST2010/training_set/', s)
    training_files = [os.path.join(training_data_path, e) for e in os.listdir(training_data_path) if e[0] != '.']
    
    for i in range(len(training_files)):
        f = open(training_files[i], "r")
        lines = f.readlines()
        
        for l in lines:
            train.append(tokenize(l))
            
train = [e for e in train if len(e) > 1]
for i in range(len(train)):
    train[i] = [w for w in train[i] if len(w) > 0]

In [6]:
dictionary = {}
for l in train:
    for w in l:
        if w not in dictionary:
            dictionary[w] = 1
        else:
            dictionary[w] += 1
            
threshold = 10
counts_words = sorted([(v, k) for (k, v) in dictionary.items()], reverse=True)

words2idx = {}; idx = 0
for e in (counts_words):
    word = e[1]
    if dictionary[word] > threshold:
        words2idx[word] = idx + 1
        idx += 1
words2idx['keras_padding'] = 0

MAX_LENGTH = 200

In [7]:
train_tokens = []
for l in train:
    train_tokens.append([words2idx[w] for w in l if w in words2idx])
del train

In [8]:
input_sequences = []
for line in train_tokens:
    for i in range(1, len(line)):
        n_gram_sequence = line[:i+1]
        input_sequences.append(n_gram_sequence)
del train_tokens

In [12]:
def create_model(max_sequence_len, total_words):
    input_len = max_sequence_len - 1
    
    model = Sequential()
    model.add(Embedding(total_words, 64, input_length=input_len))
    
    model.add(QRNN(256, window_size=2, dropout=0.1, return_sequences=True,
               kernel_regularizer=l2(1e-4), bias_regularizer=l2(1e-4), 
               kernel_constraint=maxnorm(10), bias_constraint=maxnorm(10)))
    model.add(QRNN(256, window_size=2, dropout=0.1, return_sequences=False,
           kernel_regularizer=l2(1e-4), bias_regularizer=l2(1e-4), 
           kernel_constraint=maxnorm(10), bias_constraint=maxnorm(10)))
    
    model.add(Dense(total_words, activation='softmax'))
    
    return model

model = create_model(MAX_LENGTH, len(words2idx))

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.15, random_state=42)

In [13]:
chk = ModelCheckpoint('QRNN_best.h5', monitor='val_loss', verbose=1, save_best_only=True, save_weights_only=True, mode='auto', period=1)
cb = [chk]
model.compile(loss='sparse_categorical_crossentropy', optimizer=Adam(0.001))
model.load_weights('QRNN_best.h5')

Training


In [14]:
idx2word = dict((v,k) for k,v in words2idx.items())

In [17]:
def get_second_best_idx(probs):
    return np.arange(0, probs.shape[0])[np.argsort(probs) == probs.shape[0]-2][0]

In [18]:
def generate_text(text, next_words, max_sequence_len, model):
    for j in range(next_words):
        token_list = [words2idx[w] for w in text.split()]
        token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding='pre')
        
        predicted = np.squeeze(model.predict(token_list, verbose=0))
        
        output_word = idx2word[np.argmax(predicted)]
        if output_word in text.split(' ')[-5:]:
            output_word = idx2word[get_second_best_idx(predicted)]
        
        text += " " + output_word
        
    return text

In [19]:
test_text = 'ธนาคาร เพื่อ ประชาชน'
generate_text(test_text, 60, MAX_LENGTH, model)

'ธนาคาร เพื่อ ประชาชน ใน พื้นที่ จังหวัด ชาย แดน ภาค ใต้ และ รัฐบาล ที่ มี การ จัดตั้ง ศาลสิ่งแวดล้อม และ ให้ ประชาชน ใน พื้นที่ จังหวัด ชาย แดน ภาค ใต้ และ ประชาชน ใน พื้นที่ จังหวัด ชาย แดน ภาค ใต้ ให้ ประชาชน เพื่อ ปรารถนา ใน การ ป้องกัน ปัญหา เบื่อหน่าย และ ไม่ ได้ รับ การ ร้องเรียน จาก เจ้าหน้าที่ ตำรวจ ได้ สั่งการ ให้ อาณา บ้าน พัก ที่ เกิด เหตุ'

In [21]:
from utils import savefile

In [None]:
from keras.models import model_from_json

model_json = model.to_json()
with open("QRNN_2layers.json", "w") as json_file:
    json_file.write(model_json)
# serialize weights to HDF5