# Prepare Data

In [1]:
from pandas import read_csv

corpus_path = 'data/corpus.csv'
corpus = read_csv(corpus_path)

In [2]:
display(corpus)

Unnamed: 0,sentence,class
0,โปเกมอนตาสี<color>แดง</color> ตัวสี<color>เขีย...,0
1,โปเกมอน starter ธาตุ<type>ไฟ</type>,1
2,โปเกมอน<shape>เต่า</shape>สี<color>ฟ้า</color>...,2
3,โปเกมอนที่ดังที่สุด,3
4,โปเกมอน<shape>แมว</shape>ที่เป็นสมุนของแก๊งค์ร...,4
5,โปเกมอนตัว<shape>กลม</shape>สี<color>ชมพู</col...,5
6,โปเกมอน<shape>ค้างคาว</shape><evolve-stage>ร่า...,6
7,โปเกมอน<shape>งู</shape><type>หิน</type>,7
8,โปเกมอน<shape>ปลา</shape>โง่ๆที่<evolvable>พัฒ...,8
9,โปเกมอน starter สี<color>เขียว</color>ตัว<shap...,9


In [3]:
from re import compile

def clean(sentence):
    return sentence.strip()

def remove_tags(sentence):
    regex = compile(r'<\/?[\w-]+>')
    return regex.sub('', sentence)

In [4]:
corpus['sentence'] = corpus['sentence'].apply(clean).apply(remove_tags)

In [5]:
display(corpus)

Unnamed: 0,sentence,class
0,โปเกมอนตาสีแดง ตัวสีเขียว รูปร่างเหมือนไดโนเสา...,0
1,โปเกมอน starter ธาตุไฟ,1
2,โปเกมอนเต่าสีฟ้ามีกระดองที่หลัง,2
3,โปเกมอนที่ดังที่สุด,3
4,โปเกมอนแมวที่เป็นสมุนของแก๊งค์ร็อกเก็ทใน anime,4
5,โปเกมอนตัวกลมสีชมพู มีดวงตาสีฟ้าน้ำทะเลขนาดใหญ...,5
6,โปเกมอนค้างคาวร่างแรก,6
7,โปเกมอนงูหิน,7
8,โปเกมอนปลาโง่ๆที่พัฒนาร่างเป็นมังกร,8
9,โปเกมอน starter สีเขียวตัวเล็กน่ารัก ดวงตาสีแด...,9


In [6]:
from pythainlp.tokenize import word_tokenize

corpus['tokenized_sentence'] = corpus['sentence'].apply(word_tokenize, engine='deepcut')

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


In [7]:
display(corpus)

Unnamed: 0,sentence,class,tokenized_sentence
0,โปเกมอนตาสีแดง ตัวสีเขียว รูปร่างเหมือนไดโนเสา...,0,"[โปเก, มอน, ตา, สี, แดง, , ตัว, สี, เขียว, ,..."
1,โปเกมอน starter ธาตุไฟ,1,"[โปเก, มอน, , starter, ธาตุ, ไฟ]"
2,โปเกมอนเต่าสีฟ้ามีกระดองที่หลัง,2,"[โปเก, มอน, เต่า, สี, ฟ้า, มี, กระดอง, ที่, หลัง]"
3,โปเกมอนที่ดังที่สุด,3,"[โปเก, มอน, ที่, ดัง, ที่สุด]"
4,โปเกมอนแมวที่เป็นสมุนของแก๊งค์ร็อกเก็ทใน anime,4,"[โปเก, มอน, แมว, ที่, เป็น, สมุน, ของ, แก๊งค์,..."
5,โปเกมอนตัวกลมสีชมพู มีดวงตาสีฟ้าน้ำทะเลขนาดใหญ...,5,"[โปเก, มอน, ตัว, กลม, สี, ชมพู, , มี, ดวง, ตา..."
6,โปเกมอนค้างคาวร่างแรก,6,"[โปเก, มอน, ค้างคาว, ร่าง, แรก]"
7,โปเกมอนงูหิน,7,"[โปเกมอนงู, หิน]"
8,โปเกมอนปลาโง่ๆที่พัฒนาร่างเป็นมังกร,8,"[โปเก, มอน, ปลา, โง่, ๆ, ที่, พัฒนา, ร่าง, เป็..."
9,โปเกมอน starter สีเขียวตัวเล็กน่ารัก ดวงตาสีแด...,9,"[โปเก, มอน, , starter, , สี, เขียว, ตัว, เล็..."


In [8]:
from numpy import zeros, array
from keras.preprocessing.sequence import pad_sequences

def get_word2idx(tokenized_sentences):
    word2idx ={}
    for sentence in tokenized_sentences:
        for word in sentence:
            if word not in word2idx:
                word2idx[word] = len(word2idx) + 1
    word2idx['UNK'] = len(word2idx)
    return word2idx

def get_index(word, word2idx):
    return word2idx[word] if word in word2idx else word2idx['UNK']

def get_embeddings(word2vec, word2idx, dim=300):
    embeddings = zeros((len(word2idx), dim))
    for (word, i) in word2idx.items():
        if word != 'UNK' and word in word2vec.index2word:
            embeddings[i] = word2vec.word_vec(word)
        else:
            pass
    return embeddings

def get_training_data(tokenized_sentences, classes, word2idx, maxlen=1000, class_num=10):
    train_x = array([[get_index(word, word2idx) for word in sentence] for sentence in tokenized_sentences])
    train_y = [cls for cls in classes]

    train_x = pad_sequences(train_x, maxlen=maxlen, dtype='int32', padding='post', truncating='pre', value=0.)
    train_y = array([[1 if i == cls else 0 for i in range(0, class_num)] for cls in train_y])

    return (train_x, train_y)

In [9]:
from pythainlp.word_vector.thai2vec import get_model

word2vec = get_model()



In [10]:
word2idx = get_word2idx(corpus['tokenized_sentence'].values)

In [11]:
from pickle import dump

# used in deployment
with open('models/word2idx.pkl', 'wb') as f:
    dump(word2idx, f)

In [12]:
embeddings = get_embeddings(word2vec, word2idx)

In [13]:
(train_x, train_y) = get_training_data(corpus['tokenized_sentence'].values, corpus['class'].values, word2idx)

# Prepare Test Data

In [14]:
from pandas import read_csv

test_corpus_path = 'data/corpus_test.csv'
test_corpus = read_csv(test_corpus_path)

In [15]:
from pythainlp.tokenize import word_tokenize

test_corpus['sentence'] = test_corpus['sentence'].apply(clean).apply(remove_tags)
test_corpus['tokenized_sentence'] = test_corpus['sentence'].apply(word_tokenize, engine='deepcut')

In [16]:
display(corpus)

Unnamed: 0,sentence,class,tokenized_sentence
0,โปเกมอนตาสีแดง ตัวสีเขียว รูปร่างเหมือนไดโนเสา...,0,"[โปเก, มอน, ตา, สี, แดง, , ตัว, สี, เขียว, ,..."
1,โปเกมอน starter ธาตุไฟ,1,"[โปเก, มอน, , starter, ธาตุ, ไฟ]"
2,โปเกมอนเต่าสีฟ้ามีกระดองที่หลัง,2,"[โปเก, มอน, เต่า, สี, ฟ้า, มี, กระดอง, ที่, หลัง]"
3,โปเกมอนที่ดังที่สุด,3,"[โปเก, มอน, ที่, ดัง, ที่สุด]"
4,โปเกมอนแมวที่เป็นสมุนของแก๊งค์ร็อกเก็ทใน anime,4,"[โปเก, มอน, แมว, ที่, เป็น, สมุน, ของ, แก๊งค์,..."
5,โปเกมอนตัวกลมสีชมพู มีดวงตาสีฟ้าน้ำทะเลขนาดใหญ...,5,"[โปเก, มอน, ตัว, กลม, สี, ชมพู, , มี, ดวง, ตา..."
6,โปเกมอนค้างคาวร่างแรก,6,"[โปเก, มอน, ค้างคาว, ร่าง, แรก]"
7,โปเกมอนงูหิน,7,"[โปเกมอนงู, หิน]"
8,โปเกมอนปลาโง่ๆที่พัฒนาร่างเป็นมังกร,8,"[โปเก, มอน, ปลา, โง่, ๆ, ที่, พัฒนา, ร่าง, เป็..."
9,โปเกมอน starter สีเขียวตัวเล็กน่ารัก ดวงตาสีแด...,9,"[โปเก, มอน, , starter, , สี, เขียว, ตัว, เล็..."


In [17]:
(test_x, test_y) = get_training_data(test_corpus['tokenized_sentence'].values, test_corpus['class'].values, word2idx)

# Model

In [18]:
from keras.models import Model
from keras.layers import Input, Embedding, Conv1D, GlobalMaxPooling1D, Dropout, Dense, concatenate
from keras.regularizers import l2
from keras.constraints import max_norm
from keras.optimizers import Adam

def get_pokemon_model(input_size, vocab_size, embeddings, embedding_dimension=300, class_num=10):
    inp = Input(shape=(input_size,))
    x = Embedding(vocab_size, embedding_dimension, weights=[embeddings], trainable=True)(inp)

    convs = []
    kernel_sizes = [3,4,5]
    for kernel_size in kernel_sizes:
        conv = Conv1D(100, kernel_size, activation='relu')(x)
        pool = GlobalMaxPooling1D()(conv)
        convs.append(pool)
        
    x = concatenate(convs)
    x = Dropout(0.5)(x)
    x = Dense(100, activation='relu', kernel_regularizer=l2(0.01), kernel_constraint=max_norm(3))(x)
    out = Dense(class_num, activation='softmax')(x)
    model = Model(inputs=inp, outputs=out)
    model.summary()
    model.compile(optimizer=Adam(lr=0.001), loss='categorical_crossentropy', metrics=['categorical_accuracy'])
    return model

In [19]:
pokemon_model = get_pokemon_model(train_x.shape[1], len(word2idx), embeddings)

__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_3 (InputLayer)            (None, 1000)         0                                            
__________________________________________________________________________________________________
embedding_3 (Embedding)         (None, 1000, 300)    97800       input_3[0][0]                    
__________________________________________________________________________________________________
conv1d_13 (Conv1D)              (None, 998, 100)     90100       embedding_3[0][0]                
__________________________________________________________________________________________________
conv1d_14 (Conv1D)              (None, 997, 100)     120100      embedding_3[0][0]                
__________________________________________________________________________________________________
conv1d_15 

In [20]:
pokemon_model.fit(train_x, train_y, batch_size=64, epochs=10, verbose=1, validation_data=(test_x, test_y))

Train on 124 samples, validate on 20 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x24a2a4f7630>

In [21]:
pokemon_weights_path = 'models/pokemon_model_weights.h5'

In [22]:
pokemon_model.save_weights(pokemon_weights_path)

In [23]:
# pokemon_model = get_pokemon_model(train_x.shape[1], len(word2idx), embeddings)
# pokemon_model = load_weights(pokemon_model, pokemon_weights_path)

In [24]:
pokemon_model_path = 'models/pokemon_model.h5'

In [25]:
# used in deployment
pokemon_model.save(pokemon_model_path)

# Evaluation

In [26]:
from operator import itemgetter
from numpy import apply_along_axis

def prob2class(probs):
    return apply_along_axis(lambda x: max(enumerate(x), key=itemgetter(1))[0], 1, probs)

def class2name(cls):
    names = ['Bulbasaur', 'Charmander', 'Squirtle', 'Pikachu', 'Meowth', 'Jigglypuff', 'Zubat', 'Onix', 'Magikarp', 'Chikorita']
    return names[cls] if cls < len(names) else 'Unknown'

In [27]:
pred_y = pokemon_model.predict(test_x)

In [28]:
class_y = prob2class(test_y)
pred_y = prob2class(pred_y)

In [29]:
display(class_y)
display(pred_y)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

array([0, 1, 2, 3, 4, 5, 6, 9, 8, 9, 0, 1, 2, 3, 4, 9, 6, 7, 8, 9])

In [30]:
from sklearn.metrics import f1_score, accuracy_score, precision_score, recall_score

def evaluate(test_y, pred_y, labels=[i for i in range(0,10)]):
    f1 = f1_score(test_y, pred_y, average='macro', labels=labels)
    accuracy = accuracy_score(test_y, pred_y)
    precision = precision_score(test_y, pred_y, average='macro', labels=labels)
    recall = recall_score(test_y, pred_y, average='macro', labels=labels)
    return f1, accuracy, precision, recall

In [31]:
display(evaluate(class_y, pred_y))

(0.8999999999999998, 0.9, 0.95, 0.9)

In [32]:
display(*((class2name(cls), class2name(pred)) for cls, pred in zip(class_y, pred_y) if cls != pred))

('Onix', 'Chikorita')

('Jigglypuff', 'Chikorita')