In [2]:
import dill
import pandas as pd
from sklearn.model_selection import train_test_split

In [3]:
path_name = "../dataset/data/"

with open(path_name + 'comment-pos.data', 'rb') as file:
    datatofile = dill.load(file)

tagged_sents = []
for data in datatofile:
    text_inside = []
    for word, pos, label in data:
        if word.strip() == '':
            text_inside.append(('_', label))
        else:
            text_inside.append((word, label))
    tagged_sents.append(text_inside)

train_sents, test_sents = train_test_split(tagged_sents, test_size=0.2, random_state=42)
print(len(train_sents))
print(len(test_sents))
print(train_sents[1])

552
138
[('ถ้า', 'B-c'), ('เดินทาง', 'I-c'), ('กลางคืน', 'I-c'), ('ก็', 'I-c'), ('รถทัวร์', 'I-c'), ('ครับ', 'I-c'), ('_', 'I-c'), ('_', 'O'), ('เพราะ', 'B-p'), ('รถ', 'I-p'), ('ไม่', 'I-p'), ('เยอะ', 'I-p'), ('_', 'I-p'), ('ความเสี่ยง', 'I-p'), ('การ', 'I-p'), ('เกิด', 'I-p'), ('อุบัติ', 'I-p'), ('ห', 'I-p'), ('ตุ', 'I-p'), ('ก็', 'I-p'), ('น้อย', 'I-p'), ('(', 'I-p'), ('มั้ง', 'I-p'), (')', 'I-p'), ('_', 'I-p'), ('_', 'O'), ('ถ้า', 'B-c'), ('กลางวัน', 'I-c'), ('ก็', 'I-c'), ('เครื่องบิน', 'I-c'), ('ครับ', 'I-c'), ('_', 'I-c'), ('_', 'O'), ('เพราะ', 'B-p'), ('_', 'I-p'), ('มัน', 'I-p'), ('ใช้เวลา', 'I-p'), ('น้อย', 'I-p'), ('จะ', 'I-p'), ('ได้', 'I-p'), ('มี', 'I-p'), ('เวลา', 'I-p'), ('ระหว่าง', 'I-p'), ('วัน', 'I-p'), ('เยอะ', 'I-p'), ('ๆ', 'I-p'), ('_', 'I-p')]


In [5]:
def convert_to_simple_transformer_format(sentences):
    sentence_id = []
    words = []
    labels = []

    for idx, sents in enumerate(sentences):
        for word, label in sents:
            label = label.upper().replace("-", "_")
            sentence_id.append(idx)
            words.append(word)
            labels.append(label)
    return pd.DataFrame(
        {"sentence_id": sentence_id, "words": words, "labels": labels}
    )    

In [6]:
train_ = convert_to_simple_transformer_format(train_sents)
train_

Unnamed: 0,sentence_id,words,labels
0,0,อะไหล่,B_C
1,0,เทอร์โบ,I_C
2,0,_,I_C
3,0,อี,I_C
4,0,ซุ,I_C
...,...,...,...
37405,551,ทำ,I_P
37406,551,อะไร,I_P
37407,551,ได้,I_P
37408,551,หลายอย่าง,I_P


In [7]:
test_ = convert_to_simple_transformer_format(test_sents)

In [9]:
import torch
from simpletransformers.ner import NERModel, NERArgs

_NER_TAGS = ["O", "B_C", "B_P", "I_C", "I_P"]
ner_args = NERArgs()
test_ner = NERModel("bert", 'outputs/checkpoint-4600-epoch-3', args=ner_args, use_cuda=torch.cuda.is_available(), labels=_NER_TAGS)

In [10]:
test_list = []
for sent in test_sents:
    words = []
    for word, label in sent:
        words.append(word)
    test_list.append(words)

predictions, raw_outputs = test_ner.predict(test_list, split_on_space=False)

100%|██████████| 1/1 [00:07<00:00,  7.48s/it]
Running Prediction: 100%|██████████| 18/18 [00:04<00:00,  4.43it/s]


In [13]:
predictions_ = []
for sent in predictions:
    sent_ = []
    for word_lable in sent:
        sent_.append(list(word_lable.items())[0])
    predictions_.append(sent_)

In [17]:
# get label test list
y_test = []
for sent in test_sents:
    labels = []
    for word, label in sent:
        label = label.upper().replace("-", "_")
        labels.append(label)
    y_test.append(labels)
    
# print(y_test[1])


In [18]:
# get label pred list
test_list = []
for sent in test_sents:
    words = []
    for word, label in sent:
        words.append(word)
    test_list.append(words)

predictions, raw_outputs = test_ner.predict(test_list, split_on_space=False)

y_pred = []
for preds in predictions:
    y_pred.append([list(pred.items())[0][1] for pred in preds])

# print(y_pred[1])

100%|██████████| 1/1 [00:08<00:00,  8.24s/it]
Running Prediction: 100%|██████████| 18/18 [00:02<00:00,  7.43it/s]


# find problems

## ปัญหา
#### ติด ๆ แยกจากกันตรง index ที่ 10 (แก้แล้ว)
#### ติด เวลา predict มีการตัดข้อความทำให้ ข้อความ predict ไม่เท่ากับ test

In [20]:
# หาlabel ที่มีจำนวนไม่เท่ากัน
y_pred_ = []
y_test_ = []
for i in range(len(y_test)):
    if len(y_pred[i]) != len(y_test[i]):
        # print(len(y_pred[i]), len(y_test[i]))
        print(i, end=" ")
        continue;
    y_pred_.append(y_pred[i])
    y_test_.append(y_test[i])

6 8 18 21 29 34 37 39 42 55 81 85 97 101 120 123 124 127 128 

In [23]:
# หาค่า max ของ y_pred
print("max: ", max(list(map(lambda x: len(x), y_pred))))

for i in range(len(y_test)):
    if len(y_test[i]) > 126:
        print(i, end=" ")

max:  126
6 8 18 21 29 34 37 39 42 55 81 85 97 101 120 123 124 127 128 

In [24]:
idx_ = 1
print(len(predictions_[idx_]))
print(predictions_[idx_])

121
[('อย่า', 'B_C'), ('ไป', 'I_C'), ('มอง', 'I_C'), ('เรื่อง', 'I_P'), ('ความ', 'I_C'), ('คุ้ม', 'I_C'), ('ความ', 'I_C'), ('กำไร', 'I_C'), ('อะไร', 'O'), ('เลย', 'I_C'), ('ครับ', 'I_C'), ('_', 'O'), ('เอา', 'O'), ('ที่', 'I_P'), ('มีประโยชน์', 'I_P'), ('ต่อ', 'I_P'), ('เรา', 'B_P'), ('มาก', 'I_P'), ('ๆ', 'I_P'), ('_', 'O'), ('ดีกว่า', 'I_P'), ('_', 'O'), ('ต้อง', 'I_P'), ('ถาม', 'O'), ('ก่อน', 'O'), ('ว่า', 'O'), ('คุณ', 'I_P'), ('จะ', 'I_P'), ('เปลี่ยน', 'O'), ('ที่ทำงาน', 'I_P'), ('อีก', 'I_P'), ('ไหม', 'O'), ('จะ', 'I_P'), ('ไป', 'O'), ('จังหวัด', 'O'), ('อื่น', 'O'), ('หรือ', 'O'), ('ป่าว', 'O'), ('อยู่', 'I_P'), ('คนเดียว', 'O'), ('หรือ', 'O'), ('มีครอบครัว', 'O'), ('พ่อแม่', 'O'), ('_', 'O'), ('พี่น้อง', 'O'), ('_', 'O'), ('มี', 'O'), ('แฟน', 'O'), ('ไหม', 'O'), ('_', 'O'), ('ถ้า', 'O'), ('มี', 'O'), ('แล้ว', 'O'), ('แฟน', 'O'), ('มี', 'O'), ('รถ', 'O'), ('ไหม', 'O'), ('หรือ', 'O'), ('มี', 'O'), ('บ้าน', 'O'), ('ก็', 'O'), ('ว่า', 'O'), ('ไป', 'O'), ('_', 'O'), ('แล้ว', 'O'), ('

In [26]:
print(len(test_sents[idx_]))
print(test_sents[idx_])

121
[('อย่า', 'O'), ('ไป', 'O'), ('มอง', 'O'), ('เรื่อง', 'O'), ('ความ', 'O'), ('คุ้ม', 'O'), ('ความ', 'O'), ('กำไร', 'O'), ('อะไร', 'O'), ('เลย', 'O'), ('ครับ', 'O'), ('_', 'O'), ('เอา', 'O'), ('ที่', 'O'), ('มีประโยชน์', 'O'), ('ต่อ', 'O'), ('เรา', 'O'), ('มาก', 'O'), ('ๆ', 'O'), ('_', 'O'), ('ดีกว่า', 'O'), ('_', 'O'), ('ต้อง', 'O'), ('ถาม', 'O'), ('ก่อน', 'O'), ('ว่า', 'O'), ('คุณ', 'O'), ('จะ', 'O'), ('เปลี่ยน', 'O'), ('ที่ทำงาน', 'O'), ('อีก', 'O'), ('ไหม', 'O'), ('จะ', 'O'), ('ไป', 'O'), ('จังหวัด', 'O'), ('อื่น', 'O'), ('หรือ', 'O'), ('ป่าว', 'O'), ('อยู่', 'O'), ('คนเดียว', 'O'), ('หรือ', 'O'), ('มีครอบครัว', 'O'), ('พ่อแม่', 'O'), ('_', 'O'), ('พี่น้อง', 'O'), ('_', 'O'), ('มี', 'O'), ('แฟน', 'O'), ('ไหม', 'O'), ('_', 'O'), ('ถ้า', 'O'), ('มี', 'O'), ('แล้ว', 'O'), ('แฟน', 'O'), ('มี', 'O'), ('รถ', 'O'), ('ไหม', 'O'), ('หรือ', 'O'), ('มี', 'O'), ('บ้าน', 'O'), ('ก็', 'O'), ('ว่า', 'O'), ('ไป', 'O'), ('_', 'O'), ('แล้ว', 'O'), ('ค่อย', 'O'), ('มา', 'O'), ('ตัดสิน', 'O'), ('_',