# `true-intent` Destination Classification

We provide 3 benchmarks for the 7-class multi-class classification of `destination` column in `truevoice-intnet` dataset: [fastText](https://github.com/facebookresearch/fastText), LinearSVC and [ULMFit](https://github.com/cstorm125/thai2fit). In the transfer learning cases, we first finetune the embeddings using all data. The test set contains 20% of all data split by [TrueVoice](http://www.truevoice.co.th/). The rest is split into 85/15 train-validation split randomly. Performance metrics are micro-averaged accuracy and F1 score.

| model     | accuracy | micro-F1 |
|-----------|----------|----------|
| fastText  | 0.384116 | 0.384116 |
| LinearSVC | 0.807876 | 0.327565 |
| **ULMFit**    | **0.834981**  | **0.834981** |

In [4]:
import pandas as pd
import numpy as np
from pythainlp import word_tokenize
from tqdm import tqdm_notebook
from collections import Counter
import re

#viz
from plotnine import *
import matplotlib.pyplot as plt
import seaborn as sns

def replace_newline(t):
    return re.sub('[\n]{1,}', ' ', t)

ft_data = 'ft_data/'

y = 'destination'
nb_class = 7

In [5]:
import string
import emoji

def replace_url(text):
    URL_PATTERN = r"""(?i)\b((?:https?:(?:/{1,3}|[a-z0-9%])|[a-z0-9.\-]+[.](?:com|net|org|edu|gov|mil|aero|asia|biz|cat|coop|info|int|jobs|mobi|museum|name|post|pro|tel|travel|xxx|ac|ad|ae|af|ag|ai|al|am|an|ao|aq|ar|as|at|au|aw|ax|az|ba|bb|bd|be|bf|bg|bh|bi|bj|bm|bn|bo|br|bs|bt|bv|bw|by|bz|ca|cc|cd|cf|cg|ch|ci|ck|cl|cm|cn|co|cr|cs|cu|cv|cx|cy|cz|dd|de|dj|dk|dm|do|dz|ec|ee|eg|eh|er|es|et|eu|fi|fj|fk|fm|fo|fr|ga|gb|gd|ge|gf|gg|gh|gi|gl|gm|gn|gp|gq|gr|gs|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|im|in|io|iq|ir|is|it|je|jm|jo|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mg|mh|mk|ml|mm|mn|mo|mp|mq|mr|ms|mt|mu|mv|mw|mx|my|mz|na|nc|ne|nf|ng|ni|nl|no|np|nr|nu|nz|om|pa|pe|pf|pg|ph|pk|pl|pm|pn|pr|ps|pt|pw|py|qa|re|ro|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|Ja|sk|sl|sm|sn|so|sr|ss|st|su|sv|sx|sy|sz|tc|td|tf|tg|th|tj|tk|tl|tm|tn|to|tp|tr|tt|tv|tw|tz|ua|ug|uk|us|uy|uz|va|vc|ve|vg|vi|vn|vu|wf|ws|ye|yt|yu|za|zm|zw)/)(?:[^\s()<>{}\[\]]+|\([^\s()]*?\([^\s()]+\)[^\s()]*?\)|\([^\s]+?\))+(?:\([^\s()]*?\([^\s()]+\)[^\s()]*?\)|\([^\s]+?\)|[^\s`!()\[\]{};:'".,<>?«»“”‘’])|(?:(?<!@)[a-z0-9]+(?:[.\-][a-z0-9]+)*[.](?:com|net|org|edu|gov|mil|aero|asia|biz|cat|coop|info|int|jobs|mobi|museum|name|post|pro|tel|travel|xxx|ac|ad|ae|af|ag|ai|al|am|an|ao|aq|ar|as|at|au|aw|ax|az|ba|bb|bd|be|bf|bg|bh|bi|bj|bm|bn|bo|br|bs|bt|bv|bw|by|bz|ca|cc|cd|cf|cg|ch|ci|ck|cl|cm|cn|co|cr|cs|cu|cv|cx|cy|cz|dd|de|dj|dk|dm|do|dz|ec|ee|eg|eh|er|es|et|eu|fi|fj|fk|fm|fo|fr|ga|gb|gd|ge|gf|gg|gh|gi|gl|gm|gn|gp|gq|gr|gs|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|im|in|io|iq|ir|is|it|je|jm|jo|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mg|mh|mk|ml|mm|mn|mo|mp|mq|mr|ms|mt|mu|mv|mw|mx|my|mz|na|nc|ne|nf|ng|ni|nl|no|np|nr|nu|nz|om|pa|pe|pf|pg|ph|pk|pl|pm|pn|pr|ps|pt|pw|py|qa|re|ro|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|Ja|sk|sl|sm|sn|so|sr|ss|st|su|sv|sx|sy|sz|tc|td|tf|tg|th|tj|tk|tl|tm|tn|to|tp|tr|tt|tv|tw|tz|ua|ug|uk|us|uy|uz|va|vc|ve|vg|vi|vn|vu|wf|ws|ye|yt|yu|za|zm|zw)\b/?(?!@)))"""
    return re.sub(URL_PATTERN, 'xxurl', text)

def replace_rep(text):
    def _replace_rep(m):
        c,cc = m.groups()
        return f'{c}xxrep'
    re_rep = re.compile(r'(\S)(\1{2,})')
    return re_rep.sub(_replace_rep, text)

def ungroup_emoji(toks):
    res = []
    for tok in toks:
        if emoji.emoji_count(tok) == len(tok):
            for char in tok:
                res.append(char)
        else:
            res.append(tok)
    return res

def process_text(text):
    #pre rules
    res = text.lower().strip()
    res = replace_url(res)
    res = replace_rep(res)
    
    #tokenize
    res = [word for word in res.split('|') if word and not re.search(pattern=r"\s+", string=word)]
    
    #post rules
    res = ungroup_emoji(res)
    
    return res

In [6]:
dir(emoji)
emoji.__version__

'0.5.3'

In [7]:
print(process_text("สวัสดี|https://google.com|555555555555|😂|ddd😂| 😂| 😂| 😂| 😂| 😂| 😂| 😂| 😂| 😂| 😂"))

['สวัสดี']


## Train-validation-test Split

We perform 85/15 train-validation split in addition to the test split by [TrueVoice](http://www.truevoice.co.th/).

In [9]:
from sklearn.model_selection import train_test_split
all_df = pd.read_csv(f'intents.csv')
all_df.head()

Unnamed: 0,text,class
0,แสดงบัตรสุขภาพ,user_ask_health_card
1,แสดงบัตรเจ็บป่วย,user_ask_health_card
2,แสดงบัตร,user_ask_health_card
3,ขอบัตรสุขภาพ,user_ask_health_card
4,ขอบัตรเจ็บป่วย,user_ask_health_card


In [12]:
train_df, valid_df = train_test_split(all_df, test_size=0.15, random_state=1412)
train_df = train_df.reset_index(drop=True)
valid_df = valid_df.reset_index(drop=True)

In [13]:
test_df = pd.read_csv(f'intents.csv')
print(train_df.shape, valid_df.shape, test_df.shape)

(743, 2) (132, 2) (875, 2)


In [18]:
#test set prevalence
test_df['class'].value_counts() / test_df.shape[0]

user_ask_hospital_near_me             0.062857
user_ask_followup                     0.054857
user_ask_my_policy                    0.052571
user_ask_max_how_to_register          0.051429
user_ask_cancel                       0.046857
user_ask_max_how_to_gain_point        0.037714
user_ask_product_info                 0.035429
user_ask_info_investment_ins          0.033143
user_ask_info_edu_ins                 0.030857
User_ask_received_SMS_HBD             0.030857
user_ask_to_pay                       0.029714
user_ask_max_how_to_redeem            0.026286
user_ask_max_what_is                  0.026286
user_ask_fax_receive                  0.025143
user_ask_tax_cert                     0.024000
user_ask_BMW                          0.022857
user_ask_info_cancer_ins              0.022857
user_ask_info_saving_ins              0.021714
user_greeting                         0.020571
user_ask_how_to_claim                 0.020571
user_need_to_talk_callcenter          0.019429
user_ask_unit

## [ULMFit](https://github.com/cstorm125/thai2fit) Model

In [16]:
import pandas as pd
import numpy as np
from ast import literal_eval
from tqdm import tqdm_notebook
from collections import Counter
import re

#viz
import matplotlib.pyplot as plt
import seaborn as sns

from fastai.text import *
from fastai.callbacks import CSVLogger, SaveModelCallback

from pythainlp.ulmfit import *
import pythainlp

model_path = 'truevoice_data/'

In [17]:
dir(pythainlp.ulmfit)

['BaseTokenizer',
 'List',
 'TK_REP',
 'ThaiTokenizer',
 '_ITOS_NAME_LSTM',
 '_MODEL_NAME_LSTM',
 '_THWIKI_LSTM',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '_get_path',
 '_tokenizer',
 'collections',
 'device',
 'document_vector',
 'download',
 'emoji',
 'fix_html',
 'get_corpus_path',
 'lowercase_all',
 'merge_wgts',
 'normalize_char_order',
 'np',
 'post_rules_th',
 'pre_rules_th',
 're',
 'replace_all_caps',
 'replace_rep_after',
 'rm_brackets',
 'rm_useless_newlines',
 'rm_useless_spaces',
 'spec_add_spaces',
 'torch',
 'ungroup_emoji',
 'word_tokenize']

In [19]:
all_df = pd.concat([all_df,test_df]).reset_index(drop=True)

### Finetune Language Model

In [21]:
tt = Tokenizer(tok_func = ThaiTokenizer, lang = 'th', pre_rules = pre_rules_th, post_rules=post_rules_th)
processor = [TokenizeProcessor(tokenizer=tt, chunksize=10000, mark_fields=False),
            NumericalizeProcessor(vocab=None, max_vocab=60000, min_freq=3)]

data_lm = (TextList.from_df(all_df, model_path, cols=['text'], processor=processor)
    .random_split_by_pct(valid_pct = 0.01, seed = 1412)
    .label_for_lm()
    .databunch(bs=64))
data_lm.sanity_check()
data_lm.save('truevoice_lm.pkl')

In [22]:
data_lm.show_batch(5)

idx,text
0,อยาก สอบถาม เรื่อง ประกัน สุขภาพ xxbos อยาก ถาม เกี่ยวกับ ประกัน สุขภาพ xxbos มี ประกัน สุขภาพ ไหม xxbos ขอ ดู ประกัน สุขภาพ หน่อย xxbos กรมธรรม์ อะไร บ้าง xxbos กี่ กรมธรรม์ xxbos ต้อง จ่าย เบี้ย เมื่อไหร่ xxbos ต้อง จ่าย เบี้ย เท่าไหร่ xxbos ถึง xxunk เมื่อไหร่ xxbos สอบถาม ประกัน
1,เมื่อไร xxbos จ่าย เบี้ย วัน ไหน xxbos ต้อง จ่าย เบี้ย วัน ไหน xxbos จ่าย เบี้ย วัน อะไร xxbos ต้อง จ่าย เบี้ย วัน อะไร xxbos จ่าย เบี้ย วันที่ เท่าไร xxbos ต้อง จ่าย เบี้ย วันที่ เท่าไร xxbos จ่าย เบี้ย มะ ไห ร่ xxbos ต้อง จ่าย เบี้ย มะ ไห ร่ xxbos จ่าย เบี้ย มะ xxunk
2,ขอ ใบ เคลม ภาษี xxbos ดู ใบ ลดหย่อน xxbos ขอ ดู ใบเสร็จ หน่อย xxbos ขอ ดู ใบกำกับภาษี หน่อย ครับ xxbos ขอ ใบ xxunk หน่อย ภาษี หน่อย ค่ะ xxbos ใบ ลดหย่อน ภาษี xxunk จาก ไห xxunk xxbos ขอ ข้อมูล ภาษี xxbos ขอ ใบเสร็จ หน่อย xxbos ขอ ใบเสร็จ หน่อย สิ xxbos จะ
3,เงิน xxbos จะ จ่าย ตัง xxbos ถึง xxunk ว ที่ ต้อง จ่าย เบี้ยประกัน แล้ว ต้องการ จ่าย ด้วย บัตรเครดิต ได้ xxunk xxbos จะ จ่าย เบี้ยประกัน ด้วย บัตรเครดิต ต้อง จ่าย ที่ไหน xxbos เรื่อง การ จ่าย เงิน xxbos ค่า ประกันชีวิต คะ xxbos โรงพยาบาล อยู่ ใน เครือข่าย มั้ย xxbos จังหวัด มี โรงพยาบาล ใน เครือข่าย
4,xxbos มี โรงพยาบาล ไหน ที่ เคลม แถว บ้าน ได้ บ้าง xxbos ค้นหา รพ xxbos ค้นหา โรงพยาบาล ใกล้ ๆ xxbos อยาก เข้า โรงบาล xxbos อยาก เข้า โรงพยาบาล xxbos ค้นหา รพ. xxbos ค้นหา รพ xxbos ค้นหา รพ. xxbos โรงพยาบาล ใกล้ ตัว มี ที่ไหน คะ xxbos โรงพยาบาล ใกล้ ตัว


In [23]:
config = dict(emb_sz=400, n_hid=1550, n_layers=4, pad_token=1, qrnn=False, tie_weights=True, out_bias=True,
             output_p=0.25, hidden_p=0.1, input_p=0.2, embed_p=0.02, weight_p=0.15)
trn_args = dict(drop_mult=0.9, clip=0.12, alpha=2, beta=1)

learn = language_model_learner(data_lm, AWD_LSTM, config=config, pretrained=False, **trn_args)

#load pretrained models
learn.load_pretrained(**_THWIKI_LSTM)

In [None]:
learn.lr_find()
learn.recorder.plot()

epoch,train_loss,valid_loss,accuracy,time
0,6.02767,#na#,01:53,


In [None]:
len(learn.data.vocab.itos)

In [None]:
#train frozen
print('training frozen')
learn.freeze_to(-1)
learn.fit_one_cycle(1, 1e-3, moms=(0.8, 0.7))

In [None]:
#train unfrozen
print('training unfrozen')
learn.unfreeze()
learn.fit_one_cycle(10, 1e-4, moms=(0.8, 0.7))

In [None]:
learn.save('truevoice_lm')
learn.save_encoder('truevoice_enc')

### Classification

In [None]:
tt = Tokenizer(tok_func = ThaiTokenizer, lang = 'th', pre_rules = pre_rules_th, post_rules=post_rules_th)
processor = [TokenizeProcessor(tokenizer=tt, chunksize=10000, mark_fields=False),
            NumericalizeProcessor(vocab=data_lm.vocab, max_vocab=60000, min_freq=3)]

train_df = pd.read_csv(f'mari_train.csv')
train_df['destination'] = train_df.destination.map(lambda x: x.replace(' ','_'))

data_cls = (TextList.from_df(train_df, model_path, cols=['texts'], processor=processor)
    .random_split_by_pct(valid_pct = 0.05, seed = 1412)
    .label_from_df('destination')
    .add_test(TextList.from_df(test_df, model_path, cols=['texts'], processor=processor))
    .databunch(bs=64)
    )

data_cls.sanity_check()
data_cls.save('truevoice_cls.pkl')

In [None]:
config = dict(emb_sz=400, n_hid=1550, n_layers=4, pad_token=1, qrnn=False,
             output_p=0.25, hidden_p=0.1, input_p=0.2, embed_p=0.02, weight_p=0.15)
trn_args = dict(bptt=70, drop_mult=0.5, alpha=2, beta=1)

learn = text_classifier_learner(data_cls, AWD_LSTM, config=config, pretrained=False, **trn_args)
learn.opt_func = partial(optim.Adam, betas=(0.7, 0.99))

#load pretrained finetuned model
learn.load_encoder('truevoice_enc')

In [None]:
learn.lr_find()
learn.recorder.plot()

In [None]:
#train unfrozen
learn.freeze_to(-1)
learn.fit_one_cycle(1, 2e-2, moms=(0.8, 0.7))

In [None]:
#gradual unfreezing
learn.freeze_to(-2)
learn.fit_one_cycle(1, slice(1e-2 / (2.6 ** 4), 1e-2), moms=(0.8, 0.7))
learn.freeze_to(-3)
learn.fit_one_cycle(1, slice(5e-3 / (2.6 ** 4), 5e-3), moms=(0.8, 0.7))
learn.unfreeze()
learn.fit_one_cycle(3, slice(1e-3 / (2.6 ** 4), 1e-3), moms=(0.8, 0.7), 
                   callbacks=[SaveModelCallback(learn, every='improvement', monitor='accuracy', name='truevoice_cls')])

In [None]:
probs, y_true = learn.get_preds(ds_type = DatasetType.Test, ordered=True)
classes = learn.data.train_ds.classes
y_true = np.array([classes[i] for i in y_true.numpy()])
preds = np.array([classes[i] for i in probs.argmax(1).numpy()])
prob = probs.numpy()

In [None]:
from sklearn.metrics import f1_score, precision_score, recall_score
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(handle_unknown='ignore')

enc_fit = enc.fit(test_df[y][:,None])
pred_ohe = enc_fit.transform(preds[:,None]).toarray()
y_ohe = enc_fit.transform(test_df[y][:,None]).toarray()

In [None]:
import warnings
warnings.filterwarnings("ignore")
#macro metrics
for i in range(nb_class):
    print(
        (pred_ohe[:,i]==y_ohe[:,i]).mean(),
        f1_score(pred_ohe[:,i],y_ohe[:,i]),
        precision_score(pred_ohe[:,i],y_ohe[:,i]),
        recall_score(pred_ohe[:,i],y_ohe[:,i])
         )

In [None]:
print('micro metrics')
(preds==test_df[y]).mean(), \
f1_score(test_df[y],preds,average='micro'), \
precision_score(test_df[y],preds,average='micro'), \
recall_score(test_df[y],preds,average='micro')