# Text Classification on True Voice Intent Dataset with PyThaiNLP





True Voice Intent Dataset : https://github.com/PyThaiNLP/truevoice-intent

Intent Dataset from Customer Service Phone Calls Transcribed by TrueVoice's Mari.


In [27]:
!pip install --upgrade --user --pre pythainlp


Collecting pythainlp
  Using cached https://files.pythonhosted.org/packages/b7/80/f940b3792aeb42fb1b17d293e71615470dbe596c68674c384a7744d23184/pythainlp-2.1.dev7-py3-none-any.whl
Installing collected packages: pythainlp
Successfully installed pythainlp-2.1.dev7


In [201]:
# Import modules
import os
import re
from functools import partial

import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix, f1_score, precision_score, recall_score
from sklearn.preprocessing import Normalizer

from sklearn.svm import LinearSVC
from pythainlp.tokenize import word_tokenize
from pythainlp.ulmfit import ungroup_emoji

## Exploration



### Load dataset

In [183]:
TRUEVOICE_INTENT_DIR = "../data/truevoice_intent"

truevoice_dataset_path = { 
    "train": os.path.join(TRUEVOICE_INTENT_DIR, "mari_train.csv"),
    "test": os.path.join(TRUEVOICE_INTENT_DIR, "mari_test.csv")
}
truevoice_dataset_path


{'train': '../data/truevoice_intent/mari_train.csv',
 'test': '../data/truevoice_intent/mari_test.csv'}

In [184]:
truevoice_dataset = {
    "train": pd.read_csv(truevoice_dataset_path["train"]),
    "test": pd.read_csv(truevoice_dataset_path["test"])
}

In [185]:
truevoice_dataset["train"].head(10)

Unnamed: 0,texts,texts_deepcut,action,object,destination
0,ผมไปจ่ายเงินที่ Counter Services เค้าเช็ต . บ...,ผม ไป จ่าย เงิน ที่ Counter Services เค้า เช็...,enquire,payment,billing and payment
1,internet ยังความเร็วอยุ่เท่าไหร ครับ,internet ยัง ความ เร็ว อยุ่ เท่า ไหร ครับ,enquire,package,promotions
2,ตะกี้ไปชำระค่าบริการไปแล้ว แต่ยังใช้งานไม่ได้...,ตะกี้ ไป ชำระ ค่า บริการ ไป แล้ว แต่ ยัง ใช้ ...,report,suspend,billing and payment
3,พี่ค่ะยังใช้ internet ไม่ได้เลยค่ะ เป็นเครื่อ...,พี่ ค่ะ ยัง ใช้ internet ไม่ ได้ เลย ค่ะ เป็น...,enquire,internet,internet
4,ฮาโหล คะ พอดีว่าเมื่อวานเปิดซิมทรูมูฟ แต่มันโ...,ฮาโหล คะ พอดี ว่า เมื่อ วาน เปิด ซิม ทรูมูฟ แ...,report,phone_issues,billing and payment
5,* ใช้งานยังไง ขอรายละเอียดการสมัครหน่อย,* ใช้ งาน ยัง ไง ขอ รายละเอียด การ สมัคร หน่อย,enquire,service,other queries
6,เคยมีช่างมาซ่อมที่บ้าน แล้วโทรศัพท์ใช้งานไม่ไ...,เคย มี ช่าง มา ซ่อม ที่ บ้าน แล้ว โทรศัพท์ ใช...,enquire,nontruemove,other queries
7,ค้างค่าบริการเท่าไหร่ครับ,ค้าง ค่า บริการ เท่า ไหร่ ครับ,enquire,balance,billing and payment
8,อินเตอร์เน็ตไฟ Adsl ไม่มีสัญญาณครับ,อินเตอร์เน็ต ไฟ Adsl ไม่ มี สัญญาณ ครับ,enquire,nontruemove,other queries
9,เค้าบอกจะส่งรหัสเน็ตมาให้ แต่ยังไม่ได้ส่งมาเล...,เค้า บอก จะ ส่ง รหัส เน็ต มา ให้ แต่ ยัง ไม่ ...,enquire,internet,internet


In [186]:
truevoice_dataset["train"].describe()

Unnamed: 0,texts,texts_deepcut,action,object,destination
count,12939,12939,12939,12939,12939
unique,11398,11363,8,26,7
top,สอบถามยอดค้างชำระค่ะ,สอบถาม ยอดค้าง ชำระ ค่ะ,enquire,service,billing and payment
freq,10,10,8133,2090,5007


In [187]:
truevoice_dataset["test"].describe()

Unnamed: 0,texts,texts_deepcut,action,object,destination
count,3236,3236,3236,3236,3236
unique,2003,2003,8,24,7
top,บริการอื่นๆ,บริการ อื่น ๆ,enquire,internet,billing and payment
freq,97,97,2351,524,977


In [188]:
# from sklearn.model_selection import train_test_split

# # train_df, valid_df = train_test_split(truevoice_dataset["train"], test_size=0.10, random_state=1)

# truevoice_dataset["train"] = train_df.reset_index(drop=True)
# truevoice_dataset["valid"] = valid_df.reset_index(drop=True)


# print(truevoice_dataset["train"].shape, truevoice_dataset["valid"].shape, truevoice_dataset["test"].shape)
print(truevoice_dataset["train"].shape,  truevoice_dataset["test"].shape)

(12939, 5) (3236, 5)


In [189]:
for set_name in ["train", "test"]:
    print("set:", set_name)
    print(truevoice_dataset[set_name]['destination'].value_counts() / truevoice_dataset[set_name].shape[0] * 100)
    print("\n\n")

set: train
billing and payment      38.696963
promotions               24.259989
other queries            17.288817
internet                 14.390602
international dialing     2.596800
true money                1.553443
lost and stolen           1.213386
Name: destination, dtype: float64



set: test
billing and payment      30.191595
internet                 19.004944
promotions               18.232386
other queries            16.965389
international dialing     6.273177
lost and stolen           6.056860
true money                3.275649
Name: destination, dtype: float64





## Data Preprocessing

In [226]:
def process_text(text):
    text = text.lower()
    words = word_tokenize(text, keep_whitespace=False)    
    return words

In [227]:
process_text("Hello ฉัน")

['hello', 'ฉัน']

## Model Training

In [246]:
classifier = Pipeline([
    ('count_vectorizer', CountVectorizer(tokenizer=process_text,
                                         ngram_range=(1,2))),
    ('normalizer', Normalizer()),
    ('classifier', LinearSVC(max_iter=25000, class_weight="balanced")),
])


In [247]:
X_train, y_train = truevoice_dataset["train"]['texts'], truevoice_dataset["train"]["destination"]
# X_valid, y_valid = truevoice_dataset["valid"]['texts'], truevoice_dataset["valid"]["destination"]
X_valid, y_valid = truevoice_dataset["test"]['texts'], truevoice_dataset["test"]["destination"]

In [248]:
classifier.fit(X_train, y_train)


Pipeline(memory=None,
         steps=[('count_vectorizer',
                 TfidfVectorizer(analyzer='word', binary=False,
                                 decode_error='strict',
                                 dtype=<class 'numpy.float64'>,
                                 encoding='utf-8', input='content',
                                 lowercase=True, max_df=1.0, max_features=None,
                                 min_df=1, ngram_range=(1, 2), norm='l2',
                                 preprocessor=None, smooth_idf=True,
                                 stop_words=None, strip_accents=None,
                                 sublinear_tf=False,
                                 token_pattern='(?u)\\b\\w\\w+\\b',
                                 tokenizer=<function process_text at 0x142f3f290>,
                                 use_idf=True, vocabulary=None)),
                ('classifier',
                 LinearSVC(C=1.0, class_weight='balanced', dual=True,
                         

In [249]:
from sklearn.preprocessing import OneHotEncoder
onehot_encoder = OneHotEncoder(handle_unknown='ignore')

predictions = classifier.predict(X_test)




In [250]:
for index, x in enumerate(X_test[0:20]):
    print("question: {}".format(x))
    print("groundtruth: {}".format(y_test[index]))
    print("predition: {}".format(predictions[index]))
    print("")

question: อยากทราบว่าเหมาโทรทรูมูฟ 90 บาท 7 วัน รหัสอะไรค่ะ
groundtruth: promotions
predition: promotions

question: อยากทราบว่าโทรทัศน์ที่บ้านทำไมถึงดูไม่ได้ ดูได้แต่ช่องเลข 9 เลข 8 อย่างนี้ แต่ช่อง 3 5 7 9 ดูไม่ได้เลย
groundtruth: other queries
predition: other queries

question: อยากทราบว่าโปรเสริม 7 วัน ต้องกดอะไรครับ
groundtruth: promotions
predition: promotions

question: อยากทราบว่าโปรโมชัน 0863036995 เหลือเท่าไหร่ค่ะ
groundtruth: billing and payment
predition: billing and payment

question: อยากทราบว่าโปรโมชั่นจะหมดวันที่เท่าไหร่ค่ะ
groundtruth: promotions
predition: promotions

question: อยากทราบว่าโปรโมชั่นที่พี่ได้รับเนี่ย โทรยกก๊วน3คนสนิท นาทีละ 25 บาท แล้วต้องทำยังไงเค้าถึงจะรู้ว่าเบอร์3คนสนิทคือใครคะ
groundtruth: billing and payment
predition: promotions

question: อยากทราบว่าโปรโมชั่นบีบี หมดเมื่อไหร่นะคะ
groundtruth: promotions
predition: promotions

question: อยากทราบว่าโปรที่ใช้อยู่มีโปรโมชั่นอะไรคะ
groundtruth: promotions
predition: promotions

question: อยากทราบว่าโ

In [251]:

onehot_encoder_fit = onehot_encoder.fit(truevoice_dataset["test"]["destination"][:,None])
predictions_onehot = onehot_encoder_fit.transform(predictions[:,None]).toarray()

y_onehot = onehot_encoder_fit.transform(truevoice_dataset["test"]["destination"][:,None]).toarray()

    
nb_class = 7
for i in range(nb_class):
    print("Class: ", i, )
    print("Accuracy: {:.2f} ".format((predictions_onehot[:,i] == y_onehot[:,i]).mean()))
    print("F1-score: {:.2f} ".format(f1_score(predictions_onehot[:,i], y_onehot[:,i])))
    print("Precision: {:.2f} ".format(precision_score(predictions_onehot[:,i],y_onehot[:,i])))
    print("Recall: {:.2f} ".format(recall_score(predictions_onehot[:,i], y_onehot[:,i])))
    print("")



Class:  0
Accuracy: 0.95 
F1-score: 0.91 
Precision: 0.89 
Recall: 0.93 

Class:  1
Accuracy: 0.99 
F1-score: 0.94 
Precision: 0.97 
Recall: 0.91 

Class:  2
Accuracy: 0.94 
F1-score: 0.86 
Precision: 0.93 
Recall: 0.80 

Class:  3
Accuracy: 1.00 
F1-score: 0.99 
Precision: 0.98 
Recall: 0.99 

Class:  4
Accuracy: 0.95 
F1-score: 0.83 
Precision: 0.79 
Recall: 0.88 

Class:  5
Accuracy: 0.97 
F1-score: 0.90 
Precision: 0.89 
Recall: 0.92 

Class:  6
Accuracy: 1.00 
F1-score: 0.95 
Precision: 0.97 
Recall: 0.93 



In [252]:
print('micro metrics')
print("Overall Accuracy: {:.2f}".format((predictions_onehot==y_onehot).mean()))
print("F1: {:.2f}".format(f1_score(y_onehot, predictions_onehot, average='micro')))
# precision_score(y_onehot, predictions_onehot, average='micro'), \
# recall_score(y_onehot, predictions_onehot, average='micro')

micro metrics
Overall Accuracy: 0.97
F1: 0.89


In [253]:
accuracy_score(predictions_onehot, y_onehot)

0.8936959208899876