เนื่องจากภาษาไทย เป็นภาษาที่เขียนติดกันหมด ไม่มีการเว้นคำด้วย Space เหมือนภาษาอังกฤษ ทำให้การตัดคำภาษาไทย หรือ Tokenization มีความซับซ้อน และ การตัดคำที่ถูกต้องมีความสำคัญ ต่อการนำข้อมูลคำศัพท์ ไปประมวลผลต่อ เช่น Feed เข้าโมเดล Machine Learning ต่อไป

# 0. Install

In [0]:
%reload_ext autoreload
%autoreload 2
%matplotlib inline

Install Library ที่จำเป็น แล้ว Restart Runtime

In [2]:
try:
    %tensorflow_version 2.x
except:
    pass

TensorFlow 2.x selected.


In [3]:
# dev version
# !pip install https://github.com/PyThaiNLP/pythainlp/archive/dev.zip

# release version 
! pip install pythainlp

!pip install epitran
!pip install sklearn_crfsuite
!pip install tensorflow deepcut



Restart Runtime เพื่อให้ใช้ Library เวอร์ชัน ที่เพิ่ง Install ลงไป

ในเคสนี้ เราจะปิด Warning ไว้ก่อน จะได้อ่านผลลัพท์ง่าย

In [0]:
import warnings
warnings.filterwarnings('ignore')

# 1. Import

Import Library ที่จะใช้ ในที่นี้คือ PyThaiNLP

In [5]:
import pythainlp

pythainlp.__version__

'2.1.3'

# 2. PyThaiNLP ตัดคำภาษาไทย

## 2.1 word_tokenize ตัดคำ Word, Sentence

ฟังก์ชันตัดคำของ PyThaiNLP ถูกออกแบบมาให้รองรับหลายอัลกอริทึม เช่น 

* newmm - Dictionary-based Thai Word Segmentation using maximal matching algorithm and Thai Character Cluster (TCC)
* longest - Dictionary-based longest-matching Thai word segmentation
* multi_cut - Multi cut – Thai word segmentation with maximum matching
* pyicu - Wrapper for PyICU word segmentation. This wrapper module uses icu.BreakIterator with Thai as icu.Local to locate boundaries between words from the text.
* deepcut - Wrapper for deepcut Thai word segmentation. deepcut is a Thai word segmentation library using Deep Neural, specifically, 1D Convolution Neural Network.
* tcc - The implementation of tokenizer accorinding to Thai Character Clusters (TCCs) rules purposed by Theeramunkong et al. 2000.
* etcc - Enhanced Thai Character Cluster (ETCC) Python implementation by Wannaphong Phatthiyaphaibun (19 June 2017)

โดยอัลกอริทึมใหม่ล่าสุด และเป็น Default ของ PyThaiNLP tokenize ณ ขณะนี้ คือ newmm ที่ใช้ อัลกอริทึม หา maximum matching จากใน Dictionary ที่ทำงานได้อย่างรวดเร็ว และถูกต้องพอสมควร

เราจะ Import sent_tokenize ที่ตัดคำจาก Space, Full stop, New line เหมือนที่ใช้ในภาษาอังกฤษ และ word_tokenize พระเอกของเรา ฟังก์ชันตัดคำภาษาไทย

In [0]:
from pythainlp import sent_tokenize, word_tokenize

In [0]:
text = "เมืองเชียงรายมีประวัติศาสตร์อันยาวนาน        เป็นที่ตั้งของหิรัญนครเงินยางเชียงแสน"

In [8]:
print("sent_tokenize:", sent_tokenize(text))
print("word_tokenize:", word_tokenize(text))
print("no whitespace:", word_tokenize(text, keep_whitespace=False))

sent_tokenize: ['เมืองเชียงรายมีประวัติศาสตร์อันยาวนาน', 'เป็นที่ตั้งของหิรัญนครเงินยางเชียงแสน']
word_tokenize: ['เมือง', 'เชียงราย', 'มี', 'ประวัติศาสตร์', 'อัน', 'ยาวนาน', '        ', 'เป็นที่ตั้ง', 'ของ', 'หิรัญ', 'นคร', 'เงิน', 'ยาง', 'เชียงแสน']
no whitespace: ['เมือง', 'เชียงราย', 'มี', 'ประวัติศาสตร์', 'อัน', 'ยาวนาน', 'เป็นที่ตั้ง', 'ของ', 'หิรัญ', 'นคร', 'เงิน', 'ยาง', 'เชียงแสน']


## 2.2 เปรียบเทียบตัดคำภาษาไทย ด้วยอัลกอริทึมต่าง ๆ 

In [0]:
text = "งานเทศกาลลิ้นจี่และของดีเมืองเชียงราย เทศกาลที่ชาวเกษตรกรต่างนำผลผลิตทางการเกษตรของตนมาออกร้าน โดยเฉพาะลิ้นจี่ที่มีชื่อเสียงมากของเชียงราย "

In [29]:
print("newmm    :", word_tokenize(text))  # default engine is "newmm"
print("longest  :", word_tokenize(text, engine="longest"))
print("multi_cut:", word_tokenize(text, engine="multi_cut"))
print("pyicu    :", word_tokenize(text, engine="pyicu"))
print("deepcut  :", word_tokenize(text, engine="deepcut"))
print("tcc      :", word_tokenize(text, engine="tcc"))
print("etcc     :", word_tokenize(text, engine="etcc"))
print("ulmfit   :", word_tokenize(text, engine="ulmfit"))

newmm    : ['งานเทศกาล', 'ลิ้นจี่', 'และ', 'ของดี', 'เมือง', 'เชียงราย', ' ', 'เทศกาล', 'ที่', 'ชาว', 'เกษตรกร', 'ต่าง', 'นำ', 'ผลผลิต', 'ทาง', 'การเกษตร', 'ของ', 'ตน', 'มา', 'ออกร้าน', ' ', 'โดยเฉพาะ', 'ลิ้นจี่', 'ที่', 'มีชื่อเสียง', 'มาก', 'ของ', 'เชียงราย', ' ']
longest  : ['งานเทศกาล', 'ลิ้นจี่', 'และ', 'ของดี', 'เมือง', 'เชียงราย', ' ', 'เทศกาล', 'ที่', 'ชาว', 'เกษตรกร', 'ต่าง', 'นำ', 'ผลผลิต', 'ทางการ', 'เกษตร', 'ของ', 'ตน', 'มา', 'ออกร้าน', ' ', 'โดยเฉพาะ', 'ลิ้นจี่', 'ที่', 'มีชื่อเสียง', 'มาก', 'ของ', 'เชียงราย', ' ']
multi_cut: ['งานเทศกาล', 'ลิ้นจี่', 'และ', 'ของดี', 'เมือง', 'เชียงราย', ' ', 'เทศกาล', 'ที่', 'ชาว', 'เกษตรกร', 'ต่าง', 'นำ', 'ผลผลิต', 'ทางการเกษตร', 'ของ', 'ตน', 'มา', 'ออกร้าน', ' ', 'โดยเฉพาะ', 'ลิ้นจี่', 'ที่', 'มีชื่อเสียงมาก', 'ของ', 'เชียงราย', ' ']
pyicu    : ['งานเทศกาล', 'ลิ้นจี่', 'และ', 'ของดี', 'เมือง', 'เชียงราย', ' ', 'เทศกาล', 'ที่', 'ชาว', 'เกษตรกร', 'ต่าง', 'นำ', 'ผลผลิต', 'ทาง', 'การเกษตร', 'ของ', 'ตน', 'มา', 'ออกร้าน', ' ', 'โดยเฉพาะ', 'ลิ้

## 2.3 เพิ่มคำใน Dictionary

ในกรณีที่ข้อความของเรา มีคำแปลก ๆ ที่ไม่มีใน Dictionary ทั่วไป เราสามารถเพิ่มคำเหล่านั้น เข้าไปใน Dictionary ที่ใช้ตัดคำได้ดังตัวอย่างด้านล่าง

In [0]:
# Tokenizer??
# thai_words??

In [37]:
from pythainlp import word_tokenize, Tokenizer
from pythainlp.tokenize import dict_trie
from pythainlp.corpus.common import thai_words

text = "เป็งปุ๊ด หรือ เพ็ญพุธ เป็นประเพณีตักบาตรเที่ยงคืนค่อนรุ่งเข้าสู่วันเพ็ญขึ้น15 ค่ำที่ตรงกับวันพุธ ตามวัฒนธรรมและความเชื่อของบรรพบุรุษล้านนาไทย"

print("newmm  :", word_tokenize(text))  # default engine is "newmm"
print("longest:", word_tokenize(text, engine="longest"))


# words = ["เป็งปุ๊ด", "เพ็ญพุธ"]
custom_words_list = set(thai_words())
custom_words_list.add('เป็งปุ๊ด')
custom_words_list.add('เพ็ญพุธ')
trie = dict_trie(dict_source=custom_words_list)

custom_tokenizer = Tokenizer(custom_dict=trie, engine='newmm')

print("custom :", custom_tokenizer.word_tokenize(text))

newmm  : ['เป็ง', 'ปุ๊', 'ด', ' ', 'หรือ', ' ', 'เพ็ญ', 'พุธ', ' ', 'เป็น', 'ประเพณี', 'ตักบาตร', 'เที่ยงคืน', 'ค่อน', 'รุ่ง', 'เข้าสู่', 'วันเพ็ญ', 'ขึ้น', '15', ' ', 'ค่ำ', 'ที่', 'ตรง', 'กับ', 'วัน', 'พุธ', ' ', 'ตาม', 'วัฒนธรรม', 'และ', 'ความเชื่อ', 'ของ', 'บรรพบุรุษ', 'ล้านนา', 'ไทย']
longest: ['เป็ง', 'ปุ๊', 'ด', ' ', 'หรือ', ' ', 'เพ็ญ', 'พุธ', ' ', 'เป็น', 'ประเพณี', 'ตักบาตร', 'เที่ยงคืน', 'ค่อน', 'รุ่ง', 'เข้าสู่', 'วันเพ็ญ', 'ขึ้น', '15', ' ', 'ค่ำ', 'ที่', 'ตรง', 'กับ', 'วัน', 'พุธ', ' ', 'ตาม', 'วัฒนธรรม', 'และ', 'ความเชื่อ', 'ของ', 'บรรพบุรุษ', 'ล้านนา', 'ไทย']
custom : ['เป็งปุ๊ด', ' ', 'หรือ', ' ', 'เพ็ญพุธ', ' ', 'เป็น', 'ประเพณี', 'ตักบาตร', 'เที่ยงคืน', 'ค่อน', 'รุ่ง', 'เข้าสู่', 'วันเพ็ญ', 'ขึ้น', '15', ' ', 'ค่ำ', 'ที่', 'ตรง', 'กับ', 'วัน', 'พุธ', ' ', 'ตาม', 'วัฒนธรรม', 'และ', 'ความเชื่อ', 'ของ', 'บรรพบุรุษ', 'ล้านนา', 'ไทย']
