## Maximal Matching from PythaiNLP

### Default dictionary

Study word_tokenize() from PythaiNLP in the link below.

https://pythainlp.github.io/docs/3.1/api/tokenize.html#pythainlp.tokenize.word_tokenize

In [None]:
!pip install pythainlp
!pip install marisa_trie
!pip install attacut
!pip install deepcut

In [None]:
import pythainlp
pythainlp.__version__

'3.1.1'

### **Formal Thai text**



> Ref:https://th.wikipedia.org/wiki/%E0%B8%8B%E0%B8%B9%E0%B9%80%E0%B8%9B%E0%B8%AD%E0%B8%A3%E0%B9%8C%E0%B8%84%E0%B8%AD%E0%B8%A1%E0%B8%9E%E0%B8%B4%E0%B8%A7%E0%B9%80%E0%B8%95%E0%B8%AD%E0%B8%A3%E0%B9%8C





In [None]:
from pythainlp import word_tokenize
text= """ซูเปอร์คอมพิวเตอร์เป็นเครื่องคอมพิวเตอร์ที่เหมาะกับงานคำนวณที่ต้องมีการคำนวณตัวเลขจำนวนหลายล้านตัวภายในเวลาอันรวดเร็ว เช่น งานพยากรณ์อากาศ
ที่ต้องนำข้อมูลต่าง ๆ เกี่ยวกับอากาศทั้งระดับภาคพื้นดิน เเละระดับชึ้นบรรยากาศเพื่อดูการเคลื่อนไหวและการเปลี่ยนแปลงของอากาศงานนี้จำเป็นต้องใช้เครื่องคอมพิวเตอร์ที่มีสมรรถนะสูงมาก
นอกจากนี้มีงานอีกเป็นจำนวนมากที่ต้องใช้ซูปเปอร์คอมพิวเตอร์ซึ่งมีความเร็วสูง เช่น งานการวิจัยนิวเคลียร์
งานควบคุมทางอวกาศ
"""

token_01 = word_tokenize(text,engine='newmm')
token_02 = word_tokenize(text,engine='attacut')
token_03 = word_tokenize(text,engine='deepcut')

print("Default Text: ", text)
print("\nEngine(newmm) [",len(token_01),"] = " , token_01)
print("\nEngine(attacut) [",len(token_02),"] = " , token_02)
print("\nEngine(deepcut) [",len(token_03),"] = " , token_03)


Default Text:  ซูเปอร์คอมพิวเตอร์เป็นเครื่องคอมพิวเตอร์ที่เหมาะกับงานคำนวณที่ต้องมีการคำนวณตัวเลขจำนวนหลายล้านตัวภายในเวลาอันรวดเร็ว เช่น งานพยากรณ์อากาศ 
ที่ต้องนำข้อมูลต่าง ๆ เกี่ยวกับอากาศทั้งระดับภาคพื้นดิน เเละระดับชึ้นบรรยากาศเพื่อดูการเคลื่อนไหวและการเปลี่ยนแปลงของอากาศงานนี้จำเป็นต้องใช้เครื่องคอมพิวเตอร์ที่มีสมรรถนะสูงมาก 
นอกจากนี้มีงานอีกเป็นจำนวนมากที่ต้องใช้ซูปเปอร์คอมพิวเตอร์ซึ่งมีความเร็วสูง เช่น งานการวิจัยนิวเคลียร์ 
งานควบคุมทางอวกาศ


Engine(newmm) [ 94 ] =  ['ซูเปอร์', 'คอมพิวเตอร์', 'เป็น', 'เครื่องคอมพิวเตอร์', 'ที่', 'เหมาะกับ', 'งาน', 'คำนวณ', 'ที่', 'ต้อง', 'มี', 'การคำนวณ', 'ตัว', 'เลขจำนวน', 'หลาย', 'ล้าน', 'ตัว', 'ภายใน', 'เวลา', 'อัน', 'รวดเร็ว', ' ', 'เช่น', ' ', 'งาน', 'พยากรณ์อากาศ', ' ', '\n', 'ที่', 'ต้อง', 'นำ', 'ข้อมูล', 'ต่าง ๆ', ' ', 'เกี่ยวกับ', 'อากาศ', 'ทั้ง', 'ระดับ', 'ภาคพื้นดิน', ' ', 'เ', 'เละ', 'ระดับ', 'ชึ้น', 'บรรยากาศ', 'เพื่อ', 'ดู', 'การเคลื่อนไหว', 'และ', 'การเปลี่ยนแปลง', 'ของ', 'อากาศ', 'งาน', 'นี้', 'จำเป็นต้อง', 'ใช้', 'เครื่องคอม

### Custom dictionary


In [None]:
from pythainlp.corpus.common import thai_words
from pythainlp.util import Trie

print("Default dictionary: ",token_01)
new_words = {"ตัวเลข","เครื่อง","ซูปเปอร์คอมพิวเตอร์","ต้องมี","ซูเปอร์คอมพิวเตอร์","นำข้อมูล","สูงมาก","เเละ"}
words = new_words.union(thai_words())

custom_dictionary_trie = Trie(words)

tokens = word_tokenize(text, custom_dict=custom_dictionary_trie, engine='newmm')
print("\nEngine(newmm) [",len(tokens),"] = " , tokens)


Default dictionary:  ['ซูเปอร์', 'คอมพิวเตอร์', 'เป็น', 'เครื่องคอมพิวเตอร์', 'ที่', 'เหมาะกับ', 'งาน', 'คำนวณ', 'ที่', 'ต้อง', 'มี', 'การคำนวณ', 'ตัว', 'เลขจำนวน', 'หลาย', 'ล้าน', 'ตัว', 'ภายใน', 'เวลา', 'อัน', 'รวดเร็ว', ' ', 'เช่น', ' ', 'งาน', 'พยากรณ์อากาศ', ' ', '\n', 'ที่', 'ต้อง', 'นำ', 'ข้อมูล', 'ต่าง ๆ', ' ', 'เกี่ยวกับ', 'อากาศ', 'ทั้ง', 'ระดับ', 'ภาคพื้นดิน', ' ', 'เ', 'เละ', 'ระดับ', 'ชึ้น', 'บรรยากาศ', 'เพื่อ', 'ดู', 'การเคลื่อนไหว', 'และ', 'การเปลี่ยนแปลง', 'ของ', 'อากาศ', 'งาน', 'นี้', 'จำเป็นต้อง', 'ใช้', 'เครื่องคอมพิวเตอร์', 'ที่', 'มี', 'สมรรถนะ', 'สูง', 'มาก', ' ', '\n', 'นอกจากนี้', 'มี', 'งาน', 'อีก', 'เป็น', 'จำนวนมาก', 'ที่', 'ต้อง', 'ใช้', 'ซู', 'ป', 'เปอร์', 'คอมพิวเตอร์', 'ซึ่ง', 'มี', 'ความเร็ว', 'สูง', ' ', 'เช่น', ' ', 'งาน', 'การวิจัย', 'นิวเคลียร์', ' ', '\n', 'งาน', 'ควบคุม', 'ทาง', 'อวกาศ', '\n']

Engine(newmm) [ 86 ] =  ['ซูเปอร์คอมพิวเตอร์', 'เป็น', 'เครื่องคอมพิวเตอร์', 'ที่', 'เหมาะกับ', 'งาน', 'คำนวณ', 'ที่', 'ต้องมี', 'การคำนวณ', 'ตัว', 'เลขจำนว

### **Analyze**

> โดยภาพรวมเเล้ว Engine(attacut, deepcut) มีความเเม่นยำกว่าตัวของ Engine(newmm, newmm dictionary) เเต่จะใช้เวลาในการคำนวณที่มากกว่าถ้าสรุปภาพรวมขึ้นอยู่กับทาง dev ว่าเลือกที่จะใช้เวลาเเต่เเม่นยำ หรือเร็วเเต่ลดความเเม่นยำลง เเต่ถ้าสรุปใน Data นี้คิดว่า deepcut มี performance สูงที่สุด เพราะมีความเเม่นยำสูงเเละมีเวลาคำนวณที่น้อยลงมากำลังดี




> ด้านล่างจะสรุปจำนวนคำที่ตัดได้จะเรียงจากน้อยไปมาก

*  newmm dictionary -> newmm -> deepcut -> attacut












### **Infomal Thai Text**
ref: https://filmclubthailand.com/review/film-review/avatar-thewayofwater/

In [None]:
from pythainlp import word_tokenize
text= """Avatar: The Way of Water เป็นหนังภาคต่อ เรื่องราวเท้าความจากภาคเดิมที่ เจค ซัลลี นายทหารพิการคนหนึ่ง ได้เข้าร่วม
ปฏิบัติการกวาดล้างชาวนาวีบนดาวแพนดอรา ดาวที่มนุษย์โลกตั้งใจสร้างเป็นอาณานิคมหลังโลกล่มสลาย แต่แล้วเขากลับรับรู้ถึงคุณค่าอันลึกซึ้ง
ของชีวิตที่อยู่บนนั้นและกลายเป็นส่วนหนึ่งของชาวเผ่านาวีโดยสมบูรณ์แบบผ่านร่างอวตารที่สร้างขึ้นเพื่อเขา เจคได้กลายเป็นผู้นำของชาวเผ่านาวี เป็นวีรบุรุษสงครามที่ชาวเผ่าเรียกขานกันว่า
โทรุคมัคโต เขาได้แต่งงานกับเนทีรี ลูกสาวของหัวหน้าเผ่าคนก่อน และมีลูกด้วยกัน 4 คน
"""

token_01 = word_tokenize(text,engine='newmm')
token_02 = word_tokenize(text,engine='attacut')
token_03 = word_tokenize(text,engine='deepcut')

print("Default Text:", text)
print("\nEngine(newmm) [",len(token_01),"] = " , token_01)
print("\nEngine(attacut) [",len(token_02),"] = " , token_02)
print("\nEngine(deepcut) [",len(token_03),"] = " , token_03)


Default Text: Avatar: The Way of Water เป็นหนังภาคต่อ เรื่องราวเท้าความจากภาคเดิมที่ เจค ซัลลี นายทหารพิการคนหนึ่ง ได้เข้าร่วม
ปฏิบัติการกวาดล้างชาวนาวีบนดาวแพนดอรา ดาวที่มนุษย์โลกตั้งใจสร้างเป็นอาณานิคมหลังโลกล่มสลาย แต่แล้วเขากลับรับรู้ถึงคุณค่าอันลึกซึ้ง
ของชีวิตที่อยู่บนนั้นและกลายเป็นส่วนหนึ่งของชาวเผ่านาวีโดยสมบูรณ์แบบผ่านร่างอวตารที่สร้างขึ้นเพื่อเขา เจคได้กลายเป็นผู้นำของชาวเผ่านาวี เป็นวีรบุรุษสงครามที่ชาวเผ่าเรียกขานกันว่า 
โทรุคมัคโต เขาได้แต่งงานกับเนทีรี ลูกสาวของหัวหน้าเผ่าคนก่อน และมีลูกด้วยกัน 4 คน


Engine(newmm) [ 142 ] =  ['Avatar', ':', ' ', 'The', ' ', 'Way', ' ', 'of', ' ', 'Water', ' ', 'เป็น', 'หนัง', 'ภาค', 'ต่อ', ' ', 'เรื่องราว', 'เท้าความ', 'จาก', 'ภาค', 'เดิม', 'ที่', ' ', 'เจ', 'ค', ' ', 'ซัล', 'ลี', ' ', 'นายทหาร', 'พิการ', 'คน', 'หนึ่ง', ' ', 'ได้', 'เข้าร่วม', '\n', 'ปฏิบัติ', 'การกวาดล้าง', 'ชาว', 'นาวี', 'บน', 'ดาว', 'แพน', 'ดอ', 'รา', ' ', 'ดาว', 'ที่', 'มนุษย์', 'โลก', 'ตั้งใจ', 'สร้าง', 'เป็น', 'อาณานิคม', 'หลัง', 'โลก', 'ล่มสลาย', ' ', 'แต่', 'แล้

### **Custom dictionary**

In [None]:
from pythainlp.corpus.common import thai_words
from pythainlp.util import Trie

print("Default dictionary: ",token_01)
new_words = {"ภาคต่อ","เจค ซัลลี","คนหนึ่ง","ชาวนาวี","ดาวแพนดอรา","ชาวเผ่านาวี","สูงมาก","เเละ"}
words = new_words.union(thai_words())

custom_dictionary_trie = Trie(words)

tokens = word_tokenize(text, custom_dict=custom_dictionary_trie, engine='newmm')
print("\nEngine(newmm) [",len(tokens),"] = " , tokens)


Default dictionary:  ['Avatar', ':', ' ', 'The', ' ', 'Way', ' ', 'of', ' ', 'Water', ' ', 'เป็น', 'หนัง', 'ภาค', 'ต่อ', ' ', 'เรื่องราว', 'เท้าความ', 'จาก', 'ภาค', 'เดิม', 'ที่', ' ', 'เจ', 'ค', ' ', 'ซัล', 'ลี', ' ', 'นายทหาร', 'พิการ', 'คน', 'หนึ่ง', ' ', 'ได้', 'เข้าร่วม', '\n', 'ปฏิบัติ', 'การกวาดล้าง', 'ชาว', 'นาวี', 'บน', 'ดาว', 'แพน', 'ดอ', 'รา', ' ', 'ดาว', 'ที่', 'มนุษย์', 'โลก', 'ตั้งใจ', 'สร้าง', 'เป็น', 'อาณานิคม', 'หลัง', 'โลก', 'ล่มสลาย', ' ', 'แต่', 'แล้ว', 'เขา', 'กลับ', 'รับรู้', 'ถึง', 'คุณค่า', 'อัน', 'ลึกซึ้ง', '\n', 'ของ', 'ชีวิต', 'ที่อยู่', 'บน', 'นั้น', 'และ', 'กลายเป็น', 'ส่วนหนึ่ง', 'ของ', 'ชาว', 'เผ่า', 'นาวี', 'โดย', 'สมบูรณ์แบบ', 'ผ่าน', 'ร่าง', 'อวตาร', 'ที่', 'สร้าง', 'ขึ้น', 'เพื่อ', 'เขา', ' ', 'เจ', 'ค', 'ได้', 'กลายเป็น', 'ผู้นำ', 'ของ', 'ชาว', 'เผ่า', 'นาวี', ' ', 'เป็น', 'วีรบุรุษ', 'สงคราม', 'ที่', 'ชาว', 'เผ่า', 'เรียกขาน', 'กัน', 'ว่า', ' ', '\n', 'โท', 'รุ', 'ค', 'มัค', 'โต', ' ', 'เขา', 'ได้', 'แต่งงาน', 'กับ', 'เน', 'ที', 'รี', ' ', 'ลูกสาว',

### **Analyze**

> โดยภาพรวมเเล้ว Engine(attacut, deepcut) ก็ยังมีความเเม่นยำกว่าตัวของ Engine(newmm, newmm dictionary) เเต่จะใช้เวลาในการคำนวณที่มากกว่า โดย text ชุดนี้ส่วนใหญ่เป็นคำที่ตัดเเล้วยังพออ่านเข้าใจได้ต่างจาก Formal thai text ที่มีคำศัพท์ที่ยาก เลยคิดว่า Engine(newmm directional) มี performance ที่สูงสุดจาก Engine อื่นๆ เพราะไม่จำเป็นต้องมีความเเม่นยำขนาดนั้น เเต่ต้อง add-on คำเพิ่มเติมเล็กน้อย(จำพวกชื่อตัวละคร หรือคำใหม่)

> ด้านล่างจะสรุปจำนวนคำที่ตัดได้จะเรียงจากน้อยไปมาก

*   newmm dictionary -> deepcut -> attacut -> newmm





