# HW1: Dictionary-based Tokenization 


In this exercise, you are to implement a dictionary-based word segmentation algorithm. There are two Python functions that you need to complete: 
<br>
* maximal_matching
* backtrack
</br>

Also, you have to find how to use word_tokenize() in PythaiNLP along with customer_dict by yourselves.

## Part1) Your Maximal Matching with Your Dictionary

### Create a toy dictionary to test the algorithm

This is based on the example shown in the lecture. 
You will tokenize the following text string: "ไปหามเหสี!"
The toy dictoionary provided in this exercise includes all the charaters, syllables, and words that appear that the text string.

In [1]:
thai_vocab = ["ไ","ป","ห","า","ม","เ","ห","ส","ี","ไป","หา","หาม","เห","สี","มเหสี","!"]

### Maximal matching 
Complete the maximal matching  function below to tokenize the input text


In [2]:
from math import inf #infinity
def maximal_matching(c):
    #Initialize an empty 2D list
    d  =[[None]*len(c) for _ in range(len(c))]
    
    ####FILL CODE HERE####
    for i in range(len(d)):
      for j in range(i, len(d)):
        if i==0 and (c[i:j+1] in thai_vocab):
          d[i][j] = 1
        elif c[i:j+1] in thai_vocab:
          min_val = inf
          for k in range(i):
              min_val = min(min_val, d[k][i-1])
          d[i][j] = 1 + min_val
        else:
          d[i][j] = inf
    ######################
    
    return d

### Backtracking
Complete the backtracking function below to find the tokenzied words.
It should return a list containing a pair of the beginning position and the ending position of each word.
In this example, it should return: 
<br>
[(0, 1),(2, 3),(4, 8),(9, 9)]
<br> 
#### Each pair contains the position of each word as follows:
(0, 1) ไป
<br>
(2, 3) หา
<br>
(4, 8) มเหสี
<br>
(9, 9) !


In [3]:
def backtrack(d):
    eow = len(d)-1 # End of Word position
    word_pos = [] # Word position
    ####FILL CODE HERE####
    while eow>=0:
      sow = inf
      sow_val = inf
      for i in range(len(d)):
        if d[i][eow] != None and d[i][eow] < sow_val:
          sow_val = d[i][eow]
          sow = i
      word_pos.append((sow, eow))
      eow = sow-1
    ######################
    word_pos.reverse()
    return word_pos


### Test your maximal matching algorithm on a toy dictionary

Expected output:

[1, 1, inf, inf, inf, inf, inf, inf, inf, inf] ไ
<br>
[None, 2, inf, inf, inf, inf, inf, inf, inf, inf] ป
<br>
[None, None, 2, 2, 2, inf, inf, inf, inf, inf] ห
<br>
[None, None, None, 3, inf, inf, inf, inf, inf, inf] า
<br>
[None, None, None, None, 3, inf, inf, inf, 3, inf] ม
<br>
[None, None, None, None, None, 3, 3, inf, inf, inf] เ
<br>
[None, None, None, None, None, None, 4, inf, inf, inf] ห
<br>
[None, None, None, None, None, None, None, 4, 4, inf] ส
<br>
[None, None, None, None, None, None, None, None, 5, inf] ี
<br>
[None, None, None, None, None, None, None, None, None, 4] !
<br>

In [4]:
input_text = "ไปหามเหสี!"
out = maximal_matching(input_text)
for i in range(len(out)):
    print(out[i],input_text[i])

[1, 1, inf, inf, inf, inf, inf, inf, inf, inf] ไ
[None, 2, inf, inf, inf, inf, inf, inf, inf, inf] ป
[None, None, 2, 2, 2, inf, inf, inf, inf, inf] ห
[None, None, None, 3, inf, inf, inf, inf, inf, inf] า
[None, None, None, None, 3, inf, inf, inf, 3, inf] ม
[None, None, None, None, None, 3, 3, inf, inf, inf] เ
[None, None, None, None, None, None, 4, inf, inf, inf] ห
[None, None, None, None, None, None, None, 4, 4, inf] ส
[None, None, None, None, None, None, None, None, 5, inf] ี
[None, None, None, None, None, None, None, None, None, 4] !


### Test your backtracking algorithm on a toy dictionary
Expected output:
<br>
ไป|หา|มเหสี|!

In [5]:
def print_tokenized_text(d, input_text):
    tokenized_text=[]
    for pos in backtrack(d):
        #print(pos)
        tokenized_text.append(input_text[pos[0]:pos[1]+1])

    print("|".join(tokenized_text))
    
print_tokenized_text(out,input_text)

ไป|หา|มเหสี|!


In [10]:
# Using the code from part one only, how many “words” did you get when tokenizing this input text.

# ไปหาหมามเหสีมาหาม!

input_text = "ไปหาหมามเหสีมาหาม!"
out = maximal_matching(input_text)
print_tokenized_text(out, input_text)

tokenized_text = "ไป|หา|ห|ม|า|มเหสี|ม|า|หาม|!"
print(len(tokenized_text.split("|")))

ไป|หา|ห|ม|า|มเหสี|ม|า|หาม|!
10


## Part2) Your Maximal Matching with Real Dictionary

For UNIX-based OS users, the following cell will download a dictionary (it's just a list of thai words). Alternatively, you can download it from this link: https://raw.githubusercontent.com/PyThaiNLP/pythainlp/dev/pythainlp/corpus/words_th.txt

In [11]:
!wget https://raw.githubusercontent.com/PyThaiNLP/pythainlp/dev/pythainlp/corpus/words_th.txt

--2023-01-12 13:02:20--  https://raw.githubusercontent.com/PyThaiNLP/pythainlp/dev/pythainlp/corpus/words_th.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.109.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1519221 (1.4M) [text/plain]
Saving to: ‘words_th.txt’


2023-01-12 13:02:21 (26.3 MB/s) - ‘words_th.txt’ saved [1519221/1519221]



In [12]:
with open("words_th.txt",encoding='utf-8-sig') as f:
    thai_vocab = f.read().splitlines() 
print("Vocab size:", len(thai_vocab))
print(thai_vocab[:10])

thai_vocab.extend(["ๆ","!"])

Vocab size: 62069
['ก ข ไม่กระดิกหู', 'ก.', 'ก.ค.', 'ก.ต.', 'ก.ป.ส.', 'ก.พ.', 'ก.พ.ด.', 'ก.ม.', 'ก.ย.', 'ก.ย']


### The output of your maximal matching algoithm on a new dictionary
Expected output:
<br>
[inf, 1, inf, 1, inf, inf, inf, inf, inf] ไ
<br>
[None, inf, inf, inf, inf, inf, inf, inf, inf] ป
<br>
[None, None, inf, 2, 2, inf, inf, inf, inf] ห
<br>
[None, None, None, inf, inf, inf, inf, inf, inf] า
<br>
[None, None, None, None, inf, inf, inf, inf, 2] ม
<br>
[None, None, None, None, None, inf, 3, inf, inf] เ
<br>
[None, None, None, None, None, None, inf, inf, inf] ห
<br>
[None, None, None, None, None, None, None, inf, 4] ส
<br>
[None, None, None, None, None, None, None, None, inf] ี 



In [13]:
input_text = "ไปหามเหสี"
out = maximal_matching(input_text)
for i in range(len(out)):
    print(out[i],input_text[i])

[inf, 1, inf, 1, inf, inf, inf, inf, inf] ไ
[None, inf, inf, inf, inf, inf, inf, inf, inf] ป
[None, None, inf, 2, 2, inf, inf, inf, inf] ห
[None, None, None, inf, inf, inf, inf, inf, inf] า
[None, None, None, None, inf, inf, inf, inf, 2] ม
[None, None, None, None, None, inf, 3, inf, inf] เ
[None, None, None, None, None, None, inf, inf, inf] ห
[None, None, None, None, None, None, None, inf, 4] ส
[None, None, None, None, None, None, None, None, inf] ี


### Expected tokenized text
ไปหา|มเหสี

In [14]:
# print('ไปหา' in thai_vocab)
# print('มเหสี' in thai_vocab)
# print('ปปป' in thai_vocab)
print_tokenized_text(out,input_text)

ไปหา|มเหสี


In [16]:
# Using the code from part two only, how many “words” did you get when tokenizing this input text.

# ประเทศไทยรวมเลือดเนื้อชาติเชื้อไทยเป็นประชารัฐไผทของไทยทุกส่วนอยู่ดำรงคงไว้ได้ทั้งมวลด้วยไทยล้วนหมายรักสามัคคี

input_text = "ประเทศไทยรวมเลือดเนื้อชาติเชื้อไทยเป็นประชารัฐไผทของไทยทุกส่วนอยู่ดำรงคงไว้ได้ทั้งมวลด้วยไทยล้วนหมายรักสามัคคี"
out = maximal_matching(input_text)
print_tokenized_text(out, input_text)

tokenized_text = "ประเทศ|ไทย|รวม|เลือดเนื้อ|ชาติ|เชื้อ|ไทย|เป็น|ประชา|รัฐ|ไผท|ของ|ไทย|ทุก|ส่วน|อยู่|ดำรง|คงไว้|ได้|ทั้งมวล|ด้วย|ไทย|ล้วน|หมาย|รัก|สามัคคี"
print(len(tokenized_text.split("|")))

ประเทศ|ไทย|รวม|เลือดเนื้อ|ชาติ|เชื้อ|ไทย|เป็น|ประชา|รัฐ|ไผท|ของ|ไทย|ทุก|ส่วน|อยู่|ดำรง|คงไว้|ได้|ทั้งมวล|ด้วย|ไทย|ล้วน|หมาย|รัก|สามัคคี
26


## Part3) Maximal Matching from PythaiNLP

### Default dictionary

Study word_tokenize() from PythaiNLP in the link below.

https://pythainlp.github.io/docs/3.1/api/tokenize.html#pythainlp.tokenize.word_tokenize

In [17]:
!pip install pythainlp
!pip install marisa_trie

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pythainlp
  Downloading pythainlp-3.1.1-py3-none-any.whl (9.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.6/9.6 MB[0m [31m59.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pythainlp
Successfully installed pythainlp-3.1.1
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting marisa_trie
  Downloading marisa_trie-0.7.8-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.2/1.2 MB[0m [31m16.9 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: marisa_trie
Successfully installed marisa_trie-0.7.8


In [18]:
from pythainlp.tokenize import word_tokenize
text='นัดกินกันตอนไหนก็ได้ที่สามย่านมิตรทาวน์'

####FILL CODE HERE####
engines = ["newmm", "newmm-safe", "mm", "longest"]
for engine in engines:
  print(engine)
  print(word_tokenize(text=text, engine=engine))
######################

newmm
['นัด', 'กินกัน', 'ตอน', 'ไหน', 'ก็', 'ได้ที่', 'สามย่าน', 'มิตร', 'ทาวน์']
newmm-safe
['นัด', 'กินกัน', 'ตอน', 'ไหน', 'ก็', 'ได้ที่', 'สามย่าน', 'มิตร', 'ทาวน์']
mm
['นัด', 'กินกัน', 'ตอน', 'ไหนก็ได้ที่สามย่านมิตรทาวน์']
longest
['นัด', 'กินกัน', 'ตอน', 'ไหน', 'ก็ได้', 'ที่สาม', 'ย่าน', 'มิตร', 'ทาวน์']


### Custom dictionary

Add 'สามย่านมิตรทาวน์' into dictionary and then tokenize again

In [19]:
####FILL CODE HERE####
from pythainlp.corpus.common import thai_words
from pythainlp.util import dict_trie

custom_dict = set(thai_words())
custom_dict.add('สามย่านมิตรทาวน์')
trie = dict_trie(dict_source=custom_dict)

print(word_tokenize(text, custom_dict=trie))
######################

['นัด', 'กินกัน', 'ตอน', 'ไหน', 'ก็', 'ได้ที่', 'สามย่านมิตรทาวน์']


In [23]:
# Using the code from part three only, how many “words” did you get when tokenizing this input text after adding the new vocabs.

# new vocabs : "ดิสนีย์ออนไอซ์", "ตีกอล์ฟ", "ธรรมมะ"

# อ๋อก็ว่าจะไปเรียนแต่งหน้านั่งสมาธิดำน้ำปลูกปะการังทำอาหารนวดสปาปลูกป่าดำนาดูดิสนีย์ออนไอซ์แรลลี่ตีกอล์ฟล่องเรือส่องสัตว์ช้อปปิ้งดูงิ้วดูละครเวทีดูคอนเสิร์ตดินเนอร์ทำขนมจัดดอกไม้เที่ยวตลาดน้ำเรียนถ่ายรูปดูกายกรรมชมเมืองเก่าเข้าสัมมนาทัวร์ธรรมมะเรียนเต้นแล้วก็ร้องเพลง

from pythainlp.corpus.common import thai_words
from pythainlp.util import dict_trie

custom_dict = set(thai_words())
custom_dict.add("ดิสนีย์ออนไอซ์")
custom_dict.add("ตีกอล์ฟ")
custom_dict.add("ธรรมมะ")
trie = dict_trie(dict_source=custom_dict)

text = "อ๋อก็ว่าจะไปเรียนแต่งหน้านั่งสมาธิดำน้ำปลูกปะการังทำอาหารนวดสปาปลูกป่าดำนาดูดิสนีย์ออนไอซ์แรลลี่ตีกอล์ฟล่องเรือส่องสัตว์ช้อปปิ้งดูงิ้วดูละครเวทีดูคอนเสิร์ตดินเนอร์ทำขนมจัดดอกไม้เที่ยวตลาดน้ำเรียนถ่ายรูปดูกายกรรมชมเมืองเก่าเข้าสัมมนาทัวร์ธรรมมะเรียนเต้นแล้วก็ร้องเพลง"
print(word_tokenize(text, custom_dict=trie))
print(len(word_tokenize(text, custom_dict=trie)))

['อ๋อ', 'ก็', 'ว่า', 'จะ', 'ไป', 'เรียน', 'แต่งหน้า', 'นั่งสมาธิ', 'ดำน้ำ', 'ปลูก', 'ปะการัง', 'ทำอาหาร', 'นวด', 'สปา', 'ปลูกป่า', 'ดำนา', 'ดู', 'ดิสนีย์ออนไอซ์', 'แรลลี่', 'ตีกอล์ฟ', 'ล่องเรือ', 'ส่องสัตว์', 'ช้อปปิ้ง', 'ดู', 'งิ้ว', 'ดู', 'ละครเวที', 'ดู', 'คอนเสิร์ต', 'ดินเนอร์', 'ทำ', 'ขนม', 'จัด', 'ดอกไม้', 'เที่ยว', 'ตลาดน้ำ', 'เรียน', 'ถ่ายรูป', 'ดู', 'กายกรรม', 'ชม', 'เมือง', 'เก่า', 'เข้า', 'สัมมนา', 'ทัวร์', 'ธรรมมะ', 'เรียน', 'เต้น', 'แล้วก็', 'ร้องเพลง']
51
