# OVERVIEW : vrsegment


***

# PART 1. Installation
- To install vrsegment Thai words segmentation library you will need
    - python3.6
    - pip (python package manager)
    For those who have installed two softwares above you can jump to section 1.2, otherwise continue reading this section.

# 1.1 Installing Python3 and pip
- Download Python3.6 using [This Link](http://www.python.org/downloads/)
- Install using direction provided in the link.

- Python Package Manager (pip) will come builtin with python3
    - use pip3 to install python3 packages
    

# 1.2 Installing vrsegment library

- You can install the package directly by cloning out Github Repository by following directions below

    1. Clone the project to your working directory
    ```
    git clone https://github.com/sangrit-siit/vrsegment
    ```
    2. Change directory into cloned folder
   ```
   cd vrsegment
   ```
    3. Use pip3 to install the library
   ```
   pip3 install .
   ```
   
    4. You now have vrsegment library in your python3 library

***


# 2. Using vrsegment library

There are 2 algorithms implemented in this library.
    1. forwardCut
    2. backwardCut
    
Both use the idea of longest matching algorithm but with different implementation, they also are dictionary based algorithm. The dictionary(corpus) we are using will be discussed later. 

Let's first begin with the first algorithm, frontcut.

## 2.1 forwardCut

First, to import the library we use


In [16]:
import vrsegment as vr

Let's try with some test sentence 

In [22]:
test_sentence1 = "ฉันนั่งตกปลาอยู่ริมตลิ่ง"
answer = vr.forwardCut(test_sentence1)
print("|".join(answer))

ฉัน|นั่ง|ตก|ปลา|อยู่|ริม|ตลิ่ง


In [27]:
test_sentence2 = "แปลกใจฉันจริงปลาไม่กินเหยื่อ"
answer = vr.forwardCut(test_sentence2)
print("|".join(answer))

แปลกใจ|ฉัน|จริง|ปลา|ไม่|กิน|เหยื่อ


This two sentences are simple and could be handled very well.

But in practical use, there are more complex sentences and this forwardCut algorithm might not work properly.
Such as some situation below.
    - Sentences containing 'ๆ'

In [28]:
complex_sentence1 = "เรื่อยๆมาเรียงๆนกบินเฉียงไปทั้งหมู่"
answer = vr.forwardCut(complex_sentence1)
print("|".join(answer))

เรื่อยๆ|มา|ๆ|นก|บิน|เฉียง|ไป|ทั้ง|หมู่


    - Sentences containing numbers, symbol or something that isn't thai alphabets

In [38]:
complex_sentence2 = "1 2 3 Ok! Go... ไปไป"
answer = vr.forwardCut(complex_sentence2)
print("|".join(answer))

1 2 3 Ok! Go... |ไป|ไป


Though the algorithm doesn't work properly when handle non-thai alphabets. But when the algorithm handle unknown thai words or words that are not in the corpus, the algorithm still work well because we have implemented a loop that will skip some letters to look for more known words.

Try to see this case

In [39]:
unknown_sentence1 = "สาวบึงกาฬบอกรัก ก็แปลว่าฮักหลายหลาย"
answer = vr.forwardCut(unknown_sentence1)
print("|".join(answer))

สาว|บึง|ฬ|บอก| |ก็|แปล|ว่า|ฮัก|หลาย|หลาย


The words 'บึงกาฬ', 'ฮัก' are not in the corpus. But the algorithm will skip character by character to search for known words which results in segmenting an unknown words together as one word.

There are also more test cases and will be in the section XXX in which we compare two algorithms with our 100 test sentences collated from several sources such as books, newspaper or even some articles from social media.

## 2.2 backwardCut

To use backwardCut we need to

In [42]:
import vrsegment as vr

Try with those sentences above.

In [51]:
test_sentence1 = "ฉันนั่งตกปลาอยู่ริมตลิ่ง"
answer = vr.backwardCut([test_sentence1,'',''])
vr.recursivePrint(answer,"|")

ฉัน||นั่ง|ตก|ปลา|อยู่|ริม|ตลิ่ง|


In [52]:
test_sentence2 = "แปลกใจฉันจริงปลาไม่กินเหยื่อ"
answer = vr.backwardCut([test_sentence2,'',''])
vr.recursivePrint(answer,"|")

แปลกใจ||ฉัน|จริง|ปลา|ไม่|กิน|เหยื่อ|


### Remark
* using backwardCut will need to provide special list object to the function which is
  ```  
    sentence_obj = [input_sentence,'',''] 
    answer = vr.backwardCut(sentence_obj)
   ``` 
* and printing the answer must use recursive printing function with following parameters
    ```
    vr.recursivePrint(answer, "|")
    ```
* both algorithm uses the same corpus.

In [53]:
complex_sentence1 = "เรื่อยๆมาเรียงๆนกบินเฉียงไปทั้งหมู่"
answer = vr.backwardCut([complex_sentence1,'',''])
vr.recursivePrint(answer,"|")

เรื่อยๆ|มา|เรียง|ๆ|นก|บิน|เฉียง|ไป|ทั้ง|หมู่|


In [54]:
complex_sentence2 = "1 2 3 Ok! Go... ไปไป"
answer = vr.backwardCut([complex_sentence2,'',''])
vr.recursivePrint(answer,"|")

| 2 3 Ok! Go... |ไป|ไป|


In [55]:
unknown_sentence1 = "สาวบึงกาฬบอกรัก ก็แปลว่าฮักหลายหลาย"
answer = vr.backwardCut([unknown_sentence1,'',''])
vr.recursivePrint(answer,"|")

สาว|บึง|กา|ฬบอก|รัก| |ก็|แปล|ว่า|ฮัก|หลาย|หลาย|


***

# 3. Using our test case

We had collect a test set and manually create the answer key for each test set. And it could be shown by

In [56]:
import vrsegment as vr

vr.test()

Testing VRSegment
>> input:	﻿เตือนภัยสาวเล่าประสบการณ์เจอเด็กวัยสิบแปดตีหน้าเศร้าขอเงินไปจ่ายค่าเทอมแต่พบพิรุธจึงสะกดรอยตามพบนำเงินไปเติมเกมส์ก่อเหตุมาหลายครั้งมีประวัติถูกจับข้อหาลักทรัพย์อนาจาร
>> key:		เตือน|ภัย|สาว|เล่า|ประสบการณ์|เจอ|เด็ก|วัย|สิบ|แปด|ตี|หน้า|เศร้า|ขอ|เงิน|ไป|จ่าย|ค่า|เทอม|แต่|พบ|พิรุธ|จึง|สะกดรอย|ตาม|พบ|นำ|เงิน|ไป|เติม|เกมส์|ก่อ|เหตุ|มา|หลาย|ครั้ง|มี|ประวัติ|ถูก|จับ|ข้อหา|ลักทรัพย์|อนาจาร
>> output 1:	﻿|เตือนภัย|สาว|เล่า|ประสบการณ์|เจอ|เด็ก|วัย|สิบ|แปด|ตีหน้า|เศร้า|ขอ|เงิน|ไป|จ่าย|ค่า|เทอม|แต่|พบ|พิรุธ|จึง|สะกดรอย|ตาม|พบ|นำ|เงิน|ไป|เติม|เกมส์|ก่อ|เหตุ|มา|หลาย|ครั้ง|มี|ประวัติ|ถูก|จับ|ข้อ|หา|ลัก|ทรัพย์|อนาจาร
>> output 2:	||เตือนภัย|สาว|เล่า|ประสบการณ์|เจอ|เด็ก|วัย|สิบ|แปด|ตีหน้า|เศร้า|ขอ|เงิน|ไป|จ่าย|ค่า|เทอม|แต่|พบ|พิรุธ|จึง|สะกดรอย|ตาม|พบ|นำ|เงิน|ไป|เติม|เกมส์|ก่อ|เหตุ|มา|หลาย|ครั้ง|มี|ประวัติ|ถูก|จับ|ข้อ|หา|ลัก|ทรัพย์|อนาจาร|

>> input:	กรมท่าอากาศยานได้ส่งทีมวิศวกรไฟฟ้าไปตรวจสอบสาเหตุและประเมินความเสียหายพร้อมเร่งซ่อมบำรุงระบบไฟฟ้าภายในอาคาร
>> key:		กรม|ท่าอา

>> output 1:	หลายๆ|คน|จึง|ลืม|การ|เขียน|สื่อสาร|ด้วย|มือ|โดย|เฉพาะ|กับ|เด็กๆ|สมัยใหม่|ที่|ห่างเหิน|จาก|การ|เขียน|ด้วย|ลายมือ|เพราะ|เทคโนโลยี|ใน|ปัจจุบัน
>> output 2:	หลายๆ||คน|จึง|ลืม|การ|เขียน|สื่อสาร|ด้วย|มือ|โดย|เฉพาะ|กับ|เด็กๆ|สมัยใหม่|ที่|ห่างเหิน|จาก|การ|เขียน|ด้วย|ลายมือ|เพราะ|เทคโนโลยี|ใน|ปัจจุบัน|

>> input:	การเขียนช่วยพัฒนาทักษะในการใช้มือทั้งสองของเด็กปฐมวัยช่วยให้กล้ามเนื้อมัดเล็กแข็งแรงซึ่งจำเป็นอย่างยิ่งในการใช้ชีวิตประจำวัน
>> key:		การเขียน|ช่วย|พัฒนา|ทักษะ|ใน|การใช้|มือ|ทั้ง|สอง|ของ|เด็ก|ปฐมวัย|ช่วย|ให้|กล้ามเนื้อ|มัดเล็ก|แข็งแรง|ซึ่ง|จำเป็น|อย่างยิ่ง|ใน|การใช้|ชีวิต|ประจำวัน
>> output 1:	การ|เขียน|ช่วย|พัฒนา|ทักษะ|ใน|การ|ใช้|มือ|ทั้ง|สอง|ของ|เด็ก|ปฐม|วัย|ช่วย|ให้|กล้ามเนื้อ|มัด|เล็ก|แข็งแรง|ซึ่ง|จำเป็น|อย่าง|ยิ่ง|ใน|การ|ใช้|ชีวิต|ประจำวัน
>> output 2:	การ||เขียน|ช่วย|พัฒนา|ทักษะ|ใน|การ|ใช้|มือ|ทั้ง|สอง|ของ|เด็ก|ปฐม|วัย|ช่วย|ให้|กล้ามเนื้อ|มัด|เล็ก|แข็งแรง|ซึ่ง|จำเป็น|อย่าง|ยิ่ง|ใน|การ|ใช้|ชีวิต|ประจำวัน|

>> input:	การเขียนด้วยมือนั้นมีความปราณีตกว่าการพิมพ์เพราะคนเข

We could summary the result statistically as
    - Accuracy
        - calculated by 
\begin{align}
    accuracy = min{ \frac{number of correct words}{number words in answer key}, \frac{number of correct word}{number of words in output}}
\end{align}
