# PyThaiNLP Get Started

Code examples for basic functions in PyThaiNLP https://github.com/PyThaiNLP/pythainlp

## Collation

Sorting according to Thai dictionary.

In [1]:
from pythainlp.util import collate

collate(["ไก่", "ไข่", "ก", "ฮา"])

['ก', 'ไก่', 'ไข่', 'ฮา']

## Date and Time Format

Get Thai day and month names with Buddhist Era.

In [2]:
import datetime
from pythainlp.util import thai_strftime

fmt = "%Aที่ %-d %B พ.ศ. %Y เวลา %H:%M น. (%a %d-%b-%y)"
date = datetime.datetime(1976, 10, 6, 1, 40)

thai_strftime(date, fmt)

'วันพุธที่ 6 ตุลาคม พ.ศ. 2519 เวลา 01:40 น. (พ 06-ต.ค.-19)'

## Tokenization

### Thai Character Cluster (TCC) and Extended TCC

According to [Character Cluster Based Thai Information Retrieval](https://www.researchgate.net/publication/2853284_Character_Cluster_Based_Thai_Information_Retrieval) (Theeramunkong et al. 2004).

In [3]:
from pythainlp.tokenize import tcc, etcc

tcc.tcc("ประเทศไทย")

'ป/ระ/เท/ศ/ไท/ย'

In [4]:
tcc.tcc_pos("ประเทศไทย")

{1, 3, 5, 6, 8, 9}

In [5]:
for ch in tcc.tcc_gen("ประเทศไทย"):
    print(ch, end='-')

ป-ระ-เท-ศ-ไท-ย-

In [6]:
etcc.etcc("คืนความสุข")

'/คืน/ความสุข'

### Sentence and Word

Default word tokenizer ("newmm") use maximum matching algorithm.

In [7]:
from pythainlp.tokenize import sent_tokenize, word_tokenize

text = "ฉันรักภาษาไทย เพราะฉันใช้ภาษาไทย "

print("sent_tokenize:", sent_tokenize(text))
print("word_tokenize:", word_tokenize(text))
print("word_tokenize, without whitespace:", word_tokenize(text, whitespaces=False))

sent_tokenize: ['ฉันรักภาษาไทย', 'เพราะฉันใช้ภาษาไทย']
word_tokenize: ['ฉัน', 'รัก', 'ภาษาไทย', ' ', 'เพราะ', 'ฉัน', 'ใช้', 'ภาษาไทย', ' ']
word_tokenize, without whitespace: ['ฉัน', 'รัก', 'ภาษาไทย', 'เพราะ', 'ฉัน', 'ใช้', 'ภาษาไทย']


Other algorithm can be chosen. We can also create a tokenizer with custom dictionary.

In [8]:
from pythainlp.tokenize import word_tokenize, Tokenizer

text = "กฎหมายแรงงานฉบับปรับปรุงใหม่ประกาศใช้แล้ว"

print("newmm:", word_tokenize(text))  # default engine is "newmm"
print("longest:", word_tokenize(text, engine="longest"))

words = ["กฎ", "งาน"]
custom_tokenizer = Tokenizer(words)
print("custom:", custom_tokenizer.word_tokenize(text))

newmm: ['กฎหมายแรงงาน', 'ฉบับ', 'ปรับปรุง', 'ใหม่', 'ประกาศ', 'ใช้แล้ว']
longest: ['กฎหมายแรงงาน', 'ฉบับ', 'ปรับปรุง', 'ใหม่', 'ประกาศใช้', 'แล้ว']
custom: ['กฎ', 'หมายแรง', 'งาน', 'ฉบับปรับปรุงใหม่ประกาศใช้แล้ว']


Default word tokenizer use a word list from pythainlp.corpus.common.thai_words().
We can get that list, add/remove words, and create new tokenizer from the modified list.

In [9]:
from pythainlp.corpus.common import thai_words
from pythainlp.tokenize import word_tokenize, Tokenizer

text = "ไอแซค อสิมอฟ"

print("newmm:", word_tokenize(text))

words = set(thai_words())  # thai_words() returns frozenset
words.add("อสิมอฟ")
custom_tokenizer = Tokenizer(words)
print("custom:", custom_tokenizer.word_tokenize(text))

newmm: ['ไอแซค', ' ', 'อสิ', 'มอ', 'ฟ']
custom: ['ไอแซค', ' ', 'อสิมอฟ']


## Transliteration

In [10]:
from pythainlp.transliterate import romanize

romanize("แมว")

'maeo'

In [11]:
from pythainlp.transliterate import transliterate

print(transliterate("แมว"))

mɛːw


## Normalization

In [12]:
from pythainlp.util import normalize

normalize("เเปลก") == "แปลก"  # เ เ ป ล ก  vs แปลก

True

## Soundex

"Soundex is a phonetic algorithm for indexing names by sound." ([Wikipedia](https://en.wikipedia.org/wiki/Soundex)). PyThaiNLP provides three kinds of Thai soundex.

In [13]:
from pythainlp.soundex import lk82, metasound, udom83

# check equivalence
print(lk82("รถ") == lk82("รด"))
print(udom83("วรร") == udom83("วัน"))
print(metasound("นพ") == metasound("นภ"))

True
True
True


In [14]:
texts = ["บูรณะ", "บูรณการ", "มัก", "มัค", "มรรค", "ลัก", "รัก", "รักษ์", ""]
for text in texts:
    print(
        "{} - lk82: {} - udom83: {} - metasound: {}".format(
            text, lk82(text), udom83(text), metasound(text)
        )
    )

บูรณะ - lk82: บE400 - udom83: บ930000 - metasound: บ550
บูรณการ - lk82: บE419 - udom83: บ931900 - metasound: บ551
มัก - lk82: ม1000 - udom83: ม100000 - metasound: ม100
มัค - lk82: ม1000 - udom83: ม100000 - metasound: ม100
มรรค - lk82: ม1000 - udom83: ม310000 - metasound: ม551
ลัก - lk82: ร1000 - udom83: ร100000 - metasound: ล100
รัก - lk82: ร1000 - udom83: ร100000 - metasound: ร100
รักษ์ - lk82: ร1000 - udom83: ร100000 - metasound: ร100
 - lk82:  - udom83:  - metasound: 


## Spellchecking

Default spellchecker uses [Peter Norvig's algorithm](http://www.norvig.com/spell-correct.html) together with word frequency from Thai National Corpus (TNC)

In [15]:
from pythainlp.spell import spell

# list possible spellings
spell("เหลืยม")

['เหลียม', 'เหลือม']

In [16]:
from pythainlp.spell import correct

# choose the most likely spelling
correct("เหลืยม")

'เหลียม'

## Spellchecking - Custom dictionary and word frequency

Custom dictionary can be provided when creating spellchecker.

In [17]:
from pythainlp.corpus import ttc
from pythainlp.spell.pn import NorvigSpellChecker

checker = NorvigSpellChecker(custom_dict=ttc.word_freqs())
print(checker.spell("เหลืยม"))
print(checker.correct("เหลืยม"))

['เหลือม']
เหลือม


In [18]:
list(checker.dictionary())[1:10]

[('จะ', 51681),
 ('เป็น', 51273),
 ('ไป', 46567),
 ('ก็', 46409),
 ('ไม่', 45895),
 ('มี', 44899),
 ('ได้', 44513),
 ('ว่า', 40290),
 ('ให้', 38715)]

We can also apply conditions and filter function to dictionary when creating spellchecker.

In [19]:
checker = NorvigSpellChecker()  # use default filter (remove any word with number or non-Thai character)
len(checker.dictionary())

39977

In [20]:
checker = NorvigSpellChecker(min_freq=5, min_len=2, max_len=15)
len(checker.dictionary())

30379

In [21]:
checker_no_filter = NorvigSpellChecker(dict_filter=None)  # use no filter
len(checker_no_filter.dictionary())

76706

In [22]:
def remove_yamok(word):
    return False if "ๆ" in word else True

checker_custom_filter = NorvigSpellChecker(dict_filter=remove_yamok)  # use custom filter
len(checker_custom_filter.dictionary())

76700

## Named-Entity Tagging

The tagger use BIO scheme:
- B - beginning of entity
- I - inside entity
- O - outside entity

In [23]:
from pythainlp.tag.named_entity import ThaiNameTagger

ner = ThaiNameTagger()
ner.get_ner("วันที่ 15 ก.ย. 61 ทดสอบระบบเวลา 14:49 น.")

[('วันที่', 'NOUN', 'O'),
 (' ', 'PUNCT', 'O'),
 ('15', 'NUM', 'B-DATE'),
 (' ', 'PUNCT', 'I-DATE'),
 ('ก.ย.', 'NOUN', 'I-DATE'),
 (' ', 'PUNCT', 'I-DATE'),
 ('61', 'NUM', 'I-DATE'),
 (' ', 'PUNCT', 'O'),
 ('ทดสอบ', 'VERB', 'O'),
 ('ระบบ', 'NOUN', 'O'),
 ('เวลา', 'NOUN', 'O'),
 (' ', 'PUNCT', 'O'),
 ('14', 'NOUN', 'B-TIME'),
 (':', 'PUNCT', 'I-TIME'),
 ('49', 'NUM', 'I-TIME'),
 (' ', 'PUNCT', 'I-TIME'),
 ('น.', 'NOUN', 'I-TIME')]