# PyThaiNLP Get Started

Code examples for basic functions in PyThaiNLP https://github.com/PyThaiNLP/pythainlp

In [2]:
!pip install ssg
!pip install -q https://github.com/PyThaiNLP/pythainlp/archive/dev.zip


[K     | 16.0MB 3.3MB/s
[?25h  Building wheel for pythainlp (setup.py) ... [?25l[?25hdone


## Thai Characters

PyThaiNLP provides some ready-to-use Thai character set (e.g. Thai consonants, vowels, tonemarks, symbols) as a string for convenience. There are also few utility functions to test if a string is in Thai or not.

In [3]:
import pythainlp

pythainlp.thai_characters

'กขฃคฅฆงจฉชซฌญฎฏฐฑฒณดตถทธนบปผฝพฟภมยรลวศษสหฬอฮฤฦะัาำิีึืุูเแโใไๅ็่้๊๋ฯๆฺ์ํ๎๏๚๛๐๑๒๓๔๕๖๗๘๙฿'

In [0]:
pythainlp.thai_consonants

'กขฃคฅฆงจฉชซฌญฎฏฐฑฒณดตถทธนบปผฝพฟภมยรลวศษสหฬอฮ'

In [0]:
"๔" in pythainlp.thai_digits

True

In [0]:
import pythainlp.util

pythainlp.util.isthai("ก")

True

In [0]:
pythainlp.util.isthai("(ก.พ.)")

False

In [0]:
pythainlp.util.isthai("(ก.พ.)", ignore_chars=".()")

True

In [0]:
pythainlp.util.countthai("วันอาทิตย์ที่ 24 มีนาคม 2562")

100.0

In [0]:
pythainlp.util.countthai("วันอาทิตย์ที่ 24 มีนาคม 2562", ignore_chars="")

67.85714285714286

## Collation

Sorting according to Thai dictionary.

In [0]:
from pythainlp.util import collate

thai_words = ["ค้อน", "กระดาษ", "กรรไกร", "ไข่", "ผ้าไหม"]
collate(thai_words)

['กรรไกร', 'กระดาษ', 'ไข่', 'ค้อน', 'ผ้าไหม']

In [0]:
collate(thai_words, reverse=True)

['ผ้าไหม', 'ค้อน', 'ไข่', 'กระดาษ', 'กรรไกร']

## Date and Time Format

Get Thai day and month names with Thai Buddhist Era (B.E.).
Use formatting directives similar to datetime.strftime().

In [0]:
import datetime
from pythainlp.util import thai_strftime

fmt = "%Aที่ %-d %B พ.ศ. %Y เวลา %H:%M น. (%a %d-%b-%y)"
date = datetime.datetime(1976, 10, 6, 1, 40)

thai_strftime(date, fmt)

'วันพุธที่ 6 ตุลาคม พ.ศ. 2519 เวลา 01:40 น. (พ 06-ต.ค.-19)'

## Tokenization

### Sentence and Word

Default word tokenizer ("newmm") use maximum matching algorithm.

In [0]:
from pythainlp import sent_tokenize, word_tokenize

text = "ฉันรักภาษาไทย เพราะฉันใช้ภาษาไทย "

print("sent_tokenize:", sent_tokenize(text))
print("word_tokenize:", word_tokenize(text))
print("word_tokenize, without whitespace:", word_tokenize(text, keep_whitespace=False))

sent_tokenize: ['ฉันรักภาษาไทย', 'เพราะฉันใช้ภาษาไทย']
word_tokenize: ['ฉัน', 'รัก', 'ภาษาไทย', ' ', 'เพราะ', 'ฉัน', 'ใช้', 'ภาษาไทย', ' ']
word_tokenize, without whitespace: ['ฉัน', 'รัก', 'ภาษาไทย', 'เพราะ', 'ฉัน', 'ใช้', 'ภาษาไทย']


Other algorithm can be chosen. We can also create a tokenizer with custom dictionary.

In [0]:
from pythainlp import word_tokenize, Tokenizer

text = "กฎหมายแรงงานฉบับปรับปรุงใหม่ประกาศใช้แล้ว"

print("newmm:", word_tokenize(text))  # default engine is "newmm"
print("longest:", word_tokenize(text, engine="longest"))

words = ["กฎ", "งาน"]
custom_tokenizer = Tokenizer(words)
print("custom:", custom_tokenizer.word_tokenize(text))

newmm: ['กฎหมายแรงงาน', 'ฉบับ', 'ปรับปรุง', 'ใหม่', 'ประกาศ', 'ใช้แล้ว']
longest: ['กฎหมายแรงงาน', 'ฉบับ', 'ปรับปรุง', 'ใหม่', 'ประกาศใช้', 'แล้ว']
custom: ['กฎ', 'หมายแรง', 'งาน', 'ฉบับปรับปรุงใหม่ประกาศใช้แล้ว']


Default word tokenizer use a word list from pythainlp.corpus.common.thai_words().
We can get that list, add/remove words, and create new tokenizer from the modified list.

In [0]:
from pythainlp.corpus.common import thai_words
from pythainlp import word_tokenize, Tokenizer

text = "ไอแซค อสิมอฟ"

print("newmm:", word_tokenize(text))

words = set(thai_words())  # thai_words() returns frozenset
words.add("อสิมอฟ")
custom_tokenizer = Tokenizer(words)
print("custom:", custom_tokenizer.word_tokenize(text))

newmm: ['ไอแซค', ' ', 'อสิ', 'มอ', 'ฟ']
custom: ['ไอแซค', ' ', 'อสิมอฟ']


In [0]:
speedtest_text = """
ครบรอบ 14 ปี ตากใบ เช้าวันนั้น 25 ต.ค. 2547 ผู้ชุมนุมชายกว่า 1,370 คน
ถูกโยนขึ้นรถยีเอ็มซี 22 หรือ 24 คัน นอนซ้อนกันคันละ 4-5 ชั้น เดินทางจากสถานีตำรวจตากใบ ไปไกล 150 กิโลเมตร
ไปถึงค่ายอิงคยุทธบริหาร ใช้เวลากว่า 6 ชั่วโมง / ในอีกคดีที่ญาติฟ้องร้องรัฐ คดีจบลงที่การประนีประนอมยอมความ
กระทรวงกลาโหมจ่ายค่าสินไหมทดแทนรวม 42 ล้านบาทให้กับญาติผู้เสียหาย 79 ราย
ปิดหีบและนับคะแนนเสร็จแล้ว ที่หน่วยเลือกตั้งที่ 32 เขต 13 แขวงหัวหมาก เขตบางกะปิ กรุงเทพมหานคร
ผู้สมัคร ส.ส. และตัวแทนพรรคการเมืองจากหลายพรรคต่างมาเฝ้าสังเกตการนับคะแนนอย่างใกล้ชิด โดย
ฐิติภัสร์ โชติเดชาชัยนันต์ จากพรรคพลังประชารัฐ และพริษฐ์ วัชรสินธุ จากพรรคประชาธิปัตย์ได้คะแนน
96 คะแนนเท่ากัน
เช้าวันอาทิตย์ที่ 21 เมษายน 2019 ซึ่งเป็นวันอีสเตอร์ วันสำคัญของชาวคริสต์
เกิดเหตุระเบิดต่อเนื่องในโบสถ์คริสต์และโรงแรมอย่างน้อย 7 แห่งในประเทศศรีลังกา
มีผู้เสียชีวิตแล้วอย่างน้อย 156 คน และบาดเจ็บหลายร้อยคน ยังไม่มีข้อมูลว่าผู้ก่อเหตุมาจากฝ่ายใด
จีนกำหนดจัดการประชุมข้อริเริ่มสายแถบและเส้นทางในช่วงปลายสัปดาห์นี้ ปักกิ่งยืนยันว่า
อภิมหาโครงการเชื่อมโลกของจีนไม่ใช่เครื่องมือแผ่อิทธิพล แต่ยินดีรับฟังข้อวิจารณ์ เช่น ประเด็นกับดักหนี้สิน
และความไม่โปร่งใส รัฐบาลปักกิ่งบอกว่า เวทีประชุม Belt and Road Forum ในช่วงวันที่ 25-27 เมษายน
ถือเป็นงานการทูตที่สำคัญที่สุดของจีนในปี 2019
"""

In [0]:
# Speed test: Calling "longest" engine through word_tokenize wrapper
%time tokens = word_tokenize(speedtest_text, engine="longest")

CPU times: user 1.05 s, sys: 8.68 ms, total: 1.06 s
Wall time: 1.08 s


In [0]:
# Speed test: Calling "newmm" engine through word_tokenize wrapper
%time tokens = word_tokenize(speedtest_text, engine="newmm")

CPU times: user 11.6 ms, sys: 235 µs, total: 11.8 ms
Wall time: 11.8 ms


In [0]:
# Speed test: Directly call "newmm" engine from pythainlp.tokenize.newmm
%time tokens = pythainlp.tokenize.newmm.segment(speedtest_text)

CPU times: user 10.6 ms, sys: 562 µs, total: 11.1 ms
Wall time: 12.4 ms


In [0]:
# Get all possible segmentations
from pythainlp.tokenize.multi_cut import find_all_segment, mmcut, segment

find_all_segment("มีความเป็นไปได้อย่างไรบ้าง")

['มี|ความ|เป็น|ไป|ได้|อย่าง|ไร|บ้าง|',
 'มี|ความ|เป็นไป|ได้|อย่าง|ไร|บ้าง|',
 'มี|ความ|เป็นไปได้|อย่าง|ไร|บ้าง|',
 'มี|ความเป็นไป|ได้|อย่าง|ไร|บ้าง|',
 'มี|ความเป็นไปได้|อย่าง|ไร|บ้าง|',
 'มี|ความ|เป็น|ไป|ได้|อย่างไร|บ้าง|',
 'มี|ความ|เป็นไป|ได้|อย่างไร|บ้าง|',
 'มี|ความ|เป็นไปได้|อย่างไร|บ้าง|',
 'มี|ความเป็นไป|ได้|อย่างไร|บ้าง|',
 'มี|ความเป็นไปได้|อย่างไร|บ้าง|',
 'มี|ความ|เป็น|ไป|ได้|อย่างไรบ้าง|',
 'มี|ความ|เป็นไป|ได้|อย่างไรบ้าง|',
 'มี|ความ|เป็นไปได้|อย่างไรบ้าง|',
 'มี|ความเป็นไป|ได้|อย่างไรบ้าง|',
 'มี|ความเป็นไปได้|อย่างไรบ้าง|']

### Subword and Thai Character Cluster (TCC)

According to [Character Cluster Based Thai Information Retrieval](https://www.researchgate.net/publication/2853284_Character_Cluster_Based_Thai_Information_Retrieval) (Theeramunkong et al. 2004).

In [0]:
from pythainlp import subword_tokenize

subword_tokenize("ประเทศไทย")

['ป', 'ระ', 'เท', 'ศ', 'ไท', 'ย']

Low-level TCC operations

In [0]:
from pythainlp.tokenize import tcc

tcc.segment("ประเทศไทย")

['ป', 'ระ', 'เท', 'ศ', 'ไท', 'ย']

In [0]:
tcc.tcc_pos("ประเทศไทย")  # return positions

{1, 3, 5, 6, 8, 9}

In [0]:
for ch in tcc.tcc("ประเทศไทย"):  # generator
    print(ch, end='-')

ป-ระ-เท-ศ-ไท-ย-

### Syllable Tokenization

By default, `syllable_tokenize` uses dictionary-based approach to tokenize Thai syllable from the text.

If the argument `engine` is specified as 'ssg', the [CRF syllable segmenter for Thai](https://github.com/ponrawee/ssg) will be used.



In [0]:
from pythainlp.tokenize import syllable_tokenize

In [21]:
print("default:", syllable_tokenize("Thai syllable พยางค์ในภาษาไทย"))
print("default:", syllable_tokenize("ความทุกข์ยากของชนชั้นชาวนา"))
print("default:", syllable_tokenize("พญาวสวัตตีมาราธิราช แห่งปรนิมมิตวสวัตตี ()"))


default: ['Thai', ' ', 'syllable', ' ', 'พยางค์', 'ใน', 'ภา', 'ษา', 'ไทย']
default: ['ความ', 'ทุกข์', 'ยาก', 'ของ', 'ชน', 'ชั้น', 'ชา', 'วนา']
default: ['พญา', 'วส', 'วัต', 'ตี', 'มา', 'รา', 'ธิ', 'ราช', ' ', 'แห่ง', 'ปร', 'นิ', 'ม', 'มิต', 'วส', 'วัต', 'ตี', ' ', '()']


In [22]:
print("ssg:", syllable_tokenize("Thai syllable พยางค์ในภาษาไทย", engine='ssg'))
print("ssg:", syllable_tokenize("ความทุกข์ยากของชนชั้นชาวนา", engine='ssg'))
print("ssg:", syllable_tokenize("พญาวสวัตตีมาราธิราช แห่งปรนิมมิตวสวัตตี ()", engine='ssg'))


ssg: ['Thai syllable พยางค์', 'ใน', 'ภา', 'ษา', 'ไทย']
ssg: ['ความ', 'ทุกข์', 'ยาก', 'ของ', 'ชน', 'ชั้น', 'ชาว', 'นา']
ssg: ['พญาว', 'สวัต', 'ตี', 'มา', 'รา', 'ธิ', 'ราช', ' ', 'แห่ง', 'ปร', 'นิม', 'มิต', 'วส', 'วัต', 'ตี ', '(', ')']


## Transliteration

In [0]:
from pythainlp.transliterate import romanize

romanize("แมว")

'maeo'

In [0]:
from pythainlp.transliterate import transliterate

transliterate("แมว")

'mɛːw'

In [0]:
#!pip3 install pythainlp[icu]
#transliterate("แมว", engine="icu")

## Normalization

In [0]:
from pythainlp.util import normalize

normalize("เเปลก") == "แปลก"  # เ เ ป ล ก  vs แปลก

True

## Soundex

"Soundex is a phonetic algorithm for indexing names by sound." ([Wikipedia](https://en.wikipedia.org/wiki/Soundex)). PyThaiNLP provides three kinds of Thai soundex.

In [0]:
from pythainlp.soundex import lk82, metasound, udom83

# check equivalence
print(lk82("รถ") == lk82("รด"))
print(udom83("วรร") == udom83("วัน"))
print(metasound("นพ") == metasound("นภ"))

True
True
True


In [0]:
texts = ["บูรณะ", "บูรณการ", "มัก", "มัค", "มรรค", "ลัก", "รัก", "รักษ์", ""]
for text in texts:
    print(
        "{} - lk82: {} - udom83: {} - metasound: {}".format(
            text, lk82(text), udom83(text), metasound(text)
        )
    )

บูรณะ - lk82: บE400 - udom83: บ930000 - metasound: บ550
บูรณการ - lk82: บE419 - udom83: บ931900 - metasound: บ551
มัก - lk82: ม1000 - udom83: ม100000 - metasound: ม100
มัค - lk82: ม1000 - udom83: ม100000 - metasound: ม100
มรรค - lk82: ม1000 - udom83: ม310000 - metasound: ม551
ลัก - lk82: ร1000 - udom83: ร100000 - metasound: ล100
รัก - lk82: ร1000 - udom83: ร100000 - metasound: ร100
รักษ์ - lk82: ร1000 - udom83: ร100000 - metasound: ร100
 - lk82:  - udom83:  - metasound: 


## Spellchecking

Default spellchecker uses [Peter Norvig's algorithm](http://www.norvig.com/spell-correct.html) together with word frequency from Thai National Corpus (TNC)

In [0]:
from pythainlp import spell

# list possible spellings
spell("เหลืยม")

['เหลียม', 'เหลือม']

In [0]:
from pythainlp import correct

# choose the most likely spelling
correct("เหลืยม")

'เหลียม'

## Spellchecking - Custom dictionary and word frequency

Custom dictionary can be provided when creating spellchecker.

In [0]:
from pythainlp.corpus import ttc  # Thai Textbook Corpus
from pythainlp.spell import NorvigSpellChecker

checker = NorvigSpellChecker(custom_dict=ttc.word_freqs())
print(checker.spell("เหลืยม"))
print(checker.correct("เหลืยม"))

['เหลือม']
เหลือม


In [0]:
list(checker.dictionary())[1:10]

[('ดวงๆ', 3),
 ('กระพือ', 6),
 ('อุปสมบท', 17),
 ('หาเช้ากินค่ำ', 14),
 ('จะเห็นได้ว่า', 152),
 ('ยวด', 2),
 ('กล่อม', 182),
 ('เต้า', 37),
 ('จัว', 2)]

We can also apply conditions and filter function to dictionary when creating spellchecker.

In [0]:
checker = NorvigSpellChecker()  # use default filter (remove any word with number or non-Thai character)
len(checker.dictionary())

39977

In [0]:
checker = NorvigSpellChecker(min_freq=5, min_len=2, max_len=15)
len(checker.dictionary())

30379

In [0]:
checker_no_filter = NorvigSpellChecker(dict_filter=None)  # use no filter
len(checker_no_filter.dictionary())

76706

In [0]:
def remove_yamok(word):
    return False if "ๆ" in word else True

checker_custom_filter = NorvigSpellChecker(dict_filter=remove_yamok)  # use custom filter
len(checker_custom_filter.dictionary())

76700

## Part-of-Speech Tagging

In [0]:
from pythainlp.tag import pos_tag, pos_tag_sents

pos_tag(["การ","เดินทาง"])

[('การ', 'FIXN'), ('เดินทาง', 'VACT')]

In [0]:
sents = [["ประกาศสำนักนายกฯ", " ", "ให้",
    " ", "'พล.ท.สรรเสริญ แก้วกำเนิด'", " ", "พ้นจากตำแหน่ง",
    " ", "ผู้ทรงคุณวุฒิพิเศษ", "กองทัพบก", " ", "กระทรวงกลาโหม"],
    ["และ", "แต่งตั้ง", "ให้", "เป็น", "'อธิบดีกรมประชาสัมพันธ์'"]]

pos_tag_sents(sents)

[[('ประกาศสำนักนายกฯ', 'NCMN'),
  (' ', 'PUNC'),
  ('ให้', 'JSBR'),
  (' ', 'PUNC'),
  ("'พล.ท.สรรเสริญ แก้วกำเนิด'", 'NCMN'),
  (' ', 'PUNC'),
  ('พ้นจากตำแหน่ง', 'NCMN'),
  (' ', 'PUNC'),
  ('ผู้ทรงคุณวุฒิพิเศษ', 'NCMN'),
  ('กองทัพบก', 'NCMN'),
  (' ', 'PUNC'),
  ('กระทรวงกลาโหม', 'NCMN')],
 [('และ', 'JCRG'),
  ('แต่งตั้ง', 'VACT'),
  ('ให้', 'JSBR'),
  ('เป็น', 'VSTA'),
  ("'อธิบดีกรมประชาสัมพันธ์'", 'NCMN')]]

## Named-Entity Tagging

The tagger use BIO scheme:
- B - beginning of entity
- I - inside entity
- O - outside entity

In [0]:
from pythainlp.tag.named_entity import ThaiNameTagger

ner = ThaiNameTagger()
ner.get_ner("15 ก.ย. 61 ทดสอบระบบเวลา 14:49 น. เดินทางจากกทม.ไปจังหวัดกำแพงเพชร ตั๋วราคา 297 บาท")

[('15', 'NUM', 'B-DATE'),
 (' ', 'PUNCT', 'I-DATE'),
 ('ก.ย.', 'NOUN', 'I-DATE'),
 (' ', 'PUNCT', 'I-DATE'),
 ('61', 'NUM', 'I-DATE'),
 (' ', 'PUNCT', 'O'),
 ('ทดสอบ', 'VERB', 'O'),
 ('ระบบ', 'NOUN', 'O'),
 ('เวลา', 'NOUN', 'O'),
 (' ', 'PUNCT', 'O'),
 ('14', 'NOUN', 'B-TIME'),
 (':', 'PUNCT', 'I-TIME'),
 ('49', 'NUM', 'I-TIME'),
 (' ', 'PUNCT', 'I-TIME'),
 ('น.', 'NOUN', 'I-TIME'),
 (' ', 'PUNCT', 'O'),
 ('เดินทาง', 'VERB', 'O'),
 ('จาก', 'ADP', 'O'),
 ('กทม.', 'NOUN', 'B-LOCATION'),
 ('ไป', 'AUX', 'O'),
 ('จังหวัด', 'NOUN', 'B-LOCATION'),
 ('กำแพงเพชร', 'NOUN', 'I-LOCATION'),
 (' ', 'PUNCT', 'I-MONEY'),
 ('ตั๋ว', 'NOUN', 'I-MONEY'),
 ('ราคา', 'NOUN', 'I-MONEY'),
 (' ', 'PUNCT', 'I-MONEY'),
 ('297', 'NUM', 'I-MONEY'),
 (' ', 'PUNCT', 'I-MONEY'),
 ('บาท', 'NOUN', 'I-MONEY')]

## Word Vector

In [0]:
import pythainlp.word_vector

pythainlp.word_vector.similarity("คน", "มนุษย์")

INFO:summarizer.preprocessing.cleaner:'pattern' package not found; tag filters are not available for English
INFO:gensim.models.utils_any2vec:loading projection weights from /Users/arthit/pythainlp-data/thai2vec.bin
INFO:gensim.models.utils_any2vec:loaded (60001, 400) matrix from /Users/arthit/pythainlp-data/thai2vec.bin
  if np.issubdtype(vec.dtype, np.int):


0.99259853

In [0]:
pythainlp.word_vector.doesnt_match(["คน", "มนุษย์", "บุคคล", "เจ้าหน้าที่", "แมว"])

INFO:gensim.models.keyedvectors:precomputing L2-norms of word weight vectors


'แมว'

## Number Spell Out

In [0]:
from pythainlp.util import bahttext

bahttext(1234567890123.45)

'หนึ่งล้านสองแสนสามหมื่นสี่พันห้าร้อยหกสิบเจ็ดล้านแปดแสนเก้าหมื่นหนึ่งร้อยยี่สิบสามบาทสี่สิบห้าสตางค์'

In [0]:
# bahttext() will round the satang part
bahttext(1.909)

'หนึ่งบาทเก้าสิบเอ็ดสตางค์'