# PyThaiNLP Get Started

Code examples for basic functions in PyThaiNLP https://github.com/PyThaiNLP/pythainlp

In [1]:
# # pip install required modules
# # uncomment if running from colab
# # see list of modules in `requirements` and `extras`
# # in https://github.com/PyThaiNLP/pythainlp/blob/dev/setup.py

#!pip install https://github.com/PyThaiNLP/pythainlp/archive/v2.1.4.zip
#!pip install epitran
#!pip install sklearn_crfsuite

## Import PyThaiNLP

In [2]:
import pythainlp

pythainlp.__version__

'2.1.4'

## Thai Characters

PyThaiNLP provides some ready-to-use Thai character set (e.g. Thai consonants, vowels, tonemarks, symbols) as a string for convenience. There are also few utility functions to test if a string is in Thai or not.

In [3]:
pythainlp.thai_characters

'กขฃคฅฆงจฉชซฌญฎฏฐฑฒณดตถทธนบปผฝพฟภมยรลวศษสหฬอฮฤฦะัาำิีึืุูเแโใไๅ็่้๊๋ฯๆฺ์ํ๎๏๚๛๐๑๒๓๔๕๖๗๘๙฿'

In [4]:
len(pythainlp.thai_characters)

87

In [5]:
pythainlp.thai_consonants

'กขฃคฅฆงจฉชซฌญฎฏฐฑฒณดตถทธนบปผฝพฟภมยรลวศษสหฬอฮ'

In [6]:
len(pythainlp.thai_consonants)

44

In [7]:
"๔" in pythainlp.thai_digits  # check if Thai digit "4" is in the character set

True

## Checking if a string contains Thai character or not, or how many

In [8]:
import pythainlp.util

pythainlp.util.isthai("ก")

True

In [9]:
pythainlp.util.isthai("(ก.พ.)")

False

In [10]:
pythainlp.util.isthai("(ก.พ.)", ignore_chars=".()")

True

In [11]:
pythainlp.util.countthai("วันอาทิตย์ที่ 24 มีนาคม 2562")

100.0

In [12]:
pythainlp.util.countthai("วันอาทิตย์ที่ 24 มีนาคม 2562", ignore_chars="")

67.85714285714286

## Collation

Sorting according to Thai dictionary.

In [13]:
from pythainlp.util import collate

thai_words = ["ค้อน", "กระดาษ", "กรรไกร", "ไข่", "ผ้าไหม"]
collate(thai_words)

['กรรไกร', 'กระดาษ', 'ไข่', 'ค้อน', 'ผ้าไหม']

In [14]:
collate(thai_words, reverse=True)

['ผ้าไหม', 'ค้อน', 'ไข่', 'กระดาษ', 'กรรไกร']

## Date/Time Format and Spellout

### Date/Time Format

Get Thai day and month names with Thai Buddhist Era (B.E.).
Use [formatting directives](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes) similar to `datetime.strftime()`.

In [15]:
import datetime
from pythainlp.util import thai_strftime

fmt = "%Aที่ %-d %B พ.ศ. %Y เวลา %H:%M น. (%a %d-%b-%y)"
date = datetime.datetime(1976, 10, 6, 1, 40)

thai_strftime(date, fmt)

'วันพุธที่ 6 ตุลาคม พ.ศ. 2519 เวลา 01:40 น. (พ 06-ต.ค.-19)'

From version 2.2, these modifiers can be applied right before the main directive:

- \- *(minus)* Do not pad a numeric result string (also available in version 2.1)
- _ *(underscore)* Pad a numeric result string with spaces
- 0 *(zero)* Pad a number result string with zeros
- ^ Convert alphabetic characters in result string to upper case
- \# Swap the case of the result string
- O *(letter o)* Use the locale's alternative numeric symbols (Thai digit)

### Time Spellout

*Note: `thai_time()` will be renamed to `time_to_thaiword()` in version 2.2.*

In [16]:
from pythainlp.util import thai_time

thai_time("00:14:29")

'ศูนย์นาฬิกาสิบสี่นาทียี่สิบเก้าวินาที'

The way to spellout can be chosen, using `fmt` parameter.
It can be `24h`, `6h`, or `m6h`. Try one by yourself.

In [17]:
thai_time("00:14:29", fmt="6h")

'เที่ยงคืนสิบสี่นาทียี่สิบเก้าวินาที'

Precision of spellout can be chosen as well. Using `precision` parameter.
It can be `m` for minute-level, `s` for second-level, or `None` for only read the non-zero value.

In [18]:
thai_time("00:14:29", precision="m")

'ศูนย์นาฬิกาสิบสี่นาที'

In [19]:
print(thai_time("8:17:00", fmt="6h"))
print(thai_time("8:17:00", fmt="m6h", precision="s"))
print(thai_time("18:30:01", fmt="m6h", precision="m"))
print(thai_time("13:30:01", fmt="6h", precision="m"))

สองโมงเช้าสิบเจ็ดนาที
แปดโมงสิบเจ็ดนาทีศูนย์วินาที
หกโมงครึ่ง
บ่ายโมงครึ่ง


We can also pass `datetime` and `time` objects to `thai_time()`.

In [20]:
import datetime

time = datetime.time(13, 14, 15)
thai_time(time)

'สิบสามนาฬิกาสิบสี่นาทีสิบห้าวินาที'

In [21]:
time = datetime.datetime(10, 11, 12, 13, 14, 15)
thai_time(time, fmt="6h", precision="m")

'บ่ายโมงสิบสี่นาที'

## Tokenization

### Sentence and Word

Default word tokenizer ("newmm") use maximum matching algorithm.

In [22]:
from pythainlp import sent_tokenize, word_tokenize

text = "ฉันรักภาษาไทย     เพราะฉันใช้ภาษาไทย "

print("sent_tokenize:", sent_tokenize(text))
print("word_tokenize:", word_tokenize(text))
print("word_tokenize, without whitespace:", word_tokenize(text, keep_whitespace=False))

sent_tokenize: ['ฉันรักภาษาไทย', 'เพราะฉันใช้ภาษาไทย']
word_tokenize: ['ฉัน', 'รัก', 'ภาษาไทย', '     ', 'เพราะ', 'ฉัน', 'ใช้', 'ภาษาไทย', ' ']
word_tokenize, without whitespace: ['ฉัน', 'รัก', 'ภาษาไทย', 'เพราะ', 'ฉัน', 'ใช้', 'ภาษาไทย']


Other algorithm can be chosen. We can also create a tokenizer with custom dictionary.

In [23]:
from pythainlp import word_tokenize, Tokenizer

text = "กฎหมายแรงงานฉบับปรับปรุงใหม่ประกาศใช้แล้ว"

print("newmm  :", word_tokenize(text))  # default engine is "newmm"
print("longest:", word_tokenize(text, engine="longest"))

words = ["แรงงาน"]
custom_tokenizer = Tokenizer(words)
print("newmm (custom dictionary):", custom_tokenizer.word_tokenize(text))

newmm  : ['กฎหมายแรงงาน', 'ฉบับ', 'ปรับปรุง', 'ใหม่', 'ประกาศ', 'ใช้แล้ว']
longest: ['กฎหมายแรงงาน', 'ฉบับ', 'ปรับปรุง', 'ใหม่', 'ประกาศใช้', 'แล้ว']
newmm (custom dictionary): ['กฎหมาย', 'แรงงาน', 'ฉบับปรับปรุงใหม่ประกาศใช้แล้ว']


Default word tokenizer use a word list from `pythainlp.corpus.common.thai_words()`.
We can get that list, add/remove words, and create new tokenizer from the modified list.

In [24]:
from pythainlp.corpus.common import thai_words
from pythainlp import Tokenizer

text = "นิยายวิทยาศาสตร์ของไอแซค อสิมอฟ"

print("default dictionary:", word_tokenize(text))

words = set(thai_words())  # thai_words() returns frozenset
words.add("ไอแซค")  # Isaac
words.add("อสิมอฟ")  # Asimov
custom_tokenizer = Tokenizer(words)
print("custom dictionary :", custom_tokenizer.word_tokenize(text))

default dictionary: ['นิยาย', 'วิทยาศาสตร์', 'ของ', 'ไอแซค', ' ', 'อสิ', 'มอ', 'ฟ']
custom dictionary : ['นิยาย', 'วิทยาศาสตร์', 'ของ', 'ไอแซค', ' ', 'อสิมอฟ']


We can also, alternatively, create a dictionary trie, using `pythainlp.tokenize.dict_trie()` function, and pass it to a default tokenizer.

In [25]:
from pythainlp.corpus.common import thai_words
from pythainlp.tokenize import dict_trie

text = "ILO87 ว่าด้วยเสรีภาพในการสมาคมและการคุ้มครองสิทธิในการรวมตัว ILO98 ว่าด้วยสิทธิในการรวมตัวและการร่วมเจรจาต่อรอง"

print("default dictionary:", word_tokenize(text))

new_words = {"ILO87", "ILO98", "การร่วมเจรจาต่อรอง", "สิทธิในการรวมตัว", "เสรีภาพในการสมาคม", "แรงงานสัมพันธ์"}
words = new_words.union(thai_words())

custom_dictionary_trie = dict_trie(words)
print("custom dictionary :", word_tokenize(text, custom_dict=custom_dictionary_trie))

default dictionary: ['ILO', '87', ' ', 'ว่าด้วย', 'เสรีภาพ', 'ใน', 'การสมาคม', 'และ', 'การ', 'คุ้มครอง', 'สิทธิ', 'ใน', 'การ', 'รวมตัว', ' ', 'ILO', '98', ' ', 'ว่าด้วย', 'สิทธิ', 'ใน', 'การ', 'รวมตัว', 'และ', 'การ', 'ร่วม', 'เจรจา', 'ต่อรอง']
custom dictionary : ['ILO87', ' ', 'ว่าด้วย', 'เสรีภาพในการสมาคม', 'และ', 'การ', 'คุ้มครอง', 'สิทธิในการรวมตัว', ' ', 'ILO98', ' ', 'ว่าด้วย', 'สิทธิในการรวมตัว', 'และ', 'การร่วมเจรจาต่อรอง']


Testing different tokenization engines

In [26]:
speedtest_text = """
ครบรอบ 14 ปี ตากใบ เช้าวันนั้น 25 ต.ค. 2547 ผู้ชุมนุมชายกว่า 1,370 คน
ถูกโยนขึ้นรถยีเอ็มซี 22 หรือ 24 คัน นอนซ้อนกันคันละ 4-5 ชั้น เดินทางจากสถานีตำรวจตากใบ ไปไกล 150 กิโลเมตร
ไปถึงค่ายอิงคยุทธบริหาร ใช้เวลากว่า 6 ชั่วโมง / ในอีกคดีที่ญาติฟ้องร้องรัฐ คดีจบลงที่การประนีประนอมยอมความ
กระทรวงกลาโหมจ่ายค่าสินไหมทดแทนรวม 42 ล้านบาทให้กับญาติผู้เสียหาย 79 ราย
ปิดหีบและนับคะแนนเสร็จแล้ว ที่หน่วยเลือกตั้งที่ 32 เขต 13 แขวงหัวหมาก เขตบางกะปิ กรุงเทพมหานคร
ผู้สมัคร ส.ส. และตัวแทนพรรคการเมืองจากหลายพรรคต่างมาเฝ้าสังเกตการนับคะแนนอย่างใกล้ชิด โดย
ฐิติภัสร์ โชติเดชาชัยนันต์ จากพรรคพลังประชารัฐ และพริษฐ์ วัชรสินธุ จากพรรคประชาธิปัตย์ได้คะแนน
96 คะแนนเท่ากัน
เช้าวันอาทิตย์ที่ 21 เมษายน 2019 ซึ่งเป็นวันอีสเตอร์ วันสำคัญของชาวคริสต์
เกิดเหตุระเบิดต่อเนื่องในโบสถ์คริสต์และโรงแรมอย่างน้อย 7 แห่งในประเทศศรีลังกา
มีผู้เสียชีวิตแล้วอย่างน้อย 156 คน และบาดเจ็บหลายร้อยคน ยังไม่มีข้อมูลว่าผู้ก่อเหตุมาจากฝ่ายใด
จีนกำหนดจัดการประชุมข้อริเริ่มสายแถบและเส้นทางในช่วงปลายสัปดาห์นี้ ปักกิ่งยืนยันว่า
อภิมหาโครงการเชื่อมโลกของจีนไม่ใช่เครื่องมือแผ่อิทธิพล แต่ยินดีรับฟังข้อวิจารณ์ เช่น ประเด็นกับดักหนี้สิน
และความไม่โปร่งใส รัฐบาลปักกิ่งบอกว่า เวทีประชุม Belt and Road Forum ในช่วงวันที่ 25-27 เมษายน
ถือเป็นงานการทูตที่สำคัญที่สุดของจีนในปี 2019
"""

In [27]:
# Speed test: Calling "longest" engine through word_tokenize wrapper
%time tokens = word_tokenize(speedtest_text, engine="longest")

CPU times: user 339 ms, sys: 2.66 ms, total: 342 ms
Wall time: 340 ms


In [28]:
# Speed test: Calling "newmm" engine through word_tokenize wrapper
%time tokens = word_tokenize(speedtest_text, engine="newmm")

CPU times: user 3.55 ms, sys: 67 µs, total: 3.62 ms
Wall time: 3.62 ms


In [29]:
# Speed test: Calling "newmm" engine through word_tokenize wrapper
%time tokens = word_tokenize(speedtest_text, engine="newmm-safe")

CPU times: user 4.37 ms, sys: 0 ns, total: 4.37 ms
Wall time: 4.37 ms


In [30]:
#!pip install attacut
# Speed test: Calling "attacut" engine through word_tokenize wrapper
%time tokens = word_tokenize(speedtest_text, engine="attacut")

CPU times: user 675 ms, sys: 138 ms, total: 813 ms
Wall time: 783 ms


In [31]:
#!pip install tensorflow deepcut
# Speed test: Calling "deepcut" engine through word_tokenize wrapper
%time tokens = word_tokenize(speedtest_text, engine="deepcut")

ModuleNotFoundError: No module named 'tensorflow.compiler'

Get all possible segmentations

In [32]:
from pythainlp.tokenize.multi_cut import find_all_segment, mmcut, segment

find_all_segment("มีความเป็นไปได้อย่างไรบ้าง")

['มี|ความ|เป็น|ไป|ได้|อย่าง|ไร|บ้าง|',
 'มี|ความ|เป็นไป|ได้|อย่าง|ไร|บ้าง|',
 'มี|ความ|เป็นไปได้|อย่าง|ไร|บ้าง|',
 'มี|ความเป็นไป|ได้|อย่าง|ไร|บ้าง|',
 'มี|ความเป็นไปได้|อย่าง|ไร|บ้าง|',
 'มี|ความ|เป็น|ไป|ได้|อย่างไร|บ้าง|',
 'มี|ความ|เป็นไป|ได้|อย่างไร|บ้าง|',
 'มี|ความ|เป็นไปได้|อย่างไร|บ้าง|',
 'มี|ความเป็นไป|ได้|อย่างไร|บ้าง|',
 'มี|ความเป็นไปได้|อย่างไร|บ้าง|',
 'มี|ความ|เป็น|ไป|ได้|อย่างไรบ้าง|',
 'มี|ความ|เป็นไป|ได้|อย่างไรบ้าง|',
 'มี|ความ|เป็นไปได้|อย่างไรบ้าง|',
 'มี|ความเป็นไป|ได้|อย่างไรบ้าง|',
 'มี|ความเป็นไปได้|อย่างไรบ้าง|']

### Subword, syllable, and Thai Character Cluster (TCC)

Tokenization can also be done at subword level, either syllable or Thai Character Cluster (TCC).

- Syllable segmentation is using [`ssg`](https://github.com/ponrawee/ssg), a CRF syllable segmenter for Thai by Ponrawee Prasertsom.
- TCC is smaller than syllable. For information about TCC, see [Character Cluster Based Thai Information Retrieval](https://www.researchgate.net/publication/2853284_Character_Cluster_Based_Thai_Information_Retrieval) (Theeramunkong et al. 2004).

#### Subword tokenization
Default subword tokenization engine is `tcc`, which will use Thai Character Cluster (TCC) as a subword unit.

In [33]:
from pythainlp import subword_tokenize

subword_tokenize("ประเทศไทย")  # default subword unit is TCC

['ป', 'ระ', 'เท', 'ศ', 'ไท', 'ย']

#### Syllable tokenization
Default syllable tokenization engine is `dict`, which will use `newmm` word tokenization engine with a custom dictionary contains known syllables in Thai language.

In [34]:
from pythainlp.tokenize import syllable_tokenize

text = "อับดุลเลาะ อีซอมูซอ สมองบวมรุนแรง"

syllable_tokenize(text)  # default engine is "dict"

['อับ',
 'ดุล',
 'เลาะ',
 ' ',
 'อี',
 'ซอ',
 'มู',
 'ซอ',
 ' ',
 'สมอง',
 'บวม',
 'รุน',
 'แรง']

External [`ssg`](https://github.com/ponrawee/ssg) engine call be called. Note that `ssg` engine ommitted whitespaces in the output tokens.

In [35]:
syllable_tokenize(text, engine="ssg")  # use "ssg" for syllable

['อับ', 'ดุล', 'เลาะ', ' อี', 'ซอ', 'มู', 'ซอ ', 'สมอง', 'บวม', 'รุน', 'แรง']

#### Low-level subword operations

These low-level TCC operations can be useful for some pre-processing tasks. Like checking if it's ok to cut a string at a certain point or to find typos.

In [36]:
from pythainlp.tokenize import tcc

tcc.segment("ประเทศไทย")

['ป', 'ระ', 'เท', 'ศ', 'ไท', 'ย']

In [37]:
tcc.tcc_pos("ประเทศไทย")  # return positions

{1, 3, 5, 6, 8, 9}

In [38]:
for ch in tcc.tcc("ประเทศไทย"):  # TCC generator
    print(ch, end='-')

ป-ระ-เท-ศ-ไท-ย-

## Transliteration

There are two types of transliteration here: romanization and transliteration.

- Romanization will render Thai words in the Latin alphabet using the [Royal Thai General System of Transcription (RTGS)](https://en.wikipedia.org/wiki/Royal_Thai_General_System_of_Transcription).
  - Two engines are supported here: a simple `royin` engine (default) and a more accurate `thai2rom` engine.
- Transliteration here, in PyThaiNLP context, means the sound representation of a string.
  - Two engines are supported here: `ipa` (International Phonetic Alphabet system, using [Epitran](https://github.com/dmort27/epitran)) (default) and `icu` (International Components for Unicode, using [PyICU](https://github.com/ovalhub/pyicu)).

In [39]:
from pythainlp.transliterate import romanize

romanize("แมว")  # output: 'maeo'

'maeo'

In [40]:
romanize("ภาพยนตร์")  # output: 'phapn' (*obviously wrong)

'phapn'

In [41]:
from pythainlp.transliterate import transliterate

transliterate("แมว")  # output: 'mɛːw'

'mɛːw'

In [42]:
transliterate("ภาพยนตร์")  # output: 'pʰaːpjanot'

'pʰaːpjanot'

## Normalization

In [43]:
from pythainlp.util import normalize

normalize("เเปลก") == "แปลก"  # เ เ ป ล ก  vs แ ป ล ก

True

## Soundex

"Soundex is a phonetic algorithm for indexing names by sound." ([Wikipedia](https://en.wikipedia.org/wiki/Soundex)). PyThaiNLP provides three kinds of Thai soundex.

In [44]:
from pythainlp.soundex import lk82, metasound, udom83

# check equivalence
print(lk82("รถ") == lk82("รด"))
print(udom83("วรร") == udom83("วัน"))
print(metasound("นพ") == metasound("นภ"))

True
True
True


In [45]:
texts = ["บูรณะ", "บูรณการ", "มัก", "มัค", "มรรค", "ลัก", "รัก", "รักษ์", ""]
for text in texts:
    print(
        "{} - lk82: {} - udom83: {} - metasound: {}".format(
            text, lk82(text), udom83(text), metasound(text)
        )
    )

บูรณะ - lk82: บE400 - udom83: บ930000 - metasound: บ550
บูรณการ - lk82: บE419 - udom83: บ931900 - metasound: บ551
มัก - lk82: ม1000 - udom83: ม100000 - metasound: ม100
มัค - lk82: ม1000 - udom83: ม100000 - metasound: ม100
มรรค - lk82: ม1000 - udom83: ม310000 - metasound: ม551
ลัก - lk82: ร1000 - udom83: ร100000 - metasound: ล100
รัก - lk82: ร1000 - udom83: ร100000 - metasound: ร100
รักษ์ - lk82: ร1000 - udom83: ร100000 - metasound: ร100
 - lk82:  - udom83:  - metasound: 


## Spellchecking

Default spellchecker uses [Peter Norvig's algorithm](http://www.norvig.com/spell-correct.html) together with word frequency from Thai National Corpus (TNC)

In [46]:
from pythainlp import spell

# list possible spellings
spell("เหลืยม")

['เหลียม', 'เหลือม']

In [47]:
from pythainlp import correct

# choose the most likely spelling
correct("เหลืยม")

'เหลียม'

## Spellchecking - Custom dictionary and word frequency

Custom dictionary can be provided when creating spellchecker.

In [48]:
from pythainlp.corpus import ttc  # Thai Textbook Corpus
from pythainlp.spell import NorvigSpellChecker

checker = NorvigSpellChecker(custom_dict=ttc.word_freqs())
print(checker.spell("เหลืยม"))
print(checker.correct("เหลืยม"))

['เหลือม']
เหลือม


In [49]:
list(checker.dictionary())[1:10]

[('ลงอาชญา', 3),
 ('เกะ', 3),
 ('โพล่ง', 28),
 ('วิลาวัณย์', 2),
 ('สนเท่ห์', 22),
 ('กรณีย์', 4),
 ('จ่าย', 196),
 ('ถี่ถ้วน', 65),
 ('ควับ', 6)]

We can also apply conditions and filter function to dictionary when creating spellchecker.

In [50]:
checker = NorvigSpellChecker()  # use default filter (remove any word with number or non-Thai character)
len(checker.dictionary())

39963

In [51]:
checker = NorvigSpellChecker(min_freq=5, min_len=2, max_len=15)
len(checker.dictionary())

30376

In [52]:
checker_no_filter = NorvigSpellChecker(dict_filter=None)  # use no filter
len(checker_no_filter.dictionary())

66209

In [53]:
def remove_yamok(word):
    return False if "ๆ" in word else True

checker_custom_filter = NorvigSpellChecker(dict_filter=remove_yamok)  # use custom filter
len(checker_custom_filter.dictionary())

66204

## Part-of-Speech Tagging

In [54]:
from pythainlp.tag import pos_tag, pos_tag_sents

pos_tag(["การ","เดินทาง"])

[('การ', 'FIXN'), ('เดินทาง', 'VACT')]

In [55]:
sents = [["ประกาศสำนักนายกฯ", " ", "ให้",
    " ", "'พล.ท.สรรเสริญ แก้วกำเนิด'", " ", "พ้นจากตำแหน่ง",
    " ", "ผู้ทรงคุณวุฒิพิเศษ", "กองทัพบก", " ", "กระทรวงกลาโหม"],
    ["และ", "แต่งตั้ง", "ให้", "เป็น", "'อธิบดีกรมประชาสัมพันธ์'"]]

pos_tag_sents(sents)

[[('ประกาศสำนักนายกฯ', 'NCMN'),
  (' ', 'PUNC'),
  ('ให้', 'JSBR'),
  (' ', 'PUNC'),
  ("'พล.ท.สรรเสริญ แก้วกำเนิด'", 'NCMN'),
  (' ', 'PUNC'),
  ('พ้นจากตำแหน่ง', 'NCMN'),
  (' ', 'PUNC'),
  ('ผู้ทรงคุณวุฒิพิเศษ', 'NCMN'),
  ('กองทัพบก', 'NCMN'),
  (' ', 'PUNC'),
  ('กระทรวงกลาโหม', 'NCMN')],
 [('และ', 'JCRG'),
  ('แต่งตั้ง', 'VACT'),
  ('ให้', 'JSBR'),
  ('เป็น', 'VSTA'),
  ("'อธิบดีกรมประชาสัมพันธ์'", 'NCMN')]]

## Named-Entity Tagging

The tagger use BIO scheme:
- B - beginning of entity
- I - inside entity
- O - outside entity

In [56]:
#!pip3 install pythainlp[ner]
from pythainlp.tag.named_entity import ThaiNameTagger

ner = ThaiNameTagger()
ner.get_ner("15 ก.ย. 61 ทดสอบระบบเวลา 14:49 น. เดินทางจากกทม.ไปจังหวัดกำแพงเพชร ตั๋วราคา 297 บาท")

Corpus: thainer-1-3
- Downloading: thainer-1-3 1.3


100%|██████████| 1872468/1872468 [00:00<00:00, 2564163.68it/s]


[('15', 'NUM', 'B-DATE'),
 (' ', 'PUNCT', 'I-DATE'),
 ('ก.ย.', 'NOUN', 'I-DATE'),
 (' ', 'PUNCT', 'I-DATE'),
 ('61', 'NUM', 'I-DATE'),
 (' ', 'PUNCT', 'O'),
 ('ทดสอบ', 'VERB', 'O'),
 ('ระบบ', 'NOUN', 'O'),
 ('เวลา', 'NOUN', 'O'),
 (' ', 'PUNCT', 'O'),
 ('14', 'NOUN', 'B-TIME'),
 (':', 'PUNCT', 'I-TIME'),
 ('49', 'NUM', 'I-TIME'),
 (' ', 'PUNCT', 'I-TIME'),
 ('น.', 'NOUN', 'I-TIME'),
 (' ', 'PUNCT', 'O'),
 ('เดินทาง', 'VERB', 'O'),
 ('จาก', 'ADP', 'O'),
 ('กทม.', 'NOUN', 'B-LOCATION'),
 ('ไป', 'AUX', 'O'),
 ('จังหวัด', 'NOUN', 'B-LOCATION'),
 ('กำแพงเพชร', 'NOUN', 'I-LOCATION'),
 (' ', 'PUNCT', 'O'),
 ('ตั๋ว', 'NOUN', 'O'),
 ('ราคา', 'NOUN', 'O'),
 (' ', 'PUNCT', 'O'),
 ('297', 'NUM', 'B-MONEY'),
 (' ', 'PUNCT', 'I-MONEY'),
 ('บาท', 'NOUN', 'I-MONEY')]

## Word Vector

In [57]:
import pythainlp.word_vector

pythainlp.word_vector.similarity("คน", "มนุษย์")

0.2504981

In [58]:
pythainlp.word_vector.doesnt_match(["คน", "มนุษย์", "บุคคล", "เจ้าหน้าที่", "ไก่"])

  vectors = vstack(self.word_vec(word, use_norm=True) for word in used_words).astype(REAL)


'ไก่'

## Number Spell Out

In [59]:
from pythainlp.util import bahttext

bahttext(1234567890123.45)

'หนึ่งล้านสองแสนสามหมื่นสี่พันห้าร้อยหกสิบเจ็ดล้านแปดแสนเก้าหมื่นหนึ่งร้อยยี่สิบสามบาทสี่สิบห้าสตางค์'

In [60]:
# bahttext() will round the satang part
bahttext(1.909)

'หนึ่งบาทเก้าสิบเอ็ดสตางค์'