In [1]:
!pip install pythainlp

Collecting pythainlp
  Downloading pythainlp-2.3.2-py3-none-any.whl (11.0 MB)
[K     |████████████████████████████████| 11.0 MB 23.0 MB/s 
[?25hCollecting python-crfsuite>=0.9.6
  Downloading python_crfsuite-0.9.7-cp37-cp37m-manylinux1_x86_64.whl (743 kB)
[K     |████████████████████████████████| 743 kB 38.4 MB/s 
Collecting tinydb>=3.0
  Downloading tinydb-4.5.2-py3-none-any.whl (23 kB)
Installing collected packages: tinydb, python-crfsuite, pythainlp
Successfully installed pythainlp-2.3.2 python-crfsuite-0.9.7 tinydb-4.5.2


In [2]:
import pythainlp

In [3]:
#check for Thai character

pythainlp.util.isthai("เอไอเอส")

True

In [4]:
#sorting according to Thai dictionary

words = ["กิน", "กัน", "ก่อน"]

pythainlp.util.collate(words)

['ก่อน', 'กัน', 'กิน']

# **Word Tokenization**

In [5]:
text = "ครอบคลุมทุกไลฟ์สไตล์ ทั้ง กินดื่ม ฟู้ดเดลิเวอรี ช้อปปิ้ง สุขภาพ และการแพทย์"

In [6]:
#maximum matching algorithm (default)

print(pythainlp.word_tokenize(text, engine="newmm"))

['ครอบคลุม', 'ทุก', 'ไลฟ์สไตล์', ' ', 'ทั้ง', ' ', 'กิน', 'ดื่ม', ' ', 'ฟู้ด', 'เด', 'ลิ', 'เวอ', 'รี', ' ', 'ช้อปปิ้ง', ' ', 'สุขภาพ', ' ', 'และ', 'การแพทย์']


In [7]:
#logest algorithm

print(pythainlp.word_tokenize(text, engine="longest"))

['ครอบคลุม', 'ทุก', 'ไลฟ์สไตล์', ' ', 'ทั้ง', ' ', 'กิน', 'ดื่ม', ' ', 'ฟู้ด', 'เด', 'ลิ', 'เวอ', 'รี', ' ', 'ช้อปปิ้ง', ' ', 'สุขภาพ', ' ', 'และ', 'การแพทย์']


In [8]:
from pythainlp.corpus.common import thai_words
from pythainlp.util import Trie

new_words = {"ฟู้ดเดลิเวอรี"}

words = new_words.union(thai_words())

custom_dictionary_trie = Trie(words)

print(pythainlp.word_tokenize(text, custom_dict=custom_dictionary_trie))

['ครอบคลุม', 'ทุก', 'ไลฟ์สไตล์', ' ', 'ทั้ง', ' ', 'กิน', 'ดื่ม', ' ', 'ฟู้ดเดลิเวอรี', ' ', 'ช้อปปิ้ง', ' ', 'สุขภาพ', ' ', 'และ', 'การแพทย์']


In [9]:
#syllable tokenization

from pythainlp.tokenize import syllable_tokenize

text = "เอไอเอส"

syllable_tokenize(text)

['เอ', 'ไอ', 'เอส']

In [10]:
#romanize

from pythainlp.transliterate import romanize

text = "เอไอเอส"

romanize(text)

'oeaiet'

In [11]:
#Soundex

from pythainlp.soundex import lk82, metasound, udom83

print(lk82("รถ") == lk82("รด"))
print(metasound("รถ") == metasound("รด"))
print(udom83("รถ") == udom83("รด"))

True
False
False


In [12]:
texts = ["รถ", "รด"]
for text in texts:
    print(
        "{} - lk82: {} - udom83: {} - metasound: {}".format(
            text, lk82(text), udom83(text), metasound(text)
        )
    )

รถ - lk82: ร3000 - udom83: ร800000 - metasound: ร000
รด - lk82: ร3000 - udom83: ร400000 - metasound: ร200


In [19]:
print(lk82("สกุณา") == lk82("สกุนา"))

True


In [13]:
#spellchecking

from pythainlp import spell

spell("อนุญาติ")

['อนุญาต']

In [14]:
#Part-of-speech tagging

from pythainlp.tag import pos_tag, pos_tag_sents

pos_tag(["ฉัน","ชอบ","กิน", "ขนม"])

[('ฉัน', 'PPRS'), ('ชอบ', 'VACT'), ('กิน', 'VACT'), ('ขนม', 'NCMN')]

In [15]:
#Named-entity tagging

from pythainlp.tag.named_entity import ThaiNameTagger

ner = ThaiNameTagger()
ner.get_ner("ฉันเจอเขาที่ตึกชินวัตรเมื่อวานนี้")

Corpus: thainer
- Downloading: thainer 1.5


100%|██████████| 1637304/1637304 [00:00<00:00, 56087477.27it/s]


[('ฉัน', 'PR', 'O'),
 ('เจอ', 'VV', 'O'),
 ('เขา', 'PR', 'O'),
 ('ที่', 'PS', 'O'),
 ('ตึก', 'NN', 'B-LOCATION'),
 ('ชินวัตร', 'NN', 'I-LOCATION'),
 ('เมื่อวาน', 'NN', 'B-DATE'),
 ('นี้', 'AJ', 'I-DATE')]

In [16]:
#word normalization

from pythainlp.util import normalize

text = "เเปลก" # เ เ ป ล ก

normalize(text) == "แปลก" # แ ป ล ก

True

In [17]:
#word vector

import pythainlp.word_vector

pythainlp.word_vector.similarity("ลูกชาย", "บุตรชาย")

Corpus: thai2fit_wv
- Downloading: thai2fit_wv 0.1


100%|██████████| 62452646/62452646 [00:00<00:00, 189107165.21it/s]


0.7799314

# **Excercise**

Use pythainlp to process the following texts

In [18]:
text = '''ตำนานความรักของโกโบริและอังศุมาลินนั้นเป็นตำนานความรักที่เหมือนกับเทพนิยาย
ซึ่งหลายคนนั้นเปรียบเทียบเกี่ยวกับเรื่องของนิทานเจ้าหญิงกับชายแดนเมื่อวานเรื่องราวความรักในครั้งนี้
เป็นการแต่งแต้มเรื่องราวที่มาจากนามปากกาของทมยันตีโดยเป็นเรื่องราวความรักของหญิงสาวชาวไทยกับนายทหารของประเทศญี่ปุ่น
ซึ่งเป็นเรื่องราวความรักของหนุ่มสาวที่เกิดขึ้นในช่วงสงครามโลกครั้งที่ 2 นั่นเองโดยสถานที่เกิดเหตุนั้น
คือประเทศไทยอยู่ตรงบริเวณสถานีรถไฟธนบุรีกับสถานีรถไฟบางกอกน้อย'''

In [20]:
print(pythainlp.word_tokenize(text, engine="longest"))


['ตำนาน', 'ความรัก', 'ของ', 'โก', 'โบ', 'ริ', 'และ', 'อังศุ', 'มาลิน', 'นั้น', 'เป็น', 'ตำนาน', 'ความรัก', 'ที่', 'เหมือนกับ', 'เทพนิยาย', '\n', 'ซึ่ง', 'หลาย', 'คน', 'นั้น', 'เปรียบเทียบ', 'เกี่ยวกับ', 'เรื่อง', 'ของ', 'นิทาน', 'เจ้าหญิง', 'กับ', 'ชายแดน', 'เมื่อวาน', 'เรื่องราว', 'ความรัก', 'ใน', 'ครั้งนี้', '\n', 'เป็นการ', 'แต่ง', 'แต้ม', 'เรื่องราว', 'ที่มา', 'จาก', 'นามปากกา', 'ของ', 'ทม', 'ยัน', 'ตี', 'โดย', 'เป็นเรื่อง', 'ราวความ', 'รัก', 'ของ', 'หญิงสาว', 'ชาวไทย', 'กับ', 'นายทหาร', 'ของ', 'ประเทศ', 'ญี่ปุ่น', '\n', 'ซึ่ง', 'เป็นเรื่อง', 'ราวความ', 'รัก', 'ของ', 'หนุ่มสาว', 'ที่เกิด', 'ขึ้น', 'ใน', 'ช่วง', 'สงครามโลก', 'ครั้ง', 'ที่', ' ', '2', ' ', 'นั่นเอง', 'โดย', 'สถานที่เกิดเหตุ', 'นั้น', '\n', 'คือ', 'ประเทศ', 'ไทย', 'อยู่', 'ตรง', 'บริเวณ', 'สถานีรถไฟ', 'ธนบุรี', 'กับ', 'สถานีรถไฟ', 'บางกอก', 'น้อย']


In [22]:
from pythainlp.corpus.common import thai_words
from pythainlp.util import Trie

new_words = {"โกโบริ", "อังศุมาลิน"}

words = new_words.union(thai_words())

custom_dictionary_trie = Trie(words)

print(pythainlp.word_tokenize(text, custom_dict=custom_dictionary_trie))

['ตำนาน', 'ความรัก', 'ของ', 'โกโบริ', 'และ', 'อังศุมาลิน', 'นั้น', 'เป็น', 'ตำนาน', 'ความรัก', 'ที่', 'เหมือนกับ', 'เทพนิยาย', '\n', 'ซึ่ง', 'หลาย', 'คน', 'นั้น', 'เปรียบเทียบ', 'เกี่ยวกับ', 'เรื่อง', 'ของ', 'นิทาน', 'เจ้าหญิง', 'กับ', 'ชายแดน', 'เมื่อวาน', 'เรื่องราว', 'ความรัก', 'ใน', 'ครั้งนี้', '\n', 'เป็นการ', 'แต่ง', 'แต้ม', 'เรื่องราว', 'ที่', 'มาจาก', 'นามปากกา', 'ของ', 'ทม', 'ยัน', 'ตี', 'โดย', 'เป็น', 'เรื่องราว', 'ความรัก', 'ของ', 'หญิงสาว', 'ชาวไทย', 'กับ', 'นายทหาร', 'ของ', 'ประเทศ', 'ญี่ปุ่น', '\n', 'ซึ่ง', 'เป็น', 'เรื่องราว', 'ความรัก', 'ของ', 'หนุ่มสาว', 'ที่', 'เกิดขึ้น', 'ใน', 'ช่วง', 'สงครามโลก', 'ครั้ง', 'ที่', ' ', '2', ' ', 'นั่นเอง', 'โดย', 'สถานที่เกิดเหตุ', 'นั้น', '\n', 'คือ', 'ประเทศ', 'ไทย', 'อยู่', 'ตรง', 'บริเวณ', 'สถานีรถไฟ', 'ธนบุรี', 'กับ', 'สถานีรถไฟ', 'บางกอก', 'น้อย']


In [23]:
from pythainlp.tag.named_entity import ThaiNameTagger

ner = ThaiNameTagger()
ner.get_ner(text)

[('ตำนาน', 'NN', 'B-PERSON'),
 ('ความรัก', 'NN', 'I-PERSON'),
 ('ของ', 'PS', 'I-PERSON'),
 ('โก', 'NN', 'I-PERSON'),
 ('โบ', 'NN', 'I-PERSON'),
 ('ริ', 'NN', 'I-PERSON'),
 ('และ', 'CC', 'I-PERSON'),
 ('อังศุ', 'NN', 'I-PERSON'),
 ('มาลิน', 'NN', 'I-PERSON'),
 ('นั้น', 'AJ', 'I-PERSON'),
 ('เป็น', 'VV', 'I-PERSON'),
 ('ตำนาน', 'NN', 'I-PERSON'),
 ('ความรัก', 'NN', 'I-PERSON'),
 ('ที่', 'CC', 'I-PERSON'),
 ('เหมือนกับ', 'NN', 'I-PERSON'),
 ('เทพนิยาย', 'NN', 'I-PERSON'),
 ('\n', 'NN', 'I-PERSON'),
 ('ซึ่ง', 'CC', 'O'),
 ('หลาย', 'AJ', 'O'),
 ('คน', 'CL', 'O'),
 ('นั้น', 'AJ', 'O'),
 ('เปรียบเทียบ', 'VV', 'O'),
 ('เกี่ยวกับ', 'VV', 'O'),
 ('เรื่อง', 'NN', 'O'),
 ('ของ', 'PS', 'O'),
 ('นิทาน', 'NN', 'O'),
 ('เจ้าหญิง', 'NN', 'O'),
 ('กับ', 'PS', 'O'),
 ('ชายแดน', 'NN', 'O'),
 ('เมื่อวาน', 'NN', 'O'),
 ('เรื่องราว', 'NN', 'O'),
 ('ความรัก', 'NN', 'O'),
 ('ใน', 'PS', 'O'),
 ('ครั้งนี้', 'NN', 'O'),
 ('\n', 'NN', 'O'),
 ('เป็นการ', 'NN', 'O'),
 ('แต่ง', 'VV', 'O'),
 ('แต้ม', 'NN', 'O'),
 ('เร