# Pythainlp
##### Reference: https://thainlp.org/pythainlp/docs/2.0/index.html

### pythainlp.spell

In [1]:
from pythainlp.spell import correct

In [2]:
word=["เส้นตรบ","ครัช","สังเกตุ","กระปิ","เหตการณ","กระเพรา","ปันหา"]
[correct(i) for i in word]

['เส้นตรง', 'ครับ', 'สังเกต', 'กะปิ', 'เหตุการณ์', 'กะเพรา', 'ปัญหา']

In [3]:
from pythainlp.spell import NorvigSpellChecker

In [4]:
_spell_checker = NorvigSpellChecker()
word=["เส้นตรบ","ครัช","สังเกตุ","กระปิ","เหตการณ","กระเพรา","ปันหา"]

x=[print(_spell_checker.spell(i)) for i in word]

['เส้นตรง']
['ครับ', 'ครัว', 'รัช', 'ครัม', 'ครัน', 'วรัช', 'ครัส', 'ปรัช', 'ครัง', 'บรัช', 'คัช', 'คลัช', 'ครัย', 'ครัด']
['สังเกต']
['กะปิ', 'กระบิ']
['เหตุการณ์']
['กะเพรา']
['ปัญหา']


### pythainlp.tag 
##### Read More: https://thainlp.org/pythainlp/docs/2.0/api/tag.html

In [5]:
from pythainlp.tag import pos_tag

In [6]:
words = ['ฉัน','มี','ชีวิต','รอด','ใน','อาคาร','หลบภัย','ของ','นายก', 'เชอร์ชิล']
pos_tag(words, corpus='pud')

[('ฉัน', 'PRON'),
 ('มี', 'VERB'),
 ('ชีวิต', 'NOUN'),
 ('รอด', 'VERB'),
 ('ใน', 'ADP'),
 ('อาคาร', 'NOUN'),
 ('หลบภัย', 'NOUN'),
 ('ของ', 'ADP'),
 ('นายก', 'NOUN'),
 ('เชอร์ชิล', 'PROPN')]

In [7]:
from pythainlp.tag import tag_provinces

In [8]:
text = ['อำเภอ', 'ฝาง','เป็น','ส่วน','หนึ่ง','ของ', 'จังหวัด','เชียงใหม่']
tag_provinces(text)

[('อำเภอ', 'O'),
 ('ฝาง', 'O'),
 ('เป็น', 'O'),
 ('ส่วน', 'O'),
 ('หนึ่ง', 'O'),
 ('ของ', 'O'),
 ('จังหวัด', 'O'),
 ('เชียงใหม่', 'B-LOCATION')]

In [9]:
#!pip install sklearn_crfsuite
from pythainlp.tag.named_entity import ThaiNameTagger

In [10]:
ner = ThaiNameTagger()
ner.get_ner("วันที่ 15 ก.ย. 61 ทดสอบระบบเวลา 14:49 น.")

[('วันที่', 'NOUN', 'O'),
 (' ', 'PUNCT', 'O'),
 ('15', 'NUM', 'B-DATE'),
 (' ', 'PUNCT', 'I-DATE'),
 ('ก.ย.', 'NOUN', 'I-DATE'),
 (' ', 'PUNCT', 'I-DATE'),
 ('61', 'NUM', 'I-DATE'),
 (' ', 'PUNCT', 'O'),
 ('ทดสอบ', 'VERB', 'O'),
 ('ระบบ', 'NOUN', 'O'),
 ('เวลา', 'NOUN', 'O'),
 (' ', 'PUNCT', 'O'),
 ('14', 'NOUN', 'B-TIME'),
 (':', 'PUNCT', 'I-TIME'),
 ('49', 'NUM', 'I-TIME'),
 (' ', 'PUNCT', 'I-TIME'),
 ('น.', 'NOUN', 'I-TIME')]

### pythainlp.tokenize 

In [11]:
from pythainlp.tokenize import word_tokenize

In [12]:
text = "โอเคบ่พวกเรารักภาษาบ้านเกิด"
word_tokenize(text, engine="newmm",keep_whitespace=False)
#keep_whitespace=False ไม่มี " "

['โอเค', 'บ่', 'พวกเรา', 'รัก', 'ภาษา', 'บ้านเกิด']

In [13]:
word_tokenize(text, engine="longest")

['โอเค', 'บ่', 'พวกเรา', 'รัก', 'ภาษา', 'บ้านเกิด']

In [14]:
word_tokenize(text, engine="ulmfit")

['โอเค', 'บ่', 'พวกเรา', 'รัก', 'ภาษา', 'บ้านเกิด']

In [15]:
#ใส่ชื่อเป็น group
from pythainlp.corpus.common import thai_words
from pythainlp.tokenize import dict_trie, word_tokenize
text = 'ชินโซ อาเบะ เกิด 21 กันยายน'
custom_dict_japanese_name = set(thai_words())
custom_dict_japanese_name.add('ชินโซ')
custom_dict_japanese_name.add('อาเบะ')
trie = dict_trie(dict_source=custom_dict_japanese_name)
word_tokenize(text, engine="newmm", custom_dict=trie)

['ชินโซ', ' ', 'อาเบะ', ' ', 'เกิด', ' ', '21', ' ', 'กันยายน']

### pythainlp.util 

In [16]:
from pythainlp.util import normalize

In [17]:
normalize('สระะน้ำ')

'สระน้ำ'

In [18]:
normalize('นานาาา')

'นานา'

In [19]:
from pythainlp.util import text_to_arabic_digit

In [20]:
text_to_arabic_digit("ศูนย์")

'0'

In [21]:
import datetime
from pythainlp.util import thai_strftime
datetime_object = datetime.datetime(year=2019, month=6, day=10,hour=15, minute=59, second=0, microsecond=0)
print(datetime_object)

2019-06-10 15:59:00


In [22]:
print(thai_strftime(datetime_object, "%A %d %B %Y "))

วันจันทร์ 10 มิถุนายน 2562 


In [23]:
print(thai_strftime(datetime_object, "%a %d %b %y "))

จ 10 มิ.ย. 62 


In [24]:
print(thai_strftime(datetime_object, "%D (%v)"))

06/10/62 (10-มิ.ย.-2562)


In [25]:
print(thai_strftime(datetime_object, "%D (%c)"))

06/10/62 (จ  10 มิ.ย. 15:59:00 2562)


In [26]:
from pythainlp.util import thaiword_to_num

In [27]:
thaiword_to_num("สองล้านสามแสนหกร้อยสิบสอง")

2300612

### pythainlp.word_vector 

In [28]:
#!pip install gensim
from pythainlp.word_vector import most_similar_cosmul
#Only Vocab

In [29]:
list_positive = ['แม่น้ำ']
list_negative = []
most_similar_cosmul(list_positive, list_negative)

[('ลำน้ำ', 0.8206598162651062),
 ('ทะเลสาบ', 0.775945782661438),
 ('ลุ่มน้ำ', 0.7490593194961548),
 ('คลอง', 0.7471904754638672),
 ('ปากแม่น้ำ', 0.7354257106781006),
 ('ฝั่งแม่น้ำ', 0.7120099067687988),
 ('ทะเล', 0.7030453681945801),
 ('ริมแม่น้ำ', 0.7015200257301331),
 ('แหล่งน้ำ', 0.6997432112693787),
 ('ภูเขา', 0.6960948705673218)]

In [30]:
list_positive = ['ประเทศ', 'ไทย', 'จีน', 'ญี่ปุ่น']
list_negative = []
most_similar_cosmul(list_positive, list_negative)

[('ประเทศจีน', 0.22022421658039093),
 ('เกาหลี', 0.2196873426437378),
 ('สหรัฐอเมริกา', 0.21660110354423523),
 ('ประเทศญี่ปุ่น', 0.21205860376358032),
 ('ประเทศไทย', 0.21159221231937408),
 ('เกาหลีใต้', 0.20321202278137207),
 ('อังกฤษ', 0.19610872864723206),
 ('ฮ่องกง', 0.1928885132074356),
 ('ฝรั่งเศส', 0.18383873999118805),
 ('พม่า', 0.18369348347187042)]

In [31]:
list_positive = ['ประเทศ', 'ไทย', 'จีน', 'ญี่ปุ่น']
list_negative = ['อเมริกา']
most_similar_cosmul(list_positive, list_negative)

[('ประเทศไทย', 0.3278159201145172),
 ('เกาหลี', 0.3201899230480194),
 ('ประเทศจีน', 0.31755179166793823),
 ('พม่า', 0.30845439434051514),
 ('ประเทศญี่ปุ่น', 0.306713730096817),
 ('เกาหลีใต้', 0.3003999888896942),
 ('ลาว', 0.2995176911354065),
 ('คนไทย', 0.2885020673274994),
 ('เวียดนาม', 0.2878379821777344),
 ('ชาวไทย', 0.28480708599090576)]

In [32]:
from pythainlp.word_vector import doesnt_match

In [38]:
words = ['อาหารเช้า','อาหารเที่ยง','อาหารเย็น','พริกไทย']
doesnt_match(words)

'พริกไทย'

In [39]:
words = ['ดีไซน์เนอร์', 'พนักงานเงินเดือน', 'หมอ', 'เรือ']
doesnt_match(words)

'เรือ'

In [40]:
from pythainlp.word_vector import similarity

In [41]:
similarity('รถไฟ','รถไฟฟ้า')

0.43387136

In [42]:
similarity('เสือดาว','รถไฟฟ้า')

0.04300258