# Pengolahan NLP Bahasa Thailand

## 1. Setup
It is highly recommended to create a virtual environment before you continue with the installation process.

In [1]:
#pip install numpy

In [2]:
#pip install pythainlp

In [3]:
#if you want to upgrade
#!pip3 install -U pythainlp 

## 2. Usage

In [4]:
#Case 1: Check apakah yang kita masukkan adalah bahasa Thailand

import pythainlp.util
pythainlp.util.isthai("สวัสดี")

True

In [5]:
#Case 2: Percentage count of Thai characters in the whole string

pythainlp.util.countthai("Hello สวัสดี")

54.54545454545454

In [6]:
#Case 3: Arrange it alphabetically based on the actual order in Thai dictionary

from pythainlp.util import collate
words = ['แอปเปิ้ล', 'กล้วย', 'ส้ม', 'สับปะรด', 'มะละกอ', 'ทุเรียน']
collate(words)

['กล้วย', 'ทุเรียน', 'มะละกอ', 'ส้ม', 'สับปะรด', 'แอปเปิ้ล']

In [7]:
#Case 4: Reverse order
collate(words, reverse=True)

['แอปเปิ้ล', 'สับปะรด', 'ส้ม', 'มะละกอ', 'ทุเรียน', 'กล้วย']

In [None]:
#Requirement for case 5
#pip install python-crfsuite

In [8]:
#Case 5: Sentence Tokenizer
from pythainlp import sent_tokenize
text = "เมื่อวันที่ 28 ก.ค.เวลา 07.00 น. ณ บริเวณท้องสนามหลวง พล.อ.อนุพงษ์ เผ่าจินดา รมว.มหาดไทย พร้อมด้วย นายนิพนธ์ บุญญามณี รมช.มหาดไทย นายทรงศักดิ์ ทองศรี รมช.มหาดไทย นายฉัตรชัย พรหมเลิศ ปลัดกระทรวงมหาดไทย และผู้บริหารระดับสูงของกระทรวงมหาดไทย ร่วมพิธีเจริญพระพุทธมนต์ และพิธีทำบุญตักบาตรถวายเป็นพระราชกุศล เนื่องในโอกาสวันเฉลิมพระชนมพรรษา พระบาทสมเด็จพระเจ้าอยู่หัว ประจำปี 2563  ในเวลา 07.30 น. พล.อ. อนุพงษ์ และคณะ ร่วมประกอบพิธีถวายสัตย์ปฏิญาณ เพื่อเป็นข้าราชการที่ดีและพลังของแผ่นดิน"
sent_tokenize(text)

['เมื่อวันที่ 28 ก.ค.เวลา 07.00 น. ณ บริเวณท้องสนามหลวง พล.อ.อนุพงษ์ เผ่าจินดา รมว.มหาดไทย พร้อมด้วย นายนิพนธ์ บุญญามณี รมช.มหาดไทย ',
 'นายทรงศักดิ์ ทองศรี ',
 'รมช.มหาดไทย ',
 'นายฉัตรชัย พรหมเลิศ ',
 'ปลัดกระทรวงมหาดไทย และผู้บริหารระดับสูงของกระทรวงมหาดไทย ร่วมพิธีเจริญพระพุทธมนต์ และพิธีทำบุญตักบาตรถวายเป็นพระราชกุศล ',
 'เนื่องในโอกาสวันเฉลิมพระชนมพรรษา พระบาทสมเด็จพระเจ้าอยู่หัว ประจำปี 2563  ในเวลา 07.30 น. พล.อ. อนุพงษ์ และคณะ ร่วมประกอบพิธีถวายสัตย์ปฏิญาณ เพื่อเป็นข้าราชการที่ดีและพลังของแผ่นดิน']

In [9]:
sent_tokenize(text, engine = 'whitespace+newline')

['เมื่อวันที่',
 '28',
 'ก.ค.เวลา',
 '07.00',
 'น.',
 'ณ',
 'บริเวณท้องสนามหลวง',
 'พล.อ.อนุพงษ์',
 'เผ่าจินดา',
 'รมว.มหาดไทย',
 'พร้อมด้วย',
 'นายนิพนธ์',
 'บุญญามณี',
 'รมช.มหาดไทย',
 'นายทรงศักดิ์',
 'ทองศรี',
 'รมช.มหาดไทย',
 'นายฉัตรชัย',
 'พรหมเลิศ',
 'ปลัดกระทรวงมหาดไทย',
 'และผู้บริหารระดับสูงของกระทรวงมหาดไทย',
 'ร่วมพิธีเจริญพระพุทธมนต์',
 'และพิธีทำบุญตักบาตรถวายเป็นพระราชกุศล',
 'เนื่องในโอกาสวันเฉลิมพระชนมพรรษา',
 'พระบาทสมเด็จพระเจ้าอยู่หัว',
 'ประจำปี',
 '2563',
 'ในเวลา',
 '07.30',
 'น.',
 'พล.อ.',
 'อนุพงษ์',
 'และคณะ',
 'ร่วมประกอบพิธีถวายสัตย์ปฏิญาณ',
 'เพื่อเป็นข้าราชการที่ดีและพลังของแผ่นดิน']

In [10]:
#Case 6: Word Tokenizer

from pythainlp import word_tokenize
text = "เมื่อวันที่ 28 ก.ค.เวลา 07.00 น. ณ บริเวณท้องสนามหลวง พล.อ.อนุพงษ์ เผ่าจินดา รมว.มหาดไทย พร้อมด้วย นายนิพนธ์ บุญญามณี รมช.มหาดไทย"
word_tokenize(text, keep_whitespace=False)

['เมื่อ',
 'วันที่',
 '28',
 'ก.ค.',
 'เวลา',
 '07.00',
 'น.',
 'ณ',
 'บริเวณ',
 'ท้องสนามหลวง',
 'พล',
 '.',
 'อ.',
 'อนุ',
 'พงษ์',
 'เผ่า',
 'จินดา',
 'รมว.',
 'มหาดไทย',
 'พร้อมด้วย',
 'นาย',
 'นิพนธ์',
 'บุญ',
 'ญา',
 'มณี',
 'รมช.',
 'มหาดไทย']

In [11]:
#Case 7: Normalization

"""
remove zero-width spaces, duplicated spaces, repeating vowels, and dangling characters
"""

from pythainlp.util import normalize

normalize("เเปลก")

'แปลก'

In [12]:
#Case 8: Translate Digit to Roman/Arabic
from pythainlp.util import arabic_digit_to_thai_digit, thai_digit_to_arabic_digit, digit_to_text
text = "123"
arabic_digit_to_thai_digit(text)

'๑๒๓'

In [13]:
thai_digit_to_arabic_digit('๑๒๓')

'123'

In [14]:
digit_to_text(text)

'หนึ่งสองสาม'

In [15]:
#Case 9: Part-of-speech Tagging
from pythainlp.tag import pos_tag
doc = ["แอปเปิ้ล", "ส้ม", "กล้วย"]
for i in doc:
    print(pos_tag([i], corpus="orchid_ud"))

[('แอปเปิ้ล', 'NOUN')]
[('ส้ม', 'NOUN')]
[('กล้วย', 'NOUN')]


In [16]:
#Casw 10: Romanization
from pythainlp.transliterate import romanize

In [17]:
romanize("แมว")

'maeo'

In [18]:
romanize("ภาพยนตร์")

'phapn'