# Outline

- basic text handling
- documentation : https://pythainlp.github.io/docs/4.0/

# Import and Load

- https://th.wikipedia.org/wiki/กรุงเทพมหานคร
- https://th.wikipedia.org/wiki/โตเกียว

In [1]:
from pythainlp import word_tokenize, pos_tag, corpus
from pythainlp.translate import Translate
from collections import Counter

# text files
with open('data/wiki_bangkok.txt', 'r') as f:
    bkk = f.read()

with open('data/wiki_tokyo.txt', 'r') as f:
    tokyo = f.read()

In [2]:
# show text (it includes line separater \n)
bkk

'บทนำ\nกรุงเทพมหานคร เป็นเมืองหลวงและนครที่มีประชากรมากที่สุดของประเทศไทย เป็นศูนย์กลางการปกครอง การศึกษา การคมนาคมขนส่ง การเงินการธนาคาร การพาณิชย์ การสื่อสาร และความเจริญของประเทศ ตั้งอยู่บนสามเหลี่ยมปากแม่น้ำเจ้าพระยา มีแม่น้ำเจ้าพระยาไหลผ่านและแบ่งเมืองออกเป็น 2 ฝั่ง คือ ฝั่งพระนครและฝั่งธนบุรี กรุงเทพมหานครมีพื้นที่ทั้งหมด 1,568.737 ตร.กม. มีประชากรตามทะเบียนราษฎรกว่า 6 ล้านคน ทำให้กรุงเทพมหานครจัดเป็นเอกนคร (Primate City) มีผู้กล่าวว่า กรุงเทพมหานครเคยเป็น "เอกนครที่สุดในโลก" เพราะในปี พ.ศ. 2543 (ค.ศ. 2000) กรุงเทพมหานครมีประชากรมากกว่านครราชสีมา ที่เคยมีประชากรมากเป็นอันดับ 2 ของประเทศไทย ถึง 40 เท่า และในปัจจุบันนี้ กรุงเทพมหานครใหญ่กว่าเมืองอันดับสองอย่างเชียงใหม่ถึง 9 เท่า\nกรุงเทพมหานครเป็นเมืองที่มีตึกระฟ้ามากที่สุดเป็นอันดับที่ 11 ของโลกในปี พ.ศ. 2563 มีสถานที่ท่องเที่ยวหลากหลายในหลายรูปแบบทั้งด้านศาสนา ด้านศิลปวัฒนธรรม เช่น พระบรมมหาราชวัง ด้านการจับจ่ายซื้อของ ศูนย์การค้าต่าง ๆ หรือสถานบริการกลางคืน เช่น สยามสแควร์ ถนนข้าวสาร ที่ดึงดูดนักท่องเที่ยวต่างชาติได้อย่างมากมาย 

# tokenize
- `pythainlp.word_tokenize()`
- https://pythainlp.github.io/docs/4.0/api/tokenize.html
- pythainlp has oteher tokenizers, e.g. syllable tokenizer

In [3]:
word_tokenize(bkk)[:20]

['บทนำ',
 '\n',
 'กรุงเทพมหานคร',
 ' ',
 'เป็น',
 'เมืองหลวง',
 'และ',
 'นคร',
 'ที่',
 'มี',
 'ประชากร',
 'มาก',
 'ที่สุด',
 'ของ',
 'ประเทศ',
 'ไทย',
 ' ',
 'เป็น',
 'ศูนย์กลาง',
 'การปกครอง']

- change `engine`
- default is `engine='newmm'` (maximal matching algorithm)

In [4]:
word_tokenize(bkk, engine='attacut')[:20]

['บท',
 'นำ',
 '\n',
 'กรุงเทพมหานคร',
 ' ',
 'เป็น',
 'เมือง',
 'หลวง',
 'และ',
 'นคร',
 'ที่',
 'มี',
 'ประชากร',
 'มาก',
 'ที่สุด',
 'ของ',
 'ประเทศไทย',
 ' ',
 'เป็น',
 'ศูนย์กลาง']

- to remove whitespaces : `'keep_whitespace=False'`
- it doesn't remove `\n`

In [5]:
word_tokenize(bkk, keep_whitespace=False)[:20]

['บทนำ',
 '\n',
 'กรุงเทพมหานคร',
 'เป็น',
 'เมืองหลวง',
 'และ',
 'นคร',
 'ที่',
 'มี',
 'ประชากร',
 'มาก',
 'ที่สุด',
 'ของ',
 'ประเทศ',
 'ไทย',
 'เป็น',
 'ศูนย์กลาง',
 'การปกครอง',
 'การศึกษา',
 'การคมนาคม']

- it is hard to tokenize proper nouns and foreign words correctly

In [6]:
# เอโดะเป็นเมืองหลวง...
word_tokenize(tokyo)[20:30]

['เอ',
 'โดะ',
 ' ',
 'เป็น',
 'เมืองหลวง',
 'ของ',
 'ประเทศ',
 'ญี่ปุ่น',
 ' ',
 'มีระบบ']

# POS tag
- POS (part of speech) - noun, verb, adjective, etc...
- input of `pythainlp.pos_tag()` is list of tokens
- output is list of (token, POS)
- there are various way to tag (`corpus='orchid_ud'` is recommended)
- see **Universal POS tags** : https://universaldependencies.org/u/pos/


In [7]:
tokens = word_tokenize(bkk, keep_whitespace=False)
postags = pos_tag(tokens, corpus='orchid_ud')
postags[:20]

[('บทนำ', 'NOUN'),
 ('\n', 'NOUN'),
 ('กรุงเทพมหานคร', 'NOUN'),
 ('เป็น', 'VERB'),
 ('เมืองหลวง', 'NOUN'),
 ('และ', 'CCONJ'),
 ('นคร', 'NOUN'),
 ('ที่', 'SCONJ'),
 ('มี', 'VERB'),
 ('ประชากร', 'NOUN'),
 ('มาก', 'ADJ'),
 ('ที่สุด', 'ADV'),
 ('ของ', 'ADP'),
 ('ประเทศ', 'NOUN'),
 ('ไทย', 'PROPN'),
 ('เป็น', 'VERB'),
 ('ศูนย์กลาง', 'NOUN'),
 ('การปกครอง', 'VERB'),
 ('การศึกษา', 'NOUN'),
 ('การคมนาคม', 'NOUN')]

In [8]:
# count frequent Nouns
noun_count = Counter()
for token, pos in postags:
    if pos == 'NOUN':
        noun_count[token] += 1

noun_count.most_common(20)


[('กรุงเทพมหานคร', 20),
 ('พ.ศ.', 16),
 ('\n', 13),
 ('ประเทศ', 8),
 ('โลก', 8),
 ('การ', 8),
 ('เมือง', 7),
 ('เจ้าพระยา', 6),
 ('พระนคร', 6),
 ('สมเด็จ', 6),
 ('ทรง', 6),
 ('ธนบุรี', 5),
 ('ปี', 5),
 ('คำ', 5),
 ('แห่ง', 5),
 ('ประชากร', 4),
 ('ต่างชาติ', 4),
 ('จังหวัด', 4),
 ('สมัย', 4),
 ('กรุงศรีอยุธยา', 4)]

# `pythainlp.corpus`

- it holds many type of vocaburary set
- e.g. stopwords, male name

In [9]:
stopwords = corpus.thai_stopwords()

print(len(stopwords))
stopwords

1030


frozenset({'เก็บ',
           'เท่าที่',
           'เธอ',
           'ช่วงที่',
           'ณ',
           'แหละ',
           'นู้น',
           'พอที่',
           'ถึงแม้',
           'จังๆ',
           'เยอะๆ',
           'ก็',
           'ทันทีทันใด',
           'จริง',
           'เสียจนกระทั่ง',
           'แล้ว',
           'แต่ถ้า',
           'อย่างไร',
           'เป็น',
           'ซะจนถึง',
           'คำ',
           'อันที่จริง',
           'ใคร',
           'เมื่อวันวาน',
           'กัน',
           'เพื่อว่า',
           'เพิ่ง',
           'เมื่อนั้น',
           'อย่างหนึ่ง',
           'เต็มๆ',
           'ข้างต้น',
           'นับแต่',
           'บ้าง',
           'จนกระทั่ง',
           'มิ',
           'ข้างเคียง',
           'เมื่อครั้ง',
           'พร้อมเพียง',
           'เช่นเดียวกัน',
           'ช้าๆ',
           'ปิด',
           'คราวหน้า',
           'บ่อยๆ',
           'ด้วยเช่นกัน',
           'จากนั้น',
           'อันจะ',
           'คล้ายว่า',
  

In [10]:
corpus.thai_female_names()

frozenset({'ชัยพิพัฒน์',
           'ฌนันญา',
           'บุญยากาญจน์',
           'เกตุวรินทร์',
           'ทรัพย์สิมา',
           'ปภัสสร',
           'ภัทรวดี',
           'อาซูรา',
           'วิภารัตน์',
           'ณัฐทยา',
           'ภักดิพร',
           'ณัฐธิดา',
           'นุริสา',
           'แกมกาญจน์',
           'รัติกาล',
           'พนม',
           'ผกาวรรณ',
           'เพียงตะวัน',
           'มัลนิตา',
           'มณฑิตา',
           'พรเพ็ญ',
           'วีย์รญา',
           'พิมพ์นิภา',
           'สลิลทิพย์',
           'ชนิชา',
           'สมเจตน์',
           'คีตภัทร',
           'ยุพิน',
           'กิริยาภา',
           'ยุพดา',
           'สุพิชา',
           'เนติลักษณ์',
           'ปิยนุช',
           'วริญญา',
           'รักษิตาภา',
           'นูรไอนี',
           'กีรติกา',
           'เกศดี',
           'ฮามีย๊ะ',
           'ธัญรัตน์',
           'ปาณิสรารัชฌ์',
           'มาซีเตาะห์',
           'พัสตราภรณ์',
           'ม่านฟ้า',
           