In [None]:
import re

## unicode block for Thai characters

https://en.wikipedia.org/wiki/Thai_(Unicode_block)

### <table><tbody>
<tr><td></td><td>0</td><td>1</td><td>2</td><td>3</td><td>4</td><td>5</td><td>6</td><td>7</td><td>8</td><td>9</td><td>A</td><td>B</td><td>C</td><td>D</td><td>E</td><td>F</td></tr>
<td>U+0E0x</td><td></td><td>ก</td><td>ข</td><td>ฃ</td><td>ค</td><td>ฅ</td><td>ฆ</td><td>ง</td><td>จ</td><td>ฉ</td><td>ช</td><td>ซ</td><td>ฌ</td><td>ญ</td><td>ฎ</td><td>ฏ</td></tr><tr><td>U+0E1x</td><td>ฐ</td><td>ฑ</td><td>ฒ</td><td>ณ</td><td>ด</td><td>ต</td><td>ถ</td><td>ท</td><td>ธ</td><td>น</td><td>บ</td><td>ป</td><td>ผ</td><td>ฝ</td><td>พ</td><td>ฟ</td></tr><tr><td>U+0E2x</td><td>ภ</td><td>ม</td><td>ย</td><td>ร</td><td>ฤ</td><td>ล</td><td>ฦ</td><td>ว</td><td>ศ</td><td>ษ</td><td>ส</td><td>ห</td><td>ฬ</td><td>อ</td><td>ฮ</td><td>ฯ</td></tr><tr><td>U+0E3x</td><td>ะ</td><td>ั</td><td>า</td><td>ำ</td><td>ิ</td><td>ี</td><td>ึ</td><td>ื</td><td>ุ</td><td>ู</td><td>ฺ</td><td></td><td></td><td></td><td></td><td>฿</td></tr><tr><td>U+0E4x</td><td>เ</td><td>แ</td><td>โ</td><td>ใ</td><td>ไ</td><td>ๅ</td><td>ๆ</td><td>็</td><td>่</td><td>้</td><td>๊</td><td>๋</td><td>์</td><td>ํ</td><td>๎</td><td>๏</td></tr><tr><td>U+0E5x</td><td>๐</td><td>๑</td><td>๒</td><td>๓</td><td>๔</td><td>๕</td><td>๖</td><td>๗</td><td>๘</td><td>๙</td><td>๚</td><td>๛</td><td></td><td></td><td></td><td></td></tr><tr><td>U+0E6x</td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td></tr><tr><td>U+0E7x</td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td></tr><tbody></table>


- in Python, you can specify unicode (UTF-8) characters as a format `\uXXXX`
- for example, `\u0e01` for `ก`
- Python has built-in function `ascii()` to check unicode escaped sequence

In [None]:
text = '\u0e2a\u0e27\u0e31\u0e2a\u0e14\u0e35'
print(text)

สวัสดี


In [None]:
# unicode escaped string
text = 'สวัสดี'
print(ascii(text))

'\u0e2a\u0e27\u0e31\u0e2a\u0e14\u0e35'


## Thai regex examples

- to specify _"any Thai characters"_ in regex, you can use `[ก-๛]` or `[ก-๙]`
- _"any Thai characters excluding digit"_ `[ก-์]`

In [None]:
text = "Hello. My Name is สมชาย from Thailand"
re.search(r'[ก-๙]+', text)

<re.Match object; span=(18, 23), match='สมชาย'>

- but it does not match some special characters such as `-` `.`

In [None]:
# match only the first character before . (dot)
text = 'Today is 30 ต.ค. 2566'
re.search(r'[ก-๙]+', text)

<re.Match object; span=(12, 13), match='ต'>

In [None]:
text = 'Today is 30 ต.ค. 2566'
re.search(r'[ก-๙\.]+', text)

<re.Match object; span=(12, 16), match='ต.ค.'>

- `\w` (word character) is **not recommended for Thai words**, since vowel characters/tone characters are regarded as non-word

In [None]:
# in English
text = ".-Hello!?"
re.search(r'\w+', text)

<re.Match object; span=(2, 7), match='Hello'>

In [None]:
# not match with  ั
text = 'สวัสดี'
re.search(r'\w+', text)

<re.Match object; span=(0, 2), match='สว'>

In [None]:
# not match with tone characters
text = 'อร่อย'
re.search(r'\w+', text)

<re.Match object; span=(0, 2), match='อร'>

- if you want to match "_any word including Thai but excluding digit_", use something like `[A-zก-๙\-\.\']+`

In [None]:
text = 'ผม ชื่อ สมชาย เกิด ปี พ.ศ. 2540\nที่\tHokkaido'
re.findall(r'[A-zก-๙\-\.\']+', text)

['ผม', 'ชื่อ', 'สมชาย', 'เกิด', 'ปี', 'พ.ศ.', 'ที่', 'Hokkaido']

- Don't believe what we see on display
- e.g. vowel  ำ "am"

In [None]:
# 3 different sequences, but print the same
text1 = '\u0e19\u0e33\u0e49' # น + ำ + tone
text2 = '\u0e19\u0e49\u0e33' # น + tone + ำ
text3 = '\u0e19\u0e49\u0e4d\u0e32' # น + tone + o + า

print(text1)
print(text2)
print(text3)

นำ้
น้ำ
น้ํา


In [None]:
"นำ้" == "น้ำ"

False

- shrink reduplication

In [None]:
# shrink consecutive ๆ
# ๆๆ+ means "2 or more" (exclude single ๆ)
text = 'อร่อยมากๆๆๆๆๆๆๆ จุ๊บๆ'
re.sub(r'ๆๆ+', 'ๆ', text)

'อร่อยมากๆ จุ๊บๆ'

- an example to extract names from sentence
- `(?:)` means grouping without capture

In [None]:
# match the pattern : นาย or นางสาว + Thai characters + space + Thai characters
text = "เมื่อวันที่ 30 ต.ค. นายสมชาย แซ่ตั้ง พร้อมด้วยภรรยาเดินทางไปพบนางสาวสมหญิง บุญช่วย ที่โรงพยาบาลศิริราช"
re.findall(r'(?:นาย|นางสาว)([ก-๙]+\s[ก-๙]+)', text)

['สมชาย แซ่ตั้ง', 'สมหญิง บุญช่วย']



*   an example to extract year in Thai language



In [None]:
# an example to extract year in Thai language
# create a year capturing pattern: unique_year_name_group and digit group (\d+)
unique_year_name_group = '(พ.ศ.|ค.ศ.|ม.ศ.|ฮ.ศ.|จ.ศ.|ร.ศ.)'
pattern = unique_year_name_group + r'\s*(\d+)'
print(pattern)

(พ.ศ.|ค.ศ.|ม.ศ.|ฮ.ศ.|จ.ศ.|ร.ศ.)\s*(\d+)


In [None]:
text1 = "ผมชื่อสมชาย เกิดปีพ.ศ. 2540 ที่ Hokkaido" # [("พ.ศ.", "2540")]
text2 = "ผมชื่อสมหมาย เกิดปีค.ศ.1989 ที่ Manhattan" # [("ค.ศ.", "1989")]
text3 = "ผมชื่อสมปอง เกิดปีร.ศ.  12 ที่กรุงรัตนโกสินทร์ แต่เดินทางข้ามเวลามาที่อินเดียในช่วงม.ศ.189" # [("ร.ศ.", "12"), ("ม.ศ.", "189")]
text4 = "ผมชื่อสมปัถย์ เกิดปีอะไรไม่รู้ รู้แต่ว่าเป็นรศ.คนที่ 3 ของภาควิชา" # []

for t in [text1, text2, text3, text4]: # loop through each text to see the output
    print(re.findall(pattern, t))

[('พ.ศ.', '2540')]
[('ค.ศ.', '1989')]
[('ร.ศ.', '12'), ('ม.ศ.', '189')]
[]




*   an example to edit เเ (two เ) into แ
*   we use re.sub() (or we can even use `.replace()` method for the sake of simplicity).



In [None]:
# an example to edit เเ (two เ) into แ
# we use re.sub() (or we can even use .replace() method for the sake of simplicity).
text = 'นางสาวเเพทองธาร ชินวัตร'
print('แพทองธาร' in text)

text = re.sub(r'เเ', 'แ', text)
print('แพทองธาร' in text)

False
True
