<a href="https://colab.research.google.com/github/benzerer/python-regular-expression-guide/blob/main/regex.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Regular Expression in python**

## ส่วนประกอบของ Regular expression object (re object)

การใช้งาน regular expression เบื้องต้น มีส่วนประกอบหลัก 2 ส่วนคือ
1. Pattern -- รูปแบบของตัวอักษรที่เราต้องการใช้งาน เพื่อค้นหา ตรวจสอบ แทนที่ หรือแยกส่วนคำ
2. Flag -- ตัวกำกับ "พฤติกรรม" ของ pattern เช่น
  - มองตัวอักษรพิมพ์เล็กและพิมพ์ใหญ่เป็นตัวเดียวกัน
  - ไม่สนใจบรรทัดใหม่ (\n)

ในตัวอย่างและคำอธิบายด้านล่าง

จะมีเนื้อหาที่เล่าถึง compiled re object และ match object ไปในตัวเลย :)

### **1. Pattern**

- แบบง่ายที่สุด เป็นคำหรือตัวอักษรอะไรก็ได้ต่อกัน เช่น `สวัสดี`, `hello`, `email`, etc...
- แบบที่ซับซ้อนขึ้น คือการมีตัวกำกับ (special characters) บอกถึงพฤติกรรมของคำหรือตัวอักษรที่เราเขียน เพิ่มความยืดหยุ่น และในหลายๆครั้งก็ช่วยประหยัดเวลา

โดยตัวกับกับจะมีประเภทดังต่อไปนี้

1. **Character classes** -- ใช้แทนการเขียนตัวอักษรหลายๆตัว เช่น `\w` คือตัวแทนของตัวอักษรทุกตัวที่เป็น A-Z ทั้งตัวเล็กใหญ่ หรือตัวเลข 0-9
2. **Anchor** -- ใช้ระบุการเริ่มต้นและสิ้นสุดของบรรทัด หรือคำ เช่น `^` คือขึ้นต้นของบรรทัด
3. **Escaped characters** -- ใช้ระบุตัวอักษรพิเศษ เช่น `\t` tab, `\n` new line, `\f` feed, `\r` return, `\u00A9` ©
4. **Groups and references** -- ใช้จัดกลุ่มตัวอักษร หรือตั้งชื่อให้กลุ่มตัวอักษร เช่น เขียน pattern ของ email แล้วตั้งชื่อให้ตัวอักษรที่ match ได้ว่า email
5. **Quantifiers and alternations** -- ใช้ระบุจำนวนตัวอักษรที่ซ้ำกัน เช่น `A{4}` จะจับ `AAAA` (A 4 ตัว) ในข้อความออกมา
6. **Lookaround** -- ใช้จับตัวอักษรตามเงื่อนไข เช่น คำที่ตามหลังด้วย `ing` หรือคำที่นำหน้าด้วย `pre`

[ตารางตัวกำกับที่ใช้บ่อย](https://github.com/benzerer/python-regular-expression-guide/blob/main/README.md#%E0%B8%95%E0%B8%B2%E0%B8%A3%E0%B8%B2%E0%B8%87%E0%B8%95%E0%B8%B1%E0%B8%A7%E0%B8%81%E0%B8%B3%E0%B8%81%E0%B8%B1%E0%B8%9A-special-characters-%E0%B8%82%E0%B8%AD%E0%B8%87-regex-%E0%B9%83%E0%B8%99-python)



In [119]:
import re

text = '''ทดสอบจ้าทดสอบ -- .(-_-).
Pattern และตัวกำกับ 6 แบบใน Python 3 © \(^_^)/'''

#### Character classes

In [None]:
# การใช้ re module โดยตรง
# สะดวกกับการใช้งานครั้งเดียว
# โดยโยน pattern ใส่ลงไปใน method

# Method search --> match object
# หาตำแหน่งแรกที่ตรงเงื่อนไข
pattern_1 = '[NLP]ython'
result = re.search(pattern_1, text)
print(result)

In [None]:
# การ Compile คือการทำให้ pattern กลายเป็น re object
# ช่วยให้การทำงานจำนวนมาก มีความเร็วที่มากขึ้น
# เพิ่มความเรียบร้อยของตัว code
# และเป็นไปตามหลักการ DRY (Don't Repeat Yourself)

# Method match --> match object
# เอาเงื่อนไขไปจับตั้งแต่ beginning
pattern_2 = re.compile('[^123456789]')
result = pattern_2.match(text)
print(result)

In [None]:
# Method split --> list(str)
# ใช้ pattern ในการตัด
pattern_3 = re.compile('[A-Z]attern')
result = pattern_3.split(text)
print(result)

In [None]:
pattern_4 = re.compile('\s')
result = pattern_4.split(text)
print(result)

In [None]:
# Method split --> str
# แทนที่ pattern
pattern_5 = re.compile('\S')
result = pattern_5.sub('-', text)
print(result)

In [None]:
# Method findall --> list(str)
# คล้าย search แต่ match มากกว่า 1 ครั้ง
pattern_6 = re.compile('\wดสอบ')
result = pattern_6.findall(text)
print(result)

In [None]:
# สระหรือวรรณยุกต์ในภาษาไทย ถือเป็น non-word characters
pattern_7 = re.compile('\W')
pattern_7.sub('_', text)

In [None]:
pattern_8 = re.compile('\s\d\s')
pattern_8.split(text)

In [None]:
pattern_9 = re.compile('\D')
pattern_9.sub('-', text)

In [274]:
# Method fullmatch --> match object
# ทั้ง text ต้องตรงตาม pattern 100%
pattern_10 = re.compile('.')
pattern_10.fullmatch(text)

#### Anchor

In [None]:
text

In [None]:
# ^ anchor เปลี่ยนพฤติกรรมของ search, findall
pattern_11 = re.compile('^ทดสอบ')
result_1 = pattern_11.match(text)
result_2 = pattern_11.search(text)
result_3 = pattern_11.findall(text)
print(result_1, result_2, result_3)

In [None]:
# $ anchor เปลี่ยนพฤติกรรมของ search, findall เช่นกัน
# เมื่อใช้ $ แล้ว match กับ fullmatch แทบจะทำงานเหมือนกัน
pattern_12 = re.compile('\d$')
result_1 = pattern_12.match(text)
result_2 = pattern_12.search(text)
result_3 = pattern_12.findall(text)
print(result_1, result_2, result_3)

In [None]:
# \b anchor มองสระหรือวรรณยุกต์ในภาษาไทยเป็น non-word
# r'abcd' เรียกว่า raw string มีผลกับการ escape ตัวอักษร
pattern_13 = re.compile(r'\w\b')
result_1 = pattern_13.match(text)
result_2 = pattern_13.search(text)
result_3 = pattern_13.findall(text)
print(result_1, result_2, result_3)

#### Escaped characters

In [None]:
text

In [None]:
# raw string มีผลกับการ escape ตัวอักษร "\"
pattern_14 = re.compile(r'\\......')
pattern_14.sub(':)', text)

In [None]:
# regular expression มองเป็น '\......'
# ตีความว่าเรา escape "."
pattern_15 = re.compile('\\.......')
pattern_15.sub(':)', text, count=1)

In [None]:
# regular expression มองเป็น '\\......'
# ตีความว่าเรา escape "\"
pattern_16 = re.compile('\\\\......')
pattern_16.sub(':)', text)

In [None]:
pattern_17 = re.compile(r'\u00A9')
pattern_17.split(text)

In [None]:
pattern_18 = re.compile(r'\n')
pattern_18.search(text)

#### Groups and references

In [None]:
text

In [None]:
pattern_19 = re.compile(r'(ทดสอบ)(?P<ja>.+)(\1)')
result = pattern_19.search(text)
result

In [None]:
# non-raw string ใช้ \g<n>
result.expand('Found a word \g<1> \g<2> \g<3>')

In [None]:
result.group(1,'ja')

In [None]:
result.groups()

In [None]:
# raw string ไม่ต้องมี g<>
result = pattern_19.sub(r'\2', text)
result

In [None]:
pattern_20 = re.compile(r'(?P<test>ทดสอบ)(?P<ja>จ้า)(?P=test)')
result = pattern_20.search(text)
result.groupdict()

In [None]:
# named group ต้องมี g<> เสมอ
result = pattern_20.sub('\g<test>', text)
result

In [None]:
# Double parentheses
pattern_21 = re.compile(r'(?P<p1>Pattern).+(?P<p2>(?(p1)Python))')
result = pattern_21.search(text)
result

In [None]:
result.groupdict()

In [None]:
result.span(1)

In [None]:
result.start(2), result.end(2)

#### Quantifiers and alternations

In [None]:
text

In [None]:
# Alternation | vs Bracket []
pattern_22 = re.compile(r'(P(?:a|y)t(?:tern|hon)).+(P[ay]t[tern|hon])')
result = pattern_22.search(text)
result, result.groups()

In [None]:
# Greedy
pattern_23 = re.compile(r'(P.+n)')
result = pattern_23.search(text)
result, result.groups()

In [None]:
# Lazy
pattern_23 = re.compile(r'(P.*?n)')
result = pattern_23.search(text)
result, result.groups()

In [None]:
pattern_24 = re.compile(r'(P.*?ns?)')
result = pattern_24.search(text)
result, result.groups()

In [None]:
pattern_25 = re.compile(r'(P.{5})\b')
result = pattern_25.search(text)
result, result.groups()

In [None]:
pattern_26 = re.compile(r'(P.{5,6})\b')
result = pattern_26.search(text)
result, result.groups()

In [None]:
pattern_27 = re.compile(r'(P.{,6})\b')
result = pattern_27.search(text)
result, result.groups()

In [None]:
pattern_28 = re.compile(r'(P.{5,})\b')
result = pattern_28.search(text)
result, result.groups()

In [None]:
pattern_29 = re.compile(r'(P.{5,}?)\b')
result = pattern_29.search(text)
result, result.groups()

#### Lookaround

In [None]:
text

In [None]:
pattern_30 = re.compile(r'P(?=attern)')
pattern_30.search(text)

In [None]:
pattern_31 = re.compile(r'P(?!attern)')
pattern_31.search(text)

In [None]:
pattern_32 = re.compile(r'(?<=ทด)สอบ')
pattern_32.search(text)

In [352]:
pattern_33 = re.compile(r'(?<!ทด)สอบ')
pattern_33.search(text)

### **2. Flag**

ใช้กำกับพฤติกรรมของ pattern การใช้หลาย flag ร่วมกันสามารทำได้โดย bitwise OR เช่น `re.I|re.M|re.S`

[ตาราง Flag ที่ใช้บ่อย](https://github.com/benzerer/python-regular-expression-guide/blob/main/README.md#%E0%B8%95%E0%B8%B2%E0%B8%A3%E0%B8%B2%E0%B8%87-regex-flag-%E0%B8%97%E0%B8%B5%E0%B9%88%E0%B9%83%E0%B8%8A%E0%B9%89%E0%B9%83%E0%B8%99-python)

In [None]:
text

In [None]:
pattern_34 = re.compile('[a-z]attern', re.I)
pattern_34.search(text)

In [357]:
pattern_22 = re.compile(r'(?P<p1>ทดสอบ).+(?P<p2>(?(p1)python))')
result = pattern_22.search(text)
result

In [None]:
pattern_23 = re.compile(r'(?P<p1>ทดสอบ).+(?P<p2>(?(p1)python))', re.I|re.S)
result = pattern_23.search(text)
result, result.groups()

In [372]:
pattern_24 = re.compile(r'^p.+?\b', re.I|re.S)
result = pattern_24.search(text)
result

In [None]:
pattern_25 = re.compile(r'^p.+?\b', re.I|re.S|re.M)
result = pattern_25.search(text)
result