# Python RegEx
A RegEx, or Regular Expression, is a sequence of characters that forms a search pattern. 
RegEx can be used to check if a string contains the specified search pattern.

---



## RegEx Functions
The `re` module offers a set of functions that allows us to search a string for a match:

-  `match()` ตรวจสอบว่า regex ตรงกับ string ตัวแรกตรงไหน
- `search()` ค้นหาทั้ง string ที่ regex pattern ของเราไป match ทั้ง match(), search() จะ return `None` ถ้าไม่พบค่าจาก pattern ถ้าพบจะ return `match object`
- `findall()` ค้นหา string ทั้งหมดที่ regex ตรงกัน แล้ว return เป็น list
- `finditer()` ค้นหา string ทั้งหมดที่ regex ตรงกัน แล้ว return เป็น iterator
- `sub()` ใช้เพื่อ replace data ที่ตรงกับ regex ของเรา

## Metacharacters
Metacharacters are characters with a special meaning:

Character | Description | Example
--- | --- | ---
[]  | A set of characters	 | "[a-m]"
\	| Signals a special sequence (can also be used to escape special characters) | 	"\d"
.	| Any character (except newline character) | 	"he..o"
^	| Ends with	 | "planet$"
**	| Zero or more occurrences |	"he.*o"
++	| One or more occurrences | "he.+o"
?	| Zero or one occurrences |	"he.?o"
{}  | Exactly the specified number of occurrences |	"he{2}o"
()	| Capture and group |

## Special Sequences
Character | Description
--- | --- 
\A | Returns a match if the specified characters are at the beginning of the string
\b | Returns a match where the specified characters are at the beginning or at the end of a word
\B | Returns a match where the specified characters are present, but NOT at the beginning (or at the end) of a word
\d | Returns a match where the string contains digits (numbers from 0-9)
\D | Returns a match where the string DOES NOT contain digits
\s | Returns a match where the string contains a white space character
\S | Returns a match where the string DOES NOT contain a white space character
\w | Returns a match where the string contains any word characters
\W | Returns a match where the string DOES NOT contain any word characters
\z | Returns a match if the specified characters are at the end of the string

---


## RegEx in Python
การที่เราจะเริ่มใช้งาน regex ใน python นั้นง่ายมาก เพียงแค่เรา import re module เข้ามาก็สามารถใช้งานได้แล้ว

In [None]:
import re
# ตัวอย่างการใช้ search(pattern, string)
email = "testmail@mail.com"
email_pattern = r"(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)"
x = re.search(email_pattern, email)
if x:
  print("email pattern match")
else:
  print("no match")

ตัว `re.match()` กับ `re.search()` มีความแตกต่างกันเพียงแค่ `re.match()` จะใช้ค้นหาเพียงช่วงต้นของ string ในขณะที่ `re.search()` จะค้นหาทั้ง string ว่ามีค่าที่ตรงกับ pattern ของเราหรือไม่

In [None]:
import re
Substring = 'string'
String ='''We are learning regex, regex is very useful for string matching.'''
# re.search() Method 
print(re.search(Substring, String, re.IGNORECASE))
# <_sre.SRE_Match object; span=(48, 54), match='string'>
# re.match() Method 
print(re.match(Substring, String, re.IGNORECASE))
# None

เราใช้ `re.IGNORECASE` เพื่อไม่สนใจ case sensitive(ตัวเล็กตัวใหญ่) ของ string

In [None]:
import re
txt = '''
Hi welcome everyone that read my blogs
Thank you all for follower
'''
# re.findall() Method
x = re.findall(r"(\w{5,8})", txt)
print(x)
# ['welcome', 'everyone', 'blogs', 'Thank', 'follower']
# ผลของการใช้ re.findall() คือค่าที่ได้จะกลับมาในรูปแบบของ list
# re.finditer() Method
for x in re.finditer(r"(\w{5,8})", txt):
  print(x)
# <_sre.SRE_Match object; span=(4, 11), match='welcome'>
# ...
# <_sre.SRE_Match object; span=(58, 66), match='follower'>
# ค่าที่ได้ออกมาก็จะเป็น iterator ซึ่งเราต้องนำไป loop รับค่าของ `match object` แล้วแสดงผล

แล้ว `match object` เนี่ย มี data อะไรให้เราบ้าง ?

- `.span()`   return tuple ที่มีตำแหน่งเริ่มและสิ้นสุดของ pattern
- `.string`   return string ที่เราใช้ในการทำ regex ทั้งก้อน
- `.group()`  return ค่าของ string เฉพาะส่วนที่ match

เหลือตัวสุดท้ายแล้วก็คือ `sub()` ซึ่งตัวนี้เราจะใช้ในการ replace ค่าที่ match กับ pattern ด้วยค่าที่เราต้องการ

In [None]:
import re
txt = "something must be happen here 123 456"
x = re.sub(r"(\d)+$", "", txt)
print(x)
# something must be happen here 123
# เราให้ลบค่าที ่match กับ pattern ของเราในที่นี่คือตัวเลขชุดสุดท้าย
x = re.sub(r"(\w) (\d)", r"\1\2", txt)
print(x) 
# something must be happen here123456
# อันนี้ผมใช้ regex ในการ replace โดยให้ลบ ช่องว่างระหว่าง group 1, 2 (ใส่ r นำหน้า string)