### 정규표현식

#### 사용법

- 패턴 컴파일
- 패턴 객체가 가진 메서드로 매칭, 치환 작업 수행
- 패턴 문자열은 r 접두어를 붙인다(raw string)

#### 중요 패턴 메타 문자
- \d : 숫자 [0-9]
- \D : 숫자 아님 [^0-9]
- \s : 화이트 스페이스 [ \t\n\r\f\v]
- \S : 화이트 스페이스 아님 [^ \t\n\r\f\v]
- \w : 문자 + 숫자 [A-Za-z0-9_]
- \W : 문자 + 숫자 아님 [^A-Za-z0-9_]

- [] : 문자 1개의 패턴 (or)
- {시작, 끝} : 길이의 제한

In [None]:
# 매칭 작업(match) : 처음부터 패턴이 일치하는지 확인
source = "Life is too short, you need Python"

# 방법 1. 컴파일 후 매칭
import re

p = re.compile(r"P[a-z]+")  # P로 시작하고 소문자가 1개 이상 있는가?
print(p.match(source))  # 매칭되지 않음 -> None

p = re.compile(r"L[a-z]+")  # L로 시작하고 소문자가 1개 이상 있는가?
print(p.match(source))

# 방법 2. 축약형
print("MATCH: [a-z]+ ?", re.match(r"[a-z]+", source))  # 매칭되지 않음
print("MATCH: [A-Za-z]+ ?", re.match(r"[A-Za-z]+", source))

# 매칭된 내용은 gorup 메서드로 추출
print(re.match(r"[A-Za-z]+", source).group())

In [None]:
# search : 문자열 전체에서 패턴 문자열과 일치하는 내용을 확인
source = "Hello, Python"

# 내부에서 Python 내용 찾기
print(re.search(r"Python", source))

# 기본적으로 정규식 패턴은 대소문자를 구분한다.
print(re.search(r"python", source))                 # None
print(re.search(r"python", source, re.IGNORECASE))  # 대소문자 구별 무효화

source = "Paing C JavaScript 123 Per ! Java Python Ruby"
# p로 시작하고 뒤에 소문자가 붙은 단어를 추출

# findall의 사용법 : 매칭된 문자열을 리스트로 반환
words = re.findall(r"\bp\w+", source, re.IGNORECASE)
print(words)

# finditer : iterator 반환
it = re.finditer(r"\bp\w+", source, re.IGNORECASE)
print(it)  # 출력값 : <callable_iterator object at 0x0000028EE7FDE8D0>

for x in it:
    print(x, x.group())

In [None]:
# 한글 정규식 패턴 [ㄱ-힣]
source = "English 대한민국 Japan 세종대왕 China 훈민정음"
p = re.compile(r"[ㄱ-힣]+")  # Unicode

print(p.findall(source))

In [None]:
# 예제 : 전화번호 매칭
# 010-1234-5678
tel = re.compile(r"\d{2,3}-\d{3,4}-\d{4}")
m = tel.match("010-1234-5678")
print(m, m.group())

# 매칭된 객체를 그룹화 할 수 있다.
tel = re.compile(r"(\d{2,3})-(\d{3,4})-(\d{4})")
m = tel.match("010-1234-5678")
print(m, m.groups())

# 그룹화된 매칭 객체에 키를 붙일 수 있다. (?P<key>)
tel = re.compile(r"(?P<area>\d{2,3})-(?P<exchange>\d{3,4})-(?P<number>\d{4})")
m = tel.match("010-1234-5678")
print(m, m.groups())
print(m, m.groupdict())  # 키가 부여된 크룹 매칭은 groupdict로 받아올 수 있다.

In [None]:
# 예제 : 이메일 주소 추출
source = """
예제 주소록
이 문자열에서 이메일 주소만 추출해 주세요
남승균 kyun.nam@gmail.com
홍길동 hong@gwalbin.org
임꺽정 lim@thieves.org
둘리 dooly@dooly.net
"""

# print(source)
pattern = r"\w+[\w\.]*@\w+[\w\.]*\.[a-z]+" # \w+         : w(문자나 숫자)가 1개 이상
                                           # [\w\.]*     : w(문자나 숫자) 또는 .이 0개 이상
                                           # @           : @
                                           # \w+         : w(문자나 숫자)가 1개 이상
                                           # [\w\.]*     : w(문자나 숫자) 또는 .이 0개 이상
                                           # \.          : .
                                           # [a-z]+      : 알파벳 소문자가 1개 이상
emails = re.findall(pattern, source)
print(emails)

In [None]:
# split과 sub(치환)
# str이 가진 split과 replace는
# 문자열 완전 매칭으로
# 제한된 기능만 수행
source = "사과 오렌지: 바나나, 토마토|수박"
pattern = r"[ :|,]+"  # 공백, :, |, , 을 분절 기준 문자로 split
print("Pattern Split:", re.split(pattern, source))

# source 문자열 내의 pattern 매칭 문자열을 ,,로 치환
print("Pattern Sub:", re.sub(pattern, ",,", source))