In [1]:
# 파이썬 정규 표현식

# module import
import re

In [2]:
# 사용방법
# 1. 패턴 컴파일
# 2. 패턴 객체가 가진 메서드 이용 작업 수행
source = "Life is too short, you need Python"

# 방법 1. 패턴 컴파일 후에 매칭
p = re.compile(r"P[a-z]+") # P로 시작, 소문자 1개 이상인 패턴 매칭
print(p.match(source))

p = re.compile(r"L[a-z]+") # L로 시작, 소문자 1개 이상인 패턴 매칭
print(p.match(source))

# 방법 2. 축약형 : 컴파일 없이 1회성 즉시 매칭
print(re.match(r"[A-Za-z]+", source)) # 대문자 or 소문자 1문자 이상 패턴 매칭

# 매칭된 내용을 추출 -> group() 메서드
print(re.match(r"[A-Za-z]+", source).group())

None
<re.Match object; span=(0, 4), match='Life'>
<re.Match object; span=(0, 4), match='Life'>
Life


In [3]:
# 특정 문자열이 포함되어 있는지 판별
source = "Hello, Python"
print(re.match("Hello", source))
print(re.match("Python", source))
# match 메서드 처음부터 일치해야 매칭
print(re.search("Python", source))
# search 메서드 : 전체를 대상으로 매칭 수행
print(re.search("python", source))
# 기본적으로 대소문자를 구분
# 대소문자 구분 없이 매칭 시도 -> re.IGNORECASE or re.I 옵션 사용
print(re.search("python", source, re.IGNORECASE)) # 대소문자 구분 없이 검색

<re.Match object; span=(0, 5), match='Hello'>
None
<re.Match object; span=(7, 13), match='Python'>
None
<re.Match object; span=(7, 13), match='Python'>


In [4]:
# findall, finditer
source = "Paint C JavaScript 123 456 Perl Java Python P123 Ruby"
# p로 시작되는 문자열을 검색 출력
# findall : 매칭된 모든 문자열을 list로 반환
# item = re.findall(r"\bp[A-Za-z0-9]+", source, re.IGNORECASE) # \b는 경계
item = re.findall(r"\bp\w+", source, re.IGNORECASE) # \w == [A-Za-z0-9]
print(item)
# finditer : 매칭 영역을 iterator로 반환
iter = re.finditer(r"\bp\w+", source, re.IGNORECASE)

for item in iter:
    print(item, item.group())


['Paint', 'Perl', 'Python', 'P123']
<re.Match object; span=(0, 5), match='Paint'> Paint
<re.Match object; span=(27, 31), match='Perl'> Perl
<re.Match object; span=(37, 43), match='Python'> Python
<re.Match object; span=(44, 48), match='P123'> P123


In [5]:
# 예제
# 전화번호
source = """
010-1234-5678 홍길동
032-9876-5432 고길동
02-4567-8901 장길산
"""

pattern = re.compile(r"\d{2,3}-\d{3,4}-\d{4}")

iter = pattern.finditer(source)
for tel in iter:
    print("tel:", tel, tel.group())
    
# 패턴 작성시 (?P<이름>) 형식을 이용하면 매칭 결과에 이름을 부여할 수 있다.
# 이름이 부여된 매칭 결과는 groupdict() 메서드로 확인

pattern = re.compile(r"(?P<area>\d{2,3})-(?P<exchange>\d{3,4})-(?P<number>\d{4})")
print(pattern.search(source))
iter = pattern.finditer(source)
for tel in iter:
    print("tel:", 
          tel.groupdict())

tel: <re.Match object; span=(1, 14), match='010-1234-5678'> 010-1234-5678
tel: <re.Match object; span=(19, 32), match='032-9876-5432'> 032-9876-5432
tel: <re.Match object; span=(37, 49), match='02-4567-8901'> 02-4567-8901
<re.Match object; span=(1, 14), match='010-1234-5678'>
tel: {'area': '010', 'exchange': '1234', 'number': '5678'}
tel: {'area': '032', 'exchange': '9876', 'number': '5432'}
tel: {'area': '02', 'exchange': '4567', 'number': '8901'}


In [6]:
# 예제 2
# 이메일 추출하기
source = """
홍길동 hong@hwalbin.org
장길산 jang@thieves.net
고길동 gildong@dooly.net
남승균 skyun.nam@gmail.com
"""

pattern = re.compile(r"\w+[\w\.]*@\w+\.[a-z]+")
iter = pattern.finditer(source)

for email in iter:
    print(email.group())

hong@hwalbin.org
jang@thieves.net
gildong@dooly.net
skyun.nam@gmail.com


In [7]:
# 한국어 패턴 예제
source = "English 대한민국 Japan 홍길동 China 장길산"
p = re.compile(r"[ㄱ-힣]+") # Unicode의 범위

print(p.findall(source))

['대한민국', '홍길동', '장길산']


In [8]:
# split : 단순문자열이 아닌 패턴을 이용해서 문자열을 분할
source = "사과 오렌지:바나나,토마토|수박"
pattern = r"[ :,|]"
print("Pattern Split:", re.split(pattern, source))

# sub : 단순문자열이 아닌 패턴 매칭을 이용한 변경
print("Pattern Sub:", re.sub(pattern, "-", source)) # 패턴 매칭 후 -> - 변경

Pattern Split: ['사과', '오렌지', '바나나', '토마토', '수박']
Pattern Sub: 사과-오렌지-바나나-토마토-수박
