In [1]:
# 파이썬 정규 표현식

# moduel import
import re

In [7]:
# 사용방법
# 1. 패턴 컴파일 후에 사용
# 2. 패턴 객체가 가진 메소드 이용 작업 수행
source = "Life is too short, you need Python"

# 방법 1. 패턴 컴파일 후에 match
p = re.compile(r"P[a-z]+") # P로 시작, 소문자 1개 이상인 패턴 매칭
print(p.match(source))

p = re.compile(r"L[a-z]+") # L로 시작, 소문자 1개 이상인 패턴 매칭
print(p.match(source))

# 방법 2. 축약형 : 컴파일 없이 1회성 즉시 매칭
print(re.match(r"[A-Za-z]+", source)) # 대문자 or 소문자 1문자 이상 패턴 매칭

# 매칭된 내용을 추출 -> group() 메소드
print(re.match(r"[A-Za-z]+", source).group())

None
<re.Match object; span=(0, 4), match='Life'>
<re.Match object; span=(0, 4), match='Life'>
Life


In [12]:
# 특정 문자열이 포함되어있는지 확인
source = "Hello Python"
print(re.match("Hello", source))
print(re.match("Python", source))
# match 메서드는 처음부터 일치해야 함
print(re.search("Python", source))
# search 메서드는 전체를 대상으로 매칭
print(re.search("python", source))
# 기본적으로 대소문자를 구분
# 대소문자 구분 없이 매칭 시도 -> re.IGNORECASE or re.I 옵션 사용
print(re.search("python", source, re.IGNORECASE)) # 대소문자 구분 없이 검색


<re.Match object; span=(0, 5), match='Hello'>
None
<re.Match object; span=(6, 12), match='Python'>
None
<re.Match object; span=(6, 12), match='Python'>


In [21]:
# findall and finditer
source = "Paint C JavaScript 123 456 Per I Java Python P123 Ruby"
# p로 시작되는 문자열을 검색 출력
# findall : 매칭된 모든 문자열을 list로 리턴
#item = re.findall(r"\bp[A-Za-z0-9]+", source, re.I) # \b 는 경계
#item = re.findall(r"\bp\w+", source, re.I) # \w == [A-Za-z0-9]
#print(item)
# finditer : 매칭 영역을 iterator로 반환 
iter = re.finditer(r"\bp\w+", source, re.I)
for item in iter:
    print(item, item.group())

<re.Match object; span=(0, 5), match='Paint'> Paint
<re.Match object; span=(27, 30), match='Per'> Per
<re.Match object; span=(38, 44), match='Python'> Python
<re.Match object; span=(45, 49), match='P123'> P123


In [29]:
# 예제
# 전화번호
source = """
010-1234-5678 홍길동
032-0987-6543 고길동
02-6224-3557 이찬우
"""

pattern = re.compile(r"\d{2,3}-\d{3,4}-\d{4}")
iter = pattern.finditer(source)

for tel in iter:
    print("tel:", tel, tel.group())
    
# 패턴 작성시 (?P<이름>) 형식을 이용하면 매칭 결과에 이름을 부여할 수 있다
# 이름이 부여된 매칭 결과는 groupdict() 로 확인

pattern = re.compile(r"(?P<area>\d{2,3})-(?P<exchange>\d{3,4})-(?P<number>\d{4})")
iter = pattern.finditer(source)
for tel in iter:
    print("tel:", tel,
          tel.groupdict())
                     

tel: <re.Match object; span=(1, 14), match='010-1234-5678'> 010-1234-5678
tel: <re.Match object; span=(19, 32), match='032-0987-6543'> 032-0987-6543
tel: <re.Match object; span=(37, 49), match='02-6224-3557'> 02-6224-3557
tel: <re.Match object; span=(1, 14), match='010-1234-5678'> {'area': '010', 'exchange': '1234', 'number': '5678'}
tel: <re.Match object; span=(19, 32), match='032-0987-6543'> {'area': '032', 'exchange': '0987', 'number': '6543'}
tel: <re.Match object; span=(37, 49), match='02-6224-3557'> {'area': '02', 'exchange': '6224', 'number': '3557'}


In [36]:
# 예제 2
# 이메일 추출하기
source = """
홍길동 hong@hwalbin.org
장길산 jang@thieves.net
고길동 gildong@dooly.com
"""

pattern = re.compile(r"\w+@\w+\.[a-z]+")
iter = pattern.finditer(source)

for email in iter:
    print(email.group())

hong@hwalbin.org
jang@thieves.net
gildong@dooly.com


In [38]:
# 한국어 패턴 설정
source = "English 머한민국 ニッポン 홍길동 中國　장길산"
p = re.compile(r"[ㄱ-힣]+") # 유니코드의 범위

print(p.findall(source))

['머한민국', '홍길동', '中國', '장길산']


In [40]:
# split : 단순 문자열이 아닌 패턴을 이용해서 문자열을 분할
source = "사과, 오렌지:바나나, 토마토|수박"
pattern = re.compile(r"[:,|]")

print("Pattern Split :", re.split(pattern, source))

# sub : 단순문자열이 아닌 패턴 매칭을 이용한 변경
print("Pattenr Sub:", re.sub(pattern, "-", source)) # 패턴 매칭후 변경 -> - 변경

Pattern Split : ['사과', ' 오렌지', '바나나', ' 토마토', '수박']
Pattenr Sub: 사과- 오렌지-바나나- 토마토-수박
