In [1]:
# 정규표현식 관련 모듈
import re

In [2]:
# 정규표현식을 나타내는 문자열을 re.compile()에 전달하여 Regex 패턴 객체를 생성
# 중괄호를 통해 특정 횟수만큼 반복 -> 첫 번째나 두 번째 숫자를 비워 최소/최대값 제한하지 않을 수도
phoneNumRegex = re.compile(r'\d{3}-\d{3,4}-\d{4}')
# search 메서드를 활용하여 패턴 일치 부분 검색
mo = phoneNumRegex.search('My number is 010-0000-0000')
# group() 메서드를 활용하여 일치 텍스트 반환
mo.group()

'010-0000-0000'

In [3]:
# 괄호를 넣어 정규표현식에 그룹을 생성
phoneNumRegex = re.compile(r'(\d{3})-(\d{3,4}-\d{4})')
mo = phoneNumRegex.search('My number is 010-0000-0000')
# 1번이 첫 번째 그룹임을 파악(0이 아니라 1)
mo.group(1), mo.group(2), mo.group()

('010', '0000-0000', '010-0000-0000')

In [4]:
# 모든 그룹을 한꺼번에 얻고 싶다면 groups 활용 -> 튜플 형태로 반환
mo.groups()

('010', '0000-0000')

In [5]:
# 그룹 안에 괄호가 들어가야 할 경우 역슬래시를 통해 이스케이프
phoneNumRegex = re.compile(r'(\(\d{3}\))(\d{3,4}-\d{4})')
mo = phoneNumRegex.search('My number is (010)0000-0000')
mo.group(1), mo.group(2), mo.group()

('(010)', '0000-0000', '(010)0000-0000')

In [6]:
# |(파이프 문자) 활용하여 여러 개의 표현식 중 하나라도 일치하는지 확인
heroRegex = re.compile(r'Batman|Tina Fey')
mo = heroRegex.search('Batman and Tina Fey')
mo.group()

'Batman'

In [8]:
heroRegex = re.compile(r'Batman|Tina Fey')
# findall 활용하여 일치하는 모두를 리스트로 수집
mo = heroRegex.findall('Batman and Tina Fey')
mo

['Batman', 'Tina Fey']

In [9]:
# 파이프문자와 괄호를 사용하여 일부를 여러 패턴 중 하나와 일치시킬 수도
batRegex = re.compile(r'Bat(man|mobile|copter|bat)')
mo = batRegex.search('Batmobile lost a wheel')
mo.group(), mo.group(1)

('Batmobile', 'mobile')

In [10]:
# 선택적으로 대조하고자 하는 패턴 -> 그룹으로 지정한 후 '?' 활용(0개 또는 1개 있을 경우)
batRegex = re.compile(r'Bat(wo)?man')
mo1 = batRegex.search('The Adventure of Batman')
mo2 = batRegex.search('The Adventure of Batwoman')
mo1.group(), mo2.group()

('Batman', 'Batwoman')

In [11]:
# '*'활용 -> 0개 또는 그 이상
batRegex = re.compile(r'Bat(wo)*man')
mo1 = batRegex.search('The Adventure of Batman')
mo2 = batRegex.search('The Adventure of Batwowowoman')
mo1.group(), mo2.group()

('Batman', 'Batwowowoman')

In [12]:
# '+'활용 -> 0개 또는 그 이상
batRegex = re.compile(r'Bat(wo)+man')
mo1 = batRegex.search('The Adventure of Batwoman')
mo2 = batRegex.search('The Adventure of Batwowowoman')
mo1.group(), mo2.group()

('Batwoman', 'Batwowowoman')

In [13]:
# 파이썬 정규표현식은 기본적으로 최대일치 추구 -> 닫는 중괄호 뒤 '?'로 최소일치 가능
# 참고 : '?'는 그룹 뒤에는 0개 또는 1개 / 중괄호 뒤에는 최소일치
greedyHaRegex = re.compile(r'(Ha){3,5}')
nongreedyHaRegex = re.compile(r'(Ha){3,5}?')
mo1 = greedyHaRegex.search('HaHaHaHaHa')
mo2 = nongreedyHaRegex.search('HaHaHaHaHa')
mo1.group(), mo2.group()

('HaHaHaHaHa', 'HaHaHa')

In [14]:
# 정규표현식 안에 그룹이 있을 경우 findall은 그룹들의 튜플을 리스트로 반환
phoneNumRegex = re.compile(r'(\d{3})-(\d{3,4})-(\d{4})')
phoneNumRegex.findall('Cell: 010-0000-0000, Work: 070-0000-0000')

[('010', '0000', '0000'), ('070', '0000', '0000')]

In [15]:
# 문자 클래스 (\D, \W, \S의 경우 아래 내용의 반대)
# \d: 0에서 9사이 숫자
# \w: 글자, 숫자, 밑줄 중 하나에 해당하는 문자
# \s: 빈칸, 탭, 개행문자 중 하나에 해당하는 문자('공백'과 일치한다고 생각)
# 글자와 일치하는 문자 클래스는 없음 -> [a-zA-z] 활용 가능
# 숫자 하나 이상, 공백, 문자 하나 이상
xmasRegex = re.compile(r'\d+\s\w+')
xmasRegex.findall('12 drummers, 11 pipers, 10 lords, 9 ladies, 8 maids, 7 swans, 6 geese, 5 rings, 4 birds, 3 hens, 2 doves, 1 partridge')

['12 drummers',
 '11 pipers',
 '10 lords',
 '9 ladies',
 '8 maids',
 '7 swans',
 '6 geese',
 '5 rings',
 '4 birds',
 '3 hens',
 '2 doves',
 '1 partridge']

In [26]:
# 사용자 정의 문자 클래스 -> 대괄호 '[]' 사용. 반대의 경우 캐럿 기호 '^'(대괄호 안에 넣어야) 사용.
# re.I 또는 re.IGNORECASE를 전달해서 대소문자 구분을 하지 않을 수도
vowelRegex = re.compile(r'[aeiouAEIOU]')
consonantRegex = re.compile(r'[^aeiou]', re.I)
mo1 = vowelRegex.findall('RoboCop eats bAby foOd.')
mo2 = consonantRegex.findall('RoboCop eats bAby foOd.')
mo1, mo2

(['o', 'o', 'o', 'e', 'a', 'A', 'o', 'O'],
 ['R', 'b', 'C', 'p', ' ', 't', 's', ' ', 'b', 'b', 'y', ' ', 'f', 'd', '.'])

In [19]:
# 정규표현식 앞에 '^'는 텍스트 시작 부분 일치, 끝에 '$'는 텍스트 끝 부분 일치
# '^'와 '$'를 같이 사용하면 전체 일치
beginsWithHello = re.compile(r'^Hello')
endsWithNumber = re.compile(r'\d{2}$')
mo1 = beginsWithHello.search('Hello world')
mo2 = endsWithNumber.search('Your number is 22')
mo1.group(), mo2.group()

('Hello', '22')

In [20]:
# 마침표 '.'는 와일드카드 문자. 줄바꿈을 제외한 모든 문자와 일치
atRegex = re.compile(r'.at')
atRegex.findall('The Cat in the hat sat on the flat mat.')

['Cat', 'hat', 'sat', 'lat', 'mat']

In [24]:
# '.*'로 모든 것과 일치 가능('*'대신 1개 이상의 목적으로 '+'도 가능) - 다만 줄이 바뀌기 이전까지
# re.DOTALL을 같이 전달하면 마침표 문자로 개행 문자를 포함한 모든 문자와 일치(줄이 바뀌고 나서도 포함)
nameRegex = re.compile(r'First Name: (.*), Last Name: (.*)')
mo = nameRegex.search('First Name: Taehwa, Last Name: Kim')
mo.group(), mo.group(1), mo.group(2)

('First Name: Taehwa, Last Name: Kim', 'Taehwa', 'Kim')

In [27]:
# Regex 객체에 있는 sub() 메서드로 문자열 치환 가능
# 첫 번째 인자는 치환할 문자열, 두 번째 인자는 정규표현식과 대조할 문자열
# \1, \2, \3을 활용하여 텍스트 그룹 1, 2, 3으로 치환 가능
# 괄호를 통해 group(1)을 추출하고 그 뒤에는 '*'를 통해 접근
agentNamesRegex = re.compile(r'Agent (\w)\w*')
agentNamesRegex.sub(r'\1****', 'Agent Alice told Agent Carol that Agent Eve knew Agent Bob was a double agent.')

'A**** told C**** that E**** knew B**** was a double agent.'

In [32]:
# re.VERBOSE를 통해 정규표현식에 공백문자와 주석 넣기 가능 -> ''' '''를 통해 줄바꿈 진행
# re.DOTALL, re.I, re.VERBOSE는 파이프 문자를 통해 함께 사용 가능
phoneRegex = re.compile(r'''
(\d{3}|\(\d{3}\))?          # area_code
(\s|-|\.)?                  # sep
\d{3,4}                     # mid_number
(\s|-|\.)?                  # sep
\d{4}                       # end_number
''', re.VERBOSE)
mo = phoneRegex.search('Home: (070)0000-0000')
mo.group()

'(070)0000-0000'