## 정규 표현식 예제 #1

- 정규 표현식 객체 사용:
  - 정규식 객체를 생성: compile(pattern)
    - 동일 패턴을 여러 번 검색하는 경우, 편리하게 사용
    - re모듈 함수들은 pattern 파라미터 없이 호출이 가능
      - serch(string, pos), match(string, pos) 등

In [1]:
import re

# compiie() 사용 안함
m = re.match('[a-z]+', 'Python')
print(m)
print(re.search('apple', 'I like apple!'))

# compile() 사용
p = re.compile('[a-z]+')  # 알파벳 소문자
m = p.match('python')
print(m)
print(p.search('I like apple 123'))


None
<re.Match object; span=(7, 12), match='apple'>
<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(2, 6), match='like'>


## 정규 표현식 예제 #2

- match()
  - 문자열의 처음부터 검사

In [2]:
m = re.match('[a-z]+', 'pythoN')  # 소문자가 1개 이상
print(m)


<re.Match object; span=(0, 5), match='pytho'>


In [3]:
m = re.match('[a-z]+', 'PYthon')  # 소문자가 1개 이상
print(m)


None


In [4]:
print(re.match('[a-z]+', 'regex python'))
print(re.match('[a-z]+', ' regexpython'))

print(re.match('[a-z]+', 'regexpythoN'))
print(re.match('[a-z]+$', 'regexpythoN'))

print(re.match('[a-z]+', 'regexPython'))
print(re.match('[a-z]+$', 'regexpython'))


<re.Match object; span=(0, 5), match='regex'>
None
<re.Match object; span=(0, 10), match='regexpytho'>
None
<re.Match object; span=(0, 5), match='regex'>
<re.Match object; span=(0, 11), match='regexpython'>


## 정규 표현식 예제 #3

- findall() 함수
  - 일치하는 모든 문자열을 리스트로 리턴

In [5]:
p = re.compile('[a-z]+')  # 알파벳 소문자

print(p.findall('life is too short! Regular expression test'))


['life', 'is', 'too', 'short', 'egular', 'expression', 'test']


- search() 함수
  - 일치하는 첫 번째 문자열만 리턴

In [6]:
result = p.search('I like apple 123')
print(result)
print(result.group())  # group(): 일치하는 전체 문자열 리턴

result = p.findall('I like apple 123')
print(result)


<re.Match object; span=(2, 6), match='like'>
like
['like', 'apple']


## Match 메소드 예제 #1

- 전화번호 분석
  - 전화번호: '지역번호-국번-전화번호'
    - 전화번호: (2, 3자리)-(3, 4자리)-(4자리)
    - 예: 02-123-4567, 053-123-1234

In [7]:
# ^ .. $ 을 명시해야 정확한 자리수 검사가 이루어짐
tel_checker = re.compile('^(\d{2,3})-(\d{3,4})-(\d{4})$')

print(tel_checker.match('02-123-4567'))
print(tel_checker.match('02-123-4567').group())
print(tel_checker.match('053-950-45678'))
print(tel_checker.match('053950-45678'))


<re.Match object; span=(0, 11), match='02-123-4567'>
02-123-4567
None
None


## Match 메소드 예제 #2

- 전화번호에서 dash(-) 제거하고 검사하기

In [8]:
tel_number = '053-950-4567'
tel_number = tel_number.replace('-', '')
print(tel_number)

tel_checker1 = re.compile('^(\d{2,3})(\d{3,4})(\d{4})$')
print(tel_checker1.match(tel_number))
print(tel_checker1.match('0239501234'))


0539504567
<re.Match object; span=(0, 10), match='0539504567'>
<re.Match object; span=(0, 10), match='0239501234'>


## Match 메소드 예제 #3

- groups()
  - 매칭 결과를 튜플로 출력
- group()
  - 매칭된 전체 문자열 반환
- group(index)
  - 해당 인덱스에 매칭된 문자열 반환
  - index=0: 전체 리턴

In [9]:
tel_checker = re.compile('^(\d{2,3})-(\d{3,4})-(\d{4})$')
m = tel_checker.match('02-123-4567')

print(m.groups())
print('group():', m.group())
print('group(0):', m.group(0))
print('group(1):', m.group(1))
print('group(2, 3):', m.group(2, 3))
print('start():', m.start())  # 매칭된 문자열의 시작 인덱스
print('end():', m.end())  # 매칭된 문자열의 마지막 인덱스+1


('02', '123', '4567')
group(): 02-123-4567
group(0): 02-123-4567
group(1): 02
group(2, 3): ('123', '4567')
start(): 0
end(): 11


- 휴대전화번호
  - 휴대전화번호 구성: '사업자번호(3자리)-국번(3,4자리)-전화번호(4자리)'
    - 사업자 번호: 010, 011, 016, 017, 018, 019
    - 예: 010-123-4567, 011-1234-5678, 019-111-2222
  - (?:0|1|[6-9]) 의미
    - ?: 뒤에 따라 나오는 숫자(0|1|6|7|8|9)를 하나의 그룹으로 합침


In [10]:
cell_phone = re.compile('^(01(?:0|1|[6-9]))-(\d{3,4})-(\d{4})$')

print(cell_phone.match('010-123-4567'))
print(cell_phone.match('019-1234-5678'))
print(cell_phone.match('001-123-4567'))
print(cell_phone.match('010-1234567'))


<re.Match object; span=(0, 12), match='010-123-4567'>
<re.Match object; span=(0, 13), match='019-1234-5678'>
None
None


## 전방 탐색(lookhead)

- 전방 긍정 탐색
  - 패턴과 일치하는 문자열을 만나면 패턴 앞의 문자열 반환: (?=패턴)
- 전방 부정 탐색
  - 패턴과 일치하지 않는 문자열을 만나면 패턴 앞의 문자열 반환: (?!패턴)


In [12]:
# 전방 긍정 탐색: (문자열이 won을 포함하고 있으면 won 앞의 문자열 리턴)
lookahead1 = re.search('.+(?=won)', '1000 won')
if (lookahead1 != None):
    print(lookahead1.group())
else:
    print('None')
lookahead2 = re.search('.+(?=am)', '2023-01-26 am 10:00:01')
print(lookahead2)
# 전방 부정 탐색 (?!): 4자리 숫자 다음에 '-'를 포함하지 않으면 앞의 문자열 리턴
lookahead3 = re.search('\d{4}(?!-)', '010-1234-5678')
print(lookahead3)


1000 
<re.Match object; span=(0, 11), match='2023-01-26 '>
<re.Match object; span=(9, 13), match='5678'>


## 후방 탐색(lookbehind)

- 후방 긍정 탐색
  - 패턴과 일치하는 문자열을 만나면 패턴 뒤의 문자열 반환: (?<=패턴)
- 후방 부정 탐색
  - 패턴과 일치하지 않는 문자열을 만나면 패턴 뒤의 문자열 반환: (?<!패턴)

In [18]:
# 후방 긍정 탐색 ('am' 다음에 문자가 1개 이상 있으면, 해당 문자열 리턴)
lookbehind1 = re.search('(?<=am).+', '2023-01-26 am 11:10:01')
print(lookbehind1)

lookbehind2 = re.search('(?<=:).+', 'USD: $51')
print(lookbehind2)

# 후방 부정 탐색('\b': 공백)
# 공백 다음에 $기호가 없고 숫자가 1개 이상이고 공백이 있는 경우
lookbehind4 = re.search(r'\b(?<!\$)\d+\b', 'I paid $30 for 100 apples.')
print(lookbehind4)


<re.Match object; span=(13, 22), match=' 11:10:01'>
<re.Match object; span=(4, 8), match=' $51'>
<re.Match object; span=(15, 18), match='100'>
