In [1]:
import pandas as pd
import numpy as np
import re

### 메타 문자의 이해

|    | 메타 문자   | 설명                                                    |
|---:|:------------|:--------------------------------------------------------|
|  0 | [ ]         | [ ] 안의 문자 중 하나와 매치                            |
|    |             | 두 문자 사이에 - 를 사용하면 두 문자 사이의 범위를 의미 |
|    |             | ^ 사용시 반대를 의미                                    |
|  1 | .           | \n을 제외한 모든 문자와 매치                            |
|  2 | *           | 바로 앞의 문자가 0 ~ ∞회 반복                           |
|  3 | +           | 바로 앞의 문자가 1 ~ ∞회 반복                           |
|  4 | ?           | 바로 앞의 문자가 0 ~ 1회 반복                           |
|  5 | {m}         | 바로 앞의 문자가 m회 반복                               |
|  6 | {m, n}      | 바로 앞의 문자가 m ~ n회 반복                           |

|    | 메타 문자   | 설명                                                                       |
|---:|:------------|:---------------------------------------------------------------------------|
|  0 | \d          | 숫자와 매치. [0-9]와 동일                                                  |
|  1 | \w          | 문자+숫자와 매치. [a-zA-Z0-9_]와 동일                                      |
|  2 | \s          | 화이트스페이스와 매치. [ \t\n\r\f\v]와 동일                                |
|  3 | \b          | 문자 경계와 매치                                                           |
|  4 | ^           | 행 시작과 매치                                                             |
|  5 | $           | 행 끝과 매치                                                               |
|  6 | \A          | 문자열 시작과 매치, re.MULTILINE 옵션이 있더라도 전체 문자열의 처음과 매치 |
|  7 | \Z          | 문자열 끝과 매치, re.MULTILINE 옵션이 있더라도 전체 문자열의 끝과 매치 |

### 정규식을 이용한 문자열 검색

|    | Method                             | 설명                                                             |
|---:|:-----------------------------------|:-----------------------------------------------------------------|
|  0 | match(pattern, text)               | text의 처음부터 pattern과 매치하는 부분을 re.match 형식으로 반환 |
|  1 | fullmatch(pattern, text)           | text 전체가 pattern과 매치하는 경우 re.match 형식으로 반환       |
|  2 | search(pattern, text)              | text 내 pattern과 처음 일치하는 부분을 re.match 형식으로 반환    |
|  3 | findall(pattern, text)             | text 내 pattern과 일치하는 모든 부분을 list 형식으로 반환        |
|  4 | finditer(pattern, text)            | text 내 pattern과 일치하는 모든 부분을 iterator 형식으로 반환    |
|  5 | sub(pattern, repl, text, count=0)  | text 내 pattern과 일치하는 부분을 repl로 변경                    |
|  6 | subn(pattern, repl, text, count=0) | 위와 동일하나, (변경된 문자열, 변경 횟수) 의 튜플로 반환         |

In [2]:
# match(pattern, text) : text의 처음부터 pattern과 매치하는 부분을 re.match 형식으로 반환
txt = '제 이메일 주소는 example@email.com 이고, 친구의 이메일 주소는 friend@email.com 입니다.'
pat = r'[A-Za-z가-힇]+'

regex = re.match(pat, txt)
print(type(regex))
print(regex)

<class 're.Match'>
<re.Match object; span=(0, 1), match='제'>


In [3]:
# fullmatch(pattern, text) : text 전체가 pattern과 매치하는 경우 re.match 형식으로 반환
txt = 'example@email.com'
pat = r'[A-Za-z]+@[a-z]+\.[A-Za-z]{2,}'

regex = re.fullmatch(pat, txt)
print(type(regex))
print(regex)

<class 're.Match'>
<re.Match object; span=(0, 17), match='example@email.com'>


In [4]:
# search(pattern, text) : text 내 pattern과 처음 일치하는 부분을 re.match 형식으로 반환
txt = '제 이메일 주소는 example@email.com 이고, 친구의 이메일 주소는 friend@email.com 입니다.'
pat = r'[A-Za-z]+'

regex = re.search(pat, txt)
print(type(regex))
print(regex)

<class 're.Match'>
<re.Match object; span=(10, 17), match='example'>


In [5]:
# findall(pattern, text) : text 내 pattern과 일치하는 모든 부분을 list 형식으로 반환
txt = '제 이메일 주소는 example@email.com 이고, 친구의 이메일 주소는 friend@email.com 입니다.'
pat = r'[A-Za-z가-힇]+'

regex = re.findall(pat, txt)
print(type(regex))
print(regex)

<class 'list'>
['제', '이메일', '주소는', 'example', 'email', 'com', '이고', '친구의', '이메일', '주소는', 'friend', 'email', 'com', '입니다']


In [6]:
# finditer(pattern, text) : pattern과 일치하는 모든 부분을 iterator로 반환
txt = '제 이메일 주소는 example@email.com 입니다.'
pat = r'[A-Za-z가-힇]+'

regex = re.finditer(pat, txt)
print(type(regex))
regex

<class 'callable_iterator'>


<callable_iterator at 0x1c58cf87bb0>

In [7]:
# 이터레이터 호출시 next를 반복
next(regex)

<re.Match object; span=(0, 1), match='제'>

In [8]:
next(regex)

<re.Match object; span=(2, 5), match='이메일'>

In [9]:
# 한번에 부르기
for reg in regex:
    print(reg)

<re.Match object; span=(6, 9), match='주소는'>
<re.Match object; span=(10, 17), match='example'>
<re.Match object; span=(18, 23), match='email'>
<re.Match object; span=(24, 27), match='com'>
<re.Match object; span=(28, 31), match='입니다'>


In [10]:
# 이터레이터를 리스트로 반환
txt = '제 이메일 주소는 example@email.com 입니다.'
pat = r'[A-Za-z가-힇]+'

list(re.finditer(pat, txt))

[<re.Match object; span=(0, 1), match='제'>,
 <re.Match object; span=(2, 5), match='이메일'>,
 <re.Match object; span=(6, 9), match='주소는'>,
 <re.Match object; span=(10, 17), match='example'>,
 <re.Match object; span=(18, 23), match='email'>,
 <re.Match object; span=(24, 27), match='com'>,
 <re.Match object; span=(28, 31), match='입니다'>]

In [11]:
# sub(pattern, repl, text, count=0) : text 내 pattern과 일치하는 부분을 repl로 변경
txt = '제 이메일 주소는 example@email.com 이고, 친구의 이메일 주소는 friend@email.co.kr 입니다.'
pat = r'\.[.A-Za-z]+'
repl = '.NET'

regex = re.sub(pat, repl, txt)
print(type(regex))
print(regex)

<class 'str'>
제 이메일 주소는 example@email.NET 이고, 친구의 이메일 주소는 friend@email.NET 입니다.


In [12]:
# 변경 횟수 지정하기
txt = '제 이메일 주소는 example@email.com 이고, 친구의 이메일 주소는 friend@email.co.kr 입니다.'
pat = r'\.[.A-Za-z]+'
repl = '.NET'

regex = re.sub(pat, repl, txt, count=1)
print(type(regex))
print(regex)

<class 'str'>
제 이메일 주소는 example@email.NET 이고, 친구의 이메일 주소는 friend@email.co.kr 입니다.


In [13]:
# 변경 횟수 체크시 sub 대신 subn 사용
regex = re.subn(pat, repl, txt)
print(type(regex))
print(regex)

<class 'tuple'>
('제 이메일 주소는 example@email.NET 이고, 친구의 이메일 주소는 friend@email.NET 입니다.', 2)


### complie 메서드 사용하기

* complie(pattern) : 정규식을 컴파일하여 반복적으로 패턴 사용
> * re.DOTALL : . 가 줄바꿈 문자도 매치하도록 변경  
> * re.I : 대소문자 구별없이 매치  
> * re.MULTILINE : ^, $ 메타 문자를 문자열의 각 줄마다 적용
> * re.X : 문자열에 사용된 화이트스페이스 제거, pattern 가독성 높이기 위해 멀티라인으로 작성시 활용 가능

In [14]:
# re.complie(pattern) 으로 컴파일하여 반복적으로 패턴 사용 가능
txt = '제 이메일 주소는 example@email.com 이고, 친구의 이메일 주소는 friend@email.com 입니다.'
pat = r'[A-Za-z가-힇]+'
p = re.compile(pat)

regex = p.match(txt)  # pattern을 p가 기억하고 있음
print(type(regex))
print(regex)

<class 're.Match'>
<re.Match object; span=(0, 1), match='제'>


In [15]:
# re.DOTALL 사용시 . 가 줄바꿈 문자도 매치
p1 = re.compile(r'a.b')

regex = p1.match('a\nb')
print(regex)
print()

p2 = re.compile(r'a.b', re.DOTALL)

regex = p2.match('a\nb')
print(regex)

None

<re.Match object; span=(0, 3), match='a\nb'>


In [16]:
# re.I 사용시 대소문자 구별 없이 매치
p1 = re.compile(r'[a-z]+')

regex = p1.search('Python')
print(regex)
print()

p2 = re.compile(r'[a-z]+', re.I)

regex = p2.search('Python')
print(regex)

<re.Match object; span=(1, 6), match='ython'>

<re.Match object; span=(0, 6), match='Python'>


In [17]:
# re.M 사용시 문자열 전체가 아닌 각 행마다 첫머리 확인
p1 = re.compile(r'^python\s\w+')

data = '''python one
life is too short
python two
you need python
python three
'''

regex = p1.findall(data)
print(regex)
print()

p2 = re.compile(r'^python\s\w+', re.M)

data = '''python one
life is too short
python two
you need python
python three
'''

regex = p2.findall(data)
print(regex)

['python one']

['python one', 'python two', 'python three']


In [18]:
# re.VERBOSE 사용시 문자열에 사용된 화이트스페이스는 컴파일할 때 제거됨. 단, [] 안에 사용한 화이트스페이스는 제외
# 복잡한 정규식을 가독성 있게 펼쳐둠
charref = re.compile(r'''
 &[#]                              # Start of a numeric entity referencd
 (
     0[0-7]+                    # Octal form
     | [0-9]+                    # Decimal form
     | x[0-9a-fA-F]+     # Hexadecimal form
 )
 ;                                        # Trailing semicolon
''', re.VERBOSE)

### match 객체의 메서드

|    | Method   | 목적                                     |
|---:|:---------|:-----------------------------------------|
|  0 | group    | 매치된 문자열을 반환                     |
|  1 | start    | 매치된 문자열의 시작 위치를 반환         |
|  2 | end      | 매치된 문자열의 끝 위치를 반환           |
|  3 | span     | 매치된 문자열의 (시작, 끝)의 튜플을 반환 |

In [19]:
txt = '제 이메일 주소는 example@email.com 이고, 친구의 이메일 주소는 friend@email.com 입니다.'
pat = r'[A-Za-z]+'

regex = re.search(pat, txt)
print("시작 위치를 반환 :", regex.start())
print("끝 위치를 반환 :", regex.end())
print("시작,끝을 튜플로 반환 :", regex.span())
print("매치된 문자열을 반환 :", regex.group())

시작 위치를 반환 : 10
끝 위치를 반환 : 17
시작,끝을 튜플로 반환 : (10, 17)
매치된 문자열을 반환 : example


### 그루핑

In [20]:
# ( ) : 하위 표현식 사용하여 그룹 만들기
txt = 'ABCABCABC OK?'
pat = r'(ABC)+'

regex = re.search(pat, txt)
print(type(regex))
print(regex)

<class 're.Match'>
<re.Match object; span=(0, 9), match='ABCABCABC'>


In [21]:
# 매치된 문자열 중 특정 부분의 문자열만 뽑아내기
txt = 'park 010-1234-1234'
pat = r'(\w+)\s+(\d+-\d+-\d+)'

regex = re.search(pat, txt)
print(type(regex))
print(regex)
print('전체 반환 :', regex.group(0))
print('1번째 그룹 반환 :', regex.group(1))
print('2번째 그룹 반환 :', regex.group(2))

<class 're.Match'>
<re.Match object; span=(0, 18), match='park 010-1234-1234'>
전체 반환 : park 010-1234-1234
1번째 그룹 반환 : park
2번째 그룹 반환 : 010-1234-1234


### 역참조 활용하기

In [22]:
# 그루핑한 문자열 재참조하기
txt = 'Paris in the the spring'
pat = r'(\b\w+)\s+\1'

regex = re.search(pat, txt)
print(type(regex))
print(regex)

<class 're.Match'>
<re.Match object; span=(9, 16), match='the the'>


In [23]:
# 그루핑한 문자열 치환하기
txt = 'Paris in the the spring'
pat = r'(\b\w+)\s+\1'
sub = r'\1'

regex = re.sub(pat, sub, txt)
print(type(regex))
print(regex)

<class 'str'>
Paris in the spring


In [24]:
# 그루핑한 문자열 치환하기-2
txt = 'park 010-1234-1234'
pat = r'(?P<name>\w+)\s+(\d+-\d+-\d+)'    # 지정하려는 그룹에 ?P<그룹이름> 추가, 대문자 P임을 유의
sub = r'\2 \1'

regex = re.sub(pat, sub, txt)
print(type(regex))
print(regex)

<class 'str'>
010-1234-1234 park


In [25]:
# 그룹 이름 지정하기
txt = 'park 010-1234-1234'
pat = r'(?P<name>\w+)\s+(\d+-\d+-\d+)'    # 지정하려는 그룹에 ?P<그룹이름> 추가, 대문자 P임을 유의

regex = re.search(pat, txt)
print(type(regex))
print(regex)
print('name 그룹 반환 :', regex.group('name'))

<class 're.Match'>
<re.Match object; span=(0, 18), match='park 010-1234-1234'>
name 그룹 반환 : park


In [26]:
# 그룹 이름 지정 후 재참조하기
txt = 'Paris in the the spring'
pat = r'(?P<word>\b\w+)\s+(?P=word)'    # 재참조할 때는 (?P=그룹이름) 사용

regex = re.search(pat, txt)
print(type(regex))
print(regex)

<class 're.Match'>
<re.Match object; span=(9, 16), match='the the'>


### 전후방 탐색 : ( ) 안의 문자열이 소비되지 않음(반환하지 않음)

|    | 구분            | 연산자   | 설명                                                           |
|---:|:----------------|:---------|:---------------------------------------------------------------|
|  0 | 긍정형 전방탐색 | (?=)     | ( ) 안의 패턴과 매치하는 문자열을 찾은 뒤 소비하지 않고,       |
|    |                 |          | 앞쪽과 매치하는 문자열만 반환                                  |
|  1 | 긍정형 후방탐색 | (?<=)    | ( ) 안의 패턴과 매치하는 문자열을 찾은 뒤 소비하지 않고,       |
|    |                 |          | 뒤쪽과 매치하는 문자열만 반환                                  |
|  2 | 부정형 전방탐색 | (?!)     | ( ) 안의 패턴과 매치하지 않는 문자열을 찾은 뒤 소비하지 않고,  |
|    |                 |          | 앞쪽과 매치하는 문자열만 반환                                  |
|  3 | 부정형 후방탐색 | (<!)     | ( ) 안의 패턴과 매치하지 않는 문자열을 찾은 뒤 소비하지 않고,  |
|    |                 |          | 뒤쪽과 매치하는 문자열만 반환                                  |

In [27]:
# 긍정형 전방탐색 : ( ) 안의 패턴과 매치하는 문자열을 찾고, 그 앞쪽과 매치하는 문자열만 반환
txt = 'http://google.com'
pat = r'[A-Za-z]+(?=://)'

regex = re.search(pat, txt)
print(type(regex))
print(regex)

<class 're.Match'>
<re.Match object; span=(0, 4), match='http'>


In [28]:
# 긍정형 후방탐색 : ( ) 안의 패턴과 매치하는 문자열을 찾고, 그 뒤쪽과 매치하는 문자열만 반환
txt = 'http://google.com'
pat = r'(?<=://)[A-Za-z]+'

regex = re.search(pat, txt)
print(type(regex))
print(regex)

<class 're.Match'>
<re.Match object; span=(7, 13), match='google'>


In [29]:
# 부정형 전방탐색 : ( ) 안의 패턴과 매치하지 않는 문자열을 찾고, 그 앞쪽과 매치하는 문자열만 반환
txt = '''
foo.bar
autoexec.bat
sendmail.cf
'''
pat = r'.*[.](?!bat).*'    # 확장자가 bat인 파일 제외시

regex = list(re.finditer(pat, txt))
print(type(regex))
for reg in regex:
    print(reg)

<class 'list'>
<re.Match object; span=(1, 8), match='foo.bar'>
<re.Match object; span=(22, 33), match='sendmail.cf'>


### 탐욕적 수량자, 게으른 수량자
* greedy(\*, \+, {n,}) : 가능한 한 가장 큰 덩어리를 찾으려고 함
* lazy(\*\?, \+\?, {n,}\?) : 가능한 최소로 찾으려고 함

In [30]:
# greedy 수량자 : 가능한 한 가장 큰 덩어리를 찾으려고 함
txt = '<html><head><title>Title</Title>'
pat = r'<.*>'

regex = re.search(pat, txt)
print(type(regex))
print(regex)

<class 're.Match'>
<re.Match object; span=(0, 32), match='<html><head><title>Title</Title>'>


In [31]:
# lazy 수량자 : 가능한 한 가장 작은 덩어리를 찾으려고 함, 탐욕적 수량자 다음에 ?만 붙이면 됨
txt = '<html><head><title>Title</Title>'
pat = r'<.*?>'

regex = re.search(pat, txt)
print(type(regex))
print(regex)

<class 're.Match'>
<re.Match object; span=(0, 6), match='<html>'>
