#### 25. Regular expressions

In [2]:
# 정규 표현식 (정규식)
# 파이썬만의 고유 문법이 아니라 복잡한 문자열을 처리하는 모든 곳에서 사용하는 형식 언어이다.

In [245]:
data = '''
park 000611-3123456
lee 050808-4123456
'''
result = []
for line in data.split('\n'):
    word_result = []
    for word in line.split(' '):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + '-' + '*******'
        word_result.append(word)
    result.append(' '.join(word_result))
print('\n'.join(result))


park 000611-*******
lee 050808-*******



In [246]:
import re 
data = '''
park 000611-3123456
lee 050808-4123456
'''
pat = re.compile(r'(\d{6})[-]\d{7}')
print(pat.sub(r'\g<1>-*******', data))


park 000611-*******
lee 050808-*******



#### 25-1. Meta characters

In [9]:
# 메타 문자
# . ^ $ * + ? { } [ ] \ | ( )
# 원래 그 문자가 가진 뜻이 아니라 특별한 의미를 가진 문자이다.
# 정규 표현식에 메타 문자를 사용하면 특별한 의미를 갖게 된다.

#### 25-2. [ ] - character class

In [1]:
# 문자 클래스
# [] 사이에는 어떤 문자도 들어갈 수 있으며, 그 사이 문자들과의 매치라는 의미를 갖는다.

In [4]:
# -
# [abc] = [a-c], [012345] = [0-5]
# 하이픈(-)을 사용하면 두 문자 사이의 범위를 의미한다.

In [75]:
# 모든 알파벳
# [a-zA-Z]

In [76]:
# ^
# 문자 클래스 안에 ^ 메타 문자를 사용할 경우에는 반대의 의미를 갖는다.

#### 25-3. Frequently used character classes

In [18]:
# 대문자로 사용된 것은 소문자의 반대임을 추측할 수 있다.

In [74]:
# \d
# [0-9]
# 모든 숫자와 매치된다.

In [73]:
# \D
# [^0-9]
# 숫자가 아닌 것과 매치된다.

In [21]:
# \s
# [ \t\n\r\f\v]
# 화이트스페이스(whitespace) 문자와 매치된다.
# 맨 앞의 빈칸은 공백 문자(space)를 의미한다.

In [22]:
# \S
# [^ \t\n\r\f\v]
# 화이트스페이스 문자가 아닌 것과 매치된다.

In [20]:
# \w
# [a-zA-Z0-9_]
# 문자+숫자(alphanumeric)와 매치된다.

In [23]:
# \W
# [^a-zA-Z0-9_]
# 문자+숫자(alphanumeric)가 아닌 문자와 매치된다.

#### 25-4. .(dot)

In [144]:
# 정규 표현식의 . 메타 문자는 줄바꿈 문자 \n을 제외한 모든 문자와 매치된다.
# 정규식을 작성할 때 re.DOTALL, re.S 옵션을 주면 .(dot) 문자와 \n 문자도 매치된다.

In [32]:
# a.b
# a와 b라는 문자 사이에 어떤 문자가 들어가도 모두 매치된다.

In [33]:
# [.]
# [] 안에 문자를 쓰면 .는 메타 문자가 아니라 ‘.’ 문자 그대로를 의미한다.

#### 25-7. {}

In [80]:
# ca{2,5}t
# {m, n}
# 반복 횟수가 m부터 n까지인 문자와 매치한다.
# *, +, ? 메타 문자는 모두 {m, n} 형태로 고쳐 쓰는 것이 가능하다.
# 하지만 이해하기 쉽고 표현도 간결한 *, +, ? 메타 문자를 사용하는 것이 좋다.

In [48]:
# {1,}은 +, {0,}은 *와 동일하다.
# 생략된 m은 0과 동일하며, 생략된 n은 무한대(약 2억 개 미만)의 의미를 갖는다.

In [49]:
# {3,}
# 반복 횟수 3 이상

In [50]:
# {, 3}
# 반복 횟수 3 이하

#### 25-5. *

In [78]:
# ca*t
# * 바로 앞에 있는 문자가 0부터 무한대까지 반복될 수 있다.
# 메모리 용량에 한계가 있어 실제로는 약 2억개 까지 반복한다.

#### 25-6. +

In [79]:
# ca+t
#  최소 1번 이상 반복될 때 사용한다.
# *는 반복 횟수가 0부터, +는 반복 횟수가 1부터이다.

#### 25-8. ?

In [84]:
# ca?t
# {0, 1}
# a가 있어도 되고 없어도 됌

#### 25-9. re module

In [57]:
# re(regular expression)
# standard library
import re

In [61]:
# re.compile
# 정규 표현식을 컴파일한다.
# re.compile의 리턴값을 객체 p(컴파일된 패턴 객체)에 할당해 이후 작업을 수행한다.
# 패턴은 정규식을 컴파일한 결과이다.
p = re.compile('ab*')
print(p)

re.compile('ab*')


#### 25-10. String search using regular expressions

In [69]:
# 컴파일된 패턴 객체를 사용하여 문자열 검색을 수행할 수 있다.
# match 객체란 정규식의 검색 결과로 리턴된 객체를 말한다.
# match, search는 정규식과 매치될 때는 match 객체를 리턴하고 매치되지 않을 때는 None을 리턴한다.

In [86]:
import re
p = re.compile('[a-z]+')

In [103]:
# match
# 문자열의 처음부터 정규식과 매치되는지 조사하며, 결과로 match 객체 또는 None을 리턴한다.
m = p.match('pyhton')
print(m)

<re.Match object; span=(0, 6), match='pyhton'>


In [89]:
m = p.match('3 pyhton')
print(m)

None


In [93]:
# match의 결과로 match 객체 또는 None을 리턴하기 때문에 파이썬 정규식 프로그램은 보통 이렇게 작성한다.
# match의 결괏값이 있을 때만 다음 작업을 수행하겠다는 의미이다.
import re
p = re.compile('regular expressions')
m = p.match('string to inspect')
if m:
    print('Match found: ', m.group())
else:
    print('No match')

No match


In [104]:
# search
# 문자열 전체를 검색하여 정규식과 매치되는지 조사한다.
p = re.compile('[a-z]+')
m = p.search('python')
print(m)

<re.Match object; span=(0, 6), match='python'>


In [240]:
# search는 문자열 전체를 검색하기 때문에 '3' 이후의 'python' 문자열과 매치된다.
m = p.search('3 python')
print(m)

None


In [239]:
# findall
# # 정규식과 매치되는 모든 문자열(substring)을 리스트로 리턴한다.
result = p.findall('life is too short')
print(result)

[]


In [107]:
# finditer()
# 정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 리턴한다.

In [235]:
# finditer는 findall과 동일하지만, 그 결과로 반복 가능한 객체(iterator object)를 리턴한다.
# 그리고 반복 가능한 객체가 포함하는 각각의 요소는 match 객체이다.
result = p.finditer('life is too short')
print(result)
for r in result: print(r)

<callable_iterator object at 0x7f79243e09d0>


#### 25-11. Methods of match object

In [126]:
# group
# 매치된 문자열을 리턴한다.
m = p.match('python')
print(m.group())

python


In [131]:
# start
# 매치된 문자열의 시작 위치를 리턴한다.
# match 객체로 start method를 사용하면 문자열의 시작부터 조사하기 때문에 결괏값은 항상 0일 수밖에 없다.
m = p.match('python')
print(m.start())

0


In [134]:
# search method를 사용할 때
m = p.search("3 python")
print(m.start())

2


In [128]:
# end
# 매치된 문자열의 끝 위치를 리턴한다.
m = p.match('python')
print(m.end())

6


In [129]:
# span
# 매치된 문자열의 (시작, 끝)에 해당하는 튜플을 리턴한다.
m = p.match('python')
print(m.span())

(0, 6)


#### 25-12. Performing on a per-module basis

In [233]:
# compile & match method를 한번에 수항하기
# 하지만 한 번 만든 패턴 객체를 여러 번 사용해야 할 때는 이 방법보다 re.compile을 사용하는 것이 편리하다.
m = re.match('[a-z]+', 'python')
print(m)

<re.Match object; span=(0, 6), match='python'>


#### 25-13. Comfile options

In [140]:
# 옵션을 사용할 때는 re.DOTALL, re.S 등 전체 옵션 이름이나 약어 둘 다 사용 가능하다.

In [146]:
# DOTALL(S)
# .(dot)이 줄바꿈 문자를 포함해 모든 문자와 매치될 수 있게 한다.
# 여러 줄로 이루어진 문자열에서 줄바꿈 문자에 상관없이 검색할 때 사용한다.
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


In [148]:
# IGNORECASE(I)
# 대소문자에 관계없이 매치될 수 있게 한다.
p = re.compile('[a-z]+', re.I)
a = p.match('PyThOn')
print(a)

<re.Match object; span=(0, 6), match='PyThOn'>


In [156]:
# MULTILINE(M)
# 여러 줄과 매치될 수 있게 한다. ^, $ 메타 문자 사용과 관계 있는 옵션이다.
# ^는 문자열의 처음, $는 문자열의 마지막과 매치된다.

In [232]:
# 정규식 '^python\s\w+'은 python이라는 문자열로 시작하고 그 뒤에 white space, 그 뒤에 단어가 와야 한다는 의미이다.
p = re.compile(r'^python\s\w+')
data = """python one
python two"""
print(p.findall(data))

['python one']


In [231]:
# re.MULTILINE & re.M
# ^ 메타 문자를 문자열 전체의 처음이 아니라 각 라인(줄)의 처음으로 인식시키고 싶은 경우 사용한다.
# re.MULTILINE 옵션은 ^, $ 메타 문자를 문자열의 각 줄마다 적용해 주는 것
p = re.compile(r'^python\s\w+', re.MULTILINE)
data = """python one
python two"""
print(p.findall(data))

['python one', 'python two']


In [162]:
# VERBOSE(X)
# re.VERBOSE & re.X
# verbose 모드를 사용할 수 있게 한다. 정규식을 보기 편하게 만들 수 있고 주석 등을 사용할 수 있게 된다.
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

In [165]:
# 컴파일된 패턴 객체인 charref는 모두 동일한 역할을 한다.
# re.VERBOSE 옵션을 사용하면 [] 안에 사용한 white space를 제외하고, 문자열에 사용된 white space는 컴파일할 때 제거된다.
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)

#### 25-14. Backslash problem

In [175]:
# \\\\
# 정규식을 해석하고 수행하는 모듈인 정규식 엔진에서 \ 문자를 사용하려면 파이썬은 \\\\를 사용해야 한다.
p = re.compile('\\\\section')

In [176]:
# \section
# \s 문자가 whitespace로 해석되어 의도한 대로 매치가 이루어지지 않는다.
# \ 문자가 문자열 자체라는 것을 알려 주기 위해 \\를 사용해 이스케이프 처리를 해야 한다.
# 정규식 엔진에 \\ 문자를 전달하려면 파이썬은 \\\\처럼 역슬래시를 4개나 사용해야 한다.

In [179]:
# raw string expression method
# 정규식 문자열 앞에 r 문자를 삽입하면 raw string 규칙에 의해 \\ 대신 \를 사용해도 \\와 동일한 의미를 갖는다.
# 만약 역슬래시를 사용하지 않는 정규식이라면 r의 유무에 상관없이 동일한 정규식이 된다.
p = re.compile(r'\\section')

#### 25-15. Metacharacters without string consumption

In [181]:
# +, *, [], {} 등의 메타 문자는 매치가 성사되면 문자열을 탐색하는 시작 위치가 변경된다(소비된다).

#### 25-16. |

In [188]:
# or(또는)과 동일한 의미로 사용된다.
p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m)

<re.Match object; span=(0, 4), match='Crow'>


#### 25-17. ^

In [191]:
# 문자열의 맨 처음과 일치한다.
# comfile option re.MULTILINE을 사용할 경우에는 여러 줄의 문자열일 때 각 줄의 처음과 일치한다.
print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'My Life'))

<re.Match object; span=(0, 4), match='Life'>
None


#### 25-18. $

In [193]:
# ^ 메타 문자와 반대이며, 문자열의 끝과 매치한다.
print(re.search('short$', 'Life is too short'))
print(re.search('short$', 'Life is too short, you need python'))

<re.Match object; span=(12, 17), match='short'>
None


#### 25-19. \A

In [194]:
# \A
# 문자열의 처음과 매치된다.
# re.MULTILINE 옵션을 사용할 경우 줄과 상관없이 전체 문자열의 처음하고만 매치된다.

#### 25-20. \Z

In [195]:
# \Z
# 문자열의 끝과 매치된다.
# re.MULTILINE 옵션을 사용할 경우 전체 문자열의 끝과 매치된다.

#### 25-21. \b

In [201]:
# \b
# 단어 구분자(word boundary)
# 보통 단어는 화이트스페이스에 의해 구분된다.|

In [202]:
# r'\bclass \b'
# \b는 파이썬 리터럴 규칙에 따르면 백스페이스(backspace)를 의미한다.
# 단어 구분자임을 알려 주기 위해 raw string이라는 것을 알려 주는 r을 반드시 붙여야 한다.

In [198]:
# '\bclass\b'' 정규식은 앞뒤가 화이트스페이스로 구분된 class와 매치된다.
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))

<re.Match object; span=(3, 8), match='class'>


In [200]:
# class가 whitespace로 구분된 단어가 아니므로 매치되지 않는다.
print(p.search('the declassified algorithm'))
print(p.search('one subclass is'))

None
None


#### 25-22. \B

In [207]:
# \B 메타 문자는 \b 메타 문자와 반대이다.
# white space로 구분된 단어가 아닌 경우에만 매치된다.
p = re.compile(r'\Bclass\B')
print(p.search('the declassified algorithm'))

<re.Match object; span=(6, 11), match='class'>


In [208]:
# class 단어의 앞뒤에 화이트스페이스가 하나라도 있는 경우에는 매치가 되지 않는다.
print(p.search('no class at all'))

None


#### 25-23. groupping

In [211]:
# ()
# 그룹을 만들어 주는 메타 문자이다.

In [210]:
# (ABC)+
# ABC 문자열이 계속해서 반복되는지 조사하는 정규식을 작성할 때

In [214]:
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)
print(m.group())

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC


In [230]:
# 이름 + " " + 전화번호 형태의 문자열을 찾는 정규식
p = re.compile(r'\w+\s+\d+[-]\d+[-]\d+')
m = p.search('park 010-1234-1234')
print(m)

<re.Match object; span=(0, 18), match='park 010-1234-1234'>


In [229]:
# 매치된 문자열 중에서 특정 부분의 문자열만 뽑아 내기
p = re.compile(r'(\w+)\s+\d+[-]\d+[-]\d+')
m = p.search('park 010-1234-1234')
print(m.group(1))

park


In [220]:
# group index
# group(n)
# n 번째 그룹에 해당되는 문자열

In [227]:
# 그룹이 중첩된 경우는 바깥쪽부터 시작해 안쪽으로 들어갈수록 인덱스 값이 증가한다.
p = re.compile(r'(\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m.group(3))

010


#### 25-24. Rereferencing grouped strings

In [222]:
# \1
# 재참조 메타 문자
# 정규식의 그룹 중 첫 번째 그룹을 가리킨다.

In [223]:
# '(\b\w+)\s+\1'은 (그룹) + " " + 그룹과 동일한 단어와 매치된다.
# 해당 정규식은 2개의 동일한 단어를 연속적으로 사용해야 매치된다.
p = re.compile(r'(\b\w+)\s+\1')
p.search('Paris in the the spring').group()

'the the'

In [224]:
# named groups
# 그루핑된 문자열에 이름 붙이기
# 그룹을 인덱스가 아닌 이름으로 참조할 수 있다면, 정규식 수정 시 그룹을 인덱스로 참조한 프로그램을 변경할 필요가 없다.

In [247]:
# (\w+) group에 name을 붙인 것
p = re.compile(r'(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m.group('name'))

park


In [248]:
# 그룹 이름을 사용하여 정규식 안에서 재참조하기
p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)')
p.search('Paris in the the spring').group()

'the the'

#### 25-25. Lookahead assertions

In [254]:
# 전방 탐색 확장 구문
# 조건이 통과되어도 문자열이 소비되지 않는다.

In [260]:
# 긍정형 전방 탐색((?=...))
# ...에 해당하는 정규식과 매치되어야 한다.

In [255]:
# http:라는 검색 결과에서 :을 제외하고 출력하기
p = re.compile(".+:")
m = p.search("http://google.com")
print(m.group())

http:


In [261]:
# :에 해당하는 문자열이 정규식 엔진에 의해 소비되지 않아 검색에는 포함되지만, 검색 결과에는 제외되어 :를 제거 후 리턴한다.
p = re.compile(".+(?=:)")
m = p.search("http://google.com")
print(m.group())

http


In [258]:
# 부정형 전방 탐색((?!...))
# ...에 해당하는 정규식과 매치되지 않아야 한다.

In [269]:
# .*[.].*$
# 파일_이름 + . + 확장자를 나타내는 정규식

In [268]:
# .*[.]([^b]..|.[^a].|..[^t])$
# 확장자가 bat인 파일 제외하는 정규식
# |를 사용해 확장자의 첫 번째 문자가 b가 아니거나, 두 번째 문자가 a가 아니거나, 세 번째 문자가 t가 아닌 경우를 의미한다.
# 하지만 확장자의 문자 개수가 2개인 케이스를 포함하지 못한다.

In [267]:
# .*[.]([^b].?.?|.[^a]?.?|..?[^t]?)$
# 확장자가 bat인 파일 제외하고, 확장자의 문자 개수가 2개여도 통과되는 정규식

In [272]:
# .*[.](?!bat$).*$
# 확장자가 bat가 아닌 경우에만 통과된다. (부정형 전방 탐색)

In [271]:
# .*[.](?!bat$|exe$).*$
# 확장자가 bat와 exe가 아닌 경우에만 통과된다. (부정형 전방 탐색)

#### 25-26. replace string

In [275]:
# sub
# 정규식과 매치되는 부분을 다른 문자로 바꾼다.
p = re.compile('(blue|white|red)')
p.sub('colour', 'blue socks and red shoes')

'colour socks and colour shoes'

In [276]:
# count
# sub method으 바꾸기 횟수를 제한한다.
p.sub('colour', 'blue socks and red shoes', count=1)

'colour socks and red shoes'

In [278]:
# subn
# sub와 동일한 기능을 하지만, 반환 결과를 튜플로 리턴한다.
# tuple의 첫 번째 요소는 변경된 문자열, 두 번째 요소는 바꾸기가 발생한 횟수이다.
p = re.compile('(blue|white|red)')
p.subn( 'colour', 'blue socks and red shoes')

('colour socks and colour shoes', 2)

#### 25-27. Using reference syntax when using sub methods

In [287]:
# '이름 + 전화번호' 문자열을 '전화번호 + 이름'으로 바꾼다.
# sub의 바꿀 문자열 부분에 \g<그룹_이름>을 사용하면 정규식의 그룹 이름을 참조할 수 있다.
p = re.compile(r'(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)')
print(p.sub(r'\g<phone> \g<name>', 'park 010-1234-1234'))

010-1234-1234 park


In [288]:
# 그룹 이름 대신 참조 번호를 사용해도 같은 결과를 리턴한다.
p = re.compile(r'(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)')
print(p.sub(r'\g<2> \g<1>', 'park 010-1234-1234'))

010-1234-1234 park


#### 25-28. Passing a function as a parameter to a sub method

In [290]:
# sub method의 첫 번째 인수에 함수를 전달하기
# match 객체를 입력으로 받아 16진수로 변환하여 리턴해 주는 함수
def hexrepl(match):
     value = int(match.group())
     return hex(value)
p = re.compile(r'\d+')
p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.')

'Call 0xffd2 for printing, 0xc000 for user code.'

#### 25-29. greedy & non-greedy

In [296]:
# *
# greedy meta character
# 탐욕스러워 매치할 수 있는 최대한의 문자열인 <html><head><title>Title</title>을 모두 소비한다.
# <.*> 정규식의 매치 결과로 <html>을 리턴해 주지 않는다.
s = '<html><head><title>Title</title>'
print(len(s))
print(re.match('<.*>', s).span())
print(re.match('<.*>', s).group())

32
(0, 32)
<html><head><title>Title</title>


In [302]:
# ?
# non-greedy meta character
# *?, +?, ??, {m,n}?와 같이 사용되며 greedy character의 탐욕을 제한하며, 최소한으로 반복을 수행하게 도와준다.
print(re.match('<.*?>', s).group())

<html>
