# regular expression

# 정규표현식 예시

In [6]:
import re

data = '''
park 800101-1234567
kim 901212-1234567
'''

pat = re.compile('(\d{6})[-]\d{7}')

print(pat.sub('\g<1>-*******', data))


park 800101-*******
kim 901212-*******



# 7-2 정규표현식 시작하기

In [10]:
import re

p = re.compile('[a-z]+')   # p는 pattern의 약자로, 패턴 객체를 생성하여 사용함

- match()

In [11]:
m = p.match('python')
print(m)

<re.Match object; span=(0, 6), match='python'>


In [12]:
m = p.match('3 python')
print(m)

None


- search(): match 객체와는 다르게 문장 내에 일치하는 구간이 있으면 값을 반환함

In [16]:
m = p.search('python')
print(m)

<re.Match object; span=(0, 6), match='python'>


In [17]:
m = p.search('3 python')
print(m)

<re.Match object; span=(2, 8), match='python'>


- findall(): 일치하는 모든 문자열을 리스트에 담아서 출력

In [19]:
m = p.findall('life is too short')
print(m)

['life', 'is', 'too', 'short']


- finditer(): callable_iterator 객체로 반환됨

In [30]:
m = p.finditer('life is too short')
print(m)
print(type(m))

<callable_iterator object at 0x000001809FABEAF0>
<class 'callable_iterator'>


In [31]:
for r in m:
    print(r)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


## match 객체 메소드
- group(): 매치된 문자열을 리턴
- start(): 매치된 시작 위치를 리턴
- end(): 매치된 끝 위치를 리턴
- span(): 매치된 문자열의 (시작, 끝)을 튜플로 리턴

In [32]:
import re

p = re.compile('[a-z]+')
m = p.match('python')

In [33]:
print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
0
6
(0, 6)


## 컴파일 옵션
- DOTALL / S: 줄바꿈 문자 포함 옵션

In [34]:
import re

p = re.compile('a.b')
m = p.match('a\nb')

print(m)

None


In [36]:
import re

p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')

print(m)

<re.Match object; span=(0, 3), match='a\nb'>


In [38]:
import re

p = re.compile('a.b', re.S)
m = p.match('a\nb')

print(m)

<re.Match object; span=(0, 3), match='a\nb'>


- IGNORECASE / I: 대소문자 구문 하지 않음

In [40]:
import re

p = re.compile('[a-z]')

print(p.match('python'))
print(p.match('Python'))
print(p.match('PYTHON'))

<re.Match object; span=(0, 1), match='p'>
None
None


In [41]:
import re

p = re.compile('[a-z]', re.IGNORECASE)

print(p.match('python'))
print(p.match('Python'))
print(p.match('PYTHON'))

<re.Match object; span=(0, 1), match='p'>
<re.Match object; span=(0, 1), match='P'>
<re.Match object; span=(0, 1), match='P'>


In [42]:
import re

p = re.compile('[a-z]', re.I)

print(p.match('python'))
print(p.match('Python'))
print(p.match('PYTHON'))

<re.Match object; span=(0, 1), match='p'>
<re.Match object; span=(0, 1), match='P'>
<re.Match object; span=(0, 1), match='P'>


- MULTILINE / M: ^을 첫 줄이 아니여도 각 라인을 포함함

In [47]:
import re 

p = re.compile('^python\s\w+')

data = '''python one
life is too short
python two
you need python
python three
'''

print(p.findall(data))

['python one']


In [48]:
import re 

p = re.compile('^python\s\w+', re.M)

data = '''python one
life is too short
python two
you need python
python three
'''

print(p.findall(data))

['python one', 'python two', 'python three']


- VERBOSE / X: 긴 정규표현식을 나눠서 쓸 수 있도록 함

In [49]:
import re

charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

In [50]:
charref = re.compile(r'''
&[#]                 # start of a numeric entity reference
(
    0[0-7]+          # octal form
    | [0-9]+         # decimal form
    | x[0-9a-fA-F]+  # hexadecimal form
)
;                    # traling semicolon
''', re.X)

## 백슬래시 문제

In [51]:
# \section 을 찾고자 할 때

p = re.compile('\\section')   # \section 앞에 \를 붙임

In [52]:
# \\section을 찾고자 할 때

p = re.compile('\\\\section')  # \\은 \\로 치환되기 때문

In [None]:
# 이럴 때 r''을 쓰면 row string으로 인식함

p = re.compile(r'\\section')

# 7-3 강력한 정규 표현식의 세계로