## 정규표현식

In [58]:
# 정규표현식의 기초, 메타 문자
# 메타 문자란 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용되는 문자를 말한다
# . ^ $ * + ? { } [ ] \ ! ( )

In [59]:
# 문자클래스 [ ]
# 문자클래스로 만들어진 정규식은 [ 와 ] 사이의 문자들과 매치를 말한다
# [abc]

In [60]:
# 문자열 "a" 는 정규식과 일치하는 문자인 "a" 가 있으므로 매치한다
# 문자열 "before" 는 정규식과 일치하는 문자인 "b" 가 있으므로 매치한다
# 문자열 "dude" 는 정규식과 일치하는 문자인 a,b,c 중 어느 하나도 포함하고 있지 않으므로 매치안된다

In [61]:
# 자주 사용하는 문자클래스
# [0-9] 또는 [a-zA-Z] 등 자주 사용되는 정규표현식이다 
# \d 숫자와 매치, [0-9] 와 동일한 표현식이다
# \D 숫자가 아닌 것과 매치, [^0-9] 와 동일한 표현식이다
# \s whitespace 문자와 매치, [\t \n \r \f \v] 와 동일한 표현식이다 맨앞의 빈칸은 공백이다
# \S whitespace 문자가 아닌것과 매치, [^\t \n \r \f \v] 와 동일한 표현식이다
# \w 문자+숫자와 매치, [a-zA-Z0-9] 와 동일한 표현식이다
# \W 문자+숫자가 아닌 문자와 매치, [^a-zA-Z0-9] 와 동일한 표현식이다

In [62]:
# Dot(.) 메타문자는 줄바꿈문자인 \n 를 제외한 모든 문자와 매치됨을 말한다
# a.b 

In [63]:
# 문자열 "aab" 는 가운데 문자 "a" 가 모든 문자를 의미하는 .과 일치하므로 정규식과 매치한다 
# 문자열 "a0b" 는 가운데 문자 "0" 이 모든 문자를 의미하는 .과 일치하므로 정규식과 매치한다
# 문자열 "abc" 는 "a" 문자와 "b" 문자사이에 어떤 문자라도 하나는 있어야하는 
# 이 정규식과 일치하지 않으므로 매치안된다

In [64]:
# a[.]b
# "a.b" 라는 문자열과 매치되고 "a0b" 라는 문자열과는 매치안된다

In [65]:
# 반복(*)
# ca*t
# 반복을 의미하는 * 메타 문자가 사용된다 여기서 * 바로 앞에 있는 문자 a 가 0부터 무한대로 반복된다

In [66]:
# 문자열 ct 는 "a"가 0번 반복되어 매치
# 문자열 cat 는 "a"가 0번이상 1번 반복되어 매치
# 문자열 caaat 는 "a"가 0번이상 3번 반복되어 매치

In [67]:
# 반복(+)
# ca+t
# 반복을 나타내는 또 다른 메타문자로 +가 있다 +는 최소 1번이상 반복될때 사용

In [68]:
# 문자열 ct 는 "a"가 0번 반복하여 매치안된다
# 문자열 cat 는 "a"가 1번이상 1번반복되어 매치
# 문자열 caaat 는 "a"가 1번이상 3번반복되어 매치

In [69]:
# 반복({m,n},?)
# { } 메타문자를 이용하면 반복횟수를 고정
# {m,n} 정규식을 사용하면 반복횟수가 m부터 n까지인 것을 매치 또한, m 또는 n을 생략할수 있다
# {3,} 처럼 사용하면 반복횟수가 3이상인 경우이고 {,3} 처럼 사용하면 반복횟수가 3이하인것이다

In [70]:
# {m}
# ca{2}t

In [71]:
# 문자열 cat "a" 가 1번만 반복되어 매치안된다
# 문자열 caat "a" 가 2번반복되어 매치된다

In [72]:
# {m,n}
# ca{2,5}t

In [73]:
# 문자열 cat "a" 가 1번만 반복되어 매치안된다
# 문자열 caat "a" 가 2번반복되어 매치된다
# 문자열 caaaaat "a" 가 5번 반복되어 매치된다

In [74]:
# ?
# 반복은 아니지만 비슷한 개념으로 사용한다 
# ab?c

In [75]:
# 문자열 abc "b" 가 1번 사용되어 매치된다
# 문자열 ac "b" 가 0번반복되어 매치된다

In [76]:
# *, +, ? 메타문자는 모두 {m,n} 형태로 고쳐쓰는것이 가능하지만 
# *, +, ? 메타문자를 사용하는것이 좋다

#### 정규표현식을 지원하는 re 모듈

In [77]:
import re

In [78]:
p=re.compile('ab*')

In [79]:
p

re.compile(r'ab*', re.UNICODE)

In [80]:
# p는 컴파일된 패턴객체이다

In [81]:
# 정규식을 이용한 문자열검색
# match() 문자열의 처음부터 정규식과 매치되는지 조사
# search() 문자열전체를 검색하여 정규식과 매치되는지 조사
# findall() 정규식과 매치되는 모든 문자열을 리스트로 리턴
# finditer() 정규식과 매치되는 모든 문자열을 반복가능한 객체로 리턴

In [82]:
import re

In [83]:
p=re.compile('[a-z]+')

In [84]:
p

re.compile(r'[a-z]+', re.UNICODE)

#### match

In [85]:
m=p.match("python")
print(m)

<_sre.SRE_Match object; span=(0, 6), match='python'>


In [86]:
# python 이라는 문자열은 [a-z]+ 정규식에 부합되므로 match 객체가 리턴된다

In [87]:
m=p.match("3 python")
print(m)

None


In [88]:
# 3 python이라는 문자열은 처음에 나오는 3이라는 문자가 정규식 [a-z]+ 에 부합되지 않으므로 None 이 리턴된다

In [89]:
# p=re.compile # 정규표현식
# m=p.match("조사할 문자열")
# if m:
#     print('Match found: ',m.group())
# else:
#     print('No match')

#### search

In [90]:
m=p.search("python")
print(m)

<_sre.SRE_Match object; span=(0, 6), match='python'>


In [91]:
m=p.search("3 python")
print(m)

<_sre.SRE_Match object; span=(2, 8), match='python'>


#### findall

In [92]:
result=p.findall("life is too short")
print(result)

['life', 'is', 'too', 'short']


#### finditer

In [93]:
result=p.finditer("life is too short")
print(result)

<callable_iterator object at 0x0000000005AF27B8>


In [94]:
for r in result: print(r)

<_sre.SRE_Match object; span=(0, 4), match='life'>
<_sre.SRE_Match object; span=(5, 7), match='is'>
<_sre.SRE_Match object; span=(8, 11), match='too'>
<_sre.SRE_Match object; span=(12, 17), match='short'>


In [95]:
# match 객체 메소드
# group() 매치된 문자열을 리턴
# start() 매치된 문자열의 시작 위치를 리턴
# end() 매치된 문자열의 끝 위치를 리턴
# span() 매치된 문자열의 (시작,끝) 에 해당하는 튜플을 리턴

In [96]:
import re

In [97]:
p=re.compile('[a-z]+')
p

re.compile(r'[a-z]+', re.UNICODE)

In [98]:
m=p.match("python")
m

<_sre.SRE_Match object; span=(0, 6), match='python'>

In [99]:
m.group()

'python'

In [100]:
m.start()

0

In [101]:
m.end()

6

In [102]:
m.span()

(0, 6)

In [103]:
m=p.search("3 python")
m

<_sre.SRE_Match object; span=(2, 8), match='python'>

In [104]:
m.group()

'python'

In [105]:
m.start()

2

In [106]:
m.end()

8

In [107]:
m.span()

(2, 8)

## 컴파일 옵션

#### DOTALL, S

In [108]:
import re

In [111]:
p=re.compile('a.b')

In [112]:
m=p.match('a\nb')

In [113]:
print(p)

re.compile('a.b')


In [114]:
print(m)

None


In [115]:
p=re.compile('a.b',re.DOTALL)

In [116]:
m=p.match('a\nb')

In [117]:
print(p)

re.compile('a.b', re.DOTALL)


In [118]:
print(m)

<_sre.SRE_Match object; span=(0, 3), match='a\nb'>


#### IGNORECASE,I

In [119]:
p=re.compile('[a-z]',re.I)
p

re.compile(r'[a-z]', re.IGNORECASE|re.UNICODE)

In [120]:
p.match('python')

<_sre.SRE_Match object; span=(0, 1), match='p'>

In [121]:
p.match('Python')

<_sre.SRE_Match object; span=(0, 1), match='P'>

In [122]:
p.match('PYTHON')

<_sre.SRE_Match object; span=(0, 1), match='P'>

#### MULTILINE, M

In [123]:
import re

In [124]:
p=re.compile("^python\s\w+")
p

re.compile(r'^python\s\w+', re.UNICODE)

In [125]:
data="""python one
life is too short
python two
you need python
python three"""
print(p.findall(data))

['python one']


In [126]:
# 정규식 ^python\s\w+ 은 python이라는 문자열로 시작하고 그 뒤에 whitespace, 그 뒤에 단어가 나와야 하는
# 의미이다 검색할 문자열 data는 여러줄로 이루어져 있어 
# ^메타문자에 의해 python이라는 문자열이 사영된 첫번째 라인만 매치가 된것
# 하지만 ^메타문자를 문자열전체의 처음이 아니라 각 라인의 처음으로 인식시키고 싶은경우
# 이럴때 사용하는 옵션이 바로 re.MULTILINE 또는 re.M 이다

In [127]:
import re

In [128]:
p=re.compile("^python\s\w+",re.MULTILINE)
p

re.compile(r'^python\s\w+', re.MULTILINE|re.UNICODE)

In [129]:
data="""python one
life is too short
python two
you need python
python three"""
print(p.findall(data))

['python one', 'python two', 'python three']


#### VERBOSE,X

In [130]:
# charref=re.compile(r'&[#](0[0-7]+|[0-9]+|*[0-9a-fA-F]+);')

In [131]:
# charref=re.compile(r"""
# &[#]
# (
# 0[0-7]+
# | [0-9]+
# | *[0-9a-fA-F]+
# )
# ; 
# """,re.VERBOSE)

In [132]:
# \section
# 이 정규식은 \s 문자가 whitespace 로 해석되어 매치가 안된다 

In [133]:
# \\section

In [134]:
p=re.compile('\\section')
p

re.compile(r'\section', re.UNICODE)

In [135]:
p=re.compile('\\\\section')
p

re.compile(r'\\section', re.UNICODE)

In [136]:
p=re.compile(r'\\section')
p

re.compile(r'\\section', re.UNICODE)