# 정규표현식 (regular expression)

In [1]:
import re

In [2]:
data = """
park 800905-1049118
kim  700905-1059119
"""

In [4]:
# 정규표현식 패턴
pat = re.compile('(\d{6})[-]\d{7}')
pat

re.compile(r'(\d{6})[-]\d{7}', re.UNICODE)

In [8]:
print(pat.sub("\g<1>-*******", data))


park 800905-*******
kim  700905-*******



### re.compile()

In [10]:
p = re.compile('[a-z]+')
p

re.compile(r'[a-z]+', re.UNICODE)

In [None]:
# 위 패턴객체를 사용하여 문자열 검색 가능

# match()  문자열의 처음부터 정규식과 매치되는지 조사한다.
# search()  문자열 전체를 검색하여 정규식과 매치되는지 조사한다.
# findall()  정규식과 매치되는 모든 문자열(substring)을 리스트로 리턴한다
# finditer()  정규식과 매치되는 모든 문자열(substring)을 iterator 객체로 리턴한다
# sub()  정규식과 매칭되는 문자열 치환

### match()

In [11]:
p.match('python')

<re.Match object; span=(0, 6), match='python'>

In [12]:
p.match('3 python')  # 문자열 '처음' 부터 매칭하였기 때문에 매칭결과 없슴 -> None 리턴 

### search()

In [13]:
p.search('python')

<re.Match object; span=(0, 6), match='python'>

In [14]:
p.search('3 python') # 문자열 '전체' 를 검색하여 매칭하기 때문에 'python' 매칭

<re.Match object; span=(2, 8), match='python'>

### findall()

In [15]:
p.search('life is too short')

<re.Match object; span=(0, 4), match='life'>

In [16]:
p.findall('life is too short')
# 정규식과 매칭된 패턴(들)을 리스트에 담아서 리턴

['life', 'is', 'too', 'short']

### finditer()

In [18]:
result = p.finditer("life is too short")  # iterable 한 객체 리턴
result

<callable_iterator at 0x29e768207f0>

In [19]:
for r in result:
    print(r)   # 각각의 match 객체

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


## Match 객체의 메소드들

In [20]:
# 어떤 문자열이 매치되었는가?
# 매치된 문자열의 인덱스는 어디서부터 어디까지인가?

# group()	매치된 문자열을 리턴한다.
# start()	매치된 문자열의 시작 위치를 리턴한다.
# end()	매치된 문자열의 끝 위치를 리턴한다.
# span()	매치된 문자열의 (시작, 끝) 에 해당되는 튜플을 리턴한다.

In [21]:
m = p.match('python')
m

<re.Match object; span=(0, 6), match='python'>

In [22]:
m.group()

'python'

In [23]:
m.start()

0

In [24]:
m.end()

6

In [25]:
m.span()

(0, 6)

## re.compile + match 의 축약된 형태

In [26]:
# p = re.compile('[a-z]+')
# m = p.match("python")

# 위 코드는 아래와 같이 축약 가능

In [27]:
re.match('[a-z]+', 'python')

<re.Match object; span=(0, 6), match='python'>

In [28]:
re.search('[a-z]+', '3 python')

<re.Match object; span=(2, 8), match='python'>

###  정규표현식은 r' (raw string) 사용 추천

In [39]:
# r 문자는 raw string으로 백슬래시 문자를 해석하지 않고 남겨두기 때문에 정규표현식과 같은 곳에 유용하다. 
# 예를 들어 r문자를 사용하지 않는다면

In [30]:
p = re.compile('(\d+)/(\d+)/(\d+)')
p

re.compile(r'(\d+)/(\d+)/(\d+)', re.UNICODE)

In [36]:
p = re.compile('(\\d+)/(\\d+)/(\\d+)')
p

re.compile(r'(\d+)/(\d+)/(\d+)', re.UNICODE)

In [37]:
# raw string 사용
p = re.compile(r'(\d+)/(\d+)/(\d+)')
p

re.compile(r'(\d+)/(\d+)/(\d+)', re.UNICODE)

In [31]:
p.match('1111/2222/3333')

<re.Match object; span=(0, 14), match='1111/2222/3333'>

In [38]:
print('a\n\da')
print('a\n\\da')
print(r'a\n\\da')

a
\da
a
\da
a\n\\da


In [40]:
a = "123456-123456"

In [41]:
re.sub("-", "", a)

'123456123456'

In [None]:
# \d : 숫자 ,    \D : 숫자아닌것

In [42]:
re.sub("\D", "", a)

'123456123456'

In [43]:
# 부정기호 [^] 를 사용
re.sub("[^\d]", "", a)

'123456123456'