## 전방탐색

In [2]:
import re
p = re.compile(".+:")
m = p.search("http://google.com")
print(m.group())


http:


• 긍정형 전방 탐색((?=...)) - ... 에 해당되는 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소모되지 않는다.  
• 부정형 전방 탐색((?!...)) - ...에 해당되는 정규식과 매치되지 않아야 하며 조건이 통과 되어도 문자열이 소모되지 않는다.


### 긍정형 전방 탐색

In [3]:
p = re.compile(".+(?=:)")
m = p.search("http://google.com")
print(m.group())


http


### 문자열 바꾸기

In [4]:
p = re.compile('(blue|white|red)')
p.sub('colour', 'blue socks and red shoes')

'colour socks and colour shoes'

In [5]:
# 딱 한번만 바꾸고 싶은 경우 횟수를 제어하려면 count 값을 넘긴다.
p.sub('colour', 'blue socks and red shoes', count=1)

'colour socks and red shoes'

#### [sub 메서드와 유사한 subn 메서드]

In [6]:
# 바꾸기가 발생한 횟수 2
p = re.compile('(blue|white|red)')
p.subn( 'colour', 'blue socks and red shoes')

('colour socks and colour shoes', 2)

#### sub 메서드 사용 시 참조 구문 사용하기

In [7]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<phone> \g<name>", "park 010-1234-1234"))


010-1234-1234 park


In [8]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<2> \g<1>", "park 010-1234-1234"))

010-1234-1234 park


#### sub 메서드의 입력 인수로 함수 넣기

In [10]:
def hexrepl(match):
    "Return the hex string for a decimal number"
    value = int(match.group())
    return hex(value)

p = re.compile(r'\d+')
p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.')


'Call 0xffd2 for printing, 0xc000 for user code.'

hexrepl 함수는 match 객체(위에서 숫자에 매치되는)를 입력으로 받아 16진수로 변환하여 리턴하 는 함수이다.sub의 첫 번째 입력 인수로 함수를 사용할 경우 해당 함수의 첫 번째 입력 인수에는 정규식과 매치된 match 객체가 입력된다. 그리고 매치되는 문자열은 함수의 리턴값으로 바뀌게 된다.


### Greedy vs Non-Greedy

In [12]:
s = '<html><head><title>Title</title>'
len(s)

32

In [15]:
print(re.match('<.*>', s).span())

(0, 32)


In [16]:
print(re.match('<.*>', s).group())

<html><head><title>Title</title>


In [18]:
# non-greedy한 문자인 ?을 사용하면 *의 탐욕을 제한할 수 있다.
print(re.match('<.*?>', s).group())

<html>


### 연습문제

In [20]:
import re
s = """
park 010-9999-9988
kim 010-9909-7789
lee 010-8789-7768
"""
pat = re.compile("(\d{3}[-]\d{4})[-]\d{4}")
result = pat.sub("\g<1>-####", s)
print(result)



park 010-9999-####
kim 010-9909-####
lee 010-8789-####



In [21]:
import re
pat = re.compile(".*[@].*[.](?=com$|net$).*$")
print(pat.match("pahkey@gmail.com"))
print(pat.match("kim@daum.net"))
print(pat.match("lee@myhome.co.kr"))


<re.Match object; span=(0, 16), match='pahkey@gmail.com'>
<re.Match object; span=(0, 12), match='kim@daum.net'>
None
