# 9장 전방탐색과 후방탐색

## 전후방탐색 살펴보기
* 후방탐색은 많은 곳에서 지원하지 않는다.
* Python에서는 제약이 있긴 하나, 후방탐색을 지원한다.
* JavaScript에서는 지원하지 않는다.

## 전방탐색
* 전방탐색은 ?=로 시작한다.
* 일부 정규 표현식 문서에선 일치 영역을 반환하는 동작을 '소비한다(consume)'고 표현한다. 즉, 전방탐색은 소비하지 않는다(not consume)고 표현할 수 있다.

In [1]:
import re

ex = '''http://www.forta.com/
https://mail.forta.com/
ftp://ftp.forta.com/'''

p1 = re.compile(r'.+(?=:)')
p2 = re.compile(r'.+(:)')
res1 = p1.finditer(ex)
res2 = p2.finditer(ex)
for r in res1: print(r)
for r in res2: print(r)

<re.Match object; span=(0, 4), match='http'>
<re.Match object; span=(22, 27), match='https'>
<re.Match object; span=(46, 49), match='ftp'>
<re.Match object; span=(0, 5), match='http:'>
<re.Match object; span=(22, 28), match='https:'>
<re.Match object; span=(46, 50), match='ftp:'>


* p1은 전방탐색이며, :를 찾고 앞의 문자를 탐색하며 :는 소비하지 말라는 뜻이다.
* p2는 일치한 텍스트를 소비하는 것을 볼 수 있다.
* 전방과 후방탐색 일치는 실제로 결과를 반환하나, 반환 문자 길이는 항상 0이다. 따라서 전방탐색을 제로폭(zero-width)이라고도 부른다.

## 후방탐색
* 후방탐색은 ?<=로 한다.

In [2]:
import re

ex = '''ABC01: $23.45
HGG42: $5.31
CFMX1: $899.00
XTC99: $69.96
Total items found: 4'''

p1 = re.compile(r'\$[0-9.]+')
p2 = re.compile(r'(?<=\$)[0-9.]+')
res1 = p1.finditer(ex)
res2 = p2.finditer(ex)
for r in res1: print(r)
for r in res2: print(r)

<re.Match object; span=(7, 13), match='$23.45'>
<re.Match object; span=(21, 26), match='$5.31'>
<re.Match object; span=(34, 41), match='$899.00'>
<re.Match object; span=(49, 55), match='$69.96'>
<re.Match object; span=(8, 13), match='23.45'>
<re.Match object; span=(22, 26), match='5.31'>
<re.Match object; span=(35, 41), match='899.00'>
<re.Match object; span=(50, 55), match='69.96'>


* 전방탐색 패턴은 텍스트의 길이를 다양하게 할 수 있으나, 후방탐색 패턴은 일치시킬 텍스트의 길이를 고정해야 한다.

## 전방과 후방탐색 함께 쓰기

In [4]:
import re

ex = '''<head>
<title>Ben Forta's Homepage</title>
</head>'''

p1 = re.compile(r'(?<=\<[tT][iI][tT][lL][eE]>).*(?=</[tT][iI][tT][lL][eE]>)')
res1 = p1.finditer(ex)
for r in res1: print(r)

<re.Match object; span=(14, 34), match="Ben Forta's Homepage">


## 부정형 전후방탐색
* 실제로 일치하는 텍스트를 찾는 경우를, 긍정형(positive) 전방탐색 / 긍정형 후방탐색이라고 한다.
* 부정형은 일치하지 않는 텍스트를 찾는 경우이다.
* 캐럿(^)을 쓰는 문법과는 다르다.
* 전방탐색을 지원하는 경우라면, 긍정형과 부정형 전방탐색 모두를 지원한다. 후방탐색의 경우도 마찬가지다.

|Class|Description|
|---|---|
|(?=)|Positive lookahead|
|(?!)|Negative lookahead|
|(?<=)|Positive lookbehind|
|(?<!)|Negative lookbehind|


In [5]:
import re

ex = '''I paid $30 for 100 apples,
50 oranges, and 60 pears.
I saved $5 on this order.'''

p1 = re.compile(r'(?<=\$)\d+')
p2 = re.compile(r'\b(?<!\$)\d+\b')
p3 = re.compile(r'(?<!\$)\d+')
res1 = p1.finditer(ex)
res2 = p2.finditer(ex)
res3 = p3.finditer(ex)
for r in res1: print(r)
for r in res2: print(r)
for r in res3: print(r)

<re.Match object; span=(8, 10), match='30'>
<re.Match object; span=(62, 63), match='5'>
<re.Match object; span=(15, 18), match='100'>
<re.Match object; span=(27, 29), match='50'>
<re.Match object; span=(43, 45), match='60'>
<re.Match object; span=(9, 10), match='0'>
<re.Match object; span=(15, 18), match='100'>
<re.Match object; span=(27, 29), match='50'>
<re.Match object; span=(43, 45), match='60'>


* p1은 후방탐색이며, \d+는 하나 이상 연속된 숫자를 의미한다. 후방탐색이므로 $는 소비하지 않는다.
* p2는 부정형 후방탐색이다. p1의 후방탐색 `(?<=\$)`을 `(?<!\$)`로 바꿨다. 즉, 앞에 달러가 없는 숫자와만 일치한다. 예를 들어, 100 apples에서의 100과 일치한다.
* p2에서 왜 \b를 사용하여 단어 경계를 지정했는가? 단어 경계가 없다면, $30에 있는 0도 일치하기 때문이다. 숫자 0 앞에는 $표시가 없기 때문이다. 이 경우를 p3에서 볼 수 있다.