# 07-3 강력한 정규 표현식의 세계로
<hr style="height: 1px;">

07-2에서 배우지 않은 몇몇 메타문자의 의미를 살펴보고 그룹(Group)을 만드는 법, 전방 탐색 등 더욱 강력한 정규 표현식에 대해서 살펴보자.

## 1. 메타문자
<hr>

앞에서 살펴본 +, \*, [], {} 등의 메타문자는 매치가 진행될 때 현재 매치되고 있는 문자열의 위치가 변경된다. 이번에는 문자열 소비가 없는(zerowidth assertions) 메타문자에 대해 살펴 보자

### |

| 메타문자는 or과 동일한 의미로 사용된다. A|B라는 정규식이 있다면 A 또는 B라는 의미가 된다.

In [1]:
import re

p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m)

<re.Match object; span=(0, 4), match='Crow'>


### ^

^ 메타문자는 문자열의 맨처음과 일치함을 의미. 앞에서 본 컴파일 옵션 re.MULTILINE을 사용할 경우에는 여러 줄의 문자열일 때 각 줄의 처음과 일치하게 된다.

In [2]:
print(re.search('^Life', 'Life is too short'))

<re.Match object; span=(0, 4), match='Life'>


In [3]:
print(re.search('^Life', 'My Life'))

None


^Life 정규식은 Life 문자열이 처음에 온 경우에는 매치하지만 처음 위치가 아닌 경우에는 매치되지 않음을 알 수 있다.

### \$

\$ 메타문자는 \^ 메타문자와 반대의 경우이다. 즉, \$ 는 문자열의 끝과 매치함을 의미.

In [4]:
print(re.search('short$', 'Life is too short'))

<re.Match object; span=(12, 17), match='short'>


In [5]:
print(re.search('short$', 'Life is too short, you need python'))

None


> ^ 또는 $ 문자를 메타문자가 아닌 문자 그 자체로 매치하고 싶은 경우에는 \^, \$로 사용하면 된다.

### \A

\A는 문자열의 처음과 매치됨을 의미. ^ 메타문자와 동일한 의미이지만 re.MULTILINE 옵션을 사용할 경우에는 다르게 해석됨. re.MULTILINE 옵션을 사용할 경우 ^은 각 줄의 문자열의 처음과 매치되지만 \A는 줄과 상관없이 전체 문자열의 처음하고만 매치된다.

### \Z

\Z는 문자열의 끝과 매치됨을 의미. 이것 역시 \A와 동일하게 re.MULTILINE 옵션을 사용할 경우 달러 메타문자와는 달리 전체 문자열의 끝과 매치된다.

### \b

\b는 단어 구분자(Word boundary)이다. 보통 단어는 whitespace에 의해 구분된다.

In [8]:
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))

<re.Match object; span=(3, 8), match='class'>


In [9]:
print(p.search('the classified algorithm'))

None


In [10]:
print(p.search('one subclass is'))

None


\b 메타문자를 사용할 때 주의해야 할 점이 있음. \b는 파이썬 리터럴 규칙에 의하면 백스페이스(BackSpace)를 의미하므로 백스페이스가 아닌 단어 구분자임을 알려주기 위해 Raw string임을 알려주는 기호 r을 반드시 붙여 주어야 한다.

### \B

\B 메타문자는 \b 메타문자와 반대의 경우. 즉, whitespace로 구분된 단어가 아닌 경우에만 매치

In [11]:
p = re.compile(r'\Bclass\B')
print(p.search('no class at all'))

None


In [13]:
print(p.search('the declassified algorithm'))

<re.Match object; span=(6, 11), match='class'>


In [14]:
print(p.search('one subclass is'))

None


## 2. 그루핑
<hr>

ABC 문자열이 계속해서 반복되는지 조사하는 정규식을 작성하고 싶다고 하자. 이때 필요한 것이 바로 그루핑(Grouping)이다.

다음처럼 그루핑을 사용하여 작성할 수 있다.
```
(ABC)+
```

그룹을 만들어 주는 메타문자는 바로 ( )이다.

In [15]:
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)

<re.Match object; span=(0, 9), match='ABCABCABC'>


In [16]:
print(m.group())

ABCABCABC


다음 예를 보자.

In [19]:
p = re.compile(r"\w+\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")

\w+\s+\d+[-]\d+[-]\d+은 이름+" "+전화번호 형태의 문자열을 찾는 정규식이다. 그런데 이렇게 매치된 문자열 중에서 이르만 뽑아내고 싶다면 어떻게 해야할까?

In [22]:
p = re.compile(r"(\w+)\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
print(m.group(1))

park


이름에 해당하는 \w+ 부분을 그룹 (\w+)으로 만들면 match 객체의 group(인덱스) 메서드를 사용하여 그루핑된 부분의 문자열만 뽑아 낼 수 있다. group 메서드의 인덱스는 다음과 같은 의미를 갖는다.

- group(0) : 매치된 전체 문자열
- group(1) : 첫번째 그룹에 해당되는 문자열
- group(2) : 두번째 그룹에 해당되는 문자열
- group(n) : n 번째 그룹에 해당되는 문자열

In [23]:
# 전화번호 뽑기
p = re.compile(r"(\w+)\s+(\d+[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group(2))

010-1234-1234


만약 전화번호 중에서 국번만 뽑아내고 싶으면 어떻게 할까? 아래와 같이 국번 부분을 또 그루핑하면 된다.

In [24]:
p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group(3))

010


### 2.1 그루핑된 문자열 재참조하기

그룹의 또 하나 좋은 점은 한 번 그루핑한 문자열을 재참조(Backreferences)할 수 있다는 점임.

In [26]:
p = re.compile(r'(\b\w+)\s+\1')
p.search('Paris in the the spring').group()

'the the'

정규식 (\b\w+)\s+\1 은 (그룹) + " " + 그룹과 동일한 단어 와 매치됨을 의미. 이렇게 정규식을 만들게 되면 2개의 동일한 단어를 연속적으로 사용해야만 매치된다. 재참조 메타몬자인 \1은 정규식의 그룹 중 첫번째 그룹을 가리킨다.

> 두번째 그룹을 참조하려면 \2를 사용하면 된다.

### 2.2 그루핑된 문자열에 이름 붙이기

정규식 안에 그룹이 무척 많아진다고 가정해 보자. 예를 들어 정규식 안에 그룹이 10개 이상만 되어도 매우 혼란스러울 것이다.

만약 그룹을 인덱스가 아닌 이름(Named Groups)으로 참조할 수 있다면 어떨까? 그렇다면 이 문제에서 해방되지 않을까?

이러한 이유로 정규식은 그룹을 만들 때 그룹 이름을 지정할 수 있게 했다. 그 방법은 다음과 같다.

```
(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)
```

위 정규식은 앞에서 본 이름과 전화번호를 추출하는 정규식이다. 기존과 달라진 부분은 다음과 같다.

 >  (\w+) --\> (?P\<name>\w+)
    
그룹에 이름을 지어 주려면 다음과 같은 확장 구문을 사용해야 한다.

```
(?P<그룹명>...)
```

그룹에 이름을 지정하고 참조하는 다음의 예를 보자.

In [28]:
p = re.compile(r"(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group("name"))

park


 name이라는 그룹 이름으로 참조 가능.
 
 그룹 이름을 사용하면 정규식 안에서 재참조하는 것도 가능하다.

In [29]:
p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)')
p.search('Paris in the the spring').group()

'the the'

재참조시에는 (?P=그룹이름) 이라는 확장 구문을 사용해야 한다.

## 3. 전방 탐색
<hr>

정규식 입문자들이 가장 어려워하는 것이 바로 전방 탐색(Lookahead Assertions) 확장 구문이다. 정규식 안에 이 확장 구문을 사용하면 순식간에 암호문처럼 알아보기 어렵게 바뀌기 때문. 

In [30]:
p = re.compile(".+:")
m = p.search("http://google.com")
print(m.group())

http:


정규식 .+: 와 일치하는 문자열로 http: 를 돌려주었다. 만약 http: 라는 검색결과에서 :을 제외하고 출력하려면 어떻게 해야 할까? 그루핑은 추가로 할 수 없다는 조건까지 더해진다면 어떻게 해야 할까?

이럴 때 사용할 수 있는 것이 바로 전방 탐색이다. 전방 탐색에는 긍정(Positive)과 부정(Negative)의 2종류가 있고 다음과 같이 표현한다.

- 긍정형 전방 탐색((?=...)) : ...에 해당하는 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소비되지 않음.
- 부정형 전방 탐색((?!=...)) : ...에 해당하는 정규식과 매치되지 않아야 하며 조건이 통과되어도 문자열이 소비되지 않음.

### 3.1 긍정형 전방 탐색

긍정형 전방 탐색을 사용하면 http:의 결과를 http로 바꿀 수 있다.

In [31]:
p = re.compile(".+(?=:)")
m = p.search("http://google.com")
print(m.group())

http


정규식 중 :에 해당하는 부분에 긍정형 전방 탐색 기법을 적용하여 (?=:)으로 변경. 이렇게 되면 :에 해당하는 문자열이 정규식 엔진에 의해 소비되지 않아 결과에서는 :이 제거된 후 돌려주는 효과가 있다.

이번에는 다음 정규식을 보자

```
.*[.].*$
```

이 정규식은 "파일이름 + . + 확장자"를 나타내는 정규식이다. 이 정규식은 foo.bar, autoexec.bat 같은 형식의 파일과 매치될 것.

이 정규식에 확장자가 "bat인 파일은 제외해야 한다"는 조건을 추가해 보자. 가장 먼저 생각할 수 있는 정규식은 다음과 같다.

```
.*[.][^b].*$
```

이 정규식은 확장자가 b라는 문자로 시작하면 안된다는 의미. 하지만 이 정규식은 foo.bar라는 파일마저 걸러 낸다. 정규식을 다음과 같이 수정해 보자.

```
.*[.]([^b]..|.[^a].|..[^t])$
```

이 정규식은 | 메타 문자를 사용하여 확장자의 첫번째 문자가 b가 아니거나 두번째 문자가 a가 아니거나 세번째 문자가 t가 아닌 경우를 의미. 하지만 이 정규식은 sendmail.cf 처럼 확장자의 문자 개수가 2개인 케이스를 포함하지 못하는 오동작을 하기 시작.

따라서 다음과 같이 바꾸어야 한다.

```
.*[.]([^b].?.?|.[^a]?.?|..?[^t]?)$
```

확장자의 문자 개수가 2개여도 통과되는 정규식이 만들어졌다. 하지만 정규식은 점점 더 복잡해지고 이해하기 어려워진다. bat 파일 말고 exe 파일도 제외하라는 조건이 추가로 생긴다면 어떻게 될까? 이 모든 조건을 만족하는 정규식을 구현하려면 패턴은 더욱더 복잡해질 것이다.

### 3.2 부정형 전방 탐색

이러한 상황의 구원투수가 바로 부정형 전방 탐색이다.

```
.*[.](?!bat$).*$
```

확장자가 bat이 아닌 경우에만 통과된다는 의미. 

exe 역시 제외하라는 조건이 추가되더라도 다음과 같이 간단히 표현 가능.

```
.*[.](?!bat$|exe$).*$
```

## 4. 문자열 바꾸기
<hr>

sub 메서드를 사용하면 정규식과 매치되는 부분을 다른 문자로 쉽게 바꿀 수 있다.

In [32]:
p = re.compile('(blue|white|red)')
p.sub('colour', 'blue socks and red shoes')

'colour socks and colour shoes'

sub 메서드의 첫번째 매개변수는 "바꿀 문자열"이 되고 두번째 매개변수는 "대상 문자열"이 된다.

그런데 딱 한번만 바꾸고 싶은 경우도 있다. 이렇게 바꾸기 횟수를 제어하려면 다음과 같이 세번째 매개변수로 count값을 넘기면 된다.

In [33]:
p.sub('colour', 'blue socks and red shoes', count=1)

'colour socks and red shoes'

**[sub 메서드와 유사한 subn 메서드]**

subn 역시 sub와 동일한 기능을 하지만 반환 결과를 튜플로 돌려줌.

In [34]:
p = re.compile('(blue|white|red)')
p.subn('colour', 'blue socks and red shoes')

('colour socks and colour shoes', 2)

### 4.1 sub 메서드 사용시 참조 구문 사용하기

sub 메서드를 사용할 때 참조 구문을 사용할 수 있다. 다음 예를 보자.

In [35]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<phone> \g<name>", "park 010-1234-1234"))

010-1234-1234 park


위 예는 "이름 + 전화번호"의 문자열을 "전화번호 + 이름"으로 바꾸는 예이다. sub의 바꿀 문자열 부분에 \g<그룹이름>을 사용하면 정규식의 그룹 이름을 참조할 수 있게 된다.

다음과 같이 그룹 이름 대신 참조 번호를 사용해도 된다.

In [36]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<2> \g<1>", "park 010-1234-1234"))

010-1234-1234 park


### 4.2 sub 메서드의 매개변수로 함수 넣기

In [37]:
def hexrepl(match):
    value = int(match.group())
    return hex(value)

p = re.compile(r'\d+')
p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.')

'Call 0xffd2 for printing, 0xc000 for user code.'

hexrepl 함수는 match 객체를 입력받아 16진수로 변환하여 돌려주는 함수.

## 5. Greedy vs Non-Greedy
<hr>

정규식에서 Greedy란 어떤 의미일까? 다음 예제를 보자.

In [38]:
s = '<html><head><title>Title</title>'
len(s)

32

In [39]:
print(re.match('<.*>', s).span())

(0, 32)


In [40]:
print(re.match('<.*>', s).group())

<html><head><title>Title</title>


<.\*> 정규식의 매치 결과로 <html> 문자열을 돌려주기를 기대했을 것이다. 하지만 * 메타문자는 매우 탐욕스러워서 매치할 수 있는 최대한의 문자열인 <html><head><title>Title</title> 문자열을 모두 소비해 버렸다. 어떻게 하면 이 탐욕스러움을 제한하고 <html>만 소비할 수 있을까?

In [41]:
print(re.match('<.*?>', s).group())

<html>


non-greedy 문자인 ?는 \*?, +?, ??, {m,n}? 와 같이 사용할 수 있다. 가능한 한 가장 최소한의 반복을 수행하도록 도와주는 역할을 한다.