# 07-3 강력한 정규 표현식의 세계로

## 메타문자

### |

| 메타묹는 "or"의 의미와 동일하다. A|B라는 정규식은 A 또는 B라는 의미가 된다.

In [3]:
import re
p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m)

<re.Match object; span=(0, 4), match='Crow'>


In [4]:
print(re.search('^Life','Life is too short'))


<re.Match object; span=(0, 4), match='Life'>


In [5]:
# 처음에 온 경우에는 매치하지만 처음 위치가 아닌 경우에는 매치가 안된다.
print(re.search('^Life','My Life'))

None


### $

In [6]:
# $는 문자열의 끝과 매치한다.
print(re.search('short$','Life is too short'))

<re.Match object; span=(12, 17), match='short'>


In [7]:
print(re.search('short$','Life is too short, you need python'))

None


### \A

\A는 문자열의 처음과 매치됨을 의미한다. ^과 동일한 의미이지만 re.MULTILINE 옵션을 사용할 경우에는 다르게 해석된다. re.MULTILINE 옵션을 사용할 경우 ^은 라인별 문자열의 처음과 매치 되지만 \A는 라인과 상관없이 전체 문자열의 처음하고만 매치된다.

### \Z

\Z는 문자열의 끝과 매치됨을 의미한다. 이것 역시 \A와 동일하게 re.MULTILINE 옵션을 사용할 경우 $ 메타문자와는 달리 전체 문자열의 끝과 매치된다.


### \b

In [10]:
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))

<re.Match object; span=(3, 8), match='class'>


In [11]:
print(p.search('the declassified algorithm'))

None


In [12]:
print(p.search('one subclass is'))

None


 \b는 파이썬 리터럴 규칙에 의하면 백스페이스(Back Space)를 의미하므로 백스페이스가 아닌 Word Boundary임을 알려주기 위해 r’\bclass\b’ 처럼 raw string임을 알려주는 기호 r을 반드시 붙여주어야 한다.


### \B

\B 메타문자는 \b 메타문자의 반대의 경우이다. 즉, whitespace로 구분된 단어가 아닌 경우에만 매치된다.


In [14]:
p = re.compile(r'\Bclass\B')
print(p.search('no class at all'))

None


In [15]:
print(p.search('the declassified algorithm'))

<re.Match object; span=(6, 11), match='class'>


### 그루핑

In [16]:
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)


<re.Match object; span=(0, 9), match='ABCABCABC'>


In [17]:
print(m.group())

ABCABCABC


In [18]:
p = re.compile(r"\w+\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")

In [20]:
# 이름만 뽑아 내고 싶을때
p = re.compile(r"(\w+)\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
print(m.group(1))

park


|group(인덱스)|설명|
| :--- | :---
|group(1)|첫 번째 그룹에 해당되는 문자열|
|group(2)|두 번째 그룹에 해당되는 문자열|
|group(n)|n 번째 그룸에 해당되는 문자열|

In [21]:
# 전화번호만 뽑아내기
p = re.compile(r"(\w+)\s+(\d+[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group(2))

010-1234-1234


In [25]:
# 그룹이 중첩되어 있는 경우 바깥쪽 부터 안쪽으로 들어갈수록 인덱스 증가한다.
p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group(3))


010


### 그루핑된 문자열 재참조하기

In [26]:
p = re.compile(r'(\b\w+)\s+\1')
p.search('Paris in the the spring').group()

'the the'