# 1. Meta Characters

In [1]:
import re

## 1) | : or

In [2]:
p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m)

<_sre.SRE_Match object; span=(0, 4), match='Crow'>


## 2) ^ : 문자열의 맨 처음과 일치함

* ^ (re.MULTILINE) -> 라인별 문자열의 처음과 매치

In [3]:
print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'My Life'))

<_sre.SRE_Match object; span=(0, 4), match='Life'>
None


## 3) $ : 문자열의 끝과 매치함

* \Z (re.MULTILINE) -> 라인별 문자열의 끝과 매치

In [4]:
print(re.search('short$', 'Life is too short'))
print(re.search('short$', 'Life is too short, you need python'))

<_sre.SRE_Match object; span=(12, 17), match='short'>
None


In [5]:
# ^ 또는 $ 문자를 메타문자가 아닌 문자 그 자체로 매치하고 싶은 경우 : [^] , [$], \^, \$

## 4) \A : 문자열의 처음과 매치됨

* \A (re.MULTILINE) -> 라인과 상관없이 전체 문자열의 처음하고만 매치

## 5) \Z : 문자열의 끝과 매치됨

* \Z (re.MULTILINE) -> 라인과 상관없이 전체 문자열의 끝과 매치

## 6) \b : ( 단어 구분자(Word boundary), whitespace에 의해 구분된 단어인 경우에만 매치 )

* raw string임을 알려주는 기호 r을 반드시 붙여주어야 함.

In [6]:
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))

<_sre.SRE_Match object; span=(3, 8), match='class'>


In [7]:
print(p.search('the declassified algorithm'))

None


In [8]:
print(p.search('one subclass is'))

None


## 6) \B : ( 단어 구분자(Word boundary), whitespace에 의해 구분된 단어가 아닌 경우에만 매치)

In [9]:
p = re.compile(r'\Bclass\B')
print(p.search('no class at all'))
print(p.search('the declassified algorithm'))
print(p.search('one subclass is'))

None
<_sre.SRE_Match object; span=(6, 11), match='class'>
None


# 2. Grouping

* ( ) : 그룹을 만들어 주는 메타문자

In [10]:
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)
print(m.group())

<_sre.SRE_Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC


In [11]:
p = re.compile(r"\w+\s+\d+[-]\d+[-]\d+") # 이름 + " " + 전화번호
m = p.search("park 010-1234-1234")

In [12]:
p = re.compile(r"(\w+)\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
print(m.group(1))

park


In [13]:
p = re.compile(r"(\w+)\s+(\d+[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group(2))

010-1234-1234


In [14]:
p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group(3))

010


## 1) 그룹핑된 문자열 재참조하기

In [15]:
p = re.compile(r'(\b\w+)\s+\1') # (그룹1) + " " + "그룹1과 동일한 단어"
p.search('Paris in the the spring').group()

'the the'

* \1 : 정규식의 그룹중 첫번째 그룹을 지칭하는 참조 메타문자 (\2 : 두번째 그룹을 참조)

## 2)  그룹핑된 문자열에 이름 붙이기

In [16]:
# (\w+) --> (?P<name>\w+)

In [17]:
p = re.compile(r"(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group("name"))

park


In [18]:
p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)')
p.search('Paris in the the spring').group()

'the the'

# 3. 전방 탐색(Lookahead Assertions)

In [19]:
p = re.compile(".+:")
m = p.search("http://google.com")
print(m.group())

http:


* 긍정형 전방 탐색( (?=...) ) : ...에 해당되는 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소비되지 않음.
* 부정형 전방 탐색( (?!...) ) : ...에 해당되는 정규식과 매치되지 않아야 하며 조건이 통과되어도 문자열이 소비되지 않음.

## 1) 긍정형 전방 탐색

In [20]:
p = re.compile(".+(?=:)")
m = p.search("http://google.com")
print(m.group())

http


In [21]:
# .*[.].*$
# .*[.][^b].*$
# .*[.]([^b]..|.[^a].|..[^t])$
# .*[.]([^b].?.?|.[^a]?.?|..?[^t]?)$

## 2) 부정형 전방 탐색

In [22]:
# .*[.](?!bat$).*$
# .*[.](?!bat$|exe$).*$

# 4. 문자열 바꾸기

In [23]:
p = re.compile('(blue|white|red)')
p.sub('colour', 'blue socks and red shoes')

'colour socks and colour shoes'

In [24]:
p.sub('colour', 'blue socks and red shoes', count=1)

'colour socks and red shoes'

In [25]:
# [sub 메서드와 유사한 subn 메서드]
# subn은 결과를 튜플로 리턴함 : 첫 번째 요소는 변경된 문자열, 두 번째 요소는 바꾸기가 발생한 횟수
p = re.compile('(blue|white|red)')
p.subn('colour', 'blue socks and red shoes')

('colour socks and colour shoes', 2)

## 1) sub 메서드 사용 시 참조 구문 사용하기

In [26]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<phone> \g<name>", "park 010-1234-1234"))

010-1234-1234 park


In [27]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<2> \g<1>", "park 010-1234-1234"))

010-1234-1234 park


## 2) sub 메서드의 입력 인수로 함수 넣기

In [28]:
def hexrepl(match):
    "Return the hex string for a decimal number"
    value = int(match.group())
    return hex(value)

p = re.compile(r'\d+')
p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.')

'Call 0xffd2 for printing, 0xc000 for user code.'

# 5. Greedy vs Non-Greedy

In [29]:
s = '<html><head><title>Title</title>'
print(len(s))
print(re.match('<.*>', s).span())
print(re.match('<.*>', s).group())

32
(0, 32)
<html><head><title>Title</title>


In [30]:
print(re.match('<.*?>',s).group())

<html>
