# 강력한 정규 표현식의 세계로

## 문자열 소비가 없는 메타 문자

In [1]:
# +, *, [], {} 등의 메타 문자는 매치가 성사되면 탐색 위치가 변한다.
# 이들을 사용하여 매칭이 성공하면, 해당 문자열은 제외하고 다음 매칭을 시도한다.
# 이를 문자열을 소비한다(consume)고 한다.
# 하지만, 이들과 달리 문자열을 소비하지 않는 메타 문자도 있다.
import re

### |

In [2]:
# |는 or과 같은 의미로 사용한다.
p = re.compile('Miyeon|Soyeon') # 'Miyeon' 또는 'Soyeon'과 매칭을 시도
m = p.match("MiyeonSoyeon") # 첫 문자열이 Miyeon이라 매칭 성공
print(m)

<re.Match object; span=(0, 6), match='Miyeon'>


### ^

In [3]:
# 메타 문자 ^는 문자열의 맨 처음과 일치함을 의미한다.
print(re.search('^Soyeon', "Soyeon is not short"))
print(re.search('^Soyeon', "I love Soyeon.")) # 문자열의 처음에 'Soyeon'이 위치하지 않으므로 None을 반환

<re.Match object; span=(0, 6), match='Soyeon'>
None


### $

In [4]:
# 메타 문자 $는 문자열의 맨 끝과 일치함을 의미한다.
print(re.search('Yuqi$', "Her name is Song Yuqi"))
print(re.search('Yuqi$', "Yuqi xing Song.")) # 문자열의 끝에 'Yuqi'가 위치하지 않으므로 None을 반환

<re.Match object; span=(17, 21), match='Yuqi'>
None


### \A

In [5]:
multistr = """gidle Miyeon
gidle Minnie
gidle Soyeon
gidle Yuqi
gidle Shuhua"""

print(re.findall('^gidle', multistr)) # {multistr} 전체의 처음을 기준으로 'gidle' 매칭

['gidle']


In [6]:
print(re.findall('^gidle', multistr, re.MULTILINE)) # re.MULTILINE 옵션에 의해 각 줄마다 'gidle' 매칭
print(re.findall(r'\Agidle', multistr, re.MULTILINE)) # \A는 {multistr} 전체의 처음을 의미한다.

['gidle', 'gidle', 'gidle', 'gidle', 'gidle']
['gidle']


### \Z

In [7]:
multistr = """Miyeon gidle
Minnie gidle
Soyeon gidle
Yuqi gidle
Shuhua gidle"""

print(re.findall('gidle$', multistr, re.MULTILINE))
print(re.findall(r'gidle\Z', multistr, re.MULTILINE)) # \Z는 {multistr} 전체의 처음을 의미한다.

['gidle', 'gidle', 'gidle', 'gidle', 'gidle']
['gidle']


### \b

In [8]:
# \b는 단어 구분자(word boundary)라 한다. 단어는 화이트스페이스로 구분된다.
p = re.compile(r'\bclass\b')
print(p.search("No class at all")) # 'class'라는 문자열 공백으로 구분되므로 \b 옵션으로 매칭된다.

<re.Match object; span=(3, 8), match='class'>


In [9]:
print(p.search("the declassified algorithm"))
# 'class'가 포함되어 있으나, 공백으로 구분되지 않으므로 매칭되지 않는다.

None


In [10]:
print(p.search("one subclass is"))
# 'class'가 포함되어 있으나, 앞에 'sub'가 더해져 구분되지 않으므로 매칭되지 않는다.

None


### \B

In [11]:
# \B는 공백으로 구분되지 않는 문자열과 매칭한다.
p = re.compile(r'\Bclass\B')
print(p.search('no class at all')) # 'class' 앞뒤로 공백이 있어 구분되므로 매칭되지 않는다.
print(p.search('the declassified algorithm'))
print(p.search('one subclass is')) # 'class' 뒤에 공백이 있으므로 매칭되지 않는다.

None
<re.Match object; span=(6, 11), match='class'>
None


## 그루핑

In [12]:
# 특정 문자열의 반복을 확인할 때, 그루핑(grouping)을 이용할 수 있다.
# 그루핑은 괄호()를 이용한다.
p = re.compile('(Minnie)+')
m = p.search('MinnieMinnieMinnie OK?')
print(m) # 그루핑으로 'Minnie'의 반복을 찾아냄
print(m.group()) # group(): 정규식 패턴과 일치하는 문자열을 반환

<re.Match object; span=(0, 18), match='MinnieMinnieMinnie'>
MinnieMinnieMinnie


In [13]:
p = re.compile(r"\w+\s+d+[-]\d+[-]\d+") # 문자 + 공백 + 숫자 + '-' + 숫자 + '-' + 숫자
m = p.search("Koo 010-6743-2858")

In [14]:
# 위 문자열에서 이름만 뽑아내고자 함
p = re.compile(r"(\w+)\s+\d+[-]\d+[-]\d+") # 앞의 문자 부분을 그루핑
m = p.search("Koo 010-6743-2858")
print(m.group(1)) # 첫 번째 그룹에 해당되는 문자열 반환

Koo


In [15]:
# 위 문자열에서 전화번호만 뽑아내고자 함
p = re.compile(r"(\w+)\s+(\d+[-]\d+[-]\d+)") # 앞의 문자 부분과 뒤의 전화번호 부분을 그루핑
m = p.search("Koo 010-6743-2858")
print(m.group(2)) # 두 번째 그룹에 해당되는 문자열 반환

010-6743-2858


In [16]:
# 문자열에서 국번만 뽑아내고자 함
p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)") # 전화번호 부분의 맨 앞 숫자를 중첩하여 그루핑
m = p.search("Koo 010-6743-2858")
print(m.group(3)) # 중첩된 그룹은 바깥쪽부터 안쪽으로 인덱스 증가

010


### 그루핑된 문자열 재참조하기

In [17]:
p = re.compile(r'(\b\w+)\s+\1') # \1는 첫 번째 그룹을 재참조(backreference)함을 의미
p.search("Paris in the the spring").group()
# (\b\w+)인 그룹을 재참조하므로 공백+문자를 공백을 두고 재참조 가능한 'the'를 재참조

'the the'

### 그루핑된 문자열에 이름 붙이기

In [18]:
# 특정 그룹을 이름으로 그루핑할 수 있다.
# 이름을 붙일 땐 ?를 이용한다. 이렇게 하면 가독성은 떨어지지만, 강력한 기능을 사용할 수 있다.
p = re.compile(r"(?P<name>\w+)\s+((\d+)[-])") # (\w+) 그룹에 'name'이라는 이름을 붙임
m = p.search("Koo 010-6743-2858")
print(m.group('name')) # 'name'으로 명명한 (\w+) 그룹을 이름으로 참조

Koo


In [19]:
p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)')
p.search("Paris in the the spring").group() # 같은 이름을 사용하고 ?P=를 사용하여 재참조 가능

'the the'

## 전방 탐색

In [20]:
p = re.compile(".+:") # 아무 문자 반복 + ':'
m = p.search("https://www.naver.com")
print(m.group())
# 만약, :를 빼고 탐색하고 싶다면?

https:


### 긍정형 전방 탐색

In [21]:
# 특정 패턴이 뒤따르는지 확인하지만, 해당 패턴 자체는 소비되지 않는 것을
# 전방 탐색(lookahead assertion)이라 한다.
# 해당 정규식과 매칭되는 부분을 탐색한다면 긍정형(positive)이라 한다.
p = re.compile(".+(?=:)")
m = p.search("https://www.naver.com")
print(m.group()) # :가 탐색에 사용되었으나, 소비되지는 않아 앞부분만 반환된다.

https


### 부정형 전방 탐색

In [22]:
gidle = """Miyeon
Minnie.bar
Soyeon.exe
Yuqi.bat
Shuhua.cf"""

# 확장자가 붙은 문자열만 골라내고 싶음.

In [23]:
p = re.compile('.*[.].*$', re.MULTILINE)
# (아무 문자나 횟수 상관 없이 반복 + '.' + 아무 문자나 상관 없이 반복)으로 마무리
m = p.findall(gidle)
print(m) # 확장자가 붙은 멤버들만 골라냄

# .bat 확장자는 제거하고 싶음

['Minnie.bar', 'Soyeon.exe', 'Yuqi.bat', 'Shuhua.cf']


In [24]:
p = re.compile('.*[.][^b].*$', re.MULTILINE)
# '.' 뒤에 'b'가 아닌 문자와 매치
m = p.findall(gidle) # 'Minnie.bar'도 정규식에 매칭되어 같이 제거된다.
print(m)

# .bat만 저격하여 제거할 방법이 없을까?

['Soyeon.exe', 'Shuhua.cf']


In [25]:
p = re.compile('(.*[.]([^b]..|.[^a].|..[^t])$)', re.MULTILINE)
# 각 자리에 'bat'가 안 오도록 매치
m = p.findall(gidle) # 확장자가 그루핑되어 있으므로 튜플로 확장자가 같이 출력
print(m) # 확장자가 두 글자인 'Shuhua.cf'가 오동작에 의해 같이 제거됨

# 확장자 글자 수에 구애받지 않고 제거할 방법이 없을까?

[('Minnie.bar', 'bar'), ('Soyeon.exe', 'exe')]


In [26]:
p = re.compile('(.*[.]([^b].?.?|.[^a]?.?|..?[^t]?)$)', re.MULTILINE)
# ?는 해당 문자가 있어도 없어도 됨을 의미
m = p.findall(gidle)
print(m) # 확장자 글자 수에 구애받지 않고 캡처 가능

# 목적은 달성했지만 정규식이 너무 복잡해진다. 간단하게 표현할 방법이 없을까?

[('Minnie.bar', 'bar'), ('Soyeon.exe', 'exe'), ('Shuhua.cf', 'cf')]


In [27]:
p = re.compile('.*[.](?!bat$).*$', re.MULTILINE)
# 부정형 전방 탐색: 'bat'이 없어 해당 문자와 매칭되지 않는 경우만 탐색
m = p.findall(gidle)
print(m)

# .bat만 정확하게 저격하여 제거 가능

['Minnie.bar', 'Soyeon.exe', 'Shuhua.cf']


In [28]:
# 만약, .exe도 같이 제거하고 싶다면?
p = re.compile('.*[.](?!bat$|exe$).*$', re.MULTILINE)
m = p.findall(gidle)
print(m)

# .exe도 같이 저격하여 제거

['Minnie.bar', 'Shuhua.cf']


## 문자열 바꾸기

In [29]:
p = re.compile('(blue|white|red)')
p.sub('color', 'blue socks and red shoes') # sub(): 뒤의 인수 중 매치되는 부분을 앞의 인수로 변경

'color socks and color shoes'

In [30]:
p.sub('color', 'blue socks and red shoes', count=1)
# 바꿀 횟수를 지정할 수 있다. 단, 바꾸기는 처음부터 시작된다.

'color socks and red shoes'

In [31]:
# subn()도 비슷한 기능을 한다.
p = re.compile('(blue|white|red)')
p.subn('color', 'blue socks and red shoes')
# subn(): 문자열 중 매치되는 부분을 고쳐 고친 문자열과 수정 횟수를 튜플로 반환

('color socks and color shoes', 2)

### sub 메서드 사용 시 참조 구문 사용하기

In [32]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)") # 그룹에 이름 붙임
print(p.sub(r"\g<phone> \g<name>", "Koo 010-6743-2858")) # \g를 통해 그룹 이름을 참조 가능

010-6743-2858 Koo


In [33]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+[-]\d+[-]\d+))")
print(p.sub(r"\g<2> \g<1>", "Koo 010-6743-2858")) # 참조 번호를 사용하여 참조 가능

010-6743-2858 Koo


### sub 메서드의 매개변수로 함수 넣기

In [34]:
# sub() 메서드의 첫 번째 인수로 함수를 전달할 수 있다.
def hexrepl(match):
    value = int(match.group()) # 받은 match 객체의 그루핑된 곳을 group() 메서드로 추출하여 int형으로 바꾸어 저장
    return hex(value) # {value}를 16진수 형태로 전환

p = re.compile(r'\d+')
p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.') # 숫자 부분이 16진수 형태로 바뀌었다.

'Call 0xffd2 for printing, 0xc000 for user code.'

## greedy와 non-greedy

In [35]:
# 반복 메타 문자 *, +, {}, ?는 최대한 많은 문자열을 매칭하려 한다.
# 이를 탐욕스러운(greedy) 매칭이라 한다.
s = '<html><head><title>Title</title>'
len(s) # 32
print(re.match('<.*>', s).span())
print(re.match('<.*>', s).group())
# 매치 가능한 모든 문자열(양 끝의 <와 >를 경계로 한 문자열)을 전부 반환한다.

(0, 32)
<html><head><title>Title</title>


In [36]:
# ?를 반복 메타 문자 뒤에 사용하여, (*?, +?, ??, {}?)
# 반복 문자의 탐욕을 제어할 수 있다.
# 이를 탐욕적이지 않은(non-greedy) 매칭이라 한다.
print(re.match('<.*?>', s).group())
# 매치 가능한 가장 작은 단위의 문자열을 반환한다.

<html>
