# Grouping

In [20]:
import re

## ABC 문자열 반복

In [21]:
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
m

<re.Match object; span=(0, 9), match='ABCABCABC'>

In [22]:
m.group(0)

'ABCABCABC'

## 그룹 인덱스로 추출
- group(0) = 문자열 전체
- group(1) = 첫번째 그룹
- group(2) = 두번째 그룹
- group(n) = n번째 그룹

In [23]:
p = re.compile(r"\w+\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
m

<re.Match object; span=(0, 18), match='park 010-1234-1234'>

In [24]:
p = re.compile(r"(\w+)\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
m.group(0), m.group(1)

('park 010-1234-1234', 'park')

In [25]:
p = re.compile(r"(\w+)\s+(\d+[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
m.group(1), m.group(2)

('park', '010-1234-1234')

## 그루핑 재참조
- \\{그루핑번호} 를 통해서 앞의 그룹 재참조 가능

In [26]:
p = re.compile(r'(\b\w+)\s+\1')
p.search('Paris in the the spring').group()

'the the'

## 그루핑된 문자열에 이름 붙이기
- (?P<그룹이름>...) => group('그룹이름') 으로 호출가능
- (?P=그룹이름) => 앞의 그룸 이름으로 재참조 가능

In [27]:
# 첫번째 그룹이름 name으로 지정
p = re.compile(r"(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group("name"))

park


In [28]:
# word 그룹 재참조
p = re.compile(r"(?P<word>\b\w+)\s+(?P=word)")
p.search("Paris in the the spring").group()

'the the'

# 전방 탐색

## 긍정형 전방 탐색
- (?=...) = ... 에 해당하는 정규식과 매치되어야하며 조건이 통과되어도 문자열 소비 X

In [29]:
p = re.compile(".+:")
m = p.search('https:foofle.com')
m.group()

'https:'

In [30]:
# : 에 해당하는 조건만 탐색
p = re.compile(".+(?=:)")
m = p.search('https:foofle.com')
m.group()

'https'

## 부정형 전방 탐색
- (?!...) = ...에 해당하는 정규식과 매치되지 않아야 하며 조건이 통과되어도 문자열 소비 X

In [32]:
# 파일 확장자 나타내는 정규식
p = re.compile('.*[.].*$')

# 확장자가 .bat 인 파일 제외

# b로 시작하는 확장자 제외
p = re.compile('.*[.][^b].*$')
# bar 같은 다른 확장자도 제외됨

# | 연산을 사용하여 b.. .a. ..t 가 아닌것 찾음
p = re.compile('.*[.]([^b]..|.[^a].|..[^t])$')
# 확장자가 두글자인 파일은 오류남

# 이런식으로 버꿔줘야 하지만 이해하기 어려워짐
p = re.compile('.*[.]([^b].?.?|.?[^a].?|.?.?[^t])$')

In [33]:
# bat이 아닐 경우에만 통과
p = re.compile('.*[.](?!bat$).*$')
p = re.compile('.*[.](?!bat$|exe$).*$')

# 문자열 바꾸기 - sub
- sub 메서드 사용
- 정규식에 맞는 문자열을 대상 문자열안에서 바꿀 문자열로 바꿔줌

In [36]:
p = re.compile('(blue|white|red)')

p.sub('color', 'blue socks red socks')

'color socks color socks'

In [38]:
p = re.compile('(blue|white|red)')

p.sub('color', 'blue socks red socks', count=1)

'color socks red socks'

## sub 메서드에서 그룹 참조
- \g<그룹명> 을 통해서 참조 가능

In [40]:
p = re.compile(r'(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)')
print(p.sub("\g<phone>\g<name>", "park 010-1111-1234"))

010-1111-1234park


## sub 메서드의 매개변수로 함수 사용

In [41]:
def hexrepl(match):
    value = int(match.group())
    return hex(value)

p = re.compile(r'\d+')

p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code')

'Call 0xffd2 for printing, 0xc000 for user code'

# Greedy vs Non-Greedy

In [42]:
s = '<html><head><title>Title</title>'
len(s)

32

In [47]:
# <html> 문자열을 빼내고 싶으나 < ~~~~~~ > 해서 전부다 소비함 => Greedy
print(re.match('<.*>', s).span())
print(re.match('<.*>', s).group())

(0, 32)
<html><head><title>Title</title>


In [48]:
# ?를 사용하면 가능한 최소한의 반복을 시행하도록 함 => Non-Greedy
print(re.match('<.*?>', s).span())
print(re.match('<.*?>', s).group())

(0, 6)
<html>
