## ()
* 문자열 패턴의 반복을 지정
* 그룹을 지정하면 문자열 전체에서 매칭되는 패턴을 그룹단위로 찾아준다.

In [1]:
import re

In [2]:
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK? ABC')
print(m) # 첫번째 매칭되는 결과
print(m.group(0)) # 매칭되는 결과를 인덱스로 지정하여 확인 가능
print(m.group(1))

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC
ABC


In [3]:
m = p.search('ABCABCAB OK?')
print(m)

<re.Match object; span=(0, 6), match='ABCABC'>


In [4]:
p=re.compile("\w+\s+\d+[-]\d+[-]\d+")
m=p.search("강연배 010-1234-1234")
print(m)
print(m.group())
print(m.group(0))

<re.Match object; span=(0, 17), match='강연배 010-1234-1234'>
강연배 010-1234-1234
강연배 010-1234-1234


In [5]:
print(m.group(1)) # 없는 그룹을 참조하여 에러

IndexError: no such group

In [6]:
p=re.compile('(\w+)\s+(\d+)[-](\d+)[-](\d+)')
m = p.match("강연배 010-1234-5678")
print(m)
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))

<re.Match object; span=(0, 17), match='강연배 010-1234-5678'>
강연배 010-1234-5678
강연배
010
1234
5678


## 그루핑된 문자열에 이름 붙이기
* (?P<그룹명>...)
* 정규식안에 그룹이 많아 질 경우 구분하기 위한 식별자로 활용

In [7]:
p = re.compile("(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-5678")
print(m.group("name"))

park


In [8]:
print(m.group(0))
print(m.group(1))
print(m.group(2))

park 010-1234-5678
park
010-1234-5678


In [9]:
p = re.compile("(?P<name>\w+)\s+(?P<first_num>\d+)[-](?P<middle_num>\d+)[-](?P<last_num>\d+)")
m = p.search("park 010-1234-5678")
print(m.group("name"))
print(m.group("first_num"))
print(m.group("middle_num"))
print(m.group("last_num"))

park
010
1234
5678


In [10]:
p = re.compile(r"""
(?P<name>\w+)       # park를 매칭하기 위한 정규식
\s+                 # park 다음 공백 문자를 매칭하기 위한 정규식
(?P<first_num>\d+)  # 010 첫번째 숫자 그룹을 매칭하기 위한 정규식
[-]                 # 첫 번쨰와 두번째 숫자 그룹 사이의 - 문자를 매칭하기 위한 정규식
(?P<middle_num>\d+) # 1234 두번째 숫자 그룹을 매칭하기 위한 정규식
[-]                 # 두 번쨰와 세번째 숫자 그룹 사이의 - 문자를 매칭하기 위한 정규식
(?P<last_num>\d+)   # 5678 세번째 숫자 그룹을 매칭하기 위한 정규식
""",re.VERBOSE)
m = p.search("park 010-1234-5678")
print(m.group("name"))
print(m.group("first_num"))
print(m.group("middle_num"))
print(m.group("last_num"))

park
010
1234
5678


---

## 문자열 바꾸기

### sub 메서드

In [11]:
p = re.compile('(blue|white|red)')
print(p.sub('colour','blue socks and red shoes'))
print(p.sub('colour','blue socks and red shoes',count=1)) # 1번만 바꾸는 조건
print(p.sub('colour','blue socks and red shoes',count=2)) # 2번 바꾸는 조건

colour socks and colour shoes
colour socks and red shoes
colour socks and colour shoes


### subn 메서드

In [13]:
p.subn('colour','blue socks and red shoes') # 바꾼 문자열과 바꾼 횟수를 반환

('colour socks and colour shoes', 2)

In [14]:
p.subn('colour','blue socks and red shoes')[0]

'colour socks and colour shoes'

### sub 메서드 사용시 참조 구문 사용하기

In [18]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")

In [16]:
print(p.sub("\g<phone> \g<name>", "park 010-1234-1234"))

010-1234-1234 park


In [17]:
print(p.sub("\g<2> \g<1>", "park 010-1234-1234"))

010-1234-1234 park


### sub 메서드의 매개변수로 함수 넣기

In [19]:
def hexrepl(match):
    "Return the hex string for a decimal number"
    value = int(match.group())
    return hex(value)

In [20]:
p = re.compile('\d+')
print(p.sub(hexrepl,'Call 65490 for printing, 49152 for user code.'))

Call 0xffd2 for printing, 0xc000 for user code.


---

---