# 그룹 => () , 소괄호사용
* 문자열 패턴의 반복을 지정한다
* 그룹을 지정하면 문자열 전체에서 매칭되는 패턴을 그룹단위로 찾아준다.

In [1]:
import re

In [3]:
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK? ABC')
print(m)          # 매치 오브젝트를 출력하면 첫번째 매치되는 정보만 표시
print(m.group(0)) # 첫번째로 매치가 되는 그룹 => ABCABCABC
print(m.group(1)) # 두번째로 매치가 되는 그룹 => ABC

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC
ABC


In [4]:
m = p.search('ABCABCAB OK?')
print(m)

<re.Match object; span=(0, 6), match='ABCABC'>


In [7]:
p = re.compile("\w+\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-5678")

In [8]:
print(m)

<re.Match object; span=(0, 18), match='park 010-1234-1234'>


In [10]:
print(m.group(0)) # 매치가 되는 결과가 첫번째 그룹의 결과임

park 010-1234-1234


In [13]:
# print(m.group(1)) => 없는 그룹을 참조하려고하면 에러가 발생한다.

In [16]:
p = re.compile("(\w+)\s+(\d+)[-](\d+)[-](\d+)")
m = p.search("park 010-1234-5678")
print(m)
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))

<re.Match object; span=(0, 18), match='park 010-1234-1234'>
park 010-1234-1234
park
010
1234
1234


# 그루핑된 문자열에 이름 붙이기

* (?P<그룹명>...)
* 정규식안에 그룹이 많아 질 경우 구분하기 위한 식별자로 활용

In [18]:
p = re.compile("(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-5678")
print(m.group("name"))

park


#### 문제] 위 예제를 참고해서 이름, 첫번째 번호, 두번째 번호, 세번째 번호 그룹이름을 지어보세요

In [19]:
p = re.compile("(?P<name>\w+)\s+(?P<name1>\d+)[-](?P<name2>\d+)[-](?P<name3>\d+)")
m = p.search("park 010-1234-5678")
print(m.group("name"))
print(m.group("name1"))
print(m.group("name2"))
print(m.group("name3"))

park
010
1234
5678


In [26]:
p = re.compile(r"""
(?P<name>\w+)       # park를 매칭하기 위한 정규식
\s+                 # park 다음 공백 문자를 매칭하기 위한 정규식
(?P<first_num>\d+)  # 010 첫번째 숫자 그룹을 매칭하기 위한 정규식
[-]                 # 첫 번째와 두번째 숫자 그룹 사이의 - 문자를 매칭하기 위한 정규식
(?P<middle_num>\d+) # 1234 두번째 숫자 그룹을 매칭하기 위한 정규식
[-]                 # 두 번째와 세번째 숫자 그룹 사이의 - 문자를 매칭하기 위한 정규식
(?P<last_num>\d+)   # 5678 세번째 숫자 그룹을 매칭하기 위한 정규식
""",re.VERBOSE)
m = p.search("park 010-1234-5678")
print(m.group("name"))
print(m.group("first_num"))
print(m.group("middle_num"))
print(m.group("last_num"))

park
010
1234
5678


# 전방 탐색 (Lookahead Assertions)

In [31]:
p = re.compile('.+:')
m = p.search("http://google.com")
print(m.group())

http:


* 긍정형 전방 탐색((?=...)) : 해당 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소비되지 않는다.
* 부정형 전방 탐색((?!...))  : 해당 정규식과 매치되지 않아야 하며 조건이 통과되어도 문자열이 소비되지 않는다.

### - 긍정형 전방 탐색 (Positive Lookahead Assertions)

In [33]:
p = re.compile('.+(?=:)')
m = p.search("http://google.com")
print(m.group())

http


### - 부정형 전방 탐색 (Negative Lookahead Assertions)

#### Ver 1. 파일을 검색하는 정규식

In [34]:
file_name_list = ["foo.bar","autoexec.bat","sendmail.cf"]

In [35]:
p = re.compile('.*[.].*$')
for file_name in file_name_list:
    print(p.search(file_name))

<re.Match object; span=(0, 7), match='foo.bar'>
<re.Match object; span=(0, 12), match='autoexec.bat'>
<re.Match object; span=(0, 11), match='sendmail.cf'>


#### Ver 2. 확장자가 bat인 파일을 제외하는 정규식 작성 시도1

In [43]:
file_name_list = ["foo.bar","autoexec.bat","sendmail.cf"]

In [44]:
p = re.compile('.*[.][^b].*$')
for file_name in file_name_list:
    print(p.search(file_name))

None
None
<re.Match object; span=(0, 11), match='sendmail.cf'>


#### Ver 3. 확장자가 bat인 파일을 제외하는 정규식 작성 시도2

In [47]:
file_name_list = ["foo.bar","autoexec.bat","sendmail.cf"]

In [48]:
p = re.compile('.*[.]([^b]..|.[^a].|..[^t])$')
for file_name in file_name_list:
    print(p.search(file_name))

<re.Match object; span=(0, 7), match='foo.bar'>
None
None


#### Ver 4. 확장자가 bat인 파일을 제외하는 정규식 작성 시도3

In [49]:
file_name_list = ["foo.bar","autoexec.bat","sendmail.cf"]

In [50]:
p = re.compile('.*[.]([^b].?.?|.[^a]?.?|..?[^t]?)$')
for file_name in file_name_list:
    print(p.search(file_name))

<re.Match object; span=(0, 7), match='foo.bar'>
None
<re.Match object; span=(0, 11), match='sendmail.cf'>


#### Ver 5. 부정형 전방 탐색 적용

In [51]:
p = re.compile('.*[.](?!bat$).*$')
for file_name in file_name_list:
    print(p.search(file_name))

<re.Match object; span=(0, 7), match='foo.bar'>
None
<re.Match object; span=(0, 11), match='sendmail.cf'>


In [52]:
p = re.compile('.*[.](?!bat$|bar$).*$')
for file_name in file_name_list:
    print(p.search(file_name))

None
None
<re.Match object; span=(0, 11), match='sendmail.cf'>


---

# 문자열 바꾸기

## sub 메서드

In [55]:
p = re.compile('(blue|white|red)')
# 매칭된 결과를 첫번째 인자로 바꾼다
print(p.sub('color','blue socks and red shoes'))
print(p.sub('color','blue socks and red shoes',count = 1)) # 1번만 바꾸는 조건
print(p.sub('color','blue socks and red shoes',count = 2)) # 2번 바꾸는 조건

color socks and color shoes
color socks and red shoes
color socks and color shoes


## subn 메서드

In [57]:
p.subn('color','blue socks and red shoes') # 바꾼 문자열과 바꾼 횟수를 반환

('color socks and color shoes', 2)

## sub 메서드 사용시 참조 구문 활용하기

In [58]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<phone> \g<name>", "park 010-1234-1234"))

010-1234-1234 park


In [59]:
print(p.sub("\g<2> \g<1>", "park 010-1234-1234"))

010-1234-1234 park


## sub 메서드의 매개변수로 함수 넣기

In [60]:
def hexrepl(match):
    "Return the hex string for a decimal number"
    value = int(match.group())
    return hex(value)

In [61]:
p = re.compile('\d+')
print(p.sub(hexrepl,'Call 65490 for printing, 49152 for user code.'))

Call 0xffd2 for printing, 0xc000 for user code.


# Greedy vs Non-Greedy

## Greedy의 의미

In [62]:
s = '<html><head><title>Title</title>'

In [69]:
# 매치가 되는 조건을 계속 찾는다. <= 이것이 Greedy의 의미
re.match('<.*>',s)

<re.Match object; span=(0, 32), match='<html><head><title>Title</title>'>

## Non-Greedy
* non-greedy 문자인 ?를 사용하면 *의 탐욕을 제한 할 수 있다.

In [70]:
re.match('<.*?>',s)

<re.Match object; span=(0, 6), match='<html>'>

https://regexone.com/