# 메타문자

## 1. |

-or 과 동일한 의미

In [3]:
import re
p = re.compile('Crow|Servo')

m = p.match('CrowHello')
print(m)

<re.Match object; span=(0, 4), match='Crow'>


## 2. ^

-문자열의 맨 처음과 일치함을 의미함

-컴파일 옵션 re.MULTILINE을 이용하면 여러 줄일 때 각 줄의 처음과 일치하게 됨

In [4]:
print(re.search('^Life', 'Life is too short'))

<re.Match object; span=(0, 4), match='Life'>


In [5]:
print(re.search('^Life', 'My Life'))

None


## 3. $

-문자열의 끝과 매치함을 의미함

In [6]:
print(re.search('short$', 'Life is too short'))

<re.Match object; span=(12, 17), match='short'>


In [7]:
print(re.search('short$', 'My Life'))

None


## 4. \A

-문자열의 처음과 매치됨

-re.MULTILINE 옵션을 써도 문자열의 맨 처음과만 매치됨

## 5. \Z

-문자열의 맨 끝과 매치됨

-re.MULTILINE 옵션을 써도 문자열의 맨 끝과만 매치됨

## 6. \b

-단어 구분자 (보통은 whitespace에 의해 구분됨)

-Raw String 기호 꼭 붙여줘야 함

In [10]:
p = re.compile(r'\bclass\b')

print(p.search("no class at all")) # 앞 뒤가 whitespace로 구분된 class라는 단어와 매치됨

<re.Match object; span=(3, 8), match='class'>


In [11]:
print(p.search("the declassified algorithm"))

None


## 7. \B

-whitespace로 구분된 단어가 아닌 경우에만 매치됨

-앞뒤로 공백이 하나라도 있으면 매치 안 됨 !!!!

In [12]:
p = re.compile(r'\Bclass\B')

print(p.search('no class at all'))

None


In [14]:
print(p.search('myclassification'))

<re.Match object; span=(2, 7), match='class'>


---

## Grouping

- ( )

In [15]:
p = re.compile('(ABC)+')

m = p.search('ABCABCABC OK?')
print(m)

<re.Match object; span=(0, 9), match='ABCABCABC'>


In [17]:
p = re.compile(r"\w+\s+\d+[-]\d+[-]\d+") # 이름 + " " + 전화번호 형태의 문자열을 찾는 정규식

### group 메서드의 인덱스

1.group(0) : 매치된 전체 문자열

2.group(1) : 첫 번째 그룹에 해당되는 문자열

3.group(2) : 두 번째 그룹에 해당되는 문자열

4.group(n) : n번째 그룹에 해당되는 문자열

In [24]:
# 이름만 뽑고 싶다면?
# \w는 문자열, \s는 공백 \d는 숫자

p = re.compile(r"(\w+)\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
print(m.group(1))

park


In [27]:
# 전화번호 중에서 국번만 뽑고 싶다면? 중첩도 가능함

p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")

print(m.group(1))
print(m.group(2))
print(m.group(3))

park
010-1234-1234
010


## grouping된 문자열 재참조(Backreference)

In [29]:
p = re.compile(r'(\b\w+)\s+\1') # (그룹) + " " + 그룹과 동일한 단어와 매치됨 -> 두 개의 동일한 단어를 연속으로 사용해야 함

p.search('Paris in the the rain').group()

'the the'

## grouping된 문자열에 이름 붙이기

-(?P<그룹명>...) 이런 식의 확장 구문

In [31]:
p = re.compile(r"(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")

m = p.search("park 010-1234-1234")

print(m.group("name"))

park


In [33]:
p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)') # word 그룹인데 단어구분자랑 문자열로 이루어짐, 그리고 whitespace 그 다음 다시 동일한 그룹의 단어

p.search("Paris in the the spring").group()

'the the'

## 전방 탐색

In [34]:
p = re.compile(".+:") # 모든 문자 + ":" 의 형태

m = p.search("http://google.com")
print(m.group())

# http만 뽑고 싶다면???

http:


## 1. 긍정형 전방 탐색

In [36]:
p = re.compile(".+(?=:)") # : -> (?=:)으로 변경
                          # :이 검색에는 포함되지만 결과에서는 제외됨

m = p.search("http://google.com")

print(m.group())

http


### .*[.].*$

-파일이름 + . + 확장자

-foo.bar, autoexec.bat과 같은 형식의 파일과 매치

In [None]:
# 확장자가 bat인 파일은 제외

.*[.]([^b].?.?|.[^a]?.?|..?[^t]?)$

....?

## 2. 부정형 전방 탐색
-확장자가 bat이 아닌 경우에만 통과된다는 의미

-bat 문자열이 있는지 조사하는 과정에서 문자열이 소비되지 않으므로 bat가 아니라고 판단되면 이후 정규식 매치 진행

In [None]:
.*[.](?!bat$).*$ # bat인 경우 제외
.*[.](?!bat$|exe$).*$ # bat이나 exe인 경우 제외하는 것

---
## 문자열 바꾸기 : sub 메서드

In [37]:
p = re.compile('(blue|white|red)')

p.sub('color', 'blue socks and red shoes')

'color socks and color shoes'

In [40]:
p.sub('color', 'blue socks and red shoes', count=1)

'color socks and red shoes'

In [41]:
p.subn('color', 'blue socks and red shoes')

# 반환된 결과와 바꾼 횟수를 튜플로 돌려줌

('color socks and color shoes', 2)

### sub 메서드에서 참조 구문 사용

-\g<그룹이름> : 정규식의 그룹이름 참조 가능

In [44]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")

print(p.sub("\g<phone> \g<name>", "park 010-1234-1234"))

010-1234-1234 park


### sub 메서드의 매개변수로 함수 넣기

In [45]:
def hexrepl(match):
    value = int(match.group())
    return hex(value)

# match 객체를 입력으로 받아서 16진수로 변환하여 돌려주는 함수

In [46]:
p = re.compile(r'\d+')

p.sub(hexrepl, 'call 65490 for printing, 49152 for user code.')

'call 0xffd2 for printing, 0xc000 for user code.'

---

## Greedy vs. Non-greedy

-greedy meta character : *

-non-greedy meta character : ?

In [47]:
s = '<html><head><title>Title</title>'
len(s)

32

In [49]:
print(re.match('<.*>', s).span())

(0, 32)


In [51]:
print(re.match('<.*>', s).group())

# * 메타문자는 greedy해서 매치할 수 있는 최대한의 문자열을 모두 소비해버림

<html><head><title>Title</title>


In [53]:
## non-greedy meta character
print(re.match('<.*?>', s).group())

<html>
