# 정규표현식(Regular Expressions)

---
## 메타문자
 - +, *, [ ], { } 등의 메타문자 : 매치가 진행될 때 현재 매치되고 있는 문자열의 위치가 변경(문자열 소비)
 - |, ^, $, \A, \Z, \b, \B : 문자열을 소비x

==================================================
### | : or과 동일한 의미

In [2]:
import re
p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m)

<re.Match object; span=(0, 4), match='Crow'>


==================================================
### ^
- 문자열의 맨 처음과 일치함을 의미
- re.MULTILINE을 사용할 경우에는 여러 줄의 문자열일 때 각 줄의 처음과 일치함을 의미

In [3]:
print(re.search('^Life', 'Life is too short'))

<re.Match object; span=(0, 4), match='Life'>


In [4]:
print(re.search('^Life', 'My Life'))

None


==================================================
### $
 - 문자열의 끝과 매치함을 의미

In [8]:
print(re.search('short$', 'Life is too short'))

<re.Match object; span=(12, 17), match='short'>


In [9]:
print(re.search('short$', 'Life is too short, you need python'))

None


==================================================
### \A, \Z
 - ^, $ 메타 문자와 동일한 의미
 - re.MULTILINE 옵션을 사용할 경우 줄과 상관없이 전체 문자열의 처음, 마지막하고만 매치(^, $와 다른점)

==================================================
### \b
 - 단어 구분자(Word boundary)
 - 보통 단어는 whitespace에 의해 구분
 - \b는 백스페이스(BackSpace)를 의미 -> r'\bclass\b' r을 반드시 붙여서 사용

In [10]:
p = re.compile(r'\bclass\b')
print(p.search('no class at all')) 

<re.Match object; span=(3, 8), match='class'>


In [11]:
print(p.search('the declassified algorithm'))

None


==================================================
### \B
 - \b 메타 문자와 반대의 경우
 - whitespace로 구분된 단어가 아닌 경우에만 매치

In [12]:
p = re.compile(r'\Bclass\B')
print(p.search('no class at all')) 

None


In [13]:
print(p.search('the declassified algorithm'))

<re.Match object; span=(6, 11), match='class'>


In [14]:
print(p.search('one subclass is'))

None


---
## 그루핑(Grouping) : ( )
|group(인덱스)|설명|
|:--:|--|
|group(0)|매치된 전체 문자열|
|group(n)|n 번째 그룹에 해당되는 문자열|


In [15]:
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)

<re.Match object; span=(0, 9), match='ABCABCABC'>


In [17]:
print(m.group())

ABCABCABC


In [30]:
p = re.compile(r"\w+\s+\d+[-]\d+[-]\d+")
            # 단어,공백,숫자,'-',숫자,'-',숫자
m= p.search("park 010-1234-1234")
m

<re.Match object; span=(0, 18), match='park 010-1234-1234'>

### 그루핑 
 - ( ) 사용 
 - 그룹을 중첩되게 사용하는 것도 가능
 - 바깥쪽부터 시작하여 안쪽으로 들어갈수록 인덱스가 증가

In [36]:
p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
m.group(1) , m.group(2), m.group(3)

('park', '010-1234-1234', '010')

==================================================
### 그루핑된 문자열 재참조

In [37]:
# 재참조 메타문자 \n : 정규식의 그룹 중 n번째 그룹을 의미
p = re.compile(r'(\b\w+)\s+\1')
            # r'(\b\w+)\s+(\b\w+)'과 같은 의미
p.search('Paris in the the spring').group()

'the the'

==================================================
### 그루핑된 문자열에 이름 붙이기
 - 형식 : (?P<그룹명>...)
 - (\w+)에 이름 -> (?P<name>\w+)

In [38]:
p = re.compile(r"(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group("name"))

park


In [39]:
# 재참조 가능 (?P=그룹이름)
p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)')
p.search('Paris in the the spring').group()

'the the'

---
## 전방 탐색(Lookahead Assertions) 

In [None]:
==================================================
### |