In [41]:
import re
p = re.compile('[a-z]+')

In [42]:
m = p.match("python")
print(m) # 매치됨 (match 객체 리턴)

<re.Match object; span=(0, 6), match='python'>


In [43]:
m = p.match("3 python")
print(m) # 정규식 [a-z]+ 에 부합하지 않음으로 None 리턴

None


#### 파이썬 정규식 프로그램의 보통(?) 흐름

```python
p = re.complie(정규표현식)
m = p.match(' umm... jun sick')
if m:
    print('Match found: ', m.group())
else:
    print('No match')
```

In [44]:
m = p.search('python')
print(m)

<re.Match object; span=(0, 6), match='python'>


### "3 python" 문자열의 0 번째 문자는 "3"이지만 search는 문자열의 처음부터 검색하는 것이 아니라 문자열 전체를 검색하기 때문에 "3" 이후의 "python" 문자열과 매치된다.

In [45]:
m = p.search("3 python")
print(m) 

<re.Match object; span=(2, 8), match='python'>


In [46]:
result = p.findall("life is too short")
print(result)

['life', 'is', 'too', 'short']


In [47]:
result = p.finditer("life is too short")
print(result, '\n')

for r in result: print(r)

<callable_iterator object at 0x7f81ea6e1510> 

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


### finditer는 findall과 동일하지만 그 결과로 반복 가능한 객체(iterator object)를 돌려준다. 반복 가능한 객체가 포함하는 각각의 요소는 match 객체이다.


## match 객체의 메서드

| method  | 목적                                                   |
|---------|--------------------------------------------------------|
| group() | 매치된 문자열을 돌려준다.                              |
| start() | 매치된 문자열의 시작 위치를 돌려준다.                  |
| end()   | 매치된 문자열의 끝 위치를 돌려준다.                    |
| span()  | 매치된 문자열의 (시작, 끝)에 해당하는 튜플을 돌려준다. |

In [48]:
m = p.match("python")
print(m.group())
print(f"start: {m.start()}, end: {m.end()}")
print(m.span())

python
start: 0, end: 6
(0, 6)


In [49]:
m = p.search("3 python")
print(m.group())
print(f"start: {m.start()}, end: {m.end()}")
print(m.span())

python
start: 2, end: 8
(2, 8)


In [50]:
# p = re.compile('[a-z]+')
# m = p.match("python")

m = re.match('[a-z]+', "python") # 위 코드의 축약 형태

## 컴파일 옵션
<hr>

### 정규식을 컴파일할 때 다음 옵션을 사용할 수 있다.

- DOTALL(S) - ` . ` 이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.
- IGNORECASE(I) - 대소문자에 관계없이 매치할 수 있도록 한다.
- MULTILINE(M) - 여러줄과 매치할 수 있도록 한다. (` ^ ` ` $ ` 메타문자의 사용과 관계가 있는 옵션이다)
- VERBOSE(X) - verbose 모드를 사용할 수 있도록 한다. (정규식을 보기 편하게 만들수 있고 주석등을 사용할 수 있게된다.)


## DOTALL, S

#### `.` 메타 문자는 줄바꿈 문자(`\n`)를 제외한 모든 문자와 매치되는 규칙이 있다. 만약 `\n` 문자도 포함하여 매치하고 싶다면 `re.DOTALL` 또는 `re.S` 옵션을 사용해 정규식을 컴파일하면 된다.

In [51]:
import re 
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

None


In [52]:
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)
# 보통 re.DOTALL 옵션은 여러 줄로 이루어진 문자열에서 \n에 상관없이 검색할 때 많이 사용함.

<re.Match object; span=(0, 3), match='a\nb'>


## IGNORECASE, I

#### `re.IGNORECASE` 또는 `re.I` 옵션은 대소문자 구별 없이 매치를 수행할 때 사용하는 옵션이다.

In [53]:
p = re.compile('[a-z]+', re.I)
print(p.match('python'))
print(p.match('PytHoN'))

# [a-z] 정규식은 소문자만을 의미하지만 re.I 옵션으로 대소문자 구별 없이 매치됨.


<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 6), match='PytHoN'>


## MULTILINE, M

#### `re.MULTILINE` 또는 `re.M` 옵션은 메타 문자인 `^`, `$`와 연관된 옵션이다. 이 메타 문자에 대해 간단히 설명하자면 `^`는 문자열의 처음을 의미하고, `$`는 문자열의 마지막을 의미한다. 예를 들어 정규식이 `^python`인 경우 문자열의 처음은 항상 `python`으로 시작해야 매치되고, 만약 정규식이 `python$`이라면 문자열의 마지막은 항상 `python`으로 끝나야 매치된다는 의미이다.



In [54]:
import re
p = re.compile("^python\s\w+")

data = '''python one
life is too short
python two
you need python
python three'''

print(p.findall(data))

# 정규식 ^python\s\w+은 python이라는 문자열로 시작하고 그 뒤에 whitespace, 그 뒤에 단어가 와야 한다는 의미이다. 검색할 문자열 data는 여러 줄로 이루어져 있다.

['python one']


#### `^` 메타 문자를 문자열 전체의 처음이 아니라 각 라인의 처음으로 인식시키고 싶은 경우도 있을 것이다. 이럴 때 사용할 수 있는 옵션이 바로 `re.MULTILINE` 또는 `re.M`이다.



In [55]:
import re
p = re.compile("^python\s\w+", re.MULTILINE)

data = '''python one
life is too short
python two
you need python
python three'''

print(p.findall(data))

# re.MULTILINE 옵션으로 인해 ^ 메타 문자가 문자열 전체가 아닌 각 줄의 처음이라는 의미를 갖게 되었다. 이 스크립트를 실행하면 다음과 같은 결과가 출력된다.

## 즉 re.MULTILINE 옵션은 ^, $ 메타 문자를 문자열의 각 줄마다 적용해 주는 것이다.

['python one', 'python two', 'python three']


## VERBOSE, X

#### 정규식을 주석 또는 줄 단위로 구분할 수 있는 옵션으로 `re.VERBOSE` 또는 `re.X` 를 사용하면 된다.

In [56]:
# charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

charref = re.compile(r'''
&[#] # Start of a numeric entity reference
(
    0[0-7]+ # Octal form
    | [0-9]+ # Decimal form
    | x[0-9a-fA-F]+ # Hexadecimal form
)
; # Trailing semicolon
''', re.VERBOSE)

# re.VERBOSE 옵션을 사용하면 문자열에 사용된 whitespace는 컴파일할 때 제거된다(단 [ ] 안에 사용한 whitespace는 제외). 
## 그리고 줄 단위로 #기호를 사용하여 주석문을 작성할 수 있다.



## 그루핑
<hr>

#### ABC 문자열이 계속해서 반복되는지 조사하는 정규식을 작성하고 싶다고 할때 지금까지 나온 내요으로는 위 정규식을 작성할수 없다. 이럴때 필요한 것이 그루핑(Grouping)이다.

In [57]:
# (ABC)+ 그룹을 만들어 주는 메타 문자 ()

p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)
print(m.group())

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC


In [58]:
p = re.compile(r"\w+\s+\d+[-]\d+[-]\d+")
m = p.search("Edotnd 010-1234-5678")

### `\w+\s+\d+[-]\d+[-]\d+`은 `이름 + " " + 전화번호` 형태의 문자열을 찾는 정규식이다. 그런데 이렇게 매치된 문자열 중에서 이름만 뽑아내고 싶다면 어떻게 해야 할까?



보통 반복되는 문자열을 찾을 때 그룹을 사용하는데, 그룹을 사용하는 보다 큰 이유는 위에서 볼 수 있듯이 매치된 문자열 중에서 특정 부분의 문자열만 뽑아내기 위해서인 경우가 더 많다.

위 예에서 만약 ‘이름’ 부분만 뽑아내려 한다면 다음과 같이 할 수 있다.



In [59]:
p = re.compile(r"(\w+)\s+\d+[-]\d+[-]\d+")
m = p.search("Edotnd 010-1234-5678")
print(m.group(1))

Edotnd


In [60]:
p = re.compile(r"(\w+)\s+(\d+[-]\d+[-]\d+)")
m = p.search("Edotnd 010-1234-5678")
print(m.group(2))

010-1234-5678


In [61]:
p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("Edotnd 010-1234-5678")
print(m.group(3))

010


## 그루핑된 문자열 재참조하기

#### 그룹의 또 하나 좋은 점은 한 번 그루핑한 문자열을 재참조(Backreferences)할 수 있다는 점이다.

In [62]:
p = re.compile(r'(\b\w+)\s+\1')
p.search('Paris in the the spring').group()

'the the'

#### 정규식 `(\b\w+)\s+\1`은 `(그룹) + " " + 그룹과 동일한 단어`와 매치됨을 의미한다. 이렇게 정규식을 만들게 되면 2개의 동일한 단어를 연속적으로 사용해야만 매치된다. 이것을 가능하게 해주는 것이 바로 재참조 메타 문자인 `\1`이다. `\1`은 정규식의 그룹 중 첫 번째 그룹을 가리킨다.

#### | 두 번째 그룹을 참조하려면 `\2`를 사용하면 된다.


## 그루핑된 문자열에 이름 붙이기


## \b

#### `\b`는 단어 구분자(Word boundary)이다. 보통 단어는 whitespace에 의해 구분된다.

In [25]:
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))

<re.Match object; span=(3, 8), match='class'>


 `\bclass\b` 정규식은 앞뒤가 whitespace로 구분된 class라는 단어와 매치됨을 의미한다. 따라서 no class at all의 class라는 단어와 매치됨을 확인할 수 있다.


In [27]:
print(p.search('the declassified algorithm'))
### the declassified algorithm 문자열 안에도 class 문자열이 포함되어 있긴 하지만 whitespace로 구분된 단어가 아니므로 매치되지 않는다.

print(p.search('one subclass is'))
### subclass 문자열 역시 class 앞에 sub 문자열이 더해져 있으므로 매치되지 않음을 알 수 있다.

None
None


### `\b` 메타 문자를 사용할 때 주의해야 할 점이 있다. `\b`는 파이썬 리터럴 규칙에 의하면 백스페이스(BackSpace)를 의미하므로 백스페이스가 아닌 단어 구분자임을 알려 주기 위해 `r'\bclass\b'`처럼 Raw string임을 알려주는 기호 r을 반드시 붙여 주어야 한다.

