# 파이썬에서 정규 표현식 
---

import re 를 통해 모듈을 임포트한 뒤, p = re.compile('정규표현식')을 통해서 정규표현식을 컴파일하고, 컴파일된 패턴 객체(p)를 이용하여 이 객체가 가지고 있는 메서드를 통해 작업을 수행할 수 있다.

In [1]:
import re # 정규표현식 모듈

In [3]:
p = re.compile('[a-z]+') # re 내장모듈 내(.) compile 메서드를 사용. 
                         # compile 메서드는 "패턴 객체"를 반환한다. 
 

In [4]:
m = p.match("python")    # 패턴 객체(p)에는 또다시 검색 메서드가 있다. 

축약형 사용이 가능하다.

위 예처럼 사용하면 컴파일과 match 메서드를 한 번에 수행할 수 있다. 

In [5]:
source = 'Lux, the Lady of Luminosity'
m = re.match('[a-z]+', source ) # 컴파일과 매치를 한번에 했다. 

파이썬에서 정규표현식은 re 모듈을 이용하여 다음과 같이 사용할 수 있다.

In [6]:
data = "kim 801111-1223456"
pattern = re.compile("(\d{6})[-]\d{7}")
pattern.search(data).span()


(4, 18)

In [7]:
# re.compile()을 이용하여 파이썬에서 사용할 수 있도록 정규식을 컴파일 해준다.
p = re.compile('ab*')

### 정규식 검색하기
정규식을 검색할 수 있는 방법은 다음 4가지가 있다.

* match(): 문자열의 처음부터 검색
* search(): 문자열 전체를 검색
* findall(): 매치되는 모든 문자열을 리스트로 리턴
* finditer(): 매치되는 모든 물자열을 iterator 객체로 리턴

### match()

 - 문자열의 처음부터 정규식과 매치되는지 조사하여 match 객체를 리턴, 매치되지 않을 경우에는 None을 리턴


In [9]:
p = re.compile('[a-z]+')
m = p.match("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [10]:
# "3 python" 문자열은 처음에 나오는 문자 3이 정규식 [a-z]+에 부합되지 않으므로 None을 돌려준다.
m = p.match("3 python")
print(m)

None


### search
문자열 전체를 검색하여 정규식과 매치되는지 조사한다.

In [12]:
# "python" 문자열에 search 메서드를 수행하면 match 메서드를 수행했을 때와 동일하게 매치된다.
m = p.search("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


"3 python" 문자열의 첫 번째 문자는 "3"이지만 search는 문자열의 처음부터 검색하는 것이 아니라 문자열 전체를 검색하기 때문에 "3 " 이후의 "python" 문자열과 매치된다.

In [13]:
m = p.search("3 python")
print(m)

<re.Match object; span=(2, 8), match='python'>


이렇듯 match 메서드와 search 메서드는 문자열의 처음부터 검색할지의 여부에 따라 다르게 사용해야 한다.

### findall
매치되는 모든 문자열을 리스트로 리턴

In [14]:
result = p.findall("life is too short")
print(result)

['life', 'is', 'too', 'short']


"life is too short" 문자열의 'life', 'is', 'too', 'short' 단어를 각각 [a-z]+ 정규식과 매치해서 리스트로 돌려준다.

### finditer
정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 돌려준다.

In [16]:
result = p.finditer("life is too short")
print(result)


<callable_iterator object at 0x000001C5315B5630>


In [17]:
for r in result: print(r)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


### match 객체의 메서드
* 어떤 문자열이 매치되었는가?
* 매치된 문자열의 인덱스는 어디서부터 어디까지인가?  


match 객체의 메서드를 사용하면 이 같은 궁금증을 해결할 수 있다

* group()	매치된 문자열을 돌려준다.
* start()	매치된 문자열의 시작 위치를 돌려준다.
* end()	매치된 문자열의 끝 위치를 돌려준다.
* span()	매치된 문자열의 (시작, 끝)에 해당하는 튜플을 돌려준다.

In [18]:
m = p.match("python")
m.group()

'python'

In [19]:
m.start()

0

In [20]:
m.end()

6

In [21]:
m.span()

(0, 6)

### 컴파일 옵션
정규식을 컴파일할 때 다음 옵션을 사용할 수 있다.

* DOTALL(S) - . 이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.
* IGNORECASE(I) - 대소문자에 관계없이 매치할 수 있도록 한다.
* MULTILINE(M) - 여러줄과 매치할 수 있도록 한다. (^, $ 메타문자의 사용과 관계가 있는 옵션이다)

만약 \n 문자도 포함하여 매치하고 싶다면 re.DOTALL 또는 re.S 옵션을 사용해 정규식을 컴파일하면 된다.

In [22]:
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

None


In [23]:
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


re.IGNORECASE 또는 re.I 옵션은 대소문자 구별 없이 매치를 수행할 때 사용하는 옵션이다. 

In [24]:
p = re.compile('[a-z]', re.I)
p.match('python')

<re.Match object; span=(0, 1), match='p'>

In [25]:
p.match('Python')

<re.Match object; span=(0, 1), match='P'>

In [26]:
p.match('PYTHON')

<re.Match object; span=(0, 1), match='P'>

MULTILINE, M

re.MULTILINE 또는 re.M 옵션은 메타 문자인 ^, $와 연관된 옵션이다. 

이 메타 문자에 대해 간단히 설명하자면 ^는 문자열의 처음을 의미하고, $는 문자열의 마지막을 의미한다. 

예를 들어 정규식이 ^python인 경우 문자열의 처음은 항상 python으로 시작해야 매치되고, 만약 정규식이 python$이라면 문자열의 마지막은 항상 python으로 끝나야 매치된다는 의미이다.

In [27]:
import re
p = re.compile("^python\s\w+")

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one']


In [28]:
p = re.compile("^python\s\w+", re.MULTILINE)

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']


re.MULTILINE 옵션으로 인해 ^ 메타 문자가 문자열 전체가 아닌 각 줄의 처음이라는 의미를 갖게 되었다. 

### 메타문자

In [29]:
# | 메타 문자는 or과 동일한 의미로 사용된다.
p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m)


<re.Match object; span=(0, 4), match='Crow'>


In [30]:
# ^ 메타 문자는 문자열의 맨 처음과 일치함을 의미한다.
print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'My Life'))

<re.Match object; span=(0, 4), match='Life'>
None


In [31]:
# $ 메타 문자는 ^ 메타 문자와 반대의 경우이다. 즉 $는 문자열의 끝과 매치함을 의미한다.
print(re.search('short$', 'Life is too short'))
print(re.search('short$', 'Life is too short, you need python'))

<re.Match object; span=(12, 17), match='short'>
None


* \A  


\A는 문자열의 처음과 매치됨을 의미한다. ^ 메타 문자와 동일한 의미이지만 re.MULTILINE 옵션을 사용할 경우에는 다르게 해석된다. re.MULTILINE 옵션을 사용할 경우 ^은 각 줄의 문자열의 처음과 매치되지만 \A는 줄과 상관없이 전체 문자열의 처음하고만 매치된다.

* \Z


\Z는 문자열의 끝과 매치됨을 의미한다. 이것 역시 \A와 동일하게 re.MULTILINE 옵션을 사용할 경우 $ 메타 문자와는 달리 전체 문자열의 끝과 매치된다.

### grouping

그룹을 만들어 주는 메타 문자는 바로 ( )이다.

In [32]:
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)

<re.Match object; span=(0, 9), match='ABCABCABC'>


 만약 ‘이름’ 부분만 뽑아내려 한다면 다음과 같이 할 수 있다.

In [34]:
p = re.compile(r"(\w+)\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
print(m.group(1))

park


In [35]:
# group(2)처럼 사용하여 전화번호만 뽑아낼 수 있다.
p = re.compile(r"(\w+)\s+(\d+[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group(2))

010-1234-1234


In [36]:
# 전화번호 중에서 국번만 뽑아내고 싶으면
p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group(3))

010


In [38]:
# 그룹의 또 하나 좋은 점은 한 번 그루핑한 문자열을 재참조(Backreferences)할 수 있다
p = re.compile(r'(\b\w+)\s+\1')
p.search('Paris in the the spring').group()

'the the'

그룹에 이름을 지정하고 참조하는 다음 예를 보자.

그룹에 이름을 지어 주려면 다음과 같은 확장 구문을 사용해야 한다.  

(?P<그룹명>...)  

In [39]:
p = re.compile(r"(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group("name"))

park


### 문자열 바꾸기
sub 메서드를 사용하면 정규식과 매치되는 부분을 다른 문자로 쉽게 바꿀 수 있다.

In [40]:
p = re.compile('(blue|white|red)')
p.sub('colour', 'blue socks and red shoes')

'colour socks and colour shoes'

In [41]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<phone> \g<name>", "park 010-1234-1234"))

010-1234-1234 park


In [42]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<2> \g<1>", "park 010-1234-1234"))

010-1234-1234 park


### 연습문제

1. 다음과 같은 문자열에서 핸드폰 뒷자리인 숫자 4개를 #### 바꾸는 정규식을 작성하시오.
```
"""
park 010-9999-8888
kim 010-9909-7789
lee 010-1234-5678
"""
```
2. 다음 소스 코드를 완성하여 주어진 이메일 주소가 올바른지 판단하도록 만드시오. emails 리스트에서 앞의 다섯 개는 올바른 형식이며 마지막 세 개는 잘못된 형식이다.

```
p = re.compile(      # TODO                                            )
emails = ['python@mail.example.com', 'python+kr@example.com',              # 올바른 형식
          'python-dojang@example.co.kr', 'python_10@example.info',         # 올바른 형식
          'python.dojang@e-xample.com',                                    # 올바른 형식
          '@example.com', 'python@example', 'python@example-com']          # 잘못된 형식
 
for email in emails:
    print(p.match(email) != None, end=' ')
```