정규 표현식은 텍스트에서 문자열 패턴을 찾는 유연한 방법을 제공한다.<br/>
흔히 `regex`라 불리는 단일 표현식은 정규표현언어로 구성된 문자열이다.<br/>
파이썬에는 re 모듈이 내장되어 문자열에 대한 정규표현식을 처리한다.

`re` 모듈 함수는 패턴 매칭,치환,분리의 세가지로 나눌수있다.<br/>
물론 이 세가지는 모두 서로 연관되어 있으며, 정규 표현식은 텍스트 안에 존재하는 패턴을 표현하고 이를 여러가지 다양한 목적으로 사용할 수 있도록 되어 있다.<br/>
여러가지 공백문자(탭, 스페이스, 개행문자)가 포함된 문자열을 나누고 싶다면 하나 이상의 공백문자를 의미하는 `\s+`를 사용해서 문자열을 분리할 수 있다.

In [1]:
import re

In [2]:
text = "foo    bar\t baz    \tquz"

In [3]:
re.split('\s+',text)

['foo', 'bar', 'baz', 'quz']

정규표현식에 매칭되는 모든 패턴의 목록을 얻고 싶다면 `findall` 메서드를 사용

In [6]:
regex = re.compile('\s+')

In [7]:
regex.findall(text)

['    ', '\t ', '    \t']

`match`와 `search`는 `findall`메서드와 관련이 있다.<br/>
`findall`은 문자열에서 일치하는 모든 부분의 문자열을 찾아주지만 `search`메서드는 패턴과 일치하는 첫번째 존재를 반환한다.<br/>
`match`메서드는 이보다 더 엄격해서 문자열의 시작부분에서 일치하는 것만 찾아준다.

In [11]:
text = """
Son son@google.com
Ki ki@gmail.com
Chul chul@naver.com
Gwak gwak@daum.net
"""

In [12]:
text

'\nSon son@google.com\nKi ki@gmail.com\nChul chul@naver.com\nGwak gwak@daum.net\n'

In [15]:
pattern = '[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'

In [16]:
pattern

'[A-Z0-9._%+-]+@[A-Z0-9.-]+\\.[A-Z]{2,4}'

In [17]:
regex = re.compile(pattern, flags=re.IGNORECASE)

In [18]:
regex.findall(text)

['son@google.com', 'ki@gmail.com', 'chul@naver.com', 'gwak@daum.net']

`search`는 텍스트에서 첫번째 이메일 주소만 찾아준다.<br/>
이 정규표현식에 대한 `match` 객체는 그 패턴이 문자열 안에서 위치하는 시작점과 끝점만을 알려준다.

In [20]:
m = regex.search(text)

In [23]:
m

<_sre.SRE_Match object; span=(5, 19), match='son@google.com'>

In [22]:
text[m.start():m.end()]

'son@google.com'

`match`는 None를 반환한다. 왜냐면 그 패턴이 문자열의 시작점에서부터 일치하는지 검사하기때문.

In [26]:
print(regex.match(text))

None


`sub` 메서드는 찾은 패턴을 주어진 문자열로 치환하여 새로운 문자열을 반환함.

In [27]:
print(regex.sub('hello',text))


Son hello
Ki hello
Chul hello
Gwak hello

