# 정규 표현식

정규 표현식(Regular Expressions)은 복잡한 문자열을 처리할 때 사용하는 기법으로, 파이썬만의 고유 문법이 아니라 문자열을 처리하는 모든 곳에서 사용한다.
정규 표현식은 텍스트에서 문자열 패턴을 찾는 유연한 방법을 제공한다. regex는 정규 표현 언어로 구성된 문자열이다. 파이썬은 re 모듈로 문자열에 대한 정규 표현식을 처리한다.

### re 모듈
파이썬은 정규 표현식을 지원하기 위해 re(regular expression의 약어) 모듈을 제공한다. re 모듈은 파이썬을 설치할 때 자동으로 설치된다.
re 모듈은 패턴 매칭, 치환, 분리 등 사용할 수 있다. 

공백문자(tab, 개행문자, space 포함)가 포함된 문자열을 나누고 싶다면 하나 이상의 공백문자를 의미하는 `\s+`를 사용하여 문자열을 분리할 수 있다.

In [1]:
import re

text = "foo bar\t baz \tqux"

re.split('\s+', text)

['foo', 'bar', 'baz', 'qux']

### re.compile
`re.compile('\s+')`을 사용하면 정규표현식이 컴파일되고 그 다음 `split`메소드가 실행된다. 컴파일 된 객체를 재사용하는 것도 가능하다.

In [2]:
regex = re.compile('\s+')

regex.split(text)

['foo', 'bar', 'baz', 'qux']

### findall
정규표현식에 매칭되는 모든 패턴의 목록을 얻고 싶다면 `findall`메소드를 사용한다.

In [3]:
regex.findall(text)

[' ', '\t ', ' \t']

### match, search
* findall은 문자열에서 일치하는 모든 부분의 문자열을 찾아주지만 `search`는 패턴과 일치하는 첫 번째 존재를 반환한다. 

* `match`는 이보다 더 엄격하게 문자열의 시작 부분에서 일치하는 것만 찾아준다.

In [4]:
text = """Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com
"""


In [5]:
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'

# re.IGNORECASE makes the regex case-insensitive
regex = re.compile(pattern, flags=re.IGNORECASE)

regex.findall(text)

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

`search`는 첫 번째 이메일 주소만 찾아준다. 이 정규 표현식에 대한 match 객체는 그 패턴이 문자열 안에서 위치하는 시작점과 끝점 만을 알려준다.

In [6]:
m = regex.search(text)
m

<re.Match object; span=(5, 20), match='dave@google.com'>

In [7]:
text[m.start():m.end()]

'dave@google.com'

`regex.match`는 None를 반환한다. 그 패턴이 문자열의 시작점에서 부터 일치하는지 검사하기 때문이다.

In [8]:
print(regex.match(text))

None


### sub
`sub` 메서드는 찾은 패턴을 주어진 문자열로 치환하여 새로운 문자열을 반환한다.

In [9]:
print(regex.sub('REDACTED', text))

Dave REDACTED
Steve REDACTED
Rob REDACTED
Ryan REDACTED



### 패턴을 ( )로 묶어서 처리하기
이메일 주소를 찾아서 각 이메일 주소를 사용자 이름, 도메인 이름, 도메인 점비사의 세가지로 나누어야 한다면 각 패턴을 괄호로 묶어 주면 된다.

In [10]:
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'

regex = re.compile(pattern, flags=re.IGNORECASE)

이렇게 만든 match 객체를 이용하면 `groups`메서드를 통해 각 패턴의 컴포넌트의 튜플을 얻을 수 있다.

In [11]:
m = regex.match('wesm@bright.net')

m.groups()

('wesm', 'bright', 'net')

패턴에 그룹이 있다면 `findall` 메서드는 튜플의 목록을 반환하게 된다.

In [12]:
regex.findall(text)

[('dave', 'google', 'com'),
 ('steve', 'gmail', 'com'),
 ('rob', 'gmail', 'com'),
 ('ryan', 'yahoo', 'com')]

`sub` 마찬가지로 `\1`, `\2` 같은 특수한 기로를 사용해서 각 패턴의 그룹에 접근할 수 있다.

In [13]:
print(regex.sub(r'Username: \1, Domain: \2, Suffix: \3', text))

Dave Username: dave, Domain: google, Suffix: com
Steve Username: steve, Domain: gmail, Suffix: com
Rob Username: rob, Domain: gmail, Suffix: com
Ryan Username: ryan, Domain: yahoo, Suffix: com



### 그룹매치에 이름주기
이메일 주소 정규표현식의 매치 그룹에 다음처럼 이름을 줄 수 있다.

In [21]:
regex = re.compile(r'(?P<username>[A-Z0-9._%+-]+)@(?P<domain>[A-Z0-9.-]+)\.(?P<suffix>[A-Z]{2,4})', 
                   flags=re.IGNORECASE)

In [23]:
m = regex.match('wesm@bright.net')
m.groupdict()


{'username': 'wesm', 'domain': 'bright', 'suffix': 'net'}

In [24]:
print(m.group("username"))

wesm
