# Unit 43. 정규표현식 사용하기

정규표현식(regular expression)은 일정한 규칙(패턴)을 가진 문자열을 표현하는 방법입니다. 

### 43.1 문자열 판단하기

In [2]:
import re
# 찾는 패턴, 찾을려는 문자열
re.match('Hello', 'Hello, world!')

<re.Match object; span=(0, 5), match='Hello'>

In [5]:
re.match('Python', 'Hello, world!')

In [6]:
if re.match('Hello', 'Hello, world!'):
    print("'Hello'가 있습니다.")
else:
    print("'Hello'가 없습니다.")

'Hello'가 있습니다.


### 43.1.1  문자열이 맨 앞에 오는지 맨 뒤에 오는지 판단하기

단, 이때는 match 대신 search 함수를 사용해야 합니다. match 함수는 문자열 처음부터 매칭되는지 판단하지만, search는 문자열 일부분이 매칭되는지 판단합니다.

In [17]:
re.search('^Hello', 'Hello, world!')

<re.Match object; span=(0, 5), match='Hello'>

In [9]:
re.search('world!$', 'Hello, world!')

<re.Match object; span=(7, 13), match='world!'>

### 43.1.2  지정된 문자열이 하나라도 포함되는지 판단하기

In [10]:
re.match('hello|world', 'hello')

<re.Match object; span=(0, 5), match='hello'>

### 43.2 범위 판단하기

In [24]:
re.match('[0-9]*', '1234')

<re.Match object; span=(0, 4), match='1234'>

In [31]:
re.match('[0-9]*', '')

<re.Match object; span=(0, 0), match=''>

In [28]:
re.match('[0-9]+', '1234')

<re.Match object; span=(0, 4), match='1234'>

In [29]:
re.match('[0-9]+', '12cd')

<re.Match object; span=(0, 2), match='12'>

In [39]:
re.match('[0-9]+', 'abcd')

### 43.2.1  문자가 한 개만 있는지 판단하기

In [53]:
re.match('abc?d', 'abd')

<re.Match object; span=(0, 3), match='abd'>

In [54]:
re.match('abc?d', 'abcd')

<re.Match object; span=(0, 4), match='abcd'>

In [51]:
re.match('ab[0-9]?c', 'ab3c')

<re.Match object; span=(0, 4), match='ab3c'>

In [52]:
re.match('ab[0-9]?c', 'abc')

<re.Match object; span=(0, 3), match='abc'>

In [50]:
re.match('ab.d', 'abxd')

<re.Match object; span=(0, 4), match='abxd'>

### 43.2.2  문자 개수 판단하기

In [56]:
re.match('h{3}', 'hhhello')

<re.Match object; span=(0, 3), match='hhh'>

In [57]:
re.match('(hello){3}', 'hellohellohelloworld')

<re.Match object; span=(0, 15), match='hellohellohello'>

In [58]:
# 숫자 3개-4개-4개 패턴에 매칭됨
re.match('[0-9]{3}-[0-9]{4}-[0-9]{4}', '010-1000-1000')

<re.Match object; span=(0, 13), match='010-1000-1000'>

In [59]:
# 숫자 3개-4개-4개 패턴에 매칭되지 않음
re.match('[0-9]{3}-[0-9]{4}-[0-9]{4}', '010-1000-100')

In [60]:
# 휴대전화
re.match('01[0-9]{1}-[0-9]{4}-[0-9]{4}', '011-1000-1000')

<re.Match object; span=(0, 13), match='011-1000-1000'>

In [62]:
# 일반전화
re.match('[0-9]{2,3}-[0-9]{3,4}-[0-9]{4}', '02-100-1000')

<re.Match object; span=(0, 11), match='02-100-1000'>

### 43.2.3  숫자와 영문 문자를 조합해서 판단하기

In [66]:
# a부터 z, A부터 Z, 0부터 9까지 1개 이상 있으므로
re.match('[a-zA-Z0-9]+', 'Hello1234')

<re.Match object; span=(0, 9), match='Hello1234'>

In [67]:
# 대문자, 숫자는 없고 소문자만 있으므로 패턴에 매칭되지 않음
re.match('[A-Z0-9]+', 'hello')

In [65]:
# 가부터 힣까지 1개 이상 있으므로 패턴에 매칭됨
re.match('[가-힣]+', '홍길동')

<re.Match object; span=(0, 3), match='홍길동'>

### 43.2.4  특정 문자 범위에 포함되지 않는지 판단하기

범위를 제외할 때는 '[^A-Z]+'와 같이 [ ] 안에 넣어주고, 특정 문자 범위로 시작할 때는 '^[A-Z]+'와 같이 [ ] 앞에 붙여줍니다.

In [69]:
# 대문자를 제외. 대문자가 있으므로 패턴에 매칭되지 않음
re.match('[^A-Z]+', 'Hello')

In [70]:
# 대문자를 제외. 대문자가 없으므로 패턴에 매칭됨
re.match('[^A-Z]+', 'hello')

<re.Match object; span=(0, 5), match='hello'>

In [71]:
# 대문자로 시작하므로 패턴에 매칭됨
re.search('^[A-Z]+', 'Hello')

<re.Match object; span=(0, 1), match='H'>

In [72]:
# 숫자로 끝나므로 패턴에 매칭됨
re.search('[0-9]+$', 'Hello1234')

<re.Match object; span=(5, 9), match='1234'>

### 43.2.5  특수 문자 판단하기

특수 문자를 판단할 때는 특수 문자 앞에 \를 붙이면 됩니다. 단, ```[ ]``` 안에서는 \를 붙이지 않아도 되지만 에러가 발생하는 경우에는 \를 붙입니다.   

- \d: ```[0-9]```와 같음. 모든 숫자
- \D: ```[^0-9]```와 같음. 숫자를 제외한 모든 문자
- \w: ```[a-zA-Z0-9_]```와 같음. 영문 대소문자, 숫자, 밑줄 문자
- \W: ```[^a-zA-Z0-9_]```와 같음. 영문 대소문자, 숫자, 밑줄 문자를 제외한 모든 문자


In [74]:
# *이 들어있는지 판단
re.search('\*+', '1 ** 2')

<re.Match object; span=(2, 4), match='**'>

In [75]:
# $, (, )와 문자, 숫자가 들어있는지 판단
re.match('[$()a-zA-Z0-9]+', '$(document)')

<re.Match object; span=(0, 11), match='$(document)'>

In [76]:
# 모든 숫자이므로 패턴에 매칭됨
re.match('\d+', '1234')

<re.Match object; span=(0, 4), match='1234'>

In [77]:
# 숫자를 제외한 모든 문자이므로 패턴에 매칭됨
re.match('\D+', 'Hello')

<re.Match object; span=(0, 5), match='Hello'>

In [78]:
# 영문 대소문자, 숫자, 밑줄 문자이므로 패턴에 매칭됨
re.match('\w+', 'Hello_1234')

<re.Match object; span=(0, 10), match='Hello_1234'>

In [79]:
# 영문 대소문자, 숫자, 밑줄문자를 제외한 모든 문자이므로 패턴에 매칭됨
re.match('\W+', '(:)')

<re.Match object; span=(0, 3), match='(:)'>

### 43.2.6  공백 처리하기

공백은 ' '처럼 공백 문자를 넣어도 되고, \s 또는 \S로 표현할 수도 있습니다.

- \s: ```[ \t\n\r\f\v]```와 같음. 공백(스페이스), \t(탭) \n(새 줄, 라인 피드), \r(캐리지 리턴), \f(폼피드), \v(수직 탭)을 포함
- \S: ```[^ \t\n\r\f\v]```와 같음. 공백을 제외하고 \t, \n, \r, \f, \v만 포함

In [81]:
# ' '로 공백 표현
re.match('[a-zA-Z0-9 ]+', 'Hello 1234')

<re.Match object; span=(0, 10), match='Hello 1234'>

In [82]:
# \s로 공백 표현
re.match('[a-zA-Z0-9\s]+', 'Hello 1234')

<re.Match object; span=(0, 10), match='Hello 1234'>

### 참고 | 같은 정규표현식 패턴을 자주 사용할 때

같은 패턴을 자주 사용할 때는 compile 함수를 사용하여 정규표현식 패턴을 객체로 만든 뒤 match 또는 search 메서드를 호출하면 됩니다.

In [84]:
# 정규표현식 패턴을 객체로 만듦
p = re.compile('[0-9]+')
# 정규표현식 패턴 객체에서 match 메서드 사용
p.match('1234')

<re.Match object; span=(0, 4), match='1234'>

In [None]:
# 정규표현식 패턴 객체에서 search 메서드 사용
p.search('hello')

### 문자열 바꾸기

In [86]:
# 패턴, 바꿀 문자, 찾는 문자열
re.sub('apple|orange', 'fruit', 'apple box orange tree')

'fruit box fruit tree'

In [87]:
re.sub('[0-9]+', 'n', '1 2 Fizz 4 Buzz Fizz 7 8')

'n n Fizz n Buzz Fizz n n'

### 43.3 그룹 사용하기

패턴 안에서 정규표현식을 ( )(괄호)로 묶으면 그룹이 됩니다.

In [90]:
def multiple10(m):
    n = int(m.group())
    return str(n * 10)

re.sub('[0-9]+', multiple10, '1 2 Fizz 4 Buzz Fizz 7 8')

'10 20 Fizz 40 Buzz Fizz 70 80'

In [None]:
# 각 그룹에 해당하는 문자열 반환
# m.group()
# '295'

In [91]:
# 각 그룹에 해당하는 문자열을 튜플 형태로 반환
# m.groups()
# ('10', '295')