# 직접 해보세요!
## 정규식으로 전화번호 패턴 찾기(196쪽)

- 정규식이란?
- 수만 개의 문자열 중에서 내가 원하는 패턴의 문자열만 추출하려면 어떻게 해야 할까?
- 예를 들어 I like apple, I like to make application이라는 문자열에서 app을 포함하는 문자열만 추출하려면 어떻게 해야 할까?
- find메서드를 사용해도 되지만 이런 경우에는 정규식을 사용하면 더 편리하다.

- 전화번호와 같은 단순한 데이터도 복잡하고 다양한 정규식이 필요하다. 
- 정규식은 원하는 패턴의 문자열을 가장 효율적으로 찾아주는 방법이다. 따라서 데이터 분석이 필요한 분야에서는 정규식을 알아둬야 한다.

In [38]:
import re

tele_num = '1234567890'

- match 메서드를 사용하여 길이가 10인 숫자를 확인해보자. pattern인자에는 10개의 숫자를 의미하는 10개의 \d를, string에는 테스트용 문자열인 tele_num을 전달했다.
- 만약 패턴을 찾으면 match오브젝트를 반환한다. Match 오브젝트를 출력하면 span에는 찾는 패턴의 인덱스가, match에는 찾는 패턴의 문자열이 있는 것을 확인할 수 있다.

In [39]:
m = re.match(pattern='\d\d\d\d\d\d\d\d\d\d', string=tele_num) 
print(type(m))

<class '_sre.SRE_Match'>


In [40]:
print(m)

<_sre.SRE_Match object; span=(0, 10), match='1234567890'>


- 이때 bool 메서드에 m을 전달하면 True나 False를 얻을 수 있다. 즉, match 메서드가 반환한 Match오브젝트는 bool메서드로 True, False를 판단할 수 있다.

In [41]:
print(bool(m))

True


In [42]:
if m:
    print('match') 
else:
    print('no match')

match


- Match 오브젝트에는 찾아낸 패턴의 정보를 확인할 수 있는 다양한 메서드가 있다.
- start와 end메서드는 첫 번째와 마지막 인덱스를 반환한다. span 메서드는 찾은 패턴의 첫 번쨰와 마지막 인덱스를 한 번에 반환한다. group 메서드는 찾아낸 패턴을 반환한다.

In [43]:
print(m.start())

0


In [44]:
print(m.end())

10


In [45]:
print(m.span())

(0, 10)


In [46]:
print(m.group())

1234567890


- 전화번호를 입력하는 방법은 1234567890이 아니라 123-456-7890이나 123 456 7890 같은 방법도 있다.
- 다음은 앞에서 사용한 패턴을 그대로 적용하여 123 456 7890을 검사한 것이다.
- 그러면 패턴을 찾지 못해 Match오브젝트가 아닌 None을 출력한다

In [47]:
tele_num_spaces = '123 456 7890'

In [48]:
m = re.match(pattern='\d{10}', string=tele_num_spaces) 
print(m)

None


In [49]:
if m:
    print('match') 
else:
    print('no match')

no match


In [50]:
p = '\d{3}\s?\d{3}\s?\d{4}' 
m = re.match(pattern=p, string=tele_num_spaces) 
print(m)

<_sre.SRE_Match object; span=(0, 12), match='123 456 7890'>


- 지역 코드는 소괄호로 감싸고 나머지 번호는 반각 기호로 구분한 전화번호의 정규식은 다음과 같이 작성한다.

In [51]:
tele_num_space_paren_dash = '(123) 456-7890' 
p = '\(?\d{3}\)?\s?\d{3}\s?-?\d{4}' 
m = re.match(pattern=p, string=tele_num_space_paren_dash) 
print(m)

<_sre.SRE_Match object; span=(0, 14), match='(123) 456-7890'>


- 국가 코드까지 있는 전화번호 정규식은 다음과 같이 작성할 수 있다.

In [52]:
cnty_tele_num_space_paren_dash = '+1 (123) 456-7890' 
p = '\+?1\s?\(?\d{3}\)?\s?\d{3}\s?-?\d{4}' 
m = re.match(pattern=p, string=cnty_tele_num_space_paren_dash) 
print(m)

<_sre.SRE_Match object; span=(0, 17), match='+1 (123) 456-7890'>


# 알아두면 좋아요!
## compile 메서드로 정규식 메서드 사용하기(200쪽)

- 패턴을 반복해서 사용하려면 compile메서드로 패턴을 컴파일한 다음 변수에 저장하여 사용하면 된다.
- 패턴을 컴파일한 다음 변수에 저장했기 때문에 정규식 메서드를 반복해서 사용할 수 있어 매우 편리하다.

In [54]:
p = re.compile('\d{10}') 
s = '1234567890' 
m = p.match(s) 
print(m)

<_sre.SRE_Match object; span=(0, 10), match='1234567890'>
