## 1.4.3 정규 표현식과 매칭

- 데이터 분석에는 정규 표현식(regular expression)이라는 패턴 매칭이 사용된다. 
- 예를 들어, "서울" 지역의 모든 음식점을 찾고 싶다면 찾고 싶은 패턴은 "서울"이다. 
- 파이썬은 텍스트 내에서 특정한 패턴을 찾아주는 정규표현식인 re모듈을 외장 함수로 지원한다. 
- re모듈을 임포트 함으로써 다양한 종류의 메타 문자와 임의의 복잡한 패턴에 대해 생성 및 검색 기능을 사용할 수 있다. 
- 메타문자: 특별한 의미를 지닌 정규 표현식 문자들이다. 프로그램에 해당 메타문자가 있다면 각 메타 문자가 뜻하는 패턴을 찾으려는 것이다. 
- https://docs.python.org/3/library/re.html

In [8]:
import re

In [11]:
re.compile #텍스트 기반의 패턴을 정규 표현식으로 컴파일한다. 
re.search
re.sub
re.IGNORECASE 
re.I #패턴이 대/소문자 구분 없이 해준다.
#r: 원시 문자열 (raw string) 

<RegexFlag.IGNORECASE: 2>

In [12]:
string = "The quick brown fox jumps over the lazy dog."
string_list = string.split()
pattern = re.compile(r"The", re.I)
count = 0
for word in string_list:
    if pattern.search(word):
        count +=1
print("Output #the: {0:d}".format(count))

Output #the: 2


In [13]:
string_list

['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog.']

In [6]:
pattern

re.compile(r'The', re.IGNORECASE|re.UNICODE)

정규 표현식은 검색에 이용할 수 있는 매우 강력한 도구이다. 

동시에 쓰기 전용 언어라 불일 만큼 가독성은 취약하다. 

In [14]:
string = "The quick brown fox jumps over the lazy dog."
string_list = string.split()
pattern = re.compile(r"(?P<match_word>The)", re.I)
print("Output #the: ")
for word in string_list:
    if pattern.search(word):
        print("{:s}".format(pattern.search(word).group('match_word')))

Output #the: 
The
the


메타문자: (?P<이름>)

In [15]:
string_to_find = r"The"
pattern = re.compile(string_to_find, re.I)
print("Output: {:s}".format(pattern.sub("a", string)))

Output: a quick brown fox jumps over a lazy dog.


## 7. 정규표현식으로 패턴 대조하기

검색할 텍스트의 패턴을 지정할 수 있다. 

451-555-8910

In [20]:
def is_phone_number(text):
    if len(text) != 12:
        return False
    for i in range(0, 3):
        if not text[i].isdecimal():
            return False
    if text[3] != '-' or text[7] != '-':
        return False
    for i in range(4, 7):
        if not text[i].isdecimal():
            return False
    for i in range(8, 12):
        if not text[i].isdecimal():
            return False
    return True

In [21]:
text = '451-555-8910'
is_phone_number(text)

True

In [22]:
message = 'Call me at 451-555-1011 tomorrow. 415-555-9999 is my office'
for i in range(len(message)):
    chunk = message[i:i+12]
    if is_phone_number(chunk):
        print('Phone Number is: ' + chunk)
print('done')

Phone Number is: 451-555-1011
Phone Number is: 415-555-9999
done


In [24]:
message

'Call me at 451-555-1011 tomorrow. 415-555-9999 is my office'

In [32]:
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
mo = phoneNumRegex.search('My number is 451-555-4242.')
print(mo)
print(mo.group())
print('phone number found: ' + mo.group())

<re.Match object; span=(13, 25), match='451-555-4242'>
451-555-4242
phone number found: 451-555-4242


In [42]:
phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
mo = phoneNumRegex.search('My number is 451-555-4242.')
print(mo)
print(mo.group())
print(mo.group(1))
print('phone number found: ' + mo.group())

<re.Match object; span=(13, 25), match='451-555-4242'>
451-555-4242
451
phone number found: 451-555-4242
