# 9-4. 정규식으로 문자열 처리에 날개 달기

#### 정규식이란?
 - 내가 원하는 패턴의 문자열만 추출하게 해 주는 식.

 - 정규식 표현 정리: 문법, 특수문자
 - https://regex101.com : 정규식 패턴 실습 사이트. 결과를 바로바로 보여줌.

<기본 정규식 문법>

 - .  ==> 문자(a) 앞에 문자 1개가 있는 패턴을 찾음.
            .a
 - ^  ==> 문자열의 처음부터 일치하는 패턴을 찾음.
            ^I like
 - $ ==> 문자열의 끝 부분부터 일치하는 패턴을 찾음.
            on$
 - *  ==> n 이후 숫자(\d)가 0개 이상인 패턴을 찾음.
            n\d*
 - +  ==> n 이후 숫자(\d)가 1개 이상인 패턴을 찾음.
            n\d+
 - ?  ==> ?의 앞에 문자(e)가 있거나 없는 패턴을 찾음.
            apple?
 - {m}  ==> n 이후 숫자(\d)가 2개({2})d인 패턴을 찾음.
            n\d{2}
 - {m, n}  ==> n 이후 숫자(\d)가 2개({2}) 이상, 4개({4}) 이하인 패턴을 찾음.
            n\d{2, 4}
 - \  ==> *, ?, +와 같은 특수 문자를 검색할 때 이스케이프 문자(\)를 사용함.
            \*, \?, \+
 - []  ==> c, f, h 중 1개를 포함하고 나머지 문자열이 all인 패턴을 찾음.
            [cfh]all
 - |  ==> apple이나 application 중 하나만 있는 패턴을 찾음(OR 연산).
            apple | application
 - ()  ==> ()에 지정한 패턴을 찾을 때 사용함.
            (\d+)-(\d+)-(\d+)

<정규식 특수문자>

 - \d: 숫자 1개([0-9]와 동일)
 - \D: 숫자 이외의 문자 1개([^0-9]와 동일)
 - \s: 공백이나 탭 1개.
 - \S: 공백 문자 이외의 문자 1개.
 - \w: 알파벳 1개.
 - \W: 알파벳 이외의 문자 1개(한글, 중국어 등).

<정규식 표현: 메서드>
 - search: 첫 번째로 찾은 패턴의 양 끝 인덱스를 반환.
            m = re.search('[0-9]{4}', test)
            print(m.group())
 - match: 문자열의 처음부터 검색하여 찾아낸 패턴의 양 끝 인덱스를 반환.
            m = re.match('[0-9]{4}', test)
            print(m)
 - fullmatch: 전체 문자열이 일치하는지 검사.
            m = re.fullmatch('\d+\s\d+\s\d+\s\d+', test)
            print(bool(m))
 - split: 지정한 패턴으로 잘라낸 문자열을 리스트로 반환.
            m = re.split('\s', test)
            print(m)
 - findall: 지정한 패턴을 찾아 리스트로 반환.
            m = re.findall('[0-9]{4}', test)
            print(m)
 - finditer: findall 메서드와 기능이 동일하지만 iterator를 반환.
            m = re.finditer('[0-9]{4}', test)
            for match in m:
 - sub: 첫 번째 인자로 전달한 값(패턴)을 두 번째 인자로 전달한 값(easyspub)으로 교체함.
            print(re.sub('\s', '-', test))
            '010-1234-5678-090'

#### 정규식으로 전화번호 패턴 찾기.

In [None]:
#테스트 문자열 준비
import re
tele_num = '1234567890'

In [None]:
#match 메서드로 길이가 10인 숫자를 확인하기.

m = re.match(pattern = '\d\d\d\d\d\d\d\d\d\d', string = tele_num) #pattern: 10개의 \d 전달(10개의 숫자)
                                                #string: 테스트용 문자열 전달
print(type(m))  #패턴을 찾으면 Match 오브젝트를 반환.
print(m)        #span: 찾은 패턴의 인덱스를 의미.  #match: 찾은 패턴의 문자열을 의미.

In [None]:
#bool 메서드에 m 전달 -> True, False 판단 가능
print(bool(m))

if m:
    print('match')
else:
    print('no match')

In [None]:
#찾아낸 패턴의 정보를 확인하는 메서드 알아보기.
#1. stard, end 메서드: 첫 번째와 마지막 인덱스를 반환.
#2. span: 찾은 패턴의 첫 번째와 마지막 인덱스를 반환.
#3. group 메서드: ckwdksos voxjsdmf qksghks.

print(m.start())
print(m.end())
print(m.span())
print(m.group())

In [None]:
#숫자 이외의 입력값이 주어진 경우(ex.123-456-7890)
#이 경우 앞에서 사용한 패턴을 그대로 적용하면 패턴을 찾지 못한다.

tele_num_spaces = '123 456 7890'
m = re.match(pattern = '\d{10}', string = tele_num_spaces)
print(m)   #match 오브젝트가 아닌 None 반환.

if m:
    print('match')
else:
    print('no match')

In [None]:
#위 문제를 해결하기 위해서는 정규식을 재작성해야 함.
#빈 칸을 의미하는 \s?를 넣어 패턴 다시 만들기.
p = '\d{3}\s?\d{3}\s?\d{4}'
m = re.match(pattern = p, string = tele_num_spaces)
print(m)

In [None]:
#지역번호를 괄호로 감싸고 나머지 번호는 반각 기호로 구분한 전화번호의 정규식.
tele_num_space_paren_dash = '(123) 456-7890'
p = '\(?\d{3}\)?\s?\d{3}\s?-?\d{4}'      # -? 앞의 \s?는 없어도 패턴을 찾는데 문제가 없다.
m = re.match(pattern = p, string = tele_num_space_paren_dash)
print(m)

In [None]:
#국가코드까지 있는 전화번호의 정구식
cnty_tele_num_space_paren_dash = '+1 (123) 456-7890'
p = '\+?1\s?\(?\d{3}\)?\s?\d{3}\s?-?\d{4}'       # 책에 적혀있는 코드.
#p = '\+?\d{1}\s?\(?\d{3}\)?\s?\d{3}\s?-?\d{4}'  # 조금 다르게 작성해 보았습니다.

m = re.match(pattern = p, string = cnty_tele_num_space_paren_dash)
print(m)

In [None]:
#Tip. compile 메서드로 정규식 메서드 사용하기
#패턴을 반복해서 상요하려면, complie 메서드로 패턴을 컴파일한 다음, 변수에 저장하여 사용.

p = re.compile('\d{10}')
s = '123456789012345678901234567890'
m = p.match(s)
print(m)