### 정규표현식의 소개  

정규표현식은 여러분이 직접 지정할 수 있는 패턴인데, 특수 문자를 사용하여 특정 문자, 숫자, 단어의 조합을 표현한다.  

정규표현식은 주어진 단어와 일치하는 문자를 나열하는 것처럼 단순할 수 있다.  
예를 들어 다음 패턴은 단어 'cat'과 일치한다 그리 놀랍지 않음.  

cat

하지만 더 많은 단어로 구성된 집합과 일치하려면 어떻게 표현해야 할까?  
예를 들어 다음과 같은 글자의 조합과 일치하는 단어를 표현하고 싶다고 해보자  

* 1개의 'c' 문자와 일치 
* 'a' 문자는 최소한 한 번 이상 등장 
* 1개의 't' 문자와 일치 

이 조건에 맞는 정규표현식은 다음과 같다  

ca+t

정규표현식을 사용하면 리터럴과 특수 문자 사이에 기본적인 차이점이 있다. 

이 예시의 'c', 't' 와 같은 리터럴 문자는 반드시 정확하게 일치해야 하며, 그렇지 않은 경우 일치 결과를 얻지 못한다. 문자 대부분은 리터럴 문자이며, 특수 문자로 리터럴 의미를 변경하지 않는 이상 각 문자는 리터럴이라고 가정해야 한다.  

모든 글자와 숫자는 그 자체가 리터럴 문자다. 반면 구두점 문자는 대개 근처 문자의 의미를 바꾸는 특수 문자다.  

더하기(+)는 특수 문자다. 정규표현식 처리기는 더하기 기호를 찾지 않는다. 대신 'a'와 함께 동작하는 부분표현식으로, 최소 1개 이사으이 'a' 문자가 있는지를 확인한다.  

그러면 패턴 ca+t는 다음 문자들과 일치하게 된다.  

* cat
* caat
* caaat
* caaaat  

실제 더하기 기호와 일치하는 문자를 찾으려면 역슬래시를 사용하여 이스케이프 시퀀스를 만들면 된다. 이스케이프 시퀀스는 특수 문자를 리터럴 문자로 돌려놓는다 

그러니 다음 정규 표현식은 ca+t와 정확하게 일치한다.  

ca\\+t  

또 하나의 중요한 연산자는 곱하기 기호(*)다. 곱하기 기호는 바로 앞 문자가 없거나 여러 번 나타나는지 확인한다. 그럼 'ca\*t는 다음 문자들과 일치하게 된다.  

* ct
* cat
* caat 
* caaaaaat  

특히 이 패턴은 ct와 일치한다. 별표 기호는 표현식 지시자이니 다르게 해석하면 안된다.  
대신 다음 규칙을 따라야 한다  

별표 기호(*)는 즉시 앞 문자의 의미를 변경하며, a\*는 a 문자가 없거나 여러 개로 구성되는 문자와 일치한다.  

ca\*t  

여기에서 c,t는 각각 하나의 문자와 일치하지만 a\*는 "a가 없거나 존재한다."를 의미한다  

앞서 설명한 더하기 기호(+)도 비슷한 방식으로 동작한다.  
더하기 기호는 바로 앞 문자 혹은 그룹에 대해서 "1개 이상 일치"하는 것을 의미한다. 

### 실제 예시: 전화번호  

전화번호를 검증하는 함수를 작성한다고 가정해보자. 숫자를 의미하는 #을 사용하는 경우, 다음과 같이 패턴을 작성할 수도 있다.  

###-###-####  

정규표현식 문법으로는 다음과 같이 작성할 수 있다.  

\d\d\d-\d\d\d-\d\d\d\d  

이 경우 역슬래시는 이스케이프 시퀀스로 동작하지만 d를 리터럴 문자로 만들지 않고, 특별한 의미를 부여한다.  

부분표현식 \d 는 하나의 숫자와 일치한다는 것을 의미한다. 다음 부분표현식으로도 숫자를 표현할 수 있다.  

[0-9]  

반면 \d 는 5글자가 아니라 2글자라 더 간결하다 

In [2]:
import re 

pattern = r'\d\d\d-\d\d\d-\d\d\d\d'

s = input('Enter tel. number: ')
if re.match(pattern, s):
    print('Number accepted')
else:
    print('Incorrect format.')


Number accepted


두번째 줄에서는 정규포현식 패턴을 원시 문자열로 작성한 코드가 있다.  
원시 문자열 이라면 파이썬은 스스로 어떤 문자도 번역하지 않는다.  
가령 \n 은 개행문자로, \b는 벨을 울리는 것으로 번역하지 않는다.  
대신 원시 문자열로 작성된 모든 텍스트는 정규표현식 검사기로 직접 전달된다.  

r'string' or r"string"  

네번째 줄에서는 프롬프트로 사용자 입력을 받으면 프로그램은 re 패키지를 탑재했으니 re.match로 match 함수를 호출한다.  
패턴 인수가 대상 문자열(s)과 일치하면 함수는 일치하는 객체를 반환한다.  
그렇지 않으면 불리언 값 False로 변환될 None을 반환한다.  

이제 불리언 값으로 반환된 값을 사용하면 된다. 패턴과 일치하는 것이 확인되면 True를 반환하지만 그렇지 않으면 False를 반환한다. 

### 일치 패턴 정제하기  

앞 절에서 살펴본 전화번호 일치 예시가 잘 동작했지만, 제약이 있다.  
re.match 함수는 대상 문자열의 앞부분이 패턴과 일치하면 True 값을 반환한다.  
문자열 전체가 일치할 필요는 없다.  

앞서 살펴본 정규표현식은 다음 전화번호 패턴과 일치한다.  
555-123-5000  

하지만 다음 패턴도 일치한다고 할 것이다. (이왜진)  
555-345-5000000  

만약 전체 문자열이 패턴과 정확하게 일치하여 남는 문자가 없도록 하려면 '문자열의 종료'를 의미하는 특수 문자 $를 추가하면 된다.  
이 문자는 정의한 패턴보다 더 많은 텍스트가 발견되면 일치하지 않는다고 판단한다.  

pattern = r'\d\d\d-\d\d\d-\d\d\d\d$'

정규표현식 패턴을 정제하는 또 다른 방법도 살펴보자.  
예를 들어 다음과 같이 두 가지 포맷을 허용하는 패턴을 정의한다고 해 보자.  

555-123-5000  
555 123 5000  

이 두 패턴을 수ㅛㅇ하려면 특정 위치에 허용할 수 있는 하나 이상의 값을 담은 문자 집합을 만들 필요가 있다. 가령 다음 표현식은 'a' 혹은 'b'는 허용하지만 둘 다 등장하면 안된다.  

[ab]  

문자 집합에 많은 문자를 넣을 수도 있지만, 반드시 하나의 문자만 일치해야 한다.  
예를 들어 다음 예시는 'a','b','c','d'중 하나의 문자만 정확하게 일치해야 한다.  

[abcd]  

또한, 다음 표현식은 이번 예시에서 필요한 빈칸과 빼기 기호를 허용한다.  

[ -]  

이 표현식에서는 대괄호 기호만이 특수 문자다. 대괄호 기호 사이에 있는 문자는 리터러이며, 그 중 하나의 문자만 일치해야 한다.  
빼기 기호는 대괄호 기호 안에서 사용하면 특별한 의미를 지니는 경우가 많지만, 대괄호 기호 안에 맨 앞이나 끝에 위치하면 리터럴로 인식된다.  


다음 예시에서 전체 정규표현식을 확인해보자 

In [3]:
pattern = r'\d\d\d[ -]\d\d\d[ -]\d\d\d\d$'

In [6]:
import re

pattern = r'\d\d\d[ -]\d\d\d[ -]\d\d\d\d$'
s = input('Enter tel. number')
if re.match(pattern, s):
    print('Number accepted.')
else:
    print('Incorrect format.')

Number accepted.


위 코드의 동작과정을 살펴보면  
* 3개의 숫자가 일치하는지 확인한다 (\d\d\d).
* 문자 집합[ -]을 읽은 후 빈칸 혹은 빼기 기호와 일치하는지 확인한다. 둘 중에 하나만 나타나야 한다 
* 3개의 숫자가 일치하는지 다시 확인한다(\d\d\d).
* 다시 빈칸 혹은 빼기 기호가 나타나는지 확인한다. 
* 4개의 숫자가 일치하는지 확인한다 (\d\d\d\d).
* 문자열이 반드시 끝나야 한다($). 4개의 문자가 일치한 후 어떤 문자도 나타나서는 안된다. 

\$ 기호를 사용하지 않고 남는 문자 없이 패턴과 정확하게 일치하게 강제하는 또 다른 방법은  
re.match 메서드 대신 re.fullmatch 를 사용하는 것이다 

In [8]:
import re

pattern = r'\d\d\d[ -]\d\d\d[ -]\d\d\d\d'

s = input('Enter tel. number')
if re.fullmatch(pattern, s):
    print('Number accepted. ')
else:
    print('Incorrect format. ')

Number accepted. 


정규표현식을 사용하기 위해 반드시 명심해야 할것들 

* 문자 개수는 정규표현식 패턴으로 표현할 때 특별한 의미를 가지고 있다.  
이 방법들을 모두 숙지하는 것이 좋다. 특히, +나, *와 같은 표현식은 구두점 문자도 포함된다  
* 특별한 의미를 지니고 있지 않은 모든 문자는 파이썬 정규표현식 번역기에서 리터럴 문자로 인식한다.  
정규표현식 번역기는 이 문자들이 정확하게 일치하는지 확인한다.  
* 역슬래시 기호는 보통 '이스케이프' 특수 문자에 사용되며, 특수 문자를 리터럴 문자로 만든다.  
역슬래시는 원래 문자에 특별한 의미를 부여하기 위해서도 사용된다. 가령 \d는 'd'를 의미하는 것이 아니라 '모든 숫자'를 의미한다. 

In [11]:
import re 

pattern = r'\d\d\d-\d\d-\d\d\d\d$'
s = input('Enter SSN: ')
if re.match(pattern, s):
    print('Number accepted.')
else:
    print('Incorrect format.')

Number accepted.


위 코드는 사회보장 번호를 검증하는 짧은 테스트 프로그램이다. 

### 정규표현식 동작 방식: 컴파일 vs 실행  

정규표현식의 처리 절차는 크게 두 가지 주요 단계로 나뉜다.  
* 분석된 정규표현식 패턴은 일괄적으로 상태 기계로 불리는 열거형 데이터 구조로 컴파일된다.  
* 일치 유무를 판단하는 실제 행위는 정규표현식 검사기에 의해 '컴파일 시간'에 수행되는 것이 아니라, '실행 시간'에 수행된다.  
실행시간 중에는 프로그램이 상태 기계를 순회하면서 일치를 찾는다 

제어자 +는 "앞 표현식이 한번 이상 나타나야 한다."를 의미  
제어자 *는 "앞 표현식이 나타나지 않거나, 여러번 나타날 수 있다."를 의미한다   

ca*b  

위 표현식은 'cb', 'cab', 'caab', 'caaab'와 일치한다.  

프로그램이 상태 기계를 순회하면서 실행 시간에 일치를 찾는지 설명해보겠다.  

* 첫 문자를 읽는다. 첫 문자가 'c'이면 상태 기계는 2번째 상태로 이동한다. 'c'가 아닌 다른 문자를 읽으면 실패한다  
* 상태 2에서 'a'혹은 'b'가 올 수 있다.  
'a'가 읽히면 상태 기계는 상태 2에 머문다. 횟수와 상관없이 'a'를 계속해서 읽을 수 있다.  
'b'가 읽히면 상태 기계는 상태 3으로 이동한다. 이외의 문자가 읽히면 실패한다  
* 상대 기계가 상태 3에 다다르면 상태 기계는 종료되며, 성공했다고 보고한다. 

이와 같이 상태 기계는 컴파일된 후 실행 시점에 순회 대상이 된다는 간단한 기본 원칙을 따른다.  

반드시 알아야 할 기능이 있는데, 만약 동일한 정규표현식 패턴을 여러 번 사용하는 경우가 있다면 해당 패턴을 먼저 컴파일 하여 정규표현식 객체로 만든 후 그 객체를 반복하여 사용하는 것이 좋다. regex 패키지는 compile 메서드를 제공하여 이를 가능하게 한다.  

regex_object_nae = re.compile(pattern)  

In [15]:
import re 

reg1 = re.compile(r'ca*b$')

def test_item(s):
    if re.match(reg1, s):
        print(s, 'is a match.')
    else:
        print(s, 'is not a match!')
        
test_item('caab')
test_item('caaxxb')

caab is a match.
caaxxb is not a match!


위 코드는 compile 메서드를 사용하여 졍규표현식 객체인 reg1을 만드는 예시이다 

컴파일을 미리 수행하는 이유는 똑같은 패턴을 한 번 이상 사용할때, 코드 실행 시간을 줄일 수 있다.  

위 코드 같은 패턴을 사용하면 'cb'는 일치하지 않지만 'cab','caab','caaab'는 일치한다  
이 상태 기계는 적어도 'a'가 한번 이상 등장해야 한다. 그러고 나면 추가로 'a'문자를 찾는 것은 선택 사항이며, 'a'가 여러번 등장해도 상관없다.  

또 다른 기본 연산자는 '둘 중에 하나만 선택'을 의미하는 선택 연산자(|)다  

이 패턴은 수직선 기호 양쪽의 표현식 중 하나의 일치하는지 확인한다.  

ax|yz  

선택 연산자 | 는 모든 구문보다 우선순위가 낮다.  
따라서 이 표현식은 'ax' 혹은 'yz'와 일치하는지 확인하지만 'axyz'의 일치 유무를 확인하지는 않는다.  

소괄호 기호를 사용하여 검사 순서를 변경한 표현식을 살펴보면  

a(x|y)z  

선택 연산자는 'x 혹은 y가 필요하지만 둘 다 나오면 안된다'로 번역된다.  

예를 하나 들면 다음 패턴은 'cat' 혹은 'dog'와 일치하지만 'catdog'와는 일치하지 않는다  

cat|dog

### 대,소문자 무시하기, 그리고 다른 함수 플래그  

정규표현식 패턴이 컴파일 되거나(re.match와 같은 함수를 호출하여) 바로 번역될 때, regex 플래그를 여러 개 조합하여 동작 방식에 영향을 줄 수 있다.  
일반적으로 사용하는 플래그는 re.IGNORECASE이다. 

In [16]:
if re.match('m*ack', 'Mack the Knife', re.IGNORECASE):
    print('Success.')

Success.


위 코드는 'Success'를 출력한다  

패턴 m*ack 는 단어 Mack과 일치한다. 추가한 플래그가 파이썬에 글자의 대,소문자를 무시하라고 지시하기 때문임.  

In [17]:
if re.match('m*ack', 'Mack the Knife', re.I):
    print('Success.')

Success.


위 코드도 동일하게 작동하는데 I는 IGNORECASE 플래그의 약어이기 때문

In [18]:
if re.match('m*ack', 'Mack the Knife', re.I | re.DEBUG):
    print('Success.')

MAX_REPEAT 0 MAXREPEAT
  LITERAL 109
LITERAL 97
LITERAL 99
LITERAL 107

 0. INFO 4 0b0 3 MAXREPEAT (to 5)
 5: REPEAT_ONE 6 0 MAXREPEAT (to 12)
 9.   LITERAL_UNI_IGNORE 0x6d ('m')
11.   SUCCESS
12: LITERAL_UNI_IGNORE 0x61 ('a')
14. LITERAL_UNI_IGNORE 0x63 ('c')
16. LITERAL_UNI_IGNORE 0x6b ('k')
18. SUCCESS
Success.


위 코드를 살펴보면  
2개의 플래그는 2항 OR 연산자(|)를 사용하여 조합할 수도 있다.  

정규표현식 플래그  

* ASCII, 약어 = A : 아스키 설정으로 가정한다 
* IGNORECASE, 약어 = I : 모든 '검색'과 '일치'는 대,소문자를 구분하지 않는다. 
* DEBUG : IDLE 안에서 연산이 실행되면 디버깅 정보가 출력된다 
* LOCALE, 약어 = L : 문자숫자식, 단어 경계와 숫자에 로케일 설정을 반영하여 일치를 찾음
* MULTINIE, 약어 = M : 문자열의 시작과 끝처럼 특수문자 ^와 &는 줄의 시작과 끝 의미
* UNICODE, 약어 = U : 문자숫자식, 단어 경계와 숫자가 유니코드라는 가정하에 일치를 찾는다
* VERBOSE, 약어 = X : 문자 클래스의 일부가 아닌 이상 패턴 안의 빈칸은 무시된다. 코드에 표현식을 더 보기 좋게 작성하는데 사용

### 정규표현식: 기본 문법 요약  

* 메타문자 : 특수 문자나 문자의 숫자를 제어하는 문자 (가령 '모든 숫자' 혹은 '모든 문자숫자식')를 위한 도구다. 각 문자는 한 번에 하나의 문자와 일치한다  
* 문자 집합 : 이 문법도 한번에 하나의 문자와 일치. 이 경우는 일치 대상값의 집합이 주어짐
* 표현식 수량자 : 이 연산자는 각 문자를 조합할 수 있게 해준다. 가령 와일드카드는 표현식 패턴을 계속 반복할 수 있다. 
* 그룹 : 소괄호 기호를 사용하면 작은 표현식을 큰 표현식과 조합할 수 있다. 

##### 메타 문자 

* . : 개행 문자를 제외한 임의의 문자 하나와 일치한다. DOTALL 플래그가 주어지면 모든 문자와 일치할 수 있다 
* ^ : 문자열의 시작을 의미, MULTILINE 플래그가 주어지면 줄의 시작을 의미할 수 있다 (개행 문자 뒤의 모든 문자).
* $ : 문자열의 끝을 의미, MULTILINE 플래그가 주어지면 줄의 끝을 의미 (개행 문자 혹은 문자열 끝에서 바로 앞에 위치한 마지막 문자)
* \A : 문자열의 시작을 의미 
* \b : 단어의 경계. 예를 들어 r'\ish\b'는 'ish is'와 'ish)' 와 일치하지만 'ishmael'과는 일치하지 않는다 
* \B : 비단어의 경계. 이 지점에서 새로운 단어가 시작되지 않는 경우에만 일치한다. 예를 들어 r'al\B' 는 'always'와 일치하지만 'al '과는 일치하지 않는다 
* \d : 모든 숫자. 0-9 까지의 숫자를 포함한다. UNICODE 플래그가 설정되면 숫자로 분류된 유니코드 문자도 포함된다 
* \s : 모든 여백 문자. 빈칸이나 \t, \n, \r, \f, \v 등이 포함된다. UNICODE와 LOCALE 플래그가 설정되면 여백 문자 판단 기준이 변경될 수도있다 
* \S : 위에서 정의한 여백 문자가 아닌 모든 문자 
* \w : 모든 문자숫자식 문자 (글자 혹은 숫자) 혹은 언더스코어 기호와 일치한다. UNICODE와 LOCALE 플래그가 설정되면 문자숫자식 판단 기준이 변경될 수도 있다 
* \W : 위에서 정의한 문자숫자식 문자를 제외한 모든 문자 
* \z : 문자열 끝을 의미  

위의 문자들 말고도 표준 이스케이프 시퀀스에는 \t(탭), \n(개행), \r(복귀), \f(페이지 넘김), \v(수직 탭)등이 있다.  

##### 문자 집합  

파이썬 정규표현식의 문자-집합 문법은 다음에 일치해야 할 문자를 제어하는 더 나은 방법을 제공  

[문자_집합] : 집합 안에 하나의 문자와 일치
[^문자_집합] : 집합 안에 존재하지 않은 하나의 문자와 일치한다  

문자 집합은 직접 문자들을 나열하거나 조금 뒤에 다룰 범위를 지정하여 정의 할 수 있다.  

예를 들어 다음 표현식은 모든 모음과 일치한다 (물론 'y' 는 제외)  

[aeiou]  

가령 다음 정규표현식 패턴을 지정한다고 가정해보자  

r'c[aeiou]t'  

이 패턴은 다음 단어들과 일치한다   

cat  
cet  
cit  
cot  
cut  

대괄호 밖에서 기존 의미를 유지하고 있는 +와 같은 다른 연산자와 범위를 조합할 수도 있다.  

예시로 다음 표현식을 살펴보자  

c[aeiou]+t  

이 패턴은 다음과 같이 다양한 문자열과 일치할 수 있다  

cat  
ciot  
ciiaaet  
caaauuuut  
ceeit  

범위를 표현하는 - 는 2개의 문자 사이 범위를 구체적으로 표현할 수 있다.  
그렇지 않으면 리터럴 문자로 인식된다.  
예를 들어 다음 범위는 소문자 'a' 부터 소문자 'n' 사이의 문자와 일치한다  

[a-n]  

결국 이 범위는 'a', 'b', 'c'부터 'i', 'm', 'n' 까지 문자중 하나와 일치한다.  
IGNORECASE 플래그가 주어지면 대상 문자의 대문자도 일치하게 된다.  

다음 패턴은 모든 대,소문자 글자와 숫자와 일치한다.  
반면 \w와는 다르게 이 문자 집합에는 언더스코어가 포함되지 않는다  

[A-Za-z0-9]  

다음 패턴은 모든 16진수 숫자와 일치한다.  
16진수 숫자에는 숫자 0부터 9까지 혹은 대,소문자 'A','B','C','D','E','F'가 포함

[A-Fa-f0-9]  



문자 집합은 몇가지 특별한 규칙이 있다.  

* 대괄호 기호 안의 문자 대부분은 여기에서 언급하는 특별한 경우를 제외하고는 특별한 의미를 잃는다. 따라서 문자 대부분은 모두 리터럴로 인식된다. 
* 오른쪽 대괄호 기호는 문자 집합을 종료하겠다는 특별한 의미를 갖는다. 만약 오른쪽 대괄호 기호를 문자 그대로 인식하려면 역슬래시를 이용해서 사용자 이스케이프 시퀀스로 만들어야 한다  
* - 는 문자 집합의 시작 혹은 끝에 나타나서 리터럴 문자로 인식되지 않는 한 특별한 의미를 갖는다. 이와 유사하게 캐럿 기호(^)는 범위의 시작 부분에 나타나면 특별한 의미를 갖지만, 그렇지 않은 경우 리터럴 문자로 인식된다 . 
* 역슬래시 기호는 반드시 리터럴 문자가 아니다 역슬래시를 표현하고 싶다면 \\\를 사용

예를 들어 문자 집합 사양 밖에서 산술 연산자 +와 *는 특별한 의미를 가지고 있다.  
하지만 대괄호 안에 들어오면 본연의 의미를 잃게 되며, 이 문자들과 일치하는 범위를 지정할 수 있다  

[+*\\-]  

범위 사양은 빼기 기호를 포함하지만 문자 집합의 중간이 아닌 끝에 나타나기 때문에 특별한 의미를 가지고 있지 않다.  

다음 문자 집합 사양은 4개의 연산자인 +,*,/,- 를 제외한 모든 문자를 찾기 위해 캐럿 기호를 사용한다. 캐럿 기호는 맨 앞에 등장했기 때문에 특별한 의미를 갖는다.  

[^+*/-]  

하지만 캐럿 기호(^)가 다른 위치에 있는 다음 예시는 5개의 연산자(^,+,*,/,-)와 일치하는지 확인한다  

[+*^/-]  



따라서 다음 코드가 실행되면 Success!를 출력할 것이다 

In [19]:
import re 

if re.match(r'[+*^/-]', '^'):
    print('Success!')

Success!


반면 다음 파이썬 코드는 Success!를 출력하지 않는다.  
문자 집합 시작 지점에 나타난 캐럿 기호가 문자 집합 의미를 반대로 뒤집었기 때문이다.  

In [21]:
import re 

if re.match(r'[^+*^/-]', '^'):
    print('Success!')

##### 패턴 수량자  

다음 표의 모든 수량자는 표현식 지시자 이지만, 표현식 확장자는 아니다  

* expr* : expr 표현식이 한 번만 나타나는 대신 나타나지 않을 수도 있고, 여러번 나타날 수도 있다. 가령 a* 는 'a','aa','aaa'와 일치하며, 빈 문자열과도 일치한다.  
* expr+ : expr 표현식이 한 번 이상 나타날 수 있다. 가령 a+는 'a','aa','aaa'와 일치
* expr? : expr 표현식은 나타나ㅣㅈ 않거나 한 번만 나타나야 한다. 가령 a?는 'a'혹은 빈 문자열과 일치한다 
* expr1 | expr2 : 둘중 하나만 선택. expr1이 한번만 나타나거나 expr2가 한번만 나타나야 하고 둘다 나타나면 안된다. 가령 a|b는 'a'혹은 'b'와 일치한다. 이 연산자의 우선순위가 매우 낮기 때문에 예를 들어 cat|dog 는 cat 혹은 dog 와 일치한다 
* expr{n} : expr 표현식이 정확히 n 번 나타난다. 가령 a{3}은 'aaa'와 일치하지만 sa{3}d는 'saaad'와 일치하는 반면, 'saaaaaad'와는 일치하지 않는다 
* epxr{m, n} : expr 표현식이 최소 m번, 최대 n번 나타날 수 있다. 가령 x{2, 4}y는 'xxy','xxxy','xxxxy'와는 일치한다. 
* expr{m,} : expr 표현식이 최소 m번 이상 나타나야 하지만 최대 출현 횟수의 제한은 없다. 가령 x{3,} 은 패턴 'xxx'가 나타나는지 확인하며, 세번 이상 나타나도 된다. 따라서 zx{3,}y는 'zxxxxxy'와 일치한다  
* expr{,n} : expr 표현식이 나타나지 않아도 되지만, 최대 n 번까지 나타날 수 있다. 가령 ca{,2}t는 'ct','cat','caat'와는 일치하지만 'caaat'와는 일치하지 않는다 
* (expr) : 정규표현식 검사기가 expr을 하나의 그룹으로 인식한다 이 기능이 필요한 이유는 두가지다  
1 수량자는 바로 앞에 있는 표현식에만 적용되지만, 표현식이 그룹인 경우 그룹 자체에 적용된다. 가령 (ab)+는 'ab','abab','ababab'와 일치한다  
2 나중에 그룹 단위로 일치 유무를 판단하거나 텍스트를 교체하기 위해 다시 참조될 수 있기 때문에 그룹을 명시하는 것이 중요하다 
* \n : 일치된 그룹을 참조한다. 참조는 실제로 실행 시간에 찾는다. 단순히 해당 패턴 자체를 반복하지는 않는다 \1은 첫번재 그룹을 참조하며 \2는 두번째 그룹을 참조한다. 

위 표에서 보여준 숫자 수량자를 사용하면 일부 표현식을 더 쉽게 표현하거나 적어도 더 간결하게 만들 수 있다. 예를 들어 앞서 살펴본 전화번호 검증 패턴을 다시 떠올려보자  

r'\d\d\d-\d\d\d-\d\d\d\d'  

이 패턴을 다음과 같이 수정할 수 있다.  

r'\d{3}-\d{3}-\d{4}  

이 예시는 키보드 입력 횟수를 약간 줄여주는 정도이지만, 다른 경우에는 더 많이 줄여줄 수 도 있다. 이 기능을 활용하면 더욱 읽기 좋고 관리하기 쉬운 코드를 작성할 수 있다.  

소괄호 기호는 단순한 명확성을 넘어서 많은 의미를 갖는다.  
그룹을 지정하는 가장 중요한 이유는 패턴이 구문 분석되는 방식에 영향을 줄 수 있기 때문이다  

예를 들어 다음 두 패턴을 살펴 보자   

pat1 = r'cab+'  
pat2 = r'c(ab)+'  

첫 번째 패턴은 다음과 같이 'b'가 반복되는 문자열과 일치한다  
cab  
cabb  
cabbb  

하지만 두번째 패턴은 그룹화 기능을 하용하여 'b'가 아니라 'ab'가 반복되는 문자열과 일치한다  

cab  
cabab  
cababab  



##### 역추적, 탐욕적 수량자와 게으른 수량자  

파이썬 정규표현식은 무척 유연하다. 특히 정규표현식 검사기는 역추적이라고 불리는 기술을 사용하더라도 최대한 더 많은 일치를 찾으려고 한다.  

다음 예시를 살펴보자 

In [22]:
import re 

pat = r'c.*t'

if re.match(pat, 'cat'):
    print('Success!')

Success!


위 코드에서 'c'는 하나의 'c'와 일치하고 't'는 하나의 't'와 일치하며, .*는 '모든 개수와 일치'한다고 하니 'cat'은 반드시 일치해야 한다  

하지만 다시 생각해보면 .*패턴을 문자 그대로 해석하면 다음과 같이 동작해야 한다  

* 'c'와 일치한다 
* 일반적인 패턴 .*로 인해 나머지 문자('at')가 일치한다 
* 문자열 끝에 도달했다. 정규표현식 검사기는 't'를 찾으려고 했지만 문자열의 끝에 도달하여 찾지 못했다 그럼..실패?  

정규표현식 검사기는 더 정교해 문자열에서 패턴과 일치하는 것을 찾지 못한다면 역추적을 시작하여 .* 기반으로 문자들이 일치하는지 확인한다.  
한 문자를 역추적 해보면 대상 문자열 'cat'이 일치한다는 것을 찾을 수 있을 것이다  
핵심은 정규표현식 문법이 역추적을 시도하더라도, 일치할 수 있는 모든 패턴을 유연하고 정확하게 찾아낸다는 것이다. 

### 정규표현식 실습 예시  

다음과 같은 조건을 따르는 비밀번호를 검증하는 소프트웨어를 만든다고 가정한다  

* 최소 길이는 8문자 
* 최소한 글자 1개가 포함되어야 한다 
* 최소한 숫자 1개가 포함되어야 한다 
* 최소한 구두점 문자 1개가 포함되어야 한다 
* 모든 문자는 대문자 혹은 소문자, 숫자 혹은 언더스코어, 혹은 구두점 문자 (@,#,%,^,&,*,!) 이다 

In [23]:
import re 

pat1 = r'(\w|[@#$%^&*!]){8,}$'
pat2 = r'.*\d'
pat3 = r'.*[a-zA-Z]'
pat4 = r'.*[@#$%^$*]'

def verify_passwd(s):
    b = (re.match(pat1, s) and re.match(pat2, s) and 
         re.match(pat3, s) and re.match(pat4, s))
    return bool(b)

verify_passwd 함수는 대상 문자열에 4개의 서로 다른 일치 조건을 테스트한다.  
re.match 함수는 pat1 부터 pat4 까지 서로 다른 패턴 4개와 함께 각각 호출된다.  
이 패턴 4개와 전달받은 문자열이 일치하면 결과는 True다.  

첫번째 패턴은 글자, 문자와 언더스코어, @#$%^&* 중 하나를 허용하며, 8개의 문자를 요구한다  
\w는 메타 문자로 '모든 문자와 숫자'와 일치한다.  
소괄호 기호 안에 함께 들어간 표현식은 '모든 문자나 숫자 혹은 나열된 구두점 문자 중 하나와 일치' 한다는 것을 의미한다  
다음에 나타나는 패턴 {8,}은 최소한 여덟번 나타나야 한다는 것을 의미하고  
\$는 빈칸 같은 문자가 추가 될수 없다. 즉, 마지막 문자를 읽고나서 끝나야 한다는 것을 의미  

(\w|[@#$%^&*!]){8,}\$


pat2는 모든 종류의 문자와 개수 제한 없이 일치(.*)한 후 숫자가 나와야 한다.  
정규표현식 패턴은 "0개부터 여러개의 문자와 일치한 후 하나의 숫자와 일치한다" 로 해석된다   

.*\d  

pat3는 0개부터 여러개의 문자와 일치(.*)한 후 대문자 혹은 소문자 글자와 일치한다  

.*[a-zA-Z]  

pat4는 0개 혹은 여러 개 문자와 일치한 후 범위 @#\$\%^\$*! 안의 한 문자와 일치한다.  

.\*[@#\$\%^\$*!]  



### Match 객체 사용하기  

re.match 함수는 대상 문자열이 패턴과 일치하면 match 객체를 반환하며, 일치하지 않으면 특수 객체인 None을 반환한다. 지금까지 우리는 이 값(객체 혹은 None)을 불리언 값(True/False)으로 다루었다  

어쨌든 match 객체는 일치 정보를 확인하는 데 사용할 수 있다.  
예를 들어 정규표현식 패턴은 소괄호 기호를 사용하는 경우 부분 그룹으로 나누어진다.  
match 객체는 각 부분 그룹에 일치하는 텍스트가 무엇인지 확인하는 데 사용할 수 있다.  