# 18. 정규식(Regular Expression)

#### 정규식 혹은 정규표현식은 특정한 규칙을 가진 문자열의 집단을 표현하는 방식이다.

#### Python 은 정규식을 지원하는 re module 을 제공한다. 사용 방법은 다음과 같다.  

    1. re.compile 을 이용하여 정규식을 compile 하여 pattern 객체를 얻음.  
    2. pattern 객체를 이용하여 문자열의 검색을 수행.   
    
      - 검색 method :  
        
        search() - 문자열 전체를 검색하여 정규식과 match 되는지 조사  (문자열의 아무곳이나 match)  
            
        match = re.search(pattern, str)

        검색하여 match 되는 문자열이 있으면 match object 를 반환하고, 없으면 None 이 반환된다.
        
        match 다음에 즉시 if 문으로 match 성공 여부를 check.

        match 에는 match 결과가 저장되고 match.group() method 를 통해 matching text 를 가져온다.

In [4]:
import re

txt = 'an example word:cat!!'

match = re.search(r'word:\w\w\w', txt)    # r - raw string : backslash (\) 를 특수문자로 인식하지 않는다.
match

<re.Match object; span=(11, 19), match='word:cat'>

In [6]:
if match:
    print('매칭 패턴 발견 : ', match.group())
else:
    print('매칭 패던 없음')

매칭 패턴 발견 :  word:cat


## 정규식의 기본 pattern 

### meta 문자

- meta 문자는 특수한 의미를 가지므로 위와 같이 자기 자체로 match 시키지 않는다.   
       . ^ $ * + ? { } [ ] \ | ( )
       
- special character 는 \를 앞에 두면 된다. $\text{ex) \., \\, \@}$

### single character match

- a, X, 9 $\leftarrow$ 영문 대소문자, 숫자는 자기 자체로 match 시킨다.

        ex) re.search(r'12g', 'p12g')  --> match='12g'

- . (period) 는 아무 문자(any character) 와도 match 가 된다. (단, \n (new line) 제외)  


- \w 는 word character (a-z, A-Z, 0-9) 와 match 된다. (single character)  

- \W - NOT \w


- \b 는 word 와 non-word 의 boundary 이다


- \s 는 white space (space, new line, return, tab) 와 match 된다. (single white space)
- \S 는 non-white space 


- \d 는 decimal digit (0-9) 와 match 된다.
- \D - NOT \d

### quantifier (나타나는 횟수)

- \* : 바로 앞 문자가 0 회 이상 나타남  

- \+ : 바로 앞 문자가 1 회 이상 나타남  

- \? : 바로 앞 문자가 0 회 혹은 1 회 나타남 (optional)


### position


- ^ : string 의 처음을 의미, 

- $ : string 의 끝을 의미한다.

- \[ \] 내의 ^ 는 NOT 의미, ex) [^A-Z] : A-Z 을 제외한 문자


### grouping
- ()

## 사용 method

- re.compile(pattern) :	패턴 문자열 pattern을 패턴 객체로 컴파일한다


- re.search(pattern, string) :	string에서 pattern과 매치하는 텍스트를 탐색한다 (처음 한개 매치)


- re.sub(pattern, repl, string) : string에서 pattern과 매치하는 텍스트를 repl로 치환한다

### Group 구분

matching text 를 여러 부분으로 구분할 때 사용

In [26]:
import re

text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."


match = re.search(r'(\d{3})-(\d{3}-\d{4})', text)

areaCode = match.group(1)
num = match.group(2)

fullNum = match.group()

print(areaCode, num, fullNum)

032 232-3245 032-232-3245


In [27]:
match = re.search(r'\w\w\w', '@@abcd!!')        #영수자 연속 3 개
match.group()

'abc'

In [28]:
match = re.search(r'^bo', 'rebok')
match.group()

AttributeError: 'NoneType' object has no attribute 'group'

In [29]:
match = re.search(r'k$', 'book')

match.group()

'k'

### match 되는 pattern 의 반복 (Repetition)

- \+ $\rightarrow$ 1개 혹은 그 이상의 해당 pattern 이 왼쪽에 있음


- \* $\rightarrow$ 0 혹은 그 이상의 해당 pattern 이 왼쪽에 있음


- \? $\rightarrow$ 0 혹은 1 개의 해당 pattern 이 왼쪽에 있음

### Leftmost and Largest 규칙

search 는 가장 왼쪽 (leftmost) match 를 먼저 찾고 repetition 메타문자 (\., \*, \+)를 만족하는 한 match 를 계속 찾는다.

In [30]:
import re

match = re.search(r'pi*', 'pg')    

match.group()

'p'

In [19]:
match = re.search(r'i+', 'piigiiig')

match.group()

'ii'

In [20]:
match = re.search(r'^b\w+', 'foobar')
type(match)

NoneType

In [21]:
match = re.search(r'b\w', 'foobar')

match.group()

'ba'

### 대괄호 ([  ])

character set 을 표시한다. 예를 들어 [abc] 는 a, b, c 와 match 된다. 단, [ ] 내의 \. 는 메타문자가 아니라 실제 \. 표시이다. 

In [31]:
txt = '궁금하신 내용은 trimurti@naver.com 문의 바랍니다.'
match = re.search(r'[\w]+@[\w.]+', txt)

match.group()

'trimurti@naver.com'

In [32]:
match = re.search(r'([\w]+)@([\w.-]+)', txt)

In [33]:
print(match.group())
print(match.group(1))
print(match.group(2))

trimurti@naver.com
trimurti
naver.com


### findall
re.search() 는 첫번째 match 하나만 return

re.findall() 은 string 에서 match 되는 것 전부 list 로 return

In [34]:
re.findall(r'12g', 'p12gabc12g')

['12g', '12g']

In [35]:
re.findall(r'\d\d\w', 'p12gabc12g')

['12g', '12g']

### 연습문제

아래에서 이메일 주소만 모두 골라낸다.

- findall 이용

In [42]:
txt = '메인 이멜 주소는 young-jea.oh@citi.com 이고 보조 이멜 주소는 trimurti@naver.com 입니다. 문의는 faq@gmail.net 으로 보내세요.'

위에서 한글만 분리

In [48]:
txt = "한글 regex 의 범위는 가-힣까지 입니다."