# 정규표현식 (Regular Expression)   

> 문자열의 일정한 패턴을 표현하는 형식언어. 정규식이라고도 한다.
>   
> 정규표현식을 이용하면 문자열을 가져오거나 처리할때 특별한 규칙을 만들어 코드를 간결하게 만들 수 있다.   


- 파이썬 : re 모듈을 이용하여 정규표현식을 사용할 수 있다.   

### 메타문자

표현식에서 특정 의미를 가지는 문자   

x == 문자열   

|표현식 | 의미
|-------|--------------------
|`^`x   | 문자열의 시작. 'x'문자로 시작   
|x`$`   | 문자열의 끝. 'x'문자로 종료
|`.`x   | 임의의 한 문자의 자리수. 문자열이 x로 끝난다는 것을 의미
|x`?`   | 존재 여부. x 문자가 존재 or 존재하지 않음
|x`+`   | 반복. x 문자가 한번 이상 반복
|x`*`   | 반복 여부. x 문자가 0번 or n번 반복
|x`\|`y  | or. x 또는 y 문자가 존재
|`(`x`)`| 그룹. x를 그룹으로 처리
|`(`x`)(`y`)` | 그룹들의 집합. 앞에서 부터 순서대로 번호 부여
|(x)(`?:`y) | 그룹들의 집합에 대한 예외. 그룹 집합으로 관리되지 않음
|x`{n}`     | 반복. x문자가 n번 반복
|x`{n,}`    | 반복. x문자가 n번 이상 반복
|x`{n,m}`   | 반복. x문자가 최소 n번 이상 최대 m번 이하 반복

특별한 메타문자   

| 표현식    | 의미
|-----------|--------------------------------
|`[`xy`]`   | 문자 선택. x와 y중 하나를 의미
|[`^`xy]    | not. x와 y를 제외한 문자
|[x`-`y]    | range. x~z사이의 문자
|`\^`       | escape. ^를 문자로 사용
|`\b`       | word boundary. 문자와 공백 사이의 문자
|`\B`       | non word boundary. 문자와 공백 사이가 아닌 문자
|`\d`       | digit. 숫자
|`\D`       | non digit. 숫자가 아닌 것
|`\s`       | space. 공백문자
|`\S`       | non space. 공백문자가 아닌 것
|`\t`       | tab. 탭 문자
|`\v`       | vertical tab. 수직 탭
|`\w`       | word. 알파벳 + 숫자 + _ 중의 한 문자
|`\W`       | non word. 알파벳 + 숫자 + _ 가 아닌 문자

### Flag

| Flag      | 의미
|-----------|-------------------------
| g         | Global. 대상 문자열 내의 모든 패턴들을 검색
| i         | Ignore case. 대/소문자 식별하지 않음
| m         | Multi line. 대상 문자열이 다중 라인인 경우에도 검색

### 문자 클래스 (character class)

#### 문자클래스
#### `[]` : '[' 와 ']' 사이의 문자들 중에 선택    

> - 예제   
> `[abc]` : 'a', 'b', 'c'가 문자열에 포함되어 있는 경우 선택    
> -> "a" = 선택, "before" = 선택 / "none" = 선택 안됨

<br/>

#### 범위
#### `-` : 두 문자 사이의 범위   

> - 예제    
> `[a-c]` : 위의 `[abc]` 예제와 동일
> `[0-5]` : `[012345]`와 동일

> - 자주 사용하는 표현식         
> `[a-zA-Z]` : 대,소문자 알파벳  
> `[0-9]` : 모든 숫자 (0 ~ 9)   
> `[0-9a-zA-Z]` : 특수문자를 제외한 모든 문자

In [2]:
# 문자클래스

import re

cr = re.compile('[a-zA-Z]')

m_str = cr.match("before")
print(m_str)

m_non = cr.match("010111")
print(m_non)

<re.Match object; span=(0, 1), match='b'>
None


### 시작문자, 끝문자   

#### - 시작문자
#### `^`x : 문자열의 시작이 x   

> - 예제 1  
> `^a` : a로 시작되는 모든 문자열   
> -> affort, apple = 선택 / before = 선택 안됨   

> - 예제 2   
> `^(www)` : www로 시작되는 모든 문자열   
> -> www.naver.com, www.google.com = 선택 / bing.com = 선택 안됨

<br/>

#### - 끝문자
#### x`$` : 문자열의 끝이 x   

> - 예제 1   
> `z$`        : z로 끝나는 모든 문자열   

> - 예제 2   
> `.*\.com$` : .com으로 끝나는 모든 문자열   
> -> google.com = 선택 / daum.net = 선택 안됨 


In [3]:
start = re.compile('^(www)')

m_naver = start.match('www.naver.com')
print(m_naver)

m_bing = start.match('bing.com')
print(m_bing)

<re.Match object; span=(0, 3), match='www'>
None


In [None]:
re_end = re.compile(".*\.com$")

m_google = re_end.match("google.com")
print(m_google)

### .(dot) 문자 

#### `.` : 개행문자(`\n`)을 제외한 모든 문자   
> 정규식 작성시 `re.DOTALL` 옵션을 주면 .(dot)과 `\n`도 매치된다.

> - 예제   
> `a.b` : "a + 문자 1글자 + b"   
> -> abb acb a0b = 선택, abbb = 선택 / abc = 선택 안됨, abcb = 선택 안됨

> - 예제
> `a[.]b` : "a + . + b". 이때는 문자 그대로의 '.'을 의미한다.
> -> a.b = 선택 / abb = 선택 안됨

In [7]:
re_dot = re.compile("a.b")

dot_abb = re_dot.match('abb')
print(dot_abb)

dot_acb = re_dot.match('acb')
print(dot_acb)

dot_a0b = re_dot.match('a0b')
print(dot_a0b)

dot_abc = re_dot.match('abc')
print(dot_abc)

dot_abbb = re_dot.match('abbb')
print(dot_abbb)

dot_abcb = re_dot.match('abcb')
print(dot_abcb)

<re.Match object; span=(0, 3), match='abb'>
<re.Match object; span=(0, 3), match='acb'>
<re.Match object; span=(0, 3), match='a0b'>
None
<re.Match object; span=(0, 3), match='abb'>
None


### 반복

#### x`*` : x가 0번~ n번 반복    

> - 예제   
> `.*(\.com)$` : .com 이나 .com으로 끝나는 모든 문자열 (.com 앞의 문자열 없어도 됨)    
> -> .com, a.com, naver.com = 선택 / \n.com = 선택 안됨   

<br/>

#### x`+` : x가 1번~ n번 반복   

> - 예제   
> `.+(\.com)$` : .com 으로 끝나는 모든 문자열 (.com 앞의 문자열 있어야 함)    
> -> a.com, naver.com = 선택 / .com, \n.com = 선택 안됨   

<br/>

#### x`?` : x가 0번~ 1번 있음   

> - 예제   
> `0[ -]?0` : 0과 0 사이에 공백 또는 '-' 가 있거나 어느 문자도 없는 경우   
> -> 0 0, 0-0, 00 = 선택 / 010, 0a0 = 선택 안됨   

<br/>

#### `{}` : 반복 횟수 선택   
`{최소반복횟수, 최대반복횟수}`   
ex) `{2, 5}`  : 2번에서 5번까지 반복   

> - 예제   
> `ca{2, 5}t` : c + a를 2번에서 5번까지 반복 + t   
> -> cat, caaaaaat =선택안됨 / caat, caaat =선택    



In [8]:
# 컴파일 없이 바로 매치, 서치 하기

m = re.match('[a-z]+', "python")
s = re.search('[a-z]+', "python")

re_match = re.match("ca{2,5}t", "caat")


### 정규표현식 특수 옵션

DOTALL(S)       : . 이 줄바꿈 문자를 포함해 모든 문자 매치   
IGNORECASE(I)   : 대소문자 관계없이 매치   
MULTILINE(M)    : 여러 줄과 매치 (^, $ 메타문자)   
VERBOSE(X)      : verbose 모드. 정규식을 보기 편하게 주석도 사용가능   

약어 사용가능

### 사용 예시
#### 이메일
```
^[0-9a-zA-Z]([-_\.]?[0-9a-zA-Z])*@[0-9a-zA-Z]([-_\.]?[0-9a-zA-Z])*\.[a-zA-Z]{2,3}$
```
#### 전화번호
```
^01[0|1|6|7|9]{3}[ -]?\[0-9]{3,4}[ -]?[0-9]{4}$
```