#4.정규표현식

정규표현식(Regular Expression, regex)  
프로그래밍에서 문자열을 다룰 때, 문자열의 일정 패턴을 표현하는 형식  
보통 정규식이라고 부르며, regex, regexp라고 많이 씀

정규식 테스트 사이트: https://regexr.com/  
연습문제 사이트: https://regexone.com/

## 4.1. 정규표현식 정리
메타문자: 원래 문자가 가진 뜻이 아닌 특별한 용도로 사용되는 문자  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;ex) . ^ $ * + ? { } [ ] \ | ( )

### 4.1.1 기본 메타문자

|기호  |설명                                      |
|------|------------------------------------------|
|.     |\n을 제외한 모든 문자 일치                |
|\|    |OR 왼쪽 혹은 오른쪽 문자와 일치           |
|()    |문자 집합 캡처, 캡처된 문자는 재참조 가능 |
|[]    |문자 집합 구성원 중 하나와 일치           |
|[^]   |문자 집합 구성을 제외하고 일치            |
|-     |범위 정의                                 |
|\     |다음에 오는 문자를 이스케이프             |


### 4.1.2 수량자

|기호  |설명                                                     |
|------|---------------------------------------------------------|
|*     |앞의 문자나 부분식이 0개 이상 greedy 찾기                |
|*?    |앞의 문자나 부분식이 0개 이상 lazy 찾기                  |
|+     |앞의 문자나 부분식이 1개 이상 greedy 찾기                |
|+?    |앞의 문자나 부분식이 1개 이상 lazy 찾기                  |
|?     |앞의 문자나 부분식을 0개나 1개 찾기                      |
|{n}   |앞의 문자나 부분식이 n번 일치하는 경우 찾기              |
|{m,n} |앞의 문자나 부분식이 m번 이상 n번 이하 일치하는 경우 찾기|
|{n,}  |앞의 문자나 부분식이 n번 이상인 경우 greedy 찾기         |
|{n,}? |앞의 문자나 부분식이 n번 이상인 경우 lazy 찾기           |

*는 0개 이상  
+는 1개 이상

greedy: 조건이 맞는 모든 것을 하나의 패턴으로 인식  
lazy:   조건이 맞는 1개를 하나의 패턴으로 인식

### 4.1.3 위치지정

|기호  |설명                                                                 |
|------|---------------------------------------------------------------------|
|^     |입력 문자열의 시작에서 다음에 나오는 문자나 부분식과 일치하는지 검사 |
|\$    |문자열의 끝과 일치                                                   |
|\b    |단어의 경계(공백 등)와 일치                                          |
|\B    |\b와 반대(비단어 경계)로 일치                                        |
|\A    |multiline 사용 시 줄과 관계 없이 처음 문자열에 매칭                  |
|\Z    |multiline 사용 시 줄과 관계 없이 마지막 문자열에                     |

### 4.1.4 특수문자

|기호  |설명                                                                 |
|------|---------------------------------------------------------------------|
|[\b]  |역스페이스                                                           |
|\d    |모든 숫자와 일치, [0-9]                                              |
|\D    |\d와 반대, [^0-9] , 글자나 공백 등                                                   |
|\w    |영숫자 문자나 밑줄과 일치, [a-zA-Z0-9]  영어랑 숫자만                             |
|\W    |\w와 반대, [^a-zA-Z0-9]  영어 숫자 말고
                                          |
|\n    |줄 바꿈 문자                                                         |
|\t    |탭 문자                                                              |
|\v    |세로 탭                                                              |
|\s    |공백, 탭, 용지 공급 등과 같은 문자 찾기, [\f\n\r\t\v]                |
|\S    |\s와 반대, [^\f\n\r\t\v] 공백 문자가 아닌것                                           |
|\cx   |x로 표시된 제어문자                                                  |

### 4.1.5 역참조와 전후방탐색

|기호            |설명                                                         |
|----------------|-------------------------------------------------------------|
|(pattern)       |하위 표현식 정의. 패턴을 찾아 일치하는 항목 캡처             |
|                |캡처 내에 ?:를 사용 (?:)시 캡처하지 않음,                    | 
|                |캡처된 문자는 재참조 가능                     |
|                |?P<name>으로 이름 부여 가능
|\1              |첫 번째 일치한 하위 표현식, 두 번째 일치한 표현식은 \2로 표시|
|(?=pattern)     |전방탐색                                                     |
|(?!pattern)     |부정형 전방탐색                                              |
|(?<=pattern)    |후방탐색                                                     |
|(?<!pattern)    |부정형 후방탐색                                              |
|?(BR)true       |조건 지정                                                    |
|?(BR)true|false |else 표현식 조건 지정                                        |

### 4.1.7 옵션

|기호 |설명                                                           |
|-----|---------------------------------------------------------------|
|\i   |IGNORECASE, 대소문자를 구분하지 않고 탐색                      |
|\g   |GLOBAL, 패턴을 계속 찾음.                                      |
|     |greedy처럼 일치하는 구간을 늘리는 것이 아닌 패턴 개수가 늘어남 |
|\m   |MULTILINE, 입력 문자열에 줄바꿈이 있어도 이를 문자로 간주      |
|\s   |DOTALL, .이 줄바꿈 문자를 포함한 모든 문자를 매치              |
|\x   |VERBOSE, verbose 모드 사용                                     |

## 4.2 정규표현식 기본 예제

### 4.2.1 기본 예

|정규표현식   |설명                                                           |
|-------------|---------------------------------------------------------------|
|abc          |abc가 있는 경우                                                |
|^abc         |abc로 시작하는 경우                                            |
|abc\$        |abc로 끝나는 경우                                              |
|^abc$        |abc로 시작하고 끝나는 경우                                     |
|[abc]        |a,b,c 중 하나를 포함하는 경우                                  |
|[a-z]        |a에서 z중 하나를 포함하는 경우                                 |
|^[0-9]       |0~9 중 하나로 시작하는 경우                                    |
|[^0-9]       |0~9가 아닌 경우                                                |
|^[^0-9]      |0~9가 아닌 것으로 시작하는 경우                                |
|a{3}         |a가 3번 반복되는 경우, aaa                                     |
|a{3,}        |a가 3번 이상 반복되는 경우                                     |
|[0-9]{2}     |0~9가 두 번 반복되는 경우, 두 자리 숫자                        |
|abc[7-9]{2}  |abc를포함하고 7~9까지 숫자 중 2자리가 함되는 경우              |

### 4.2.2 많이 사용하는 정규식

|설명         |정규표현식                                                     |
|-------------|---------------------------------------------------------------|
|이메일       |[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}                |
|전화번호     |(070\|02\|031\|032\|033\|041\|042\|043\|051\|052\|053\|054\|055\|061\|062\|063\|064)-\d{3,4}-\d{4}                                             |
|휴대폰번호   |(010\|011\|016\|017\|018\|019)-\d{3,4}-\d{4}                   |
|우편번호     |\d{3}-?\d{3}                                                   |
|주민등록번호 |\d{2}[0-1]\d[0-3]\d-?[1-6]\d{6}                                |

### 4.2.3 태그 제거

|패턴         |정규표현식                                                     |
|-------------|---------------------------------------------------------------|
|\&nbsp;      |\&nbsp;                                                        |
|복수 공백    |\s{2,}                                                         |
|ifram        |<iframe(.*?)<\/iframe>                                         |
|style=       |style=(\"\|\')?([^\"\']+)(\"\|\')?/"                           |
|width=       |width=(\"\|\')?\d+(\"\|\')?                                    |
|height=      |height=(\"\|\')?\d+(\"\|\')?/"                                 |

## 4.3 re 모듈
파이썬에서 정규표현식을 지원하기 위해 사용하는 모듈  
내장 라이브러리로 별도로 설치할 필요 없음



```python
import re
```




### re.match
```python
re.match('ell', 'hello')
```
문자열의 시작에서 패턴이 일치하는지 확인  
위 코드의 경우 ell이 문자열 중간에 있어 매칭되는 게 없음  

match 객체에는 다음의 메서드가 존재

|기호        |설명                                                         |
|------------|-------------------------------------------------------------|
|group()     |매치된 문자열 반환                                           |
|groupdict() |매치된 문자열의 이름과 결과 쌍 반환 (?P<이름>)사용           |
|start()     |매치된 문자열의 시작 위치 반환                               |
|end()       |매치된 문자열의 끝 위치 반환                                 |
|span()      |매치된 문자열의 (시작, 끝)에 해당하는 튜플 반환              |

### re.fullmatch
```python
re.fullmatch('ell', 'hello')
```
문자열에 시작과 끝이 정확하게 패턴과 일치하는지 확인  

### re.search
```python
re.search('ell', 'hello')
```
문자열 내에서 패턴이 일치하는지 확인  
위 코드의 경우 ell이 문자열 중간에 매칭

### re.compile
```python
regex = re.compile('ell')
regex.search('hello')
```
정규식 패턴을 정규식 객체로 컴파일  
객체에는 match, search 등의 메서드 사용 가능

### re.split
```python
re.split('\s', 'hello world')
```
주어진 패턴을 기준으로 분할 후 리스트로 반환  
maxsplit을 이용하면 최대 n개의 분할 개수 설정 가능

### re.findall
```python
re.findall(r'(\w+)=(\d+)', 'set width=20 and height=10')
```
주어진 패턴에 매칭되는 결과를 리스트로 반환

### re.finditer
```python
re.finditer(r'(\w+)=(\d+)', 'set width=20 and height=10')
```
주어진 패턴에 매칭되는 결과를 이터레이터로 반환

### re.sub
```python
re.sub('\d+', '0', 'width=20 and height=10', 1)
```
패턴에 매칭되는 글자를 repl로 치환  
subn과 마찬가지로 변경되는 최대 글자를 제한할 수 있음

### re.subn
```python
re.subn('\d+', '0', 'width=20 and height=10', 1)
```
패턴에 매칭되는 글자를 repl로 치환  
sub와 동일하나 (결과, 변환된 갯수)로 반환