# re 모듈

re 모듈은 python의 정규표현식을 연산하기 위한 모듈이다.



## Functions


### re.compile(patter, flag=0)

정규식 객체를 생성

In [6]:
import re

r = re.compile('^.+', re.MULTILINE)
r.findall('안녕하세요\n반갑습니다.')

['안녕하세요', '반갑습니다.']

## 정규식 특수 문자

1. `.` : 개행문자를 제외한 모든 문자와 매칭
2. `^` : 문자열의 시작 또는 멀티라인의 각 라인의 처음
3. `$` : 문자열의 끝 또는 멀티라인의 각 라인의 끝
4. `*` : 0개 이상의 문자와 일치

### 1) `.` Dot

개행(`\n`)을 제외한 모든 문자와 일치

In [1]:
import re

string = 'import1234,-123'
re.findall('.', string)

['i', 'm', 'p', 'o', 'r', 't', '1', '2', '3', '4', ',', '-', '1', '2', '3']

### 2) `^` caret

문자열의 시작과 매칭된다.

`re.MULTILINE` 모드에서 각 줄 바꿈 직후와도 매칭된다.

In [7]:
import re

string = 'Hi\nHello\nBye, Bye'
re.match('^', string).string
# re.findall('^.+', string, re.MULTILINE)

'Hi\nHello\nBye, Bye'

### 3) `[]` 문자 클래스

문자 집합을 나타낸다. [] 괄호 사이의 문자들과 매치된다.

- `[amk]`: 'a', 'm', 'k' 중 하나와 일치
- `[a-z]`: 알파벳 소문자들 중 하나와 일치
- `[a-zA-Z]`: 알파벳 중 하나와 일치
- `[0-9]`: 숫자들 중 하나와 일치
- `[^5]`: '5'를 제외한 나머지 문자와 일치

#### 자주 사용하는 문자 클래스

자주 사용되는 문자 클래스들은 별도의 표기법이 있다.

- `\d`: `[0-9]`와 동일
- `\D`: `[^0-9]`와 동일
- `\s`: whitespace 문자와 매치, `[ \t\n\r\f\v]`와 동일한 표현식이다.(맨 앞의 빈 칸은 공백문자를 의미한다.)
- `\S`: whitespace 문자가 아닌 것과 매치, `[^ \t\n\r\f\v]`와 동일
- `\w`: 문자+숫자와 매치, `[a-zA-Z0-9_]와 동일



### 반복 관련

`*` : 0개 이상의 문자와 일치. 와일드 카드 문자와 동일한 기능

`+` : 1개 이상의 문자와 일치.

`?` : 0개 또는 1개의 문자와 일치. 즉, 있어도 되고 없어도 된다는 의미.

`{m, n}`: m개 이상, n개 이하의 문자와 일치. `{0,}`은 `*`과 동일, `{1,}`은 `+`와 동일, `{0, 1}`은 `?`와 동일.

In [18]:
import re

string = '12311113211431'
print(re.findall('1*', string))
print(re.findall('1+', string))
print(re.findall('1?', string))
print(re.findall('1{1,3}', string))
print(re.findall('1{0,}', string))
print(re.findall('1{1,}', string))


['1', '', '', '1111', '', '', '11', '', '', '1', '']
['1', '1111', '11', '1']
['1', '', '', '1', '1', '1', '1', '', '', '1', '1', '', '', '1', '']
['1', '111', '1', '11', '1']
['1', '', '', '1111', '', '', '11', '', '', '1', '']
['1', '1111', '11', '1']


### {}

1개 이상의 문자와 일치.

In [None]:
import re


## 옵션들

1. `re.MULTILINE`: `^`과 `$`가 각 라인의 처음, 끝과 매칭된다.
2. `re.IGNORECASE`: 대소문자를 구별하지 않는다
3. `re.DOTALL`: 마침표(`.`)를 개행문자로 포함시킨다.
4. `re.VERBOSE`: 정규식에 주석을 추가할 수 있다.

### VERBOSE

정규식을 줄 단위로 구분하고, 주석을 추가할 수 있다.

In [19]:
import re

r = re.compile(r'&[#](0[0-7]+|[0-9]x[0-9a-fA-F]+);')

verbose_r = re.compile(r"""
&[#]                # strat of a numberic entity reference
(                   
    0[0-7]+         # Octal form
    |[0-9]+         # Decimal form
    |x[0-9a-fA-F]+  # Hexadecimal form
)
;                   # Trailing semicolon
""", re.VERBOSE)

### 여러 옵션 사용하기

비트 연산자 or, `|`을 이용해서 옵션을 중첩시킬 수 있다.

In [27]:
import re

string = 'ABCdef\nabc\nBBC'

re.findall('^a.+', string, re.MULTILINE | re.IGNORECASE)

['ABCdef', 'abc']