# 정규표현식 (Regular Expression)

- 특정한 규칙을 가진문자열을 찾기 위한 패턴
- 정규표현식을 사용하면 대량의 텍스트 데이터에서 특정 패턴을 효율적으로 추출, 삭제, 대체 가능

**정규 표현식 기본 문법**

| 특수 문자 | 설명 | 예시 |
|---|---|---|
| . | 임의의 한 문자 | `a.c` : `abc`, `a1c` 등과 매치 |
| ? | 앞 문자가 0개 또는 1개 있을 때 매치 | `ab?c` : `abc`, `ac`와 매치 |
| * | 앞 문자가 0개 이상 있을 때 매치 | `ab*c` : `ac`, `abc`, `abbc` |
| + | 앞 문자가 1개 이상 있을 때 매치 | `ab+c` : `abc`, `abbc` |
| ^ | 문자열이 특정 문자로 시작할 때 매치 | `^abc` : `abcde`, `abc`와 매치 |
| $ | 문자열이 특정 문자로 끝날 때 매치 | `abc$` : `deabc`, `abc`와 매치 |
| {n} | 문자가 정확히 n번 반복될 때 매치 | `a{2}b` : `aab`와 매치 |
| {n,m} | 문자가 n번 이상 m번 이하 반복될 때 매치 | `a{2,4}b` : `aab`, `aaab`, `aaaab` |
| [ ] | 대괄호 안의 문자 중 하나와 매치 | `[abc]` : `a`, `b`, `c` |
| [^ ] | 대괄호 안의 문자 제외하고 매치 | `[^abc]` : `d`, `e`, `1` |
| \| | OR 연산자로 둘 중 하나와 매치 | `a\|b` : `a` 또는 `b` |

In [1]:
# 정규표현식 모듈 re
import re

### Syntax

##### .

In [None]:
# re 모듈을 Python 내장 모듈

reg_exp = re.compile('a.c')

print(reg_exp.search('abc'))
print(reg_exp.search('aXc'))
print(reg_exp.search('a c'))
print(reg_exp.search('ac'))
print(reg_exp.search('bc'))

<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 3), match='aXc'>
<re.Match object; span=(0, 3), match='a c'>
None
None


##### 수량자 * : 0개 이상

In [10]:
reg_exp = re.compile('ab*c') # a로 시작해서 b가 0개 이상 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 12), match='abbbbbbbbbbc'>


##### 수량자 ? : 0개 또는 1개

In [None]:
reg_exp = re.compile('ab?c') # a로 시작해서 b가 0개 또는 1개 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 3), match='abc'>
None
None


##### 수량자 + : 1개 이상

In [None]:
reg_exp = re.compile('ab+c') # a로 시작해서 b가 1개 이상 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbbbc'))

None
None
<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 12), match='abbbbbbbbbbc'>


##### 수량자 {n} : n개

In [None]:
reg_exp = re.compile('ab{3}c') # a로 시작해서 b가 n개 있고 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbbc'))

None
None
None
<re.Match object; span=(0, 5), match='abbbc'>
None
None


##### 수량자 {min,max} : min개 ~ max개

In [None]:
reg_exp = re.compile('ab{1,3}c') # a로 시작해서 b가 min개 이상 max개 이하 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbbc'))

None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 4), match='abbc'>
<re.Match object; span=(0, 5), match='abbbc'>
None
None


In [15]:
reg_exp = re.compile('a.c')

text = 'aslfjsabcdlfjlkaaslbbsbbabcsa asdlk;bsabcaabcfabc;llkjfiowe'

reg_exp.search(text)  # abc 에 대한 패턴을 search 함수로 하나만 찾음

<re.Match object; span=(6, 9), match='abc'>

##### 정규표현식에 맞는 패턴을 다 찾고 싶다면?