# 정규표현식 (Regular Expression)

- 특정한 규칙을 가진 문자열을 찾기 위한 패턴
- 정규 표현식을 사용하면 대량의 텍스트 데이터에서 특정 패턴을 효율적으로 추출, 삭제, 대체 가능

In [1]:
import re

### Syntax

##### 임의의 한 글자 .

In [None]:
reg_exp = re.compile('a.c')

print(reg_exp.search('abc'))
print(reg_exp.searh('basdfasdfabcqwerqwerqweabcdfkjasldkfjkldsfj'))
print(reg_exp.search('abbbbbbbbc'))
print(reg_exp.search('aXc'))
print(reg_exp.search('a c'))
print(reg_exp.search('ac'))
print(reg_exp.search('bc'))

<re.Match object; span=(0, 3), match='abc'>
['abc', 'abc']
None
<re.Match object; span=(0, 3), match='aXc'>
<re.Match object; span=(0, 3), match='a c'>
None
None


##### 수량자 * : 0개 이상

In [None]:
reg_exp = re.compile('ab*c') # a로 시작 + b가 0개 이상 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 10), match='abbbbbbbbc'>


##### 수량자 ? : 0개 또는 1개

In [None]:
reg_exp = re.compile('ab?c') # a로 시작 + b가 0개 또는 1개 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 3), match='abc'>
None
None


##### 수량자 + : 1개 이상

In [None]:
reg_exp = re.compile('ab+c') # a로 시작 + b가 1개 이상 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbc'))

None
None
<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 10), match='abbbbbbbbc'>


##### 수량자 {n} : n개

In [None]:
reg_exp = re.compile('ab{3}c') # a로 시작 + b가 n(3)개 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbbc'))

None
None
None
<re.Match object; span=(0, 5), match='abbbc'>
None
None


##### 수량자 {min, max} : min개 ~ max개

In [None]:
reg_exp = re.compile('ab{1,3}c') # a로 시작 + b가 min(1)개 이상 max(3)개 이하 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbbc'))

None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 4), match='abbc'>
<re.Match object; span=(0, 5), match='abbbc'>
None
None


##### 정규표현식에 맞는 패턴을 다 찾고 싶다면?

In [16]:
reg_exp = re.compile('a.c')
text = 'basdfasdfabcqwerqwerqweabcdfkjasldkfjkldsfj'

# reg_exp.search(text)

for temp in re.finditer(reg_exp, text):
    print(temp)

<re.Match object; span=(9, 12), match='abc'>
<re.Match object; span=(23, 26), match='abc'>
