# 정규표현식 Regular expression
- 특정 규칙의 문자열을 찾기위한 패턴 (효율적으로 추출, 삭제, 대체 가능)

**정규 표현식 기본 문법**

| 특수 문자 | 설명 | 예시 |
|---|---|---|
| . | 임의의 한 문자 | `a.c` : `abc`, `a1c` 등과 매치 |
| ? | 앞 문자가 0개 또는 1개 있을 때 매치 | `ab?c` : `abc`, `ac`와 매치 |
| * | 앞 문자가 0개 이상 있을 때 매치 | `ab*c` : `ac`, `abc`, `abbc` |
| + | 앞 문자가 1개 이상 있을 때 매치 | `ab+c` : `abc`, `abbc` |
| ^ | 문자열이 특정 문자로 시작할 때 매치 | `^abc` : `abcde`, `abc`와 매치 |
| $ | 문자열이 특정 문자로 끝날 때 매치 | `abc$` : `deabc`, `abc`와 매치 |
| {n} | 문자가 정확히 n번 반복될 때 매치 | `a{2}b` : `aab`와 매치 |
| {n,m} | 문자가 n번 이상 m번 이하 반복될 때 매치 | `a{2,4}b` : `aab`, `aaab`, `aaaab` |
| [ ] | 대괄호 안의 문자 중 하나와 매치 | `[abc]` : `a`, `b`, `c` |
| [^ ] | 대괄호 안의 문자 제외하고 매치 | `[^abc]` : `d`, `e`, `1` |
| \| | OR 연산자로 둘 중 하나와 매치 | `a\|b` : `a` 또는 `b` |

### Syntax

##### .

In [2]:
import re

# shift + alt + bottom arrow
reg_exp = re.compile('a.c')
print(reg_exp.search('abbbbbbbbbbc'))
print(reg_exp.search('aXc'))
print(reg_exp.search('a c'))
print(reg_exp.search('ac'))
print(reg_exp.search('bc'))

None
<re.Match object; span=(0, 3), match='aXc'>
<re.Match object; span=(0, 3), match='a c'>
None
None


In [4]:
reg_exp = re.compile('ab*c')
print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('bbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 3), match='abc'>
None
None


In [6]:
reg_exp = re.compile('ab?c')
print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 3), match='abc'>
None
None


In [7]:
reg_exp = re.compile('ab+c')
print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbc'))

None
None
<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 6), match='abbbbc'>


In [14]:
reg_exp = re.compile('ab{1, 3}c') # min max
print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbc'))

None
None
None
None
None


In [17]:
reg_exp = re.compile('a.c')
text = 'aweacsacracdatcfacgauahabccaaiaycatbcarcadfaaaecaccarcaecacaabccad '
print(reg_exp.search(text))


<re.Match object; span=(12, 15), match='atc'>


In [18]:
# re.findall(r'a.c', text)
for temp in re.finditer(reg_exp, text):
    print(temp)

<re.Match object; span=(12, 15), match='atc'>
<re.Match object; span=(23, 26), match='abc'>
<re.Match object; span=(30, 33), match='ayc'>
<re.Match object; span=(37, 40), match='arc'>
<re.Match object; span=(45, 48), match='aec'>
<re.Match object; span=(48, 51), match='acc'>
<re.Match object; span=(51, 54), match='arc'>
<re.Match object; span=(54, 57), match='aec'>
<re.Match object; span=(60, 63), match='abc'>


In [20]:
# IGNORECASE 대소문자 무시
reg_exp = re.compile('[abc]', re.IGNORECASE)

print(reg_exp.search('안녕 abc'))
print(reg_exp.search('안녕 cba'))
print(reg_exp.search('안녕 ABC'))

<re.Match object; span=(3, 4), match='a'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(3, 4), match='A'>


In [30]:
import string

# reg_exp = re.compile(f'[{string.ascii_letters}]')
reg_exp = re.compile('[a-zA-Z0-9]')
print(re.findall(reg_exp, '10월 9일 안녕 Ab'))

['1', '0', '9', 'A', 'b']


In [34]:
reg_exp = re.compile('^who')

# print(reg_exp.search('who is who'))
# print(reg_exp.search('is who'))

print(re.findall('who', 'who is who'))
print(re.findall('^who', 'who is who'))
print(re.findall('who^', 'who is who'))

['who', 'who']
['who']
[]


# re 모듈 함수 & re 객체 매서드
##### search(), match(), split(), findall()

In [37]:
text = '제 번호 10303-44-5 임'

nums = re.findall('[0-9]+-[0-9]+-[0-9]+', text)
nums

['10303-44-5']

In [None]:
reg_exp = re.compile('ab')

# 시작하는 문자열 패턴 검사
print(reg_exp.match('abc'))
print(reg_exp.match('123'))
print(reg_exp.match('123abc'))
print(reg_exp.match('abc123'))

<re.Match object; span=(0, 2), match='ab'>
None
<re.Match object; span=(0, 2), match='ab'>


In [None]:
text = "apl bana dw"

split_text = re.split('[bd]', text, flags=re.IGNORECASE)
split_text

['apl ', 'ana ', 'w']

##### sub

In [49]:
text = 'hello ere ws 1😊😊😊😊'
sub_text = re.sub('[^a-zA-Z ]', '!',string=text)
sub_text

'hello ere ws !!!!!'

### 정규표현식 토큰화

In [57]:
from nltk.tokenize import RegexpTokenizer

text = "iha dwja wdm, d_dd d. 23!"

tokenizer = RegexpTokenizer('[a-zA-Z0-9_]+') # 알파벳, 숫자, _
tokenizer = RegexpTokenizer(r'\w+') # 알파벳, 숫자, _

tokens = tokenizer.tokenize(text)
tokens

['iha', 'dwja', 'wdm', 'd_dd', 'd', '23']