# 정규표현식 (Regular Expression)

- 특정한 규칙을 가진 문자열을 찾기 위한 패턴
- 정규 표현식을 사용하면 대량의 텍스트 데이터에서 특정 패턴을 효율적으로 추출, 삭제, 대체 가능

### Syntax

**정규 표현식 기본 문법**

| 특수 문자 | 설명 | 예시 |
|---|---|---|
| . | 임의의 한 문자 | `a.c` : `abc`, `a1c` 등과 매치 |
| ? | 앞 문자가 0개 또는 1개 있을 때 매치 | `ab?c` : `abc`, `ac`와 매치 |
| * | 앞 문자가 0개 이상 있을 때 매치 | `ab*c` : `ac`, `abc`, `abbc` |
| + | 앞 문자가 1개 이상 있을 때 매치 | `ab+c` : `abc`, `abbc` |
| ^ | 문자열이 특정 문자로 시작할 때 매치 | `^abc` : `abcde`, `abc`와 매치 |
| $ | 문자열이 특정 문자로 끝날 때 매치 | `abc$` : `deabc`, `abc`와 매치 |
| {n} | 문자가 정확히 n번 반복될 때 매치 | `a{2}b` : `aab`와 매치 |
| {n,m} | 문자가 n번 이상 m번 이하 반복될 때 매치 | `a{2,4}b` : `aab`, `aaab`, `aaaab` |
| [ ] | 대괄호 안의 문자 중 하나와 매치 | `[abc]` : `a`, `b`, `c` |
| [^ ] | 대괄호 안의 문자 제외하고 매치 | `[^abc]` : `d`, `e`, `1` |
| \| | OR 연산자로 둘 중 하나와 매치 | `alb` : `a` 또는 `b` |

In [2]:
import re

#### 임의의 한 글자 .

In [3]:
reg_exp = re.compile('a.c')

print(reg_exp.search('abc'))
print(reg_exp.search('abbbbbbbbbbbbc'))
print(reg_exp.search('aXc'))
print(reg_exp.search('a c'))
print(reg_exp.search('ac'))
print(reg_exp.search('bc'))

<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 3), match='aXc'>
<re.Match object; span=(0, 3), match='a c'>
None
None


#### 수량자 * : 0개 이상

In [None]:
reg_exp = re.compile('ab*c')

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 10), match='abbbbbbbbc'>


#### 수량자 ? : 0개 또는 1개

In [None]:
reg_exp = re.compile('ab?c')

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 3), match='abc'>
None
None


#### 수량자 + : 1개 이상

In [None]:
reg_exp = re.compile('ab+c')

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbc'))

None
None
<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 10), match='abbbbbbbbc'>


##### 수량자 {n} : n개

In [8]:
reg_exp = re.compile('ab{3}c')

print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbbc'))

None
None
None
<re.Match object; span=(0, 5), match='abbbc'>
None
None


##### 수량자 {min,max} : min ~ max 개

In [10]:
reg_exp = re.compile('ab{1,3}c')

print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbbc'))

None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 4), match='abbc'>
<re.Match object; span=(0, 5), match='abbbc'>
None
None


##### 정규 표현식에 맞는 패턴을 다 찾고 싶다면?

In [None]:
# finditer() : 패턴 매칭 위치를 찾는다.
reg_exp = re.compile('a.c')
text = 'cafclkj;xadsclaxkf;jdcfaxakjxlajklcaxcjkaxlckjlax;jacxkljcacckxjccfcaacxkjcxaklj'

# reg_exp.search(text)    # 첫 번째 매치만 찾기
for temp in re.finditer(reg_exp, text):    # text에서 패턴에 해당하는 모든 매치 반복
    print(temp)

<re.Match object; span=(1, 4), match='afc'>
<re.Match object; span=(35, 38), match='axc'>
<re.Match object; span=(58, 61), match='acc'>
<re.Match object; span=(68, 71), match='aac'>


#### 문자 매칭 [] : []안에 있 는 것 중 한 글자

- 한 글자에 대한 목록/범위 지정

In [None]:
reg_exp = re.compile('[abc]', re.IGNORECASE)    # a/b/c 중 1글자 찾기 (대소문자 무시)

print(reg_exp.search('안녕하세요, abc입니다!'))
print(reg_exp.search('안녕하세요, cba입니다!'))
print(reg_exp.search('안녕하세요, ABC입니다!'))

<re.Match object; span=(7, 8), match='a'>
<re.Match object; span=(7, 8), match='c'>
<re.Match object; span=(7, 8), match='A'>


In [None]:
# 영문자/숫자만 추출하기
reg_exp = re.compile('[a-z]', re.IGNORECASE)  # 영문자 대소문자 포함

print(re.findall(reg_exp, '8월 18일입니다. 안녕하세요 ABC 님!'))  # 매칭된 문자열을 리스트로 반환

['A', 'B', 'C']


In [16]:
reg_exp = re.compile('[a-zA-Z0-9]')  # 영문자 대소문자 또는 숫자 1글자 포함

print(re.findall(reg_exp, '8월 18일입니다. 안녕하세요 ABC 님!'))  # 매칭된 문자열을 리스트로 반환

['8', '1', '8', 'A', 'B', 'C']


In [17]:
reg_exp = re.compile('[가-힣]')  # 한글 1글자 포함

print(re.findall(reg_exp, '8월 18일입니다. 안녕하세요 ABC 님!'))  # 매칭된 문자열을 리스트로 반환

['월', '일', '입', '니', '다', '안', '녕', '하', '세', '요', '님']


##### 시작하는 문자열 ^

In [19]:
# ^ (anchor) 시작 패턴
reg_exp = re.compile('^who')

print(reg_exp.search('who is who'))      # 시작이 who라서 매치
print(reg_exp.search('is who'))

print(re.findall('who', 'who is who'))
print(re.findall('^who', 'who is who'))
print(re.findall('^who', 'is who'))      # 시작이 who가 아니라서 빈 리스트

<re.Match object; span=(0, 3), match='who'>
None
['who', 'who']
['who']
[]


### re 모듈 함수 & re 객체 메서드

##### 메서드 search() : 문자열 패턴 검사

In [20]:
reg_exp = re.compile('ab')

print(reg_exp.search('abc'))
print(reg_exp.search('123'))
print(reg_exp.search('123abc'))

<re.Match object; span=(0, 2), match='ab'>
None
<re.Match object; span=(3, 5), match='ab'>


#### 메서드 match() : 시작하는 문자열 패턴 검사

In [21]:
reg_exp = re.compile('ab')

print(reg_exp.match('abc'))
print(reg_exp.match('123'))
print(reg_exp.match('123abc'))

<re.Match object; span=(0, 2), match='ab'>
None
None


##### 함수 split() : 정규식 패턴으로 문자열 분할

In [None]:
text = "Apple Banana Orange"
split_text = re.split('[bo]', text, flags=re.IGNORECASE)  # b 또는 o (대소문자 무시)를 기준으로 분리
split_text

['Apple ', 'anana ', 'range']

##### 함수 findall() : 매칭된 결과 모두 반환

In [26]:
text = '제 전화번호는 010-1234-5678 입니다.'

nums = re.findall('[0-9]+', text)                  # 연속된 숫자 덩어리 추출
nums = re.findall('[0-9]+-[0-9]+-[0-9]+', text)    # 숫자-숫자-숫자(전화번호 형태)만 추출
nums

['010-1234-5678']

##### 함수 sub() : 해당 패턴의 문자열 대체

In [None]:
text = "Hello, everyone! Welcome to NLP !!!!!! ^^"

sub_text = re.sub('[^a-zA-Z ]', '', text)    # 영문자/공백이 아닌 문자는 전부 제거
sub_text

'Hello everyone Welcome to NLP  '

In [30]:
# RegexpTokenizer로 패턴 기반 토큰화
from nltk.tokenize import RegexpTokenizer

text = "He's a runner, but not a long_distance runner. His number is 1234."

# tokenizer = RegexpTokenizer('[a-zA-Z0-9_]+')    # 아래와 같다.
tokenizer = RegexpTokenizer(r'\w+')               # 영문자/숫자/_로 이루어진 덩어리 토큰

tokens = tokenizer.tokenize(text)
tokens

['He',
 's',
 'a',
 'runner',
 'but',
 'not',
 'a',
 'long_distance',
 'runner',
 'His',
 'number',
 'is',
 '1234']