정규표현식 (Regular Expression)

- 특정한 규칙을 가진 문자열을 찾기 위한 패턴
- 정규 표현식을 사용하면 대량의 텍스트 데이터에서 특정 패턴을 효율적으로 추출, 삭제, 대체 가능

In [1]:
import re

### Syntax

### 임의의 한 글자 .

In [2]:
reg_exp = re.compile('a.c')

print(reg_exp.search('abc'))
print(reg_exp.search('aXc'))
print(reg_exp.search('a c'))
print(reg_exp.search('ac'))
print(reg_exp.search('bc'))

<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 3), match='aXc'>
<re.Match object; span=(0, 3), match='a c'>
None
None


### 수량자 * : 0개 이상

In [4]:
reg_exp = re.compile('ab*c')    # a로 시작 + b가 0개 이상 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abbbbbbbbbbc'))
print(reg_exp.search('abbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 12), match='abbbbbbbbbbc'>
<re.Match object; span=(0, 8), match='abbbbbbc'>


### 수량자 ? : 0개 또는 1개

In [7]:
reg_exp = re.compile('ab?c')    # a로 시작 + b가 0개 또는 1개 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abbbbbbbbbbc'))
print(reg_exp.search('abbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
None
None


### 수량자 + : 1개 이상

In [8]:
reg_exp = re.compile('ab+c')    # a로 시작 + b가 1개 이상 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abbbbbbbbbbc'))
print(reg_exp.search('abbbbbbc'))

None
None
<re.Match object; span=(0, 12), match='abbbbbbbbbbc'>
<re.Match object; span=(0, 8), match='abbbbbbc'>


### 수량자 {n} : n개

In [None]:
reg_exp = re.compile('ab{3}c')    # a로 시작 + b가 n(3)개 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbbbbbbbc'))
print(reg_exp.search('abbbbbbc'))

None
None
None
<re.Match object; span=(0, 5), match='abbbc'>
None
None
None


### 수량자 {min, max} : min개 ~ max개

In [11]:
reg_exp = re.compile('ab{1,3}c')    # a로 시작 + b가 n(3)개 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbbbbbbbc'))
print(reg_exp.search('abbbbbbc'))

None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 4), match='abbc'>
<re.Match object; span=(0, 5), match='abbbc'>
None
None
None


In [13]:
reg_exp = re.compile('a.c')
text = 'badkfjkdjsflkdfjsdogfhedshdfdskjfhlfkkfeafiyhaoisdlahksxsascskfsaclfktg'

for temp in re.finditer(reg_exp, text):
    print(temp)

<re.Match object; span=(57, 60), match='asc'>


### 문자 매칭 [] : [] 안에 있는 것 중 한 글자

In [16]:
reg_exp = re.compile('[abc]', re.IGNORECASE)

print(reg_exp.search('안녕하세요. abc입니다!'))
print(reg_exp.search('안녕하세요. cba입니다!'))
print(reg_exp.search('안녕하세요. ABC입니다!'))

<re.Match object; span=(7, 8), match='a'>
<re.Match object; span=(7, 8), match='c'>
<re.Match object; span=(7, 8), match='A'>


### 메소드 search()

### 메소드 match()

### 함수 split() : 정규식 패턴으로 분할

In [19]:
text = 'Apple Banana Orange'

split_text = re.split('[bo]', text, flags=re.IGNORECASE)
split_text

['Apple ', 'anana ', 'range']

### 함수 findall() : 매칭된 결과 모두 반환

In [22]:
text = '제 전화번호는 010-2345-5678 입니다.'

nums = re.findall('[0-9]+', text)
nums = re.findall('[0-9]+-[0-9]+-[0-9]+', text)
nums

['010-2345-5678']

### 함수 sub()

In [28]:
text = 'Hello, everyone! Welcome to NLP🤖🤖🤖'

sub_text = re.sub('[^a-zA-Z ]', '', text)
sub_text

'Hello everyone Welcome to NLP'

### 정규표현식 토큰화

In [None]:
from nltk.tokenize import RegexpTokenizer

text = "He's a runner, but not a long_distance runner. His number is 1234."

# tokenizer = RegexpTokenizer('[a-zA-Z0-9_]+')
tokenizer = RegexpTokenizer(r'\w+')     # \w = 영문자, 숫자, _ 허용........+6
tokens = tokenizer.tokenize(text)
tokens

['He',
 's',
 'a',
 'runner',
 'but',
 'not',
 'a',
 'long_distance',
 'runner',
 'His',
 'number',
 'is',
 '1234']