# 정규표현식 (Regular Expression)
- 특정한 규칙을 가진 문자열을 찾기 위한 패턴
- 정규 표현식을 사용하면 대량의 텍스트 데이터에서 특정 패턴을 효율적으로 추출, 삭제, 대체 가능

In [3]:
import re

### Syntax

### 임의의 한 글자

In [7]:
reg_exp = re.compile('a.c')

print(reg_exp.search('abc'))
print(reg_exp.search('abladsflkjadlgfahlaabcsgjnlac'))
print(reg_exp.search('aXc'))
print(reg_exp.search('a c'))
print(reg_exp.search('ac'))
print(reg_exp.search('bc'))

<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(19, 22), match='abc'>
<re.Match object; span=(0, 3), match='aXc'>
<re.Match object; span=(0, 3), match='a c'>
None
None


### 수량자 *

In [None]:
reg_exp = re.compile('ab*c') # a로 시작 + b가 0개 이상 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 8), match='abbbbbbc'>


### 수량자 ?

In [None]:
reg_exp = re.compile('ab?c') # a로 시작 + b가 0개나 1개 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 3), match='abc'>
None


### 수량자 +

In [13]:
reg_exp = re.compile('ab+c') # a로 시작 + b가 1개 이상 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbbbbbc'))

None
None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 8), match='abbbbbbc'>


### 수량자 {n} : n개

In [17]:
reg_exp = re.compile('ab{3}c') # a로 시작 + b가 3개일 때 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbbc'))
print(reg_exp.search('abbbbbbc'))

None
None
None
<re.Match object; span=(0, 5), match='abbbc'>
None
None
None


### 수량자 {min, max} : min ~ max개

In [18]:
reg_exp = re.compile('ab{1,3}c') # a로 시작 + b가 3개일 때 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbbc'))
print(reg_exp.search('abbbbbbc'))

None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 4), match='abbc'>
<re.Match object; span=(0, 5), match='abbbc'>
None
None
None


### 문자 매칭 []

In [20]:
reg_exp = re.compile('[abc]', re.IGNORECASE)

print(reg_exp.search('안녕하세요 abc입니다'))
print(reg_exp.search('안녕하세요 cba입니다'))
print(reg_exp.search('안녕하세요 ABC입니다'))

<re.Match object; span=(6, 7), match='a'>
<re.Match object; span=(6, 7), match='c'>
<re.Match object; span=(6, 7), match='A'>


In [25]:
# reg_exp = re.compile('[abcdefghijklmnopqrstuvwxyz]')
reg_exp = re.compile('[a-zA-Z0-9]')

print(reg_exp.search('300살 X씨, 안녕하세요 x!'))

<re.Match object; span=(0, 1), match='3'>


### 시작하는 문자열 ^

In [28]:
reg_exp = re.compile('^who')

print(reg_exp.search('who is who'))

print(re.findall('who', 'who is who'))
print(re.findall('^who', 'who is who'))

<re.Match object; span=(0, 3), match='who'>
['who', 'who']
['who']


### re 모듈 함수 & re 모듈 메소드

### 메소드 search() : 문자열 패턴 검사

In [None]:
reg_exp = re.compile('ab')

print(reg_exp.search('abc'))
print(reg_exp.search('123'))
print(reg_exp.search('123abc'))

<re.Match object; span=(0, 2), match='ab'>
None
<re.Match object; span=(3, 5), match='ab'>


### 메소드 match() : 시작하는 문자열 패턴 검사

In [None]:
reg_exp = re.compile('ab')

print(reg_exp.match('abc'))
print(reg_exp.match('123'))
print(reg_exp.match('123abc'))

<re.Match object; span=(0, 2), match='ab'>
None
None


### 함수 split() : 정규식 패턴으로 분할

In [33]:
text = 'Apple Banana Orange'
split_text = re.split('[BO]', text)      # re 모듈이 제공하는 split -> 정규식 패턴을 넘겨줌
split_text

['Apple ', 'anana ', 'range']

### 함수 findall() : 매칭된 결과 모두 반환

In [35]:
text = '제 전화번호는 010-1234-5678 입니다.'

nums = re.findall('[0-9]+', text)
nums = re.findall('[0-9]+-[0-9]+-[0-9]+', text)
nums

['010-1234-5678']

### 함수 sub()

In [45]:
text = 'Hello, everyone! Welcome to NLP🚊🚊🚊'

sub_text = re.sub('[^a-zA-Z ]', '', text)
sub_text

'Hello everyone Welcome to NLP'

### 정규표현식 토큰화

In [62]:
from nltk.tokenize import RegexpTokenizer

text = "He's a runner, but not a long_distance runner. His number is 1234."

# tokenizer = RegexpTokenizer('[a-zA-Z0-9_]+')
tokenizer = RegexpTokenizer('\w+')
tokens = tokenizer.tokenize(text)
tokens

['He',
 's',
 'a',
 'runner',
 'but',
 'not',
 'a',
 'long_distance',
 'runner',
 'His',
 'number',
 'is',
 '1234']