# 정규표현식 (Regular Expression)

- 특정한 규칙을 가진 문자열을 찾기 위한 패턴
- 정규 표현식을 사용하면 대량의 텍스트 데이터에서 특정 패턴을 효율적으로 추출, 삭제, 대체 가능

In [1]:
import re

# Syntax

### 임의의 한 글자 .
- 임의의 한글자가 이니셜의 위치에 들어가기만 하면 된다.



In [None]:
reg_exp = re.compile('a.c')

print(reg_exp.search('abc'))
print(reg_exp.search('basdfasbdfabcsfwerwqera'))
print(reg_exp.search('abbbbbbbbbbc'))
print(reg_exp.search('aXc'))
print(reg_exp.search('a c'))
print(reg_exp.search('ac'))
print(reg_exp.search('bc'))

<re.Match object; span=(0, 3), match='abc'>
['abc']
None
<re.Match object; span=(0, 3), match='aXc'>
<re.Match object; span=(0, 3), match='a c'>
None
None



### 수량자 * : 0개 이상
- 해당 이니셜의 앞에 문자가 0개 이상이어야 한다.

In [None]:
reg_exp = re.compile('ab*c')
# a로 시작 + b가 0개 이상 + c로 끝나는 문자열

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 7), match='abbbbbc'>



### 수량자 ? : 0 또는 1개
- 이니셜이 위치한 앞의 문자가 0개 또는 1개 이상

In [7]:
reg_exp = re.compile('ab?c')

print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
<re.Match object; span=(0, 3), match='abc'>
None
None
None



### 수량자 + : 1개 이상
- 이니셜이 위치한 앞의 문자가 1개 이상이어야한다.
- 1개 이상이면 전부 담아서 반환한다.

In [None]:
reg_exp = re.compile('ab+c')
# a로 시작 + + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbbbc'))

None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 4), match='abbc'>
None
<re.Match object; span=(0, 12), match='abbbbbbbbbbc'>



### 수량자 {n}
- 이니셜이 위치한 앞의 문자가 n개만큼 있어야 한다.

In [9]:
reg_exp = re.compile('ab{3}c')

print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbbc'))

None
None
None
<re.Match object; span=(0, 5), match='abbbc'>
None
None


### 수량자 {min,max}`
- 이니셜이 위치한 앞의 문자가 min개 이상 max개 이하인 경우가 있어야 한다.

In [10]:
reg_exp = re.compile('ab{1,3}c')

print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbbc'))

None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 4), match='abbc'>
<re.Match object; span=(0, 5), match='abbbc'>
None
None


---

### 문자열 끝까지 서치하는 방법

In [None]:
reg_exp = re.compile('a.c')

text = "basdfasbdfabcsfwerwqerabc"

reg_exp.search(text)

# 문자열에서 원하는 부분을 찾아내는 방법
# finditer() 함수를 사용하면 정규식과 매치되는 모든 문자열(substring)을 iterator 객체로 리턴
for temp in re.finditer(reg_exp, text):
    print(temp)


<re.Match object; span=(10, 13), match='abc'>
<re.Match object; span=(22, 25), match='abc'>


### 문자 매칭 []
- [] 안에 있는 문자중 하나라도 존재하면 그걸 반환하고 멈춘다.

In [None]:
reg_exp = re.compile('[abc]', re.IGNORECASE) 
# re.IGNORECASE 옵션을 사용하면 대소문자를 구분하지 않음

print(reg_exp.search('안녕하세요, abc입니다!')) # 먼저 매치되는 문자 a를 찾아서 반환
print(reg_exp.search('안녕하세요, cba입니다!')) # 먼저 매치되는 문자 c를 찾아서 반환
print(reg_exp.search('안녕하세요, ABC입니다!')) # 먼저 매치되는 문자 A를 찾아서 반환

<re.Match object; span=(7, 8), match='a'>
<re.Match object; span=(7, 8), match='c'>
<re.Match object; span=(7, 8), match='A'>


In [21]:
reg_exp = re.compile('[a-zA-Z0-9]')
# 대소문자 모두 매치되는 정규식

print(reg_exp.search('300살 X씨, 안녕하세요 x!'))

<re.Match object; span=(0, 1), match='3'>


### 시작하는 문자열 ^
- 문자열이 반드시 이니셜뒤의 문자로 시작하는지 판단하고 반환

In [38]:
reg_exp = re.compile('^who')
print(reg_exp.search('who is who'))

print(re.findall('who', 'who is who'))
print(re.findall('^who', 'who is who'))

<re.Match object; span=(0, 3), match='who'>
['who', 'who']
['who']


### re 모듈 함수 & re 객체 메소드

### search() : 문자열 패턴 검사
- 해당 하는 문자열이 있는지 판단하고 있으면 그 뒤는 무시하고 반환

In [39]:
reg_exp = re.compile('ab')

print(reg_exp.search('abc'))
print(reg_exp.search('123'))
print(reg_exp.search('123abc'))

<re.Match object; span=(0, 2), match='ab'>
None
<re.Match object; span=(3, 5), match='ab'>


### 메소드 match(): 시작하는 문자열 패턴 검사
- 문자열의 처음이 해당 패턴으로 시작하는지 같으면 반환

In [None]:
reg_exp = re.compile('ab')

# match() 함수는 문자열의 처음부터 정규식과 매치되는지 조사
print(reg_exp.match('abc'))
print(reg_exp.match('123'))
print(reg_exp.match('123abc'))

<re.Match object; span=(0, 2), match='ab'>
None
None


### 함수 split(): 정규식 패턴으로 분할
- 패턴에 담긴 문자를 없애고 문자열을 반환한다.
- 공백은 앞의 문자열에 포함된다.

In [42]:
text = "Apple Banana Orange"

split_text = re.split('[BO]', text)
split_text


['Apple ', 'anana ', 'range']

### findall() : 매칭된 결과 모두 반환
- 해당 패턴이 존재한다면 문자열 끝까지 보고 모두 반환


In [51]:
text = "제 전화번호는 010-1234-5678,"

nums = re.findall('[0-9]+-[0-9]+-[0-9]+', text)
nums

['010-1234-5678']

### 함수 sub()
- 전달해준 문자열에 매칭되는 문자열을 원하는 방식으로 바꿔준다.

In [None]:
text = "Hello, everyone! Welcome to NLP❤️❤️❤️❤️"

#[^] : ^ 뒤에 붙은 문자들을 제외한 모든 문자를 매치
#[^a-zA-Z ] : 알파벳 대소문자와 공백을 제외한 모든 문자를 매치
# '' : 공백으로 치환
sub_text = re.sub('[^a-zA-Z ]', '', text)
sub_text

'Hello everyone Welcome to NLP'

### 정규표현식 토큰화

In [None]:
from nltk.tokenize import RegexpTokenizer
txt = "He's a runner, but not a long_distance runner. His number is 1234."


# tokenizer = RegexpTokenizer('[a-zA-Z0-9_]+')
tokenizer = RegexpTokenizer(r'\w+')
# \w+ : 문자 또는 숫자, _ 허용
tokens = tokenizer.tokenize(txt)
tokens

['He',
 's',
 'a',
 'runner',
 'but',
 'not',
 'a',
 'long_distance',
 'runner',
 'His',
 'number',
 'is',
 '1234']