# 정규표현식 (Regular Expression)

- 특정한 규칙을 가진 문자열을 찾기 위한 패턴
- 정규 표현식을 사용하면 대량의 텍스트 데이터에서 특정 패턴을 효율적으로 추출, 삭제, 대체 가능

In [1]:
# 정규표현식 모듈
import re

### Syntax

깃 확인 alb는 a|b로 알기

##### 임의의 한 글자  .

In [None]:
reg_ewp = re.compile('a.c')  # 'a.c' 패턴에 해당하는 정규 표현식 반환 : . 은 가운데 한 글자를 의미

print(reg_ewp.search('abc'))  # search 해당 정규표현식에 해당하는 것이 있는 지 검색해줌. 
print(reg_ewp.search('abbbbbbbbbbc'))  # None
print(reg_ewp.search('aXc'))
print(reg_ewp.search('a c'))
print(reg_ewp.search('ac'))   # None
print(reg_ewp.search('bc'))   # None

<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 3), match='aXc'>
<re.Match object; span=(0, 3), match='a c'>
None
None


##### 수량자 * : 0개 이상

In [None]:
reg_exp = re.compile('ab*c')  # a로 시작 + b가 0개 이상 + c로 끝나는 형태를 반환

print(reg_exp.search('ac'))  
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 13), match='abbbbbbbbbbbc'>


##### 수량자 ? : 0개 또는 1개

In [None]:
reg_exp = re.compile('ab?c')  # a로 시작 + b가 0개 또는 1개 + c로 끝나는 형태를 반환

print(reg_exp.search('ac'))  
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 3), match='abc'>
None
None


##### 수량자 + : 1개 이상 

In [None]:
reg_exp = re.compile('ab+c')  # a로 시작 + b가 1개 이상 + c로 끝나는 형태를 반환

print(reg_exp.search('ac'))  
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbbbbc'))

None
None
<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 13), match='abbbbbbbbbbbc'>


#### 수량자 {n} : n개

In [7]:
reg_exp = re.compile('ab{3}c')  # a로 시작 + b가 n개 + c로 끝나는 형태를 반환

print(reg_exp.search('ac'))  
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbbbbbbbbc'))

None
None
None
<re.Match object; span=(0, 5), match='abbbc'>
None
None


##### 수량자 {min, max} : min개 ~ max개 

In [None]:
reg_exp = re.compile('ab{1,3}c')  # a로 시작 + b가 min개 이상 max개 이하  + c로 끝나는 형태를 반환

print(reg_exp.search('ac'))  
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbbbbbbbbc'))

None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 4), match='abbc'>
<re.Match object; span=(0, 5), match='abbbc'>
None
None


다양한 수량자 - 깃참고 

##### 정규표현식에 맞는 패턴을 다 찾고 싶다면?

In [None]:
reg_exp = re.compile('a.c')

text = 'asdfeiayabcbeilrsjabcdpvkndfug haeoisfmdabc sdfsdfaabcsdgsdfgsabcer'

# reg_exp.search(text)  # 하나만 추출 

for temp in re.finditer(reg_exp, text) :  # findall과 유사 
    print(temp)

<re.Match object; span=(8, 11), match='abc'>
<re.Match object; span=(18, 21), match='abc'>
<re.Match object; span=(40, 43), match='abc'>
<re.Match object; span=(51, 54), match='abc'>
<re.Match object; span=(62, 65), match='abc'>


##### 문자 매칭 [] : [] 안에 있는 것 중 한 글자라도 일치하면 됨. 
- 일치하는 것 중 젤 처음 문자 반환

한 글자에 대한 목록/범위 작성

In [15]:
reg_exp = re.compile('[abc]', re.IGNORECASE)  # re.IGNORECASE : 플래그 이그노어. 대소문자 무시 

print(reg_exp.search('안녕하세요, abc입니다!'))
print(reg_exp.search('안녕하세요, cba입니다!'))
print(reg_exp.search('안녕하세요, ABC입니다!'))

<re.Match object; span=(7, 8), match='a'>
<re.Match object; span=(7, 8), match='c'>
<re.Match object; span=(7, 8), match='A'>


여러 글자에 대한 목록/범위 작성

In [None]:
# reg_exp = re.compile('[abcdefghijklmnopqrstuvwsyg]', re.IGNORECASE)  # 영문자 대소문자 모두 탐색
reg_exp = re.compile('[a-zA-Z0-9]')  # 범위로 표현가능

print(re.findall(reg_exp, '8월 18일이네요. 안녕하세요 AbC 씨!'))

['8', '1', '8', 'A', 'b', 'C']


##### 시작하는 문자열 ^

In [None]:
reg_exp = re.compile('^who')

print(reg_exp.search('who is who'))
print(reg_exp.search('is who'))

print(re.findall('who', 'who is who'))  # 전부 반환
print(re.findall('^who', 'who is who')) # ['who'] : 시작하는 who 만 반환
print(re.findall('^who', 'is who'))     # [] : 시작하는게 없어서 아무것도 반환안함

<re.Match object; span=(0, 3), match='who'>
None
['who', 'who']
['who']
[]


### re 모듈 함수 & re 객체 매서드 

##### 매서드 search() : 문자열 패턴 검사 

In [22]:
reg_exp = re.compile('ab')

print(reg_exp.search('abc'))
print(reg_exp.search('123'))
print(reg_exp.search('123abc'))

<re.Match object; span=(0, 2), match='ab'>
None
<re.Match object; span=(3, 5), match='ab'>


##### 메서드 match() : 시작하는 문자열 패턴 검사 

In [None]:
reg_exp = re.compile('ab')

print(reg_exp.match('abc'))  # 시작하는 것만 반환
print(reg_exp.match('123'))
print(reg_exp.match('123abc'))

<re.Match object; span=(0, 2), match='ab'>
None
None


##### 함수 split() : 정규식 패턴으로 문자열 분할

In [None]:
text = 'Apple Banana Orange'

split_text = re.split('[bo]', text, flags=re.IGNORECASE)  # 정규표현식 패턴에 들어있는 bo를 기준으로 나눠줌 / 대소문자 미구분
split_text

['Apple ', 'anana ', 'range']

##### 함수 findall() : 매칭된 결과 모두 반환

In [None]:
text = '제 전화번호는 010-1234-5678 입니다.'

nums = re.findall('[0-9]+', text) # + 는 숫자에 해당하는 것이 몇개 이상일 때 반환
nums = re.findall('[0-9]+-[0-9]+-[0-9]+', text)  # 전체 전화번호 반환
nums

['010-1234-5']

##### 함수 sub() : 해당 패턴의 문자열을 대체 

In [None]:
text = "Hello, everyone! Welcome to NLP 🤖🤖🤖🤖🤖"

re.sub('[^a-zA-Z ]', '', text)  # ^는 이거를 제외하고 의미. '' = 빈문자로 변환하라 (앞에서 해당하는 문자, 공백을 빈문자열로 대체하라)
                                # 결과 : 'Hello everyone Welcome to NLP ' = 구문, 이모티콘을 빈문자로 대체한 상태로 반환

'Hello everyone Welcome to NLP '

### 정규표현식 토큰화

In [None]:
from nltk.tokenize import RegexpTokenizer

text = "He's a tunner, but not a lond_distance runner. His number is 1234."

tokenizer = RegexpTokenizer('[a-zA-Z0-9_]+')  # 영소/대문자, 숫자, _만 허용
tokenizer = RegexpTokenizer(r'\w+')           # \w = 영소/대문자, 숫자, _만 허용 (동일한 결과)

tokens = tokenizer.tokenize(text)
tokens

['He',
 's',
 'a',
 'tunner',
 'but',
 'not',
 'a',
 'lond_distance',
 'runner',
 'His',
 'number',
 'is',
 '1234']