### 정규표현식(Regular Expression)
- 특정한 규칙을 가진 문자열을 찾기 위한 패턴
- 정규 표현식을 사용하면 대량의 텍스트 데이터에서 특정 패턴을 효율적으로 추출, 삭제, 대체 가능

In [1]:
# 정규표현식 모듈
import re

### Syntax 기본 문법
`.` : 임의의 한 문자와 매치 (줄바꿈 문자는 제외)  
`^` : 문자열의 시작과 매치  
`$` : 문자열의 끝과 매치  
`*` : 앞 문자가 0회 이상 반복될 때 매치  
`+` : 앞 문자가 1회 이상 반복될 때 매치  
`?` : 앞 문자가 0회 또는 1회 있을 때 매치  
`{n}` : 앞 문자가 n회 반복될 때 매치  
`{n, m}` : 앞 문자가 n회 이상 m회 이하 반복될 때 매치  
`[...]` : 대괄호 안의 문자들 중 하나와 매치  
`| : OR` 연산자 역할  
`()` : 그룹화  
`\d` : 숫자와 매치 (0-9)  
`\D` : 숫자가 아닌 문자와 매치  
`\w` : 알파벳 대소문자, 숫자, 밑줄(_)과 매치  

In [2]:
### . ### 
# 'a'와 'c' 사이에 임의의 한 문자가 있는 패턴 정의
reg_exp = re.compile('a.c') 

# reg_exp.search(문자열) : 문자열에서 정규표현식과 매치되는 첫 번째 부분을 찾음
# - 매치되면 매치 객체 반환, 매치되지 않으면 None 반환
print(reg_exp.search('abc'))  
print(reg_exp.search('aXc'))    
print(reg_exp.search('a c'))   

print(reg_exp.search('abbbc')) 
print(reg_exp.search('ac'))  
print(reg_exp.search('bc'))  

<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 3), match='aXc'>
<re.Match object; span=(0, 3), match='a c'>
None
None
None


In [4]:
### * ### 
# - 수량자(Quantifier) : 바로 앞에 있는 패턴이 0회 이상 반복되는 것을 의미
# 'a'와 'c' 사이에 'b'가 0회 이상 반복되는 패턴 정의
reg_exp = re.compile('ab*c') 

# reg_exp.search(문자열) : 문자열에서 정규표현식과 매치되는 첫 번째 부분을 찾음
# - 매치되면 매치 객체 반환, 매치되지 않으면 None 반환
print(reg_exp.search('abc'))  
print(reg_exp.search('aXc'))    
print(reg_exp.search('a c'))    
print(reg_exp.search('abbbc')) 
print(reg_exp.search('ac'))  
print(reg_exp.search('bc'))  

<re.Match object; span=(0, 3), match='abc'>
None
None
<re.Match object; span=(0, 5), match='abbbc'>
<re.Match object; span=(0, 2), match='ac'>
None


In [5]:
### ? ###  
# - 수량자(Quantifier) : 바로 앞에 있는 패턴이 0회 또는 1회 나타나는 것을 의미
# 'a'와 'c' 사이에 'b'가 0회 또는 1회 나타나는 패턴 정의
reg_exp = re.compile('ab?c') 

# reg_exp.search(문자열) : 문자열에서 정규표현식과 매치되는 첫 번째 부분을 찾음
# - 매치되면 매치 객체 반환, 매치되지 않으면 None 반환
print(reg_exp.search('abc'))  
print(reg_exp.search('aXc'))    
print(reg_exp.search('a c'))    
print(reg_exp.search('abbbc')) 
print(reg_exp.search('ac'))  
print(reg_exp.search('bc'))  

<re.Match object; span=(0, 3), match='abc'>
None
None
None
<re.Match object; span=(0, 2), match='ac'>
None


In [6]:
### + ###  
# - 수량자(Quantifier) : 바로 앞에 있는 패턴이 1회 이상 반복되는 것을 의미
# 'a'와 'c' 사이에 'b'가 1회 이상 나타나는 패턴 정의
reg_exp = re.compile('ab+c') 

# reg_exp.search(문자열) : 문자열에서 정규표현식과 매치되는 첫 번째 부분을 찾음
# - 매치되면 매치 객체 반환, 매치되지 않으면 None 반환
print(reg_exp.search('abc'))  
print(reg_exp.search('aXc'))    
print(reg_exp.search('a c'))    
print(reg_exp.search('abbbc')) 
print(reg_exp.search('ac'))  
print(reg_exp.search('bc'))  

<re.Match object; span=(0, 3), match='abc'>
None
None
<re.Match object; span=(0, 5), match='abbbc'>
None
None


In [9]:
### {n} ###  
# - 수량자(Quantifier) : 바로 앞에 있는 패턴이 n회 반복되는 것을 의미
# 'a'와 'c' 사이에 'b'가 정확히 3회 반복되는 패턴 정의
reg_exp = re.compile('ab{3}c') 

# reg_exp.search(문자열) : 문자열에서 정규표현식과 매치되는 첫 번째 부분을 찾음
# - 매치되면 매치 객체 반환, 매치되지 않으면 None 반환
print(reg_exp.search('abc'))  
print(reg_exp.search('abbc'))     
print(reg_exp.search('abbbc')) 
print(reg_exp.search('abbbbc')) 
print(reg_exp.search('abbbbbc'))  

None
None
<re.Match object; span=(0, 5), match='abbbc'>
None
None


In [11]:
reg_exp = re.compile('a.c')

text = 'sfldfjslfjabclskjflskdjabcfiowjfwonvoabbbbbcwhpwjeabclkdsjlk'
print(reg_exp.search(text)) 
# <re.Match object; span=(10, 13), match='abc'>
# span : 매치된 문자열의 시작과 끝 인덱스
# match : 매치된 문자열 

# 정규표현식에 맞는 패턴을 찾고 싶다면?
for temp in re.finditer(reg_exp, text):
    print(temp)

<re.Match object; span=(10, 13), match='abc'>
<re.Match object; span=(10, 13), match='abc'>
<re.Match object; span=(23, 26), match='abc'>
<re.Match object; span=(50, 53), match='abc'>


In [12]:
# 문자 매칭 [] : []안에 있는 것 중 한 글자와 매치되는 패턴 정의
reg_exp = re.compile('[abc]')
print(reg_exp.search('안녕하세요, abc입니다!')) 
print(reg_exp.search('안녕하세요, cba입니다!')) 
print(reg_exp.search('안녕하세요, ABC입니다!')) 

<re.Match object; span=(7, 8), match='a'>
<re.Match object; span=(7, 8), match='c'>
None


In [14]:
reg_exp = re.compile('[a-zA-Z]') # 대소문자 구분 없이 알파벳 한 글자와 매치

print(re.findall(reg_exp, '안녕하세요, abc입니다!'))

['a', 'b', 'c']


In [18]:
### ^ ###
# - 문자열의 시작을 의미
reg_exp = re.compile('^who')

print(reg_exp.search('who is who'))
print(reg_exp.search('is who'))

print(re.findall('who','is who'))
print(re.findall(reg_exp,'who is who'))
print(re.findall(reg_exp,'is who'))

<re.Match object; span=(0, 3), match='who'>
None
['who']
['who']
[]


### re 모듈 함수 & re 객체 메소드

In [19]:

##### 메서드 search() : 문자열 패턴 검사 #####
# - reg_exp.search(문자열) : 문자열에서 정규표현식과 매치되는 첫 번째 부분을 찾음
# - 매치되면 매치 객체 반환, 매치되지 않으면 None 반환
reg_exp = re.compile('ab')

print(reg_exp.search('abc'))
print(reg_exp.search('123'))
print(reg_exp.search('123abc'))

<re.Match object; span=(0, 2), match='ab'>
None
<re.Match object; span=(3, 5), match='ab'>


In [22]:
##### 함수 findall() : 매칭된 결과 모두 반환 #####
# - re.findall(정규표현식, 문자열) : 문자열에서 정규표현식과 매치되는 모든 부분을 찾아 리스트로 반환

text = '제 전화번호는 010-1234-5678입니다.'

# 숫자가 1회 이상 반복되는 패턴 정의
# - [0-9]+ : 0부터 9까지의 숫자가 1회 이상 반복되는 패턴
# - findall() 함수로 패턴과 매치되는 모든 부분을 찾아 리스트로 반환
nums = re.findall('[0-9]+', text)
print(nums)

# 하이픈까지 포함하여 패턴 정의
nums = re.findall('[0-9-]+', text)
print(nums)


['010', '1234', '5678']
['010-1234-5678']


In [24]:
##### match() : 시작하는 문자열 패턴 검사 #####

reg_exp = re.compile('ab')

print(reg_exp.match('abc'))
print(reg_exp.match('123'))
print(reg_exp.match('123abc'))

<re.Match object; span=(0, 2), match='ab'>
None
None


In [27]:
##### split() : 정규식 패턴 기준으로 문자열 분리 #####

# text = "apple banana orange"
text = "Apple Banana Orange"

# 'b' 또는 'o'로 시작하는 단어를 기준으로 문자열 분리
# flags=re.IGNORECASE : 대소문자 구분 없이 패턴 적용
split_text = re.split('[bo]', text, flags=re.IGNORECASE)
print(split_text)

['Apple ', 'anana ', 'range']


In [40]:
#### sub() : 패턴과 매치되는 부분을 다른 문자열로 대체 #####
# - re.sub(정규표현식, 대체문자열, 원본문자열) : 원본문자열에서 정규표현식과 매치되는 부분을 대체문자열로 변경

text = "Hello, everyone! Welcome to NLP 🤖🤖🤖" 

# 영문자와 공백을 제외한 모든 문자를 제거 = 이모티콘 제거
cleaned_text = re.sub('[^a-zA-Z ]', '', text)
print(cleaned_text)

add_text = re.sub('[^a-zA-Z ]', '🌟🌟🌟', text)
print(add_text)

Hello everyone Welcome to NLP 
Hello🌟🌟🌟 everyone🌟🌟🌟 Welcome to NLP 🌟🌟🌟🌟🌟🌟🌟🌟🌟


### 정규표현식 토큰화
- 정규표현식을 사용해서 패턴에 해당하는 데이터를 찾음.
- 띄어쓰기를 기준으로 잘릴수 밖에 없게끔 사용됨.

In [39]:
from nltk.tokenize import RegexpTokenizer

text = "He's a runner, but not a long_distance runner. His number is 1234"
 
# RegexpTokenizer : 정규표현식을 사용한 토큰화 클래스
# [a-zA-Z0-9_] : 알파벳 대소문자, 숫자, 언더스코어(_)를 포함한 패턴 정의
# tokenizer = RegexpTokenizer('[a-zA-Z0-9_]+')

# r'\w+' : 단어 문자를 의미하는 \w를 사용한 패턴 정의
tokenizer = RegexpTokenizer(r'\w+') 

# 단어 토큰화
tokens = tokenizer.tokenize(text)
print(tokens)


['He', 's', 'a', 'runner', 'but', 'not', 'a', 'long_distance', 'runner', 'His', 'number', 'is', '1234']
