# 정규표현식 (Regular Expression)
- 특정한 규칙을 가진 문자열을 찾기 위한 패턴
- 정규 표현식을 사용하면 대량의 텍스트 데이터에서 특정 패턴을 효율적으로 추출, 삭제, 대체 가능

In [3]:
import re

##### 임의의 한 글자 .

In [None]:
reg_exp = re.compile('a.c')     # .으로 임의의 한 글자 가져오기

# <re.Match object; span=(0, 3), match='문자열'>    # span: 위치를 나타내줌
print(reg_exp.search('abc'))    # 실제로 일치한 문자열을 가져옴
print(reg_exp.search('aXc'))    # 실제로 일치한 문자열을 가져옴
print(reg_exp.search('a c'))    # 실제로 일치한 문자열을 가져옴

# 앞 뒤 글자 + ac 사이 임의의 한 글자
print(reg_exp.search('adfdgsgdsaabcdsgsdgsd'))  # <re.Match object; span=(10, 13), match='abc'>

# 임의의 한 글자가 아닌 여러 글자
print(reg_exp.search('abbbbbbbbbbbc'))          # None

print(reg_exp.search('ac'))
print(reg_exp.search('bc'))

<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 3), match='aXc'>
<re.Match object; span=(0, 3), match='a c'>
<re.Match object; span=(10, 13), match='abc'>
None
None
None


##### 수량자 *: 0개 이상

In [None]:
reg_exp = re.compile('ab*c')    # a로 시작 + b가 0개 이상 + c로 끝

print(reg_exp.search('ac'))     # 조건문으로 쓰려면 None인지 아닌지만 탐색하기
print(reg_exp.search('ab'))
print(reg_exp.search('abbbbbbbbbbbbbbbbc'))

'''
if reg_exp.search('ac'):  # None이 아니면 True로 평가됨
    print("매칭됨!")
else:
    print("매칭 안 됨!")
'''

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 18), match='abbbbbbbbbbbbbbbbc'>


##### 수량자 ?: 물음표 의미는 0개 또는 1개

In [None]:
reg_exp = re.compile('ab?c')    # a로 시작 + b가 0개 또는 1개 + c로 끝

print(reg_exp.search('ac'))     # 조건문으로 쓰려면 None인지 아닌지만 탐색하기
print(reg_exp.search('ab'))
print(reg_exp.search('abbbbbbbbbbbbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
None


##### 수량자 +

In [None]:
reg_exp = re.compile('ab+c')  # a로 시작 + b가 1개 이상 + c로 끝

print(reg_exp.search('ac'))    
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbbbbbbbbbc'))

None
None
<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 18), match='abbbbbbbbbbbbbbbbc'>


##### 수량자 {n} : n개

In [None]:
reg_exp = re.compile('ab{3}c')  # a로 시작 + b가 n개 + c로 끝

print(reg_exp.search('ac'))    
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))

None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 4), match='abbc'>
<re.Match object; span=(0, 5), match='abbbc'>
None


##### 수량자 {min, max}

In [None]:
reg_exp = re.compile('ab{1,3}c')  # a로 시작 + b가 min{1}개 이상 max{3}개 이하 + c로 끝

print(reg_exp.search('ac'))    
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))

##### 정규표현식에 맞는 패턴을 다 찾고 싶다면?

In [None]:
reg_exp = re.compile('a.c')
text = 'adsfdsfsabckjkljlkjklabciuioupoi'

reg_exp.search(text)        # <re.Match object; span=(8, 11), match='abc'> # (8,11)에 있는 a.c 하나를 찾은거임

# a.c가 들어가는 모든 곳 찾기
for temp in re.finditer(reg_exp, text):
    print(temp)

<re.Match object; span=(8, 11), match='abc'>
<re.Match object; span=(21, 24), match='abc'>


##### 문자 매칭 [] : []안에 있는 것 중 한 글자

In [20]:
reg_exp = re.compile('[abc]')        
print(reg_exp.search('안녕하세요, abc입니다.'))
print(reg_exp.search('안녕하세요, cba입니다.'))
print(reg_exp.search('안녕하세요, ABC입니다.'))

<re.Match object; span=(7, 8), match='a'>
<re.Match object; span=(7, 8), match='c'>
None


In [None]:
reg_exp = re.compile('[abc]', re.IGNORECASE)  # re.IGNORECASE : 대문자를 무시      
print(reg_exp.search('안녕하세요, abc입니다.'))
print(reg_exp.search('안녕하세요, cba입니다.'))
print(reg_exp.search('안녕하세요, ABC입니다.'))

<re.Match object; span=(7, 8), match='a'>
<re.Match object; span=(7, 8), match='c'>
<re.Match object; span=(7, 8), match='A'>


In [None]:
# reg_exp = re.compile('[abcdefghijklmnopqrstuvwxyz]')
reg_exp = re.compile('[a-zA-Z]')        # 대문자가 먼저 걸려 나옴

print(reg_exp.search('X, 안녕하세요 x!'))

<re.Match object; span=(0, 1), match='X'>


In [None]:
reg_exp = re.compile('[a-zA-Z0-9]')     # 숫자부터 걸려 나옴

print(reg_exp.search('300살 X님, 안녕하세요 x!'))

<re.Match object; span=(0, 1), match='3'>


##### 시작하는 문자열 ^

In [None]:
reg_exp = re.compile('^who')

print(reg_exp.search('who is who'))

print(re.findall('who','who is who'))   # ['who', 'who']    # 문자열이 가지고 있는 who를 모두 반환
print(re.findall('^who','who is who'))  # ['who']           # 문자열이 who로 시작하는지 탐색

<re.Match object; span=(0, 3), match='who'>
['who', 'who']
['who']


In [None]:
print(reg_exp.search('is who'))         # 문자열이 who로 시작하지 않아 None을 반환
print(re.findall('who','who is who'))   
print(re.findall('^who','is who'))

None
['who', 'who']
[]


### Syntax

**정규 표현식 기본 문법**

| 특수 문자 | 설명 | 예시 |
|---|---|---|
| . | 임의의 한 문자 | `a.c` : `abc`, `a1c` 등과 매치 |
| ? | 앞 문자가 0개 또는 1개 있을 때 매치 | `ab?c` : `abc`, `ac`와 매치 |
| * | 앞 문자가 0개 이상 있을 때 매치 | `ab*c` : `ac`, `abc`, `abbc` |
| + | 앞 문자가 1개 이상 있을 때 매치 | `ab+c` : `abc`, `abbc` |
| ^ | 문자열이 특정 문자로 시작할 때 매치 | `^abc` : `abcde`, `abc`와 매치 |
| $ | 문자열이 특정 문자로 끝날 때 매치 | `abc$` : `deabc`, `abc`와 매치 |
| {n} | 문자가 정확히 n번 반복될 때 매치 | `a{2}b` : `aab`와 매치 |
| {n,m} | 문자가 n번 이상 m번 이하 반복될 때 매치 | `a{2,4}b` : `aab`, `aaab`, `aaaab` |
| [ ] | 대괄호 안의 문자 중 하나와 매치 | `[abc]` : `a`, `b`, `c` |
| [^ ] | 대괄호 안의 문자 제외하고 매치 | `[^abc]` : `d`, `e`, `1` |
| \| | OR 연산자로 둘 중 하나와 매치 | `a\|b` : `a` 또는 `b` |


### re 모듈 함수 & re 객체 메소드

##### 메소드 search() : 문자열 패턴 검사

In [31]:
reg_exp = re.compile('ab')
print(reg_exp.search('abc'))
print(reg_exp.search('123'))
print(reg_exp.search('123abc'))

<re.Match object; span=(0, 2), match='ab'>
None
<re.Match object; span=(3, 5), match='ab'>


##### 메소드 match() : 시작하는 문자열 패턴 검사

In [32]:
reg_exp = re.compile('ab')
print(reg_exp.match('abc'))
print(reg_exp.match('123'))
print(reg_exp.match('123abc'))

<re.Match object; span=(0, 2), match='ab'>
None
None


##### 함수 split() : 정규식 패턴으로 분할

In [35]:
text = 'Apple Banana Orange'
split_text = re.split('[BO]', text, flags=re.IGNORECASE)
split_text

['Apple ', 'anana ', 'range']

##### 함수 findall() : 매칭된 결과를 모두 반환

In [None]:
text = '제 전화번호는 010-1234-5678 입니다.'
nums = re.findall('[0-9]+', text)
nums = re.findall('[0-9]+-[0-9]+-[0-9]+', text)     # 하이픈까지 가져오기
nums

['010-1234-5678']

##### 함수 sub()

In [None]:
text = 'Hello, everyone! Welcome to NLP🤩🤩🤩'

# sub(정규식, 문자열, 대상이 되는 문자열)
sub_text = re.sub('[^a-zA-Z ]','', text)    # ^은 not의 의미를 가져서 소문자 대문자 공백이 아닌 것을 정해준 문자열로 바꿈
sub_text    

'Hello everyone Welcome to NLP'

### 정규표현식 토큰화

In [None]:
from nltk.tokenize import RegexpTokenizer

text = "He's a runner, but not a long_distance runner. His number is 1234."

# 객체 생성
# tokenizer = RegexpTokenizer('[a-zA-Z0-9_]+')     # 한 개 이상이 반복되는 패턴을 찾겠다!
tokenizer = RegexpTokenizer(r'\w+')     # \w: 영문자, 숫자, _를 허용 # 위와 같은 결과가 나옴

# 토큰화
tokens = tokenizer.tokenize(text)
tokens

['He',
 's',
 'a',
 'runner',
 'but',
 'not',
 'a',
 'long_distance',
 'runner',
 'His',
 'number',
 'is',
 '1234']