# 정규 표현식(Regular Expression)

In [None]:
import re

## 1) .기호
- .은 한 개의 임의의 문자를 나타낸다.



In [None]:
r = re.compile('a.c')
r.search('aaa')

In [None]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

## 2) ?기호
- ?는 ?앞의 문자가 존재할 수도 있고 존재하지 않을 수도 있는 경우를 나타낸다.

In [None]:
r = re.compile('ab?c')
r.search('abbc')

In [None]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

In [None]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

## 3) *기호
- *은 바로 앞의 문자가 0개 이상일 경우를 나타낸다.
- 앞의 문자는 존재하지 않을 수도 있으며, 여러 개일 수도 있다.

In [None]:
r = re.compile('ab*c')
r.search('a')

In [None]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

In [None]:
r.search('abbbbc')

<re.Match object; span=(0, 6), match='abbbbc'>

## 4) +기호
- +는 *와 유사하며 다른 점은 앞의 문자가 최소 1개 이상이라는 부분이다.

In [None]:
r = re.compile('ab+c')
r.search('ac')

In [None]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

## 5) ^기호
- ^는 시작되는 문자열을 지정한다.
- 정규표현식이 ^ab라면 문자열 ab로 시작되는 경우 매치합니다.

In [None]:
r = re.compile('^ab')

r.search('bbb')
r.search('zab')

In [None]:
r.search('abz')

<re.Match object; span=(0, 2), match='ab'>

## 6) {숫자} 기호
- 문자에 해당 기호를 붙이면, 해당 문자를 숫자만큼 반복한 것을 나타낸다.
- 예를 들어서 정규 표현식이 ab{2}c라면 a와 c 사이에 b가 존재하면서 b가 2개인 문자열에 대해서 매치합니다.

In [None]:
r = re.compile('ab{2}c')
r.search('abc')
r.search('abc')

In [None]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

## 7) {숫자1, 숫자2} 기호
- 문자에 해당 기호를 붙이면, 해당 문자를 숫자1 이상 숫자2 이하만큼 반복
- 예를 들어서 정규 표현식이 ab{2,8}c라면 a와 c 사이에 b가 존재하면서 b는 2개 이상 8개 이하인 문자열에 대해서 매치합니다.

In [None]:
r = re.compile('ab{2,8}c')
r.search('abc')
r.search('abbbbbbbbbc')

In [None]:
r.search('abbbc')

<re.Match object; span=(0, 5), match='abbbc'>

## 8) {숫자,} 기호
- 문자에 해당 기호를 붙이면 해당 문자를 숫자 이상 만큼 반복
- 예를 들어서 정규 표현식이 a{2,}bc라면 뒤에 bc가 붙으면서 a의 개수가 2개 이상인 경우인 문자열과 매치한다.
- 만약 {0,}을 쓴다면 *와 동일한 의미가 되며, {1,}을 쓴다면 +와 동일한 의미가 된다.

In [None]:
r = re.compile('a{2,}bc')
r.search('abc')

In [None]:
r.search('aabc')

<re.Match object; span=(0, 4), match='aabc'>

In [None]:
r.search('aaabc')

<re.Match object; span=(0, 5), match='aaabc'>

## 9) [ ] 기호
- [ ]안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치라는 의미
- 예를 들어서 정규 표현식이 [abc]라면, a 또는 b또는 c가 들어가있는 문자열과 매치됩니다. 
- 범위를 지정하는 것도 가능합니다. [a-zA-Z]는 알파벳 전부를 의미하며, [0-9]는 숫자 전부를 의미합니다.

In [None]:
r = re.compile('[abc]')
r.search('def')

In [None]:
r.search('a')

<re.Match object; span=(0, 1), match='a'>

In [None]:
r.search('abc')

<re.Match object; span=(0, 1), match='a'>

In [None]:
r = re.compile('[a-z]')
r.search('ABC')
r.search('123')

In [None]:
r.search('abc')

<re.Match object; span=(0, 1), match='a'>

In [None]:
r.search('aBCE')

<re.Match object; span=(0, 1), match='a'>

## 10) [^문자] 기호
- [^문자]는 ^기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치하는 역할
- 예를 들어서 [^abc]라는 정규 표현식이 있다면, a 또는 b 또는 c가 들어간 문자열을 제외한 모든 문자열을 매치합니다.

In [None]:
r = re.compile('[^abc]')
r.search('abc')

In [None]:
r.search('d')

<re.Match object; span=(0, 1), match='d'>

In [None]:
r.search('1')

<re.Match object; span=(0, 1), match='1'>

# 정규 표현식 모듈 함수 예제

## (1) re.match() 와 re.search()의 차이
- search()가 정규 표현식 전체에 대해서 문자열이 매치하는지를 본다면, match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지를 확인
- 문자열 중간에 찾을 패턴이 있더라도 match 함수는 문자열의 시작에서 패턴이 일치하지 않으면 찾지 않는다.

In [None]:
r = re.compile('ab.')

In [None]:
r.match('cccabc')

In [None]:
r.search('cccabc')

<re.Match object; span=(3, 6), match='abc'>

In [None]:
r.match('abcdef')

<re.Match object; span=(0, 3), match='abc'>

## (2) re.split()
- split() 함수는 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴
- 토큰화에 유용하게 쓰일 수 있다.

In [None]:
# 공백 기준 분리
text = "사과 딸기 수박 메론 바나나"
re.split(' ', text)

['사과', '딸기', '수박', '메론', '바나나']

In [None]:
# 줄바꿈 기준 분리
text = """사과
딸기
수박
메론
바나나"""

re.split('\n', text)

['사과', '딸기', '수박', '메론', '바나나']

In [None]:
# '+'를 기준으로 분리
text = "사과+딸기+수박+메론+바나나"

re.split('\+', text)

['사과', '딸기', '수박', '메론', '바나나']

## (3) re.findall()
- findall() 함수는 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴
- 매치되는 문자열이 없다면 빈 리스트를 리턴
- 임의의 텍스트에 정규 표현식으로 숫자를 의미하는 규칙으로 findall()을 수행하면 전체 텍스트로부터 숫자만 찾아내서 리스트로 리턴

In [None]:
text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""

re.findall('\d+', text)

['010', '1234', '1234', '30']

In [None]:
re.findall("\d+", "문자열입니다.")

[]

## (4) re.sub()
- sub() 함수는 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체
- 정제 작업에 많이 사용되는데, 영어 문장에 각주 등과 같은 이유로 특수 문자가 섞여있는 경우에 특수 문자를 제거하고 싶다면 알파벳 외의 문자는 공백으로 처리하는 등의 용도로 쓸 수 있습니다.

In [None]:
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

preprocessed_text = re.sub('[^a-zA-Z]', ' ', text)
print(preprocessed_text)

Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern 


# 정규 표현식 텍스트 전처리 예제

In [None]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""

In [None]:
# 공백을 기준으로 split
re.split('\s+', text)  

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [None]:
re.findall('\d+',text)

['100', '101', '102']

In [None]:
re.findall('[A-Z]', text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [None]:
re.findall('[A-Z]{4}',text)

['PROF', 'STUD', 'STUD']

In [None]:
re.findall('[A-Z][a-z]+', text)

['John', 'James', 'Mac']

# 정규 표현식을 이용한 토큰화

In [None]:
from nltk.tokenize import RegexpTokenizer

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"

tokenizer1 = RegexpTokenizer('[\w]+')
tokenizer2 = RegexpTokenizer('\s+', gaps=True) # gaps=True => 해당 정규 표현식을 토큰으로 나누는 기준으로 사용

print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
