# 정규 표현식(Regular Expression)
- re 모듈
- NLTK 를 통한 정규 표현식 (토큰화)

## 정규 표현식 문법

- .
    - 한 개의 임의의 문자를 나타내줌
- ?
    - 앞의 문자가 0 또는 1개 존재
- *
    - 앞의 문자가 0개 이상 존재
- +
    - 앞의 문자가 최소 1개이상 존재
- ^ 
    - 뒤의 문자열로 문자열이 시작
- $
    - 앞의 문자열로 문자열이 끝남
- {숫자}
    - 숫자만큼 반복
- {숫자1, 숫자2}
    - 숫자 1이상 숫자 2 이하 만큼 반복
- {숫자,}
    - 숫자 이상만큼 반복
- [ ]
    - 대괄호 안의 문자들 중 한개의 문자와 매치
    - [amk]라고 한다면 a/m/k 중 하나라도 존재하면 매치
    - [a-z] 와 같이 범위 지정 가능
        - [a-zA-Z] / [0-9]
- [^문자]
    - 해당 문자를 제외한 문자를 매치
- |
    - A|B와 같이 쓰이며 A 또는 B를 의미

---

역슬래시
- \
    - 역 슬래시 문자 자체를 의미
- \d
    - 모든 숫자를 의미, [0-9]와 동일
- \D
    - 숫자를 제외한 모든 문자, [^0-9]와 동일
- \s
    - 공백을 의미, [\t\n\r\f\v]와 동일
- \S
    - 공백을 제외한 문자를 의미, [^\t\n\r\f\v]와 동일
- \w
    - 문자 또는 숫자를 의미, [a-zA-Z0-9]와 동일
- \W
    - 문자 또는 숫자가 아닌 문자를 의미, [^a-zA-Z0-9]

---

정규표현식 모듈 함수
- re.compile()
    - 정규표현식을 컴파일 하는 함수
    - 패턴이 빈번한 경우 미리 컴파일 해놓고 주로 사용한다
- re.search()
    - 문자열 전체에 대해서 정규표현식과 매치되는지 검색
- re.match()
    - 문자열의 처음이 정규표현식과 매치되는지 검색
- re.split()
    - 정규 표현식을 기준으로 문자열을 분리하여 리스트로 리턴
- re.findall()
    - 문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴,
    - 매치되는 문자열이 없다면, 빈 리스트가 리턴
- re.finditer()
    - 문자열에 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체를 리턴
- re.sub()
    - 문자열에 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체



---

In [1]:
import re

.기호

In [2]:
# .기호
r = re.compile("a.c")
r.search('kkk') # 아무것도 출력되지 않음


In [4]:
# . 은 임의의 문자를 나타내주기 때문에 하나라도 만족하면 인식이 된다
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

? 기호
- 존재 하거나/ 안하거나

In [5]:
r = re.compile("ab?c?")
r.search('abbc') # 

<re.Match object; span=(0, 2), match='ab'>

In [7]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [9]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

*기호
- 문자가 0개 이상

In [10]:
r = re.compile('ab*c')
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

In [11]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [12]:
r.search('abbbbbbbbbbbbbbbbbbbc')

<re.Match object; span=(0, 21), match='abbbbbbbbbbbbbbbbbbbc'>

+기호
- 문자가 최소 1개이상

In [13]:
r = re.compile('ab+c')
r.search('ac')

In [14]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

^기호
- 시작되는 문자열 지정
- ^ab 이면 문자열이 ab로 시작

In [15]:
r= re.compile("^ab")
r.search('bbc')
r.search('zab')

In [16]:
r.search('abz')

<re.Match object; span=(0, 2), match='ab'>

{숫자} 기호
- 해당 문자만큼 반복
- ab{2}c 이면 a와 c사이에 b가 존재하면서 2번 반복되는 문자열

In [18]:
r = re.compile('ab{2}c')
r.search('ac')

In [19]:
r.search('abbbc')

In [20]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

{숫자1, 숫자2} 기호
- 숫자1 이상 숫자2 이하만큼 반복
- ab{2,8}c 이면 b가 2~8개 반복되는 문자열을 매치

In [21]:
r = re.compile('ab{2,8}c')
r.search('acbbbc')

In [22]:
r.search('abbbc')

<re.Match object; span=(0, 5), match='abbbc'>

{숫자,}기호
- 정해진 숫자 이상만큼 반복되는 문자열과 매치
- {0,} 은 * 와 동일
- {1,} 은 + 와 동일

In [23]:
r = re.compile('a{2,}bc')

r.search('aabc')

<re.Match object; span=(0, 4), match='aabc'>

[ ] 기호
- 문자들 중 한 개와 매치

In [26]:
r=re.compile('[abc]')
print(r.search('zzz'))
print(r.search('banana'))

None
<re.Match object; span=(0, 1), match='b'>


In [24]:
r= re.compile('[a-z]')
r.search("AAA")

In [25]:
r.search('aBC')

<re.Match object; span=(0, 1), match='a'>

[ ^문자] 기호
- ^ 뒤에 문자열을 제외한 모든 문자를 매치
- ^abc 이면 abc가 들어가지 않는 문자열

In [27]:
r = re.compile('[^abc]')
r.search('bring')

<re.Match object; span=(1, 2), match='r'>

In [28]:
r.search('baba')

re.match() 와 re.search()의 차이
- match함수는 문자열의 시작에서 패턴이 일치하지 않으면 찾지 않는다

In [29]:
r = re.compile('ab.')

r.match('kkkabc')

In [30]:
r.match('abckkk')

<re.Match object; span=(0, 3), match='abc'>

re.split()
- 정규 표현식 기준으로 문자열을 분리하여 리스트로 리턴한다

In [31]:
text = '사과 딸기 수박 메론 바나나'
re.split(" ", text)

['사과', '딸기', '수박', '메론', '바나나']

In [32]:
# 줄바꿈 기준 분리
text = """사과
딸기
수박
메론
반나나"""

re.split('\n', text)

['사과', '딸기', '수박', '메론', '반나나']

In [33]:
# + 기준으로 분리
text = '사과+딸기+수박+메론+바나나'
re.split('\+', text)

['사과', '딸기', '수박', '메론', '바나나']

re.findall()
- 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴

In [34]:
text = """이름 : 김철수
전화번호 : 010-1234-1234
나이 : 30
성별 : 남"""
#  숫자가 하나라도 포함된 것 가져오기
re.findall('\d+', text)

['010', '1234', '1234', '30']

re.sub()
- 일치하는 문자열을 다른 문자열로 대체
- 정제 작업에 (특히 특수문자) 에 많이 사용

In [36]:
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is,\
    in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

preprocessed_text = re.sub('[^a-zA-Z]', ' ', text)
preprocessed_text

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is     in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

정규 표현식 테스트 전처리 예제

In [37]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""

# 공백을 기준으로 먼저 분리해주기
re.split('\s+', text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [38]:
re.findall('\d+', text)

['100', '101', '102']

In [39]:
re.findall('[A-Z]', text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [40]:
re.findall('[A-Z]{4}', text)

['PROF', 'STUD', 'STUD']

In [41]:
# 대문자로 시작하고, 나머지가 소문자인경우
re.findall('[A-Z][a-z]+', text)

['John', 'James', 'Mac']

정규 표현식을 이용한 토큰화
- NLTK
    - RegexpTokenizer

In [42]:
from nltk.tokenize import RegexpTokenizer

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"

tokenizer1 = RegexpTokenizer("[\w]+")

# 공백 기준 토큰화
# gaps=True로 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용
tokenizer2 = RegexpTokenizer("\s+", gaps=True)

print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
