## 정규 표현식(Regular Expression)
- 파이썬에서 지원하고 있는 정규 표현식 모듈 re의 사용 방법
- NLTK를 통한 정규 표현식을 이용한 토큰화

### 정규 표현식 문법과 모듈 함수
#### . 기호
- .은 한 개의 임의의 문자를 나타냄
- ex. a.c: a와 c 사이에는 어떤 1개의 문자라도 올 수 있음 (akc, azc, avc, a5c, a!c)
- ex. ab.: ab다음에는 어떤 한 글자가 존재할 수 있다는 패턴

In [1]:
import re

In [2]:
r = re.compile("a.c")
r.search("kkk") # 아무런 결과도 출력되지 않는다.

In [3]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

#### ? 기호
- ?는 ?앞의 문자가 존재할 수도 있고 존재하지 않을 수도 있는 경우를 나타냄
- ex. ab?c: 정규 표현식에서의 b는 있다고 취급할 수도 있고, 없다고 취급할 수도 있음 (abc, ac)

In [4]:
r = re.compile("ab?c")
r.search("abbc") # 아무런 결과도 출력되지 않는다.

In [5]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [6]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

#### * 기호
- *은 바로 앞의 문자가 0개 이상일 경우를 나타냄
- 앞의 문자는 존재하지 않을 수도 있으며, 또는 여러 개일 수도 있음
- ex. ab*c : ac, abc, abbc, abbbc
- *앞에 붙어있는 b가 0부터 무한대로 반복될 수 있다는 뜻
    - ac(o), abbbc(o)

In [7]:
r = re.compile("ab*c")
r.search("a") # 아무런 결과도 출력되지 않는다.

In [12]:
r.search("bc")

In [9]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [10]:
r.search("abc") 

<re.Match object; span=(0, 3), match='abc'>

In [11]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

#### +기호
- *와 유사, but.  다른 점은 앞의 문자가 최소 1개 이상
- ab+c: ac(x), abc, abbc, abbbc(o)

In [13]:
r = re.compile("ab+c")
r.search("ac") # 아무런 결과도 출력되지 않는다.

In [14]:
r.search("abc") 

<re.Match object; span=(0, 3), match='abc'>

In [15]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

#### ^기호
- ^는 시작되는 문자열을 지정
- ex. ^ab: 문자열 ab로 시작되는 경우 매치

In [16]:
r = re.compile("^ab")

# 아무런 결과도 출력되지 않는다.
r.search("bbc")
r.search("zab")

In [17]:
r.search("abz")

<re.Match object; span=(0, 2), match='ab'>

#### {숫자} 기호
- 문자에 해당 기호를 붙이면, 해당 문자를 숫자만큼 반복한 것을 나타냄
- ex. ab{2}c: a와 c 사이에 b가 존재하면서 b가 2개인 문자열에 대해서 매치

In [18]:
r = re.compile("ab{2}c")

# 아무런 결과도 출력되지 않는다.
r.search("ac")
r.search("abc")
r.search("abbbbbc")

In [19]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

#### {숫자1, 숫자2} 기호
- 문자에 해당 기호를 붙이면, 해당 문자를 숫자1 이상 숫자2 이하만큼 반복
- ex. ab{2,8}c: a와 c 사이에 b가 존재하면서 b는 2개 이상 8개 이하인 문자열에 대해서 매치

In [20]:
r = re.compile("ab{2,8}c")

# 아무런 결과도 출력되지 않는다.
r.search("ac")
r.search("abc")
r.search("abbbbbbbbbc")

In [21]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [22]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

#### {숫자,} 기호
- 문자에 해당 기호를 붙이면 해당 문자를 숫자 이상 만큼 반복
- ex. a{2,}bc: bc가 붙으면서 a의 개수가 2개 이상인 경우인 문자열과 매치
- 만약 {0,}을 쓴다면 *와 동일한 의미
- {1,}을 쓴다면 +와 동일한 의미

In [23]:
r = re.compile("a{2,}bc")

# 아무런 결과도 출력되지 않는다.
r.search("bc")
r.search("aa")

In [24]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [25]:
r.search("aaaaaaaabc")

<re.Match object; span=(0, 10), match='aaaaaaaabc'>

#### [ ] 기호
- [ ]안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치라는 의미
    - [abc]: a 또는 b또는 c가 들어가있는 문자열과 매치
- 범위를 지정하는 것도 가능
    - [a-zA-Z]는 알파벳 전부
    - [0-9]는 숫자 전부를 의미

In [26]:
r = re.compile("[abc]") # [abc]는 [a-c]와 같다.
r.search("zzz") # 아무런 결과도 출력되지 않는다.

In [27]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [28]:
r.search("aaaaaaa")   

<re.Match object; span=(0, 1), match='a'>

In [29]:
r.search("baac")

<re.Match object; span=(0, 1), match='b'>

In [30]:
r = re.compile("[a-z]")

# 아무런 결과도 출력되지 않는다.
r.search("AAA")
r.search("111") 

In [31]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

#### [^문자] 기호
- [^문자]는 ^기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치
- [^abc]: a 또는 b 또는 c가 들어간 문자열을 제외한 모든 문자열을 매치

In [32]:
r = re.compile("[^abc]")

# 아무런 결과도 출력되지 않는다.
r.search("a")
r.search("ab") 
r.search("b")

In [33]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

In [35]:
r.search("1")

<re.Match object; span=(0, 1), match='1'>

In [36]:
r.search("bddd")

<re.Match object; span=(1, 2), match='d'>

### 역 슬래쉬(\)를 이용하여 자주 쓰이는 문자 규칙
- \d: 숫자와 매치
- \D: 숫자 아닌것과 매치
- \s: whitespace 문자와 매치
- \S: whitespace 문자가 아닌것과 매치
- \w: 문자 + 숫자ㅘ 매치
- \W: 문자+숫자가 아닌 문자와 매치

### 정규 표현식 모듈 함수 예제
#### re.match() 와 re.search()의 차이
- search(): 정규 표현식 전체에 대해서 문자열이 매치하는지를 확인
- match(): 문자열의 첫 부분부터 정규 표현식과 매치하는지를 확인
    - 문자열 중간에 찾을 패턴이 있더라도 match 함수는 문자열의 시작에서 패턴이 일치하지 않으면 찾지 않음

In [37]:
r = re.compile("ab.")
r.match("kkkabc") # 아무런 결과도 출력되지 않는다.

In [38]:
r.search("kkkabc")

<re.Match object; span=(3, 6), match='abc'>

In [39]:
r.match("abckkk")

<re.Match object; span=(0, 3), match='abc'>

- 정규 표현식이 ab. 
    - ab 다음에는 어떤 한 글자가 존재할 수 있다는 패턴을 의미
    - search 모듈 함수에 kkkabc라는 문자열을 넣어 매치되는지 확인한다면 abc라는 문자열에서 매치되어 Match object를 리턴
    - match 모듈 함수의 경우, 앞 부분이 ab.와 매치되지 않기때문에, 아무런 결과도 출력되지 않음
    - 반면 abckkk로 매치 시도시, 시작 부분에서 패턴과 매치되었기 때문에 정상적으로 Match object를 리턴

#### re.split()
- split() 함수는 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴

In [45]:
# 공백 기준 분리
text = "사과 딸기 수박 메론 바나나"
re.split(" ", text)

['사과', '딸기', '수박', '메론', '바나나']

In [46]:
# 줄바꿈 기준 분리
text = """사과
딸기
수박
메론
바나나"""

re.split("\n", text)

['사과', '딸기', '수박', '메론', '바나나']

In [48]:
text = "사과+딸기+수박+메론+바나나"

re.split("\+", text)

['사과', '딸기', '수박', '메론', '바나나']

#### re.findall()
- findall() 함수: 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴
- 단, 매치되는 문자열이 없다면 빈 리스트를 리턴

In [49]:
text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""

re.findall("\d+", text)

['010', '1234', '1234', '30']

In [50]:
re.findall("\d+", "문자열입니다.")

[]

#### re.sub()
- sub() 함수: 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체
    - 영어문장에 각주 등과 같은 이유로 특수 문자가 섞여있는 경우, 특수 문자를 제거하고 싶다면 알파벳 외의 문자는 공백으로 처리하는 등의 용도

In [51]:
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

preprocessed_text = re.sub('[^a-zA-Z]', ' ', text)
print(preprocessed_text)

Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern 


#### 정규 표현식 텍스트 전처리 예제
- \s+ 는 공백을 찾아내는 정규식
- 뒤에 붙는 +는 최소 1개 이상의 패턴을 찾아낸다는 의미
- s는 공백을 의미하기 때문에 최소 1개 이상의 공백인 패턴을 찾아냄

In [52]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""

In [54]:
re.split('\s+', text)  

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

- \d+: \d는 숫자에 해당되는 정규표현식
- +를 붙이면 최소 1개 이상의 숫자에 해당하는 값을 의미

In [57]:
re.findall('\d+',text)  

['100', '101', '102']

In [58]:
re.findall('\d',text)  

['1', '0', '0', '1', '0', '1', '1', '0', '2']

- 텍스트로부터 대문자인 행의 값만 출력
- 정규 표현식에 대문자를 기준으로 매치

In [59]:
# 각각의 모든 대문자를 출력
re.findall('[A-Z]',text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [60]:
# 대문자가 연속적으로 4번 등장하는 경우라는 조건 추가
re.findall('[A-Z]{4}',text)  

['PROF', 'STUD', 'STUD']

In [63]:
# 1개 이상의 대문자를 가지고 있는 경우 출력
re.findall('[A-Z]+',text)

['J', 'PROF', 'J', 'STUD', 'M', 'STUD']

In [68]:
# 대문자가 나오고, 소문자가 1개 이상 나오는 경우
re.findall('[A-Z][a-z]+',text)

['John', 'James', 'Mac']

In [71]:
# 대문자가 나오고 소문자가 1개 나오게 출력
re.findall('[A-Z]+[a-z]',text)

['Jo', 'Ja', 'Ma']

### 정규 표현식을 이용한 토큰화
- NLTK에서는 정규 표현식을 사용해서 단어 토큰화를 수행하는 RegexpTokenizer를 지원
-  RegexpTokenizer()에서 괄호 안에 하나의 토큰으로 규정하기를 원하는 정규 표현식을 넣어서 토큰화를 수행

In [72]:
from nltk.tokenize import RegexpTokenizer

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"

# \w+ 는 문자 또는 숫자가 1개 이상인 경우
tokenizer1 = RegexpTokenizer("[\w]+")
# \s+는 공백을 기준으로 토큰화
# gaps=true는 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용한다는 의미
tokenizer2 = RegexpTokenizer("\s+", gaps=True)

print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
