<a href="https://colab.research.google.com/github/dak-sh-kim/selfstudy-wikidocs-tensorflow-nlp-tutorial-notebooks/blob/main/20220612_NLP_2_05)_Regular_Expression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 정규 표현식(Regular Expression)

+ Regular Expression 는 텍스트 전처리에서 유용한 도구임
+ 파이썬에서는 정규표현식 모듈 re를 제공
+ nltk에서 re를 이용해 토큰화를 할 수 있음

## 1. 정규표현식 문법과 모듈 함수

### 정규표현식 문법

+ .  : 한 개의 임의의 문자를 나타냄 (줄바꿈 문자인 \n은 제외)
+ '?  : 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있음 (문자가 0개 또는 1개)
+ '*  : 앞의 문자가 (무한개로) 존재할 수도 있고, 존재하지 않을 수도 있음 (문자가 0개 이상)
+ '+  : 앞의 문자가 최소 한 개 이상 존재함 (문자가 1개 이상)
+ ^  : 뒤의 문자열로 문자열이 시작됨
+ $  : 앞의 문자열로 문자열이 끝남
+ (숫자)  : 숫자만큼 반복
+ (숫자1, 숫자2)  : 숫자 1 이상, 숫자 2 이하만큼 반복. ?, *, +를 이것으로 대체할 수 있음
+ (숫자,)  : 숫자 이상만큼 반복
+ '[ ]'  : 대괄호 안의 문자들 중 한 개의 문자와 매치. [amk]라고 한다면, a / m / k중 하나라도 존재하면 매치
+ [a-z]  : 범위 지정 가능, [a-zA-Z]는 알파벳 전체를 의미하는 범위이며, 문자열에 알파벳이 존재하면 매치
+ [^문자]  : 해당 문자를 제외한 문자를 매치
+ |  : A|B와 같이 쓰이며, 'A또는 B'의 의미를 가짐

역슬래쉬를 이용하여 자주 쓰이는 문자 규칙들

+ \  : 역슬래쉬 문자 자체를 의미
+ \d  : 모든 숫자를 의미. [0-9]와 의미가 동일
+ \D  : 숫자를 제외한 모든 문자를 의미.[^0-9]와 의미가 동일
+ \s  : 공백을 의미. [\t\n\r\f\v] 와 의미가 동일
+ \S  : 공백을 제외한 문자를 의미. [^ \t\n\r\f\v]와 의미가 동일
+ \w  : 문자, 또는 숫자를 의미. [a-zA-Z0-9] 와 의미가 동일
+ \W  : 문자, 또는 숫자가 아닌 문자를 의미  

### 정규표현식 모듈함수

+ re.compile()  : 정규표현식을 컴파일하는 함수. 다시 말해, "파이썬에게 전해주는 역할", 찾고자 하는 패턴이 빈번한 경우에는 미리 컴파일해놓고 사용하면 속도와 편의성 면에서 유리함.
+ re.search()  :  문자열 전체에 대해서 정규표현식과 매치되는지를 검색
+ re.match()  :  문자열의 처음이 정규표현식과 매치되는지를 검색
+ re.split()  :  정규표현식을 기준으로 문자열 분리, 리스트로 리턴
+ re.findall() :  문자열에서 정규 표현식과 매치되는 모든 경우 문자열을 찾아 리스트로 리턴, 만약, 매치 문자열 없다면 빈 리스트가 리턴
+ re.finditer() :  문자열에서 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체를 리턴
+  re.sub()  :  문자열에서 정규표현식과 일치하는 부분에 대해 다른 문자열로 대체


## 2. 정규 표현식 실습

#### 1) . 기호

 + a.c ---> akc, azc, avc, a5c, alc, ....

In [None]:
import re

In [None]:
r = re.compile('a.c')
r

re.compile(r'a.c', re.UNICODE)

In [None]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [None]:
r.search("a?c")

<re.Match object; span=(0, 3), match='a?c'>

In [None]:
r.search("ac") # 매치되지 않으면 아무런 결과도 출력되지 않음

#### 2)   ?  기호

+ ab?c --> abc, """ac""", avc, alc, ..
+ b가 0개 아니면 1개  

In [None]:
r = re.compile("ab?c")

In [None]:
r.search("abbc") # 매치되지 않으면 아무런 결과도 출력되지 않음

In [None]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [None]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

#### 3) * 기호

+ b가 0개, 1개, 아니면 여러개

In [None]:
r = re.compile("ab*c") # a (b가 없거나 많거나) c
r.search("a") # 매치되지 않으면 아무런 결과도 출력되지 않음

In [None]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [None]:
r.search("abbbc")

<re.Match object; span=(0, 5), match='abbbc'>

In [None]:
r.search("abbbsc") # 매치되지 않으면 아무런 결과도 출력되지 않음

#### 4) + 기호

+ b가 1개, 아니면 여러개

In [None]:
r = re.compile("ab+c") # a (b가 하나라도 있거나 많거나) c
r.search("ac") # 매치되지 않으면 아무런 결과도 출력되지 않음 (cf."ab*c")

In [None]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [None]:
r.search("abbbbbbc")

<re.Match object; span=(0, 8), match='abbbbbbc'>

#### 5) ^ 기호

In [None]:
r = re.compile("^ab") # 'ab'로 시작됨
r.search("abc")

<re.Match object; span=(0, 2), match='ab'>

In [None]:
r.search("abbb")

<re.Match object; span=(0, 2), match='ab'>

In [None]:
r.search("abfdfc")

<re.Match object; span=(0, 2), match='ab'>

#### 6) {숫자} 기호

In [None]:
r = re.compile("ab{2}c") # b를 2번 반복
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [None]:
r.search("abc") # 딱 해당 숫자만큼 - 매치되지 않으면 아무런 결과도 출력되지 않음

In [None]:
r.search("abbbc") # 딱 해당 숫자만큼 - 매치되지 않으면 아무런 결과도 출력되지 않음

#### 7) {숫자1, 숫자2} 기호

In [None]:
r = re.compile("ab{2,8}c") # b가 2 =< b =< 8) 번 반복

In [None]:
r.search("ac") # 2이상 8이하가 아님 - 매치되지 않으면 아무런 결과도 출력되지 않음

In [None]:
r.search("abbc") 

<re.Match object; span=(0, 4), match='abbc'>

In [None]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

In [None]:
r.search("abbbbbbbbc") 

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

#### 8) {숫자,} 기호

In [None]:
r = re.compile("a{2,}bc") # bc가 붙으면서 a가 2번 이상 반복되는 경우
# r = re.compile("a{0,}bc") bc가 붙으면서 a가 0번 이상 반복되는 경우 (* 와 같음)

In [None]:
r.search("abc") # 2이상 아님 - 매치되지 않으면 아무런 결과도 출력되지 않음

In [None]:
r.search("aaaabc") 

<re.Match object; span=(0, 6), match='aaaabc'>

#### 9) [  ] 기호

In [None]:
r = re.compile("[abc]") # [abc] 는 a-c와 같다. [ ]안에 등장한(범위 내) 문자이면 모두 가능 
  # 알파벳 전부: [a-zA-Z]
  # 알파벳과 숫자 전부: [a-zA-Z0-9]
  # 숫자 전부: [0-9]

In [None]:
r.search("zzz") # 매치되지 않으면 아무런 결과도 출력되지 않음

In [None]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [None]:
r.search("99a")

<re.Match object; span=(2, 3), match='a'>

- [abc] != [ABC] 대문자와 소문자가 구분됨

In [None]:
r = re.compile('[a-z]')

In [None]:
r.search("AAA") # 매치되지 않으면 아무런 결과도 출력되지 않음

In [None]:
r = re.compile('[A-Z]')

In [None]:
r.search('aaa')

In [None]:
r.search('AaA')

<re.Match object; span=(0, 1), match='A'>

#### 10) [^문자] 기호

In [None]:
r = re.compile('[^abc]') # a 또는 b 또는 c를 제외한 문자 

In [None]:
r.search('z')

<re.Match object; span=(0, 1), match='z'>

In [None]:
r.search('a')

In [None]:
r.search('1')

<re.Match object; span=(0, 1), match='1'>

## 3. 정규 표현식 모듈 함수 예제

#### 1) re.match()와 re.search()의 차이

- re.match()는 문자열 시작에서 패턴이 일치하지 않으면 찾지 않음

In [None]:
r = re.compile('ab.')
r.match('kkkabc') # 뒤에 ab.가 있어도 앞에서 매치되지 않으면 출력되지 않음

In [None]:
r.search('kkkabc')

<re.Match object; span=(3, 6), match='abc'>

In [None]:
r.match('abckkk')

<re.Match object; span=(0, 3), match='abc'>

#### 2) re.split()

- 입력된 정규 표현식을 기준으로 문자열을 분리하여 리스트로 리턴 
- 토큰화에 유용하게 쓰일 수 있음

In [None]:
# 공백 기준 분리
text = "사과 딸기 수박 메론 바나나"
re.split(" ", text)

['사과', '딸기', '수박', '메론', '바나나']

In [None]:
# 줄바꿈 기준 분리
text = """사과
딸기
수박
메론
바나나
"""

re.split("\n", text)

['사과', '딸기', '수박', '메론', '바나나', '']

In [None]:
# '+'을 기준으로 분리
text = "사과+딸기+수박+메론+바나나"
re.split("\+", text)

['사과', '딸기', '수박', '메론', '바나나']

#### 3) re.findall()

- 정규표현식과 매치되는 모든 문자열들을 리스트로 리턴
- 매치되는 문자열이 없다면 빈 리스트를 리턴
- 임의 텍스트에 정규표현식으로 숫자 의미 규칙의 findall()을 수행하면, 전체 텍스트로부터 숫자만 찾아내 리스트로 리턴

In [None]:
text = """이름: 김철수
전화번호: 010-1234-1234
나이: 30
성별: 남"""

re.findall("\d+", text)

['010', '1234', '1234', '30']

In [None]:
re.findall("\d+", "문자열입니다.")

[]

#### 4) re.sub()

+ 정규표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체
+ ex. 각주 등으로 '특수문자'가 섞어있는 경우, 특수문자 제거를 원한다면 알파벳 외의 문자는 공백으로 처리

In [None]:
text = """Regular expression : A regular expression, regex or regexp[1] 
(sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, 
a sequence of characters that define a search pattern."""

preprocessed_text = re.sub('[^a-zA-Z]', ' ', text)
preprocessed_text

'Regular expression   A regular expression  regex or regexp      sometimes called a rational expression        is  in theoretical computer science and formal language theory   a sequence of characters that define a search pattern '

## 4. 정규 표현식 텍스트 전처리 예제


- 테이블 형식의 데이터를 임의의 텍스트에 저장한 상황

In [None]:
text = """100 John PROF
101 James STUD
102 Mac STUD"""

In [None]:
re.split('\s+', text) # 공백이 하나 이상 존재하면 그걸 기준으로 분리

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [None]:
re.findall('\d+', text) # 숫자가 최소 하나 이상 존재함
# 이건 연속된 숫자로 가져오네

['100', '101', '102']

In [None]:
re.findall('[A-Z]', text) # A-Z사이의 문자를 가져와서 리스트로 반환
# 하나씩 가져옴

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [None]:
re.findall('[A-Z]{4}', text) # A-Z사이의 문자가 "연속적으로 네 번"등장하는 경우

['PROF', 'STUD', 'STUD']

In [None]:
re.findall('[A-Z][a-z]+', text) 
# 처음에 대문자가 등장한 후에 소문자가 여러번 등장하는 경우 매치

['John', 'James', 'Mac']

## 5. 정규 표현식을 이용한 토큰화

+ 정규표현식 --> 단어 토큰화: Regexptokenizer()
+ 괄호 안에 하나의 토큰으로 규정하기를 원하는 정규표현식을 넣음

In [None]:
from nltk.tokenize import RegexpTokenizer

In [None]:
text = """Don't be fooled by the dark sounding name, 
Mr.Jone's Orphanage is as cheery goes for a pastry shop"""

In [None]:
tokenizer1 = RegexpTokenizer("[\w]+") # 문자 또는 숫자가 하나 이상 포함된 경우 (이 덩어리로 분리한다)
tokenizer2 = RegexpTokenizer("\s+", gaps = True) (# gaps가 들어가면 나누는 기준이 된다)
# gaps: 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용한다. 

print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', "Mr.Jone's", 'Orphanage', 'is', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
