# 정규표현식(Regular Expression)
- 텍스트 전처리에서 정규표현식은 아주 유용한 도구이다.

## 1. 정규표현식 문법과 모듈 함수
- 파이썬에서는 정규 표현식 모듈 re를 지원한다.
  - 정규표현식 문법
    - . ? * + ^ $ {} []
    - \\\ \\d \\D \\s \\S \\w \\W
  - 정규표현식 모듈 함수
    - re.compile()
    - re.search()
    - re.match()
    - re.split()
    - re.findall()
    - re.finditer()
    - re.sub()

## 2. 정규 표현식 문법 예제

In [1]:
import re

In [3]:
"""
.기호
한 개의 임의의 문자를 나타냄.
a.c 사이에는 어떤 1개의 문자라도 올 수 있다. e.g. abc, acc, axc, azc 등
"""
r = re.compile("a.c")
print(r.search("kkk")) # 아무런 결과도 출력되지 않는다.
print(r.search("abc"))

None
<re.Match object; span=(0, 3), match='abc'>


## 3. 정규 표현식 모듈 함수 예제

### (1) re.match()와 re.search()의 차이
- match는 문자열 첫부분부터 매치하는지 확인
- search는 표현식 전체에 대해 문자열 매치하는 확인

In [7]:
r = re.compile("ab.")
print(r.match("kkkabc")) # 아무런 결과도 출력되지 않는다.
print(r.search("kkkabc"))

print(r.match("abckkk"))  

None
<re.Match object; span=(3, 6), match='abc'>
<re.Match object; span=(0, 3), match='abc'>


### (2) re.split()
- 정규표현식을 기준으로 문자열을 분리해준다.


In [11]:
r = re.compile("\\d")
print(r.split("kkkab2ck1kas2aa"))

['kkkab', 'ck', 'kas', 'aa']


### (3) re.findall()
- 정규표현식과 매칭되는 모든 문자열을 리스트로 리턴

In [13]:
text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""

print(re.findall("\d+", text))

['010', '1234', '1234', '30']


### (4) re.sub()
- 정규 표현식과 일치하는 패턴을 찾아 다른 문자열로 바꾸어 준다.
  - 특수문자 제거 등 사용 가능

In [14]:
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

preprocessed_text = re.sub('[^a-zA-Z]', ' ', text)
print(preprocessed_text)

Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern 


## 4. 정규 표현식 텍스트 전처리 예제


In [21]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""

print(re.split('\s+', text)) # 공백이 최소 1개 이상인 패턴 기준으로 나누어 줌
print(re.findall('\d+',text)) # 숫자를 포함한 데이터만 가져옴
print(re.findall('[A-Z]',text))# 대문자인 값만 가져오도록 함.
print(re.findall('[A-Z][a-z]+',text)) # 이름같은 경우 다음과 같이 보통 가져올 수 있음
print(re.findall('[A-Z][A-Z]+',text)) # 세번째 컬럼은 다음과 같이 가져올 수 있다.

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']
['100', '101', '102']
['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']
['John', 'James', 'Mac']
['PROF', 'STUD', 'STUD']


## 5. 정규 표현식을 이용한 토큰화
- NLTK에서는 정규 표현식을 사용하여 단어 토큰화를 수행하는 RegexpTokenizer를 제공

In [22]:
from nltk.tokenize import RegexpTokenizer

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"

tokenizer1 = RegexpTokenizer("[\w]+")
tokenizer2 = RegexpTokenizer("\s+", gaps=True)

print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
