# 1. 정규 표현식 문법과 모듈 함수
파이썬에서는 정규 표현식 모듈 re을 지원하므로, 이를 이용하면 특정 규칙이 있는 텍스트 데이터를 빠르게 정제할 수 있습니다.

#### 1) 정규 표현식 문법

|특수문자|설명|
|:---|:---|
|.|한 개의 임의의 문자(줄바꿈 문자인 \n는 제외)|
|?|앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 또는 1개)|
|*|앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 이상)|
|+|	앞의 문자가 최소 한 개 이상 존재합니다. (문자가 1개 이상)|
|^|뒤의 문자열로 문자열이 시작됩니다.|
|$|앞의 문자열로 문자열이 끝납니다.|
|{숫자}|숫자만큼 반복|
|{숫자1, 숫자2}|숫자1 이상 숫자2 이하만큼 반복.?.*,+를 이것으로 대체 가능|
|{숫자, }|숫자 이상만큼 반복|
|[]|대괄호 안의 문자들 중 한 개의 문자와 매치합니다. [amk]라고 한다면 a 또는 m 또는 k 중 하나라도 존재하면 매치를 의미합니다. [a-z]와 같이 범위를 지정할 수도 있습니다. [a-zA-Z]는 알파벳 전체를 의미하는 범위이며, 문자열에 알파벳이 존재하면 매치를 의미합니다.|
|[^문자]|해당 문자를 제외한 문자를 매치|
|\||A\|B와 같이 쓰이며 A 또는 B의 의미|

|문자 규칙|설명|
|:---|:---|
|\\|역 슬래쉬 문자 자체|
|\d|모든 숫자, [0-9]와 동일|
|\D|숫자를 제외한 모든 문자, [^0-9]와 동일|
|\s|공백 [\t\n\r\f\v]와 동일|
|\S|공백을 제외한 문자, [^\t\n\r\f\v]와 동일|
|\w|문자 또는 숫자 의미, [a-zA-Z0-9]와 동일|
|\W|문자 또는 숫자가 아닌 문자, [^a-zA-Z0-9]와 동일|

#### 2) 정규 모듈식 함수
|모듈 함수|설명|
|:---|:---|
|re.compile()|정규표현식을 컴파일하는 함수입니다. 다시 말해, 파이썬에게 전해주는 역할을 합니다. 찾고자 하는 패턴이 빈번한 경우에는 미리 컴파일해놓고 사용하면 속도와 편의성면에서 유리합니다.|
|re.search()|문자열 전체에 대해서 정규표현식과 매치되는지를 검색합니다.|
|re.match()|문자열의 처음이 정규표현식과 매치되는지를 검색합니다.|
|re.split()|정규 표현식을 기준으로 문자열을 분리하여 리스트로 리턴합니다.|
|re.findall()|문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴합니다. 만약, 매치되는 문자열이 없다면 빈 리스트가 리턴됩니다.|
|re.finditer()|문자열에서 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체를 리턴합니다.|
|re.sub()|문자열에서 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체합니다.|

# 2. 정규 표현식 실습

In [1]:
import re

#### 1) .기호
. : 한개의 임의의 문자  
정규표현식 : a.c → a와 c 사이에는 어떤 1개의 문자라도 올 수 있다.

In [2]:
r=re.compile('a.c')
r.search('kkk')

In [3]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

#### 2) ?기호
? : 앞에 문자가 존재할 수 있고 존재하지 않을 수도 있는 겨우  
정규표현식 : ab?c → abc, ac

In [4]:
r=re.compile('ab?c')
r.search('abbc')

In [5]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [6]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

#### 3) *기호
\* : 앞의 문자가 0개 이상  
정규표현식 : ab*c → ac, abc, abbc, ...

In [7]:
r=re.compile('ab*c')
r.search('a')

In [8]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

In [9]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [12]:
r.search('abbbbbc')

<re.Match object; span=(0, 7), match='abbbbbc'>

#### 4) +기호
\+ : 앞의 문자가 최소 1개 이상  
정규 표현식 : ab+c → abc, abbc, abbc, ...

In [13]:
r=re.compile('ab+c')
r.search('ac')

In [14]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [15]:
r.search('abbbbc')

<re.Match object; span=(0, 6), match='abbbbc'>

#### 5) ^기호
^ : 뒤의 문자로 시작되는 문자열
정규 표현식  : ^ab → ab로 시작되는 경우

In [16]:
r=re.compile('^ab')
r.search('bbc')
r.search('zab')

In [17]:
r.search('abz')

<re.Match object; span=(0, 2), match='ab'>

#### 6) {숫자} 기호
{숫자} : 해당 문자를 숫자만큼 반복한 것  
정규 표현식 : ab{2}c → abbc

In [18]:
r=re.compile('ab{2}c')

r.search('ac')
r.search('abc')
r.search('abbbc')

In [19]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

#### 7) {숫자1, 숫자2} 기호
{숫자1, 숫자2} : 해당 문자를 숫자1 이상 숫자2 이하만큼 반복  
정규 표현식 : ab{2,8}c → a와 c 상에 b가 2개 이상 8개 이하 존재하는 경우

In [27]:
r = re.compile("ab{2,8}c")

r.search('ac')
r.search('abc')
r.search('abbbbbbbbbbbbbbbbc')

In [28]:
r.search('abbbc')

<re.Match object; span=(0, 5), match='abbbc'>

In [29]:
r.search('abbbbbbc')

<re.Match object; span=(0, 8), match='abbbbbbc'>

#### 8) {숫자,} 기호
{숫자,} : 해당 문자를 숫자 이상만큼 반복

In [30]:
r=re.compile('a{2,}bc')

r.search('abc')
r.search('aa')

In [31]:
r.search('aabc')

<re.Match object; span=(0, 4), match='aabc'>

In [33]:
r.search('aaaaaabc')

<re.Match object; span=(0, 8), match='aaaaaabc'>

#### 9) []기호
[] : 안에 문자들 중 한 개의 문자와 매치

In [34]:
r=re.compile('[abc]')

r.search('zzz')

In [35]:
r.search('a')

<re.Match object; span=(0, 1), match='a'>

In [36]:
r.search('aaaa')

<re.Match object; span=(0, 1), match='a'>

In [37]:
r.search('baac')

<re.Match object; span=(0, 1), match='b'>

In [39]:
r=re.compile('[a-z]')

r.search('AAA')
r.search('111')

In [40]:
r.search('aBC')

<re.Match object; span=(0, 1), match='a'>

#### 10) [^문자]기호
[^문자] : 문자들을 제외한 모든 문자들을 매치하는 역할

In [41]:
r=re.compile('[^abc]')

r.search('a')
r.search('b')
r.search('c')

In [42]:
r.search('d')

<re.Match object; span=(0, 1), match='d'>

In [43]:
r.search('da')

<re.Match object; span=(0, 1), match='d'>

# 3. 정규 표현식 모듈 함수 예제

#### (1) re.match()와 re.search()의 차이
search() : 정규 표현식 전체에 대해서 문자열이 매치하는지 확인  
match() : 문자열의 첫 부분부터 정규 표현식과 매치하는지 확인

In [44]:
r=re.compile('ab.')
r.match('kkkabc')

In [45]:
r.search('kkkabc')

<re.Match object; span=(3, 6), match='abc'>

In [46]:
r.match('abckkk')

<re.Match object; span=(0, 3), match='abc'>

#### (2) re.split()
split() : 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴

In [47]:
text='사과 딸기 수박 메론 바나나'
re.split(' ', text)

['사과', '딸기', '수박', '메론', '바나나']

In [48]:
text="""사과
딸기
수박
메론
바나나"""

re.split('\n',text)

['사과', '딸기', '수박', '메론', '바나나']

In [50]:
text="사과+딸기+수박+메로+바나나"
re.split('\+',text)

['사과', '딸기', '수박', '메로', '바나나']

#### (3) re.findall()
findall() : 정규 표현식에 매치되는 모든 문자열을 리스트로 리턴

In [51]:
text="""이름 : 김철수
전화번호 : 010 - 1234 - 5678
나이 : 30
성별 : 남"""

re.findall('\d+', text)

['010', '1234', '5678', '30']

In [52]:
re.findall('\d+','문자열입니다.')

[]

#### (4) re.sub()
sub() : 정규 표현식 패턴과 일치하는 무나열을 찾아 다른 문자열로 대체 가능

In [54]:
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

preprocessed_text=re.sub('[^a-zA-Z]',' ', text)
print(preprocessed_text)

Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern 


# 4. 정규 표현식 텍스트 전처리 예제

In [55]:
text="""100 John    PROF
101 James   STUD
102 Mac   STUD"""

In [56]:
re.split('\s+', text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [57]:
re.findall('\d+',text)

['100', '101', '102']

In [60]:
re.findall('[A-Z]', text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [62]:
re.findall('[A-Z]{4}', text)

['PROF', 'STUD', 'STUD']

In [63]:
re.findall('[A-Z][a-z]+', text)

['John', 'James', 'Mac']

# 5. 정규 표현식을 이용한 토큰화

In [69]:
from nltk.tokenize import RegexpTokenizer

text="Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"

tokenizer1=RegexpTokenizer('\w+')
tokenizer2=RegexpTokenizer('\s+', gaps=True)

print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
