# 1. 정규 표현식 문법과 모듈 함수
특정 규칙이 있는 텍스트 데이터를 빠르게 정제

> **1) 정규 표현식 문법**   
> 특수 문자
> - .: 한 개의 임의 문자
> - ?: 앞 문자가 존재할 수도, 존재하지 않을 수도 있는 경우
> - *: 앞 문자가 0개 이상인 경우
> - +: 앞 문자가 1개 이상인 경우
> - ^: 시작되는 글자를 지정
> - $: 끝나는 글자를 지정   
> - {숫자}: 해당 문자를 숫자만큼 반복
> - {숫자1,숫자2}: 해당 문자를 숫자1 이상 숫자2 이하만큼 반복
> - {숫자,}: 해당 문자를 숫자 이상만큼 반복   
> - []: 대괄호 안 문자 중 한 문자와 매치
> - [^문자]: 해당 문자를 제외한 문자를 매치

> 문자 규칙
> - \\: 역 슬래쉬 자체
> - \d: 모든 숫자, [0-9]와 동일 의미
> - \D: 숫자를 제외한 모든 문자
> - \s: 공백, [\t\n\r\f\v]와 동일 의미
> - \S: 공백을 제외한 문자
> - \w: 문자 또는 숫자, [a-zA-Z0-9]와 동일 의미
> - \W: 문자 또는 숫자가 아닌 문자

> **2) 정규 표현식 모듈 함수**   
> - re.compile(): 정규 표현식을 컴파일해 파이썬에게 전해주는 역할, 찾는 패턴이 빈번한 경우 미리 컴파일 후 사용하면 편리
> - re.search(): 문자열 전체에 대해 정규 표현식과 매치되는지 검색, 매치된다면 match object를 리턴
> - re.match(): 문자열의 처음이 정규 표현식과 매치되는지 검색
> - re.split(): 정규 표현식을 기준으로 문자열을 분리해 리스트로 리턴
> - re.findall(): 문자열에서 정규 표현식과 매치되는 모든 문자열을 찾아 리스트로 리턴, 매치되는 문자열이 없다면 빈 리스트 리턴
> - re.finditer(): 문자열에서 정규 표현식과 매치되는 모든 문자열에 대한 이터레이터 객체 리턴
> - re.sub(): 문자열에서 정규 표현식과 일치하는 부분에 대해 다른 문자열로 대체

# 2. 정규 표현식 실습
> **1) . 기호**   
> 한 개의 임의 문자   
> \n 제외

In [1]:
import re
r = re.compile("a.c")
r.search("kkk")

In [2]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

> **2) ? 기호**   
> 앞 문자가 존재할 수도, 존재하지 않을 수도 있는 경우

In [3]:
import re
r = re.compile("ab?c")
r.search("abbc")

In [4]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

> **3) * 기호**   
> 앞 문자가 0개 이상인 경우

In [5]:
import re
r = re.compile("ab*c")
r.search("a")

In [6]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [7]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

> **4) + 기호**   
*와 유사하나 앞 문자가 1개 이상인 경우

In [8]:
import re
r = re.compile("ab+c")
r.search("ac")

In [9]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [10]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

> **5) ^ 기호**   
시작되는 글자를 지정

In [11]:
import re
r = re.compile("^a")
r.search("bbc")

In [12]:
r.search("ab")

<re.Match object; span=(0, 1), match='a'>

> **6) {숫자} 기호**   
> 해당 문자를 숫자만큼 반복

In [13]:
import re
r = re.compile("ab{2}c")
r.search("ac")

In [14]:
r.search("abc")

In [15]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

> **7) {숫자1,숫자2} 기호**   
> 해당 문자를 숫자1 이상 숫자2 이하만큼 반복   
> ?, *, +를 이로 대체 가능

In [16]:
import re
r = re.compile("ab{2,8}c")
r.search("abc")

In [17]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [18]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [19]:
r.search("abbbbbbbbbbbbbbbbbbbc")

> **8) {숫자,} 기호**   
> 해당 문자를 숫자 이상만큼 반복   
> {0,}을 쓴다면 *와, {1,}을 쓴다면 +와 동일한 의미

In [20]:
import re
r = re.compile("a{2,}bc")
r.search("bc")

In [21]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [22]:
r.search("aaaaaaaaaabc")

<re.Match object; span=(0, 12), match='aaaaaaaaaabc'>

> **9) [] 기호**   
> 대괄호 안 문자들 중 한 문자와 매치   
> [a-zA-Z]는 알파벳 전부를, [0-9]는 숫자 전부를 의미

In [23]:
import re
r = re.compile("[abc]")
# r = re.compile("[a-c]")
r.search("zzz")

In [24]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [25]:
r.search("aaaaaaaaaaaaaaaaaaaa")

<re.Match object; span=(0, 1), match='a'>

In [26]:
r.search("baac")

<re.Match object; span=(0, 1), match='b'>

In [27]:
import re
r = re.compile("[a-z]")
r.search("AAA")

In [28]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

> **10) [^문자] 기호**   
> 해당 문자를 제외한 문자를 매치

In [29]:
import re
r = re.compile("[^abc]")
r.search("a")

In [30]:
r.search("bc")

In [31]:
r.search("1")

<re.Match object; span=(0, 1), match='1'>

# 3.정규 표현식 모듈 함수 예제
> **1) re.search()와 re.match()의 차이**   
> search()가 정규 표현식 전체로 문자열 매치를 본다면,   
> match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지 확인

In [32]:
import re
r = re.compile("ab.")
r.search("kkkabc")

<re.Match object; span=(3, 6), match='abc'>

In [33]:
r.match("kkkabc")

In [34]:
r.match("abckkk")

<re.Match object; span=(0, 3), match='abc'>

> **2) re.split()**   
> 입력된 정규 표현식을 기준으로 문자열을 분리해 리스트로 리턴   
자연어 처리에 있어 토큰화에 유용하게 사용

In [35]:
import re
text = "사과 딸기 수박 메론 바나나"
re.split(" ", text)

['사과', '딸기', '수박', '메론', '바나나']

In [36]:
import re
text = """사과
딸기
수박
메론
바나나"""
re.split("\n", text)

['사과', '딸기', '수박', '메론', '바나나']

In [37]:
import re
text = "사과+딸기+수박+메론+바나나"
re.split("\+", text)

['사과', '딸기', '수박', '메론', '바나나']

> **3) re.findall()**   
> 정규 표현식과 매치되는 문자열을 리스트로 리턴   
> 매치되는 문자가 없다면 빈 리스트 리턴

In [38]:
import re
text = "이름: 김철수 \
전화번호: 010 - 1234 - 1234 \
나이: 30 \
성별: 남"
re.findall("\d+", text)

['010', '1234', '1234', '30']

In [39]:
re.findall("\d+", "문자열입니다.")

[]

> **4) re.sub()**   
> 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체   
> 자연어 처리를 위해 특수 문자를 제거하고 싶다면 이를 공백으로 처리하는 용도

In [40]:
import re
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression) [2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]', ' ', text)

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression         is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

# 4. 정규 표현식 텍스트 전처리 예제

In [41]:
import re

text = "100 John     PROF \
101 James     STUD \
102 Mac     STUD"

re.split('\s+', text)
# 뒤에 붙는 +는 최소 1개 이상의 패턴을 찾아낸다는 의미

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [42]:
re.findall('\d+', text)

['100', '101', '102']

In [43]:
re.findall('[A-Z]', text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [44]:
re.findall('[A-Z]{4}', text)

['PROF', 'STUD', 'STUD']

In [45]:
# 처음에 대문자, 후에 소문자가 여러 번 등장하는 경우 
re.findall('[A-Z][a-z]+', text)

['John', 'James', 'Mac']

In [46]:
# 영문자가 아닌 문자는 모두 공백으로 치환
import re
letters_only = re.sub('[^a-zA-Z]', ' ', text)

# 5. 정규 표현식을 이용한 토큰화

In [47]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w]+")
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [48]:
import nltk
from nltk.tokenize import RegexpTokenizer

# gaps=True는 정규 표현식을 토큰 기준으로 사용한다는 의미 
tokenizer = RegexpTokenizer("[\s]+", gaps=True)
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
