# 정규 표현식(Regular Expression)

## 1. 정규 표현식 문법과 모듈 함수

### 1) 정규 표현식 문법
#### 특수 문자
- . : 한개의 임의의 문자(줄바꿈 문자인 \n 제외)
- ? : 앞의 문자가 존재할 수도 있고, 아닐 수도 있고..
- * : 앞의 문자가 0개 이상
- + : 앞의 문자가 1개 이상
- ^ : 뒤의 문자로 문자열이 시작
- $ : 앞의 문자로 문자열 끝
- {숫자} : 숫자만큼 반복
- {숫자1,숫자2} : 숫자1이상 숫자2이하만큼 반복(+, *,? 등으로 대체 가능)
- {숫자,} : 숫자 이상 반복
- [] : 대괄호 내의 문자들 중 한 개의 문자와 매치
- [^문자] : 해당 문자를 제외한 문자 매치
- | : A|B 형태로, A 또는 B의 의미

#### 역슬래쉬와 함꼐 사용되는 문자 규칙
- \ : 역 슬래쉬 문자 자체를 의미
- \d : 모든 숫자(==[0-9])
- \D : 숫자를 제외한 모든 문자(==[^0-9])
- \s : 공백(==[\t\n\r\f\v])
- \S : 공백 제외(==[^\t\n\r\f\v])
- \w : 문자 또는 숫자(==[0-9a-zA-Z])
- \W : 문자와 숫자 제외 (==[^0-9a-zA-Z])

### 2) 정규표현식 모듈 함수
- re.compile() : 정규표현식을 컴파일하는 함수, 찾고자 하는 패턴이 빈번한 경우 미리 컴파일 해놓고 사용하면 속도와 편의성면에서 유리
- re.search() : **문자열 전체**에 대해 정규표현식과 매치되는지를 검색
- re.match() : **문자열의 처음**이 정규표현식과 매치되는지 검색
- re.split() : 정규표현식을 기준으로 문자열을 분리하여 리스트로 리턴
- re.findall() : 문자열에서 정규표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴, 없다면 빈 리스트 리턴
- re.finditer() : findall과 동일하나, 이터레이터 객체로 리턴
- re.sub() : 문자열에서 정규표현식과 일치하는 부분을 다른 문자열로 대체

## 2. 정규표현식 실습

### 1) .기호

In [13]:
import re
r = re.compile("a.c")
r.search("kkk") # 아무런 결과 없음

In [17]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

정규표현식 기준인 a부터 시작, 중간에 아무거나, c로 마무리 규칙에 맞는 위치 반환   
idex 0~3까지이며 match된 string은 'abc'

### 2) ?기호

In [20]:
import re
r=re.compile("ab?c")
r.search("abbc") #아무런 결과 없음

In [21]:
r.search("ac"), r.search("abc")

(<re.Match object; span=(0, 2), match='ac'>,
 <re.Match object; span=(0, 3), match='abc'>)

a와 c 사이에 b가 있거나 없는 조건에 만족한 경우만 반환

### 3) *기호

In [22]:
import re
r = re.compile("ab*c")
r.search("abbbbbbbbbbbbc")

<re.Match object; span=(0, 14), match='abbbbbbbbbbbbc'>

a와 b 사이 b가 0개 이상인 문자열 반환 완료

### 4) +기호

In [26]:
import re
r = re.compile("ab+c")
r.search("ac") #b가 없어서 리턴 X

In [27]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

a와 c 사이 b가 1개 이상인 경우만 반환

### 5) ^기호

In [28]:
import re
r = re.compile("^a")
r.search("bac")

In [29]:
r.search("abbb")

<re.Match object; span=(0, 1), match='a'>

문자열의 시작이 a면 반환

### 6) {숫자} 기호

In [31]:
import re
r = re.compile("ab{2}c")
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

a b b c 인 경우만 반환

### 7) {숫자1,숫자2}기호

In [32]:
import re
r = re.compile("ab{2,8}c")
r.search("abc")

In [33]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

a와 c 사이에 b가 2개 이상 8개 이하인 경우만 반환

### 8) {숫자,}기호

In [35]:
import re
r = re.compile("ab{2,}c")
r.search("abbbbbbbbbbbc")

<re.Match object; span=(0, 13), match='abbbbbbbbbbbc'>

a와 b 사이에 b가 2개 이상인 경우 반환

### 9) []기호

In [38]:
import re
r = re.compile("[a-c]")
r.search("fjeawi;fj")

<re.Match object; span=(3, 4), match='a'>

문자열에서 a,b,c 중 하나라도 매칭이 되면 해당 위치 및 값 반환

### 10) [^문자]기호

In [39]:
import re
r = re.compile("[^abc]")
r.search("aaabbbabce")

<re.Match object; span=(9, 10), match='e'>

abc 이외에 나온 문자열에 대해 반환

## 정규 표현식 모듈 함수 예제

### 1) re.match()와 re.search() 차이
- re.match()와 re.search()는 동일한 기능이지만
- re.match()는 문자열의 시작 기준, re.search()는 문자열 내에 전체 탐색


In [42]:
import re
r = re.compile("ab.")
r.search("kkkabc")

<re.Match object; span=(3, 6), match='abc'>

In [43]:
r.match("kkkabc")

search()는 찾지만, match는 처음 위치부터 아니었으므로 아무것도 반환 X

### 2) re.split()

In [44]:
import re
text = "수박 딸기 참외 멜론"
re.split(" ",text)

['수박', '딸기', '참외', '멜론']

정규표현식 중 " "(스페이스바) 기준으로 텍스트 분리

In [45]:
import re
text="""사과
딸기
참외
멜론"""
re.split("\n",text)


['사과', '딸기', '참외', '멜론']

줄바꿈 기준으로 분리

### 3) re.findall()
- 매칭되는 모든 문자열 반환

In [48]:
import re
text="""이름 : 김철수
전화번호 : 010-1234-1234
나이 : 30
성별 : 남자
"""
re.findall("\d+",text)

['010', '1234', '1234', '30']

\d+는 연속된 모든 숫자

### 4) re.sub()


In [49]:
import re
text="Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]',' ',text)

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

a-zA-Z를 제외하고 모두 " "(공백)으로 변환

## 5. 정규 표현식 텍스트 전처리 예제

In [50]:
import re  

text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

re.split('\s+', text) 

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

공백이 하나 이상인 공백들을 기준으로 텍스트 분리

In [51]:
re.findall('\d+',text)

['100', '101', '102']

숫자가 1개 이상인 문자열을 반환

In [52]:
re.findall("[A-Z]",text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

문자열 중 대문자가 있으며 반환   
+나 * 특수기호가 없어서 하나씩 반환

In [53]:
re.findall("[A-Z]{4}",text)

['PROF', 'STUD', 'STUD']

대문자로 된 문자열이 4개인 경우 반환

In [54]:
re.findall('[A-Z][a-z]+',text)

['John', 'James', 'Mac']

대문자 하나와 소문자 1개 이상인 경우 반환

## 6. 정규 표현식을 이용한 토큰화
- RegexpTokenizer

In [55]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+")
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


정규표현식 기준으로 해당하는 문자열을 토큰화

In [59]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\s]+", gaps=True)
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


gaps=True로 하면 정규표현식 문자열 기준으로 토큰을 나눔

In [60]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\s]+")
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']


gaps=True가 없어서, 정규표현식 문자열에 맞는 공백만 반환