# 정규 표현식( Regular Expression )

### 텍스트 데이터를 전처리하다보면. 정규 표현식은 아주 유용한 도구로서 사용 

### 파이썬 re 모듈과 NLTK를 통한 정규 표현식을 이용한 토큰화

## 정규 표현식 실습

## .기호 - 한 개의 임의의 문자를 나타낸다.

In [1]:
import re

In [2]:
r = re.compile( "a.c" )
r.search( "kkk" )

In [3]:
r.search( "abc" )

<re.Match object; span=(0, 3), match='abc'>

## ?기호 - ? 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있는 경우를 나타낸다.

In [4]:
r = re.compile( "ab?c" )
r.search( "abbc" )

In [5]:
r.search( "abc" )

<re.Match object; span=(0, 3), match='abc'>

In [6]:
r.search( "ac" )

<re.Match object; span=(0, 2), match='ac'>

## *기호 - 바로 앞의 문자가 0개 이상일 경우를 나타냅니다. 앞의 문자는 존재하지 않을 수도 있으며, 또는 여러 개일 수도 있습니다. 

In [7]:
r = re.compile( "ab*c" )
r.search( "a" )

In [8]:
r.search( "ac" )

<re.Match object; span=(0, 2), match='ac'>

In [9]:
r.search( "abc" )

<re.Match object; span=(0, 3), match='abc'>

In [10]:
r.search( "abbbbc" )

<re.Match object; span=(0, 6), match='abbbbc'>

## +기호 - *와 유사합니다. 하지만 다른 점은 앞의 문자가 최소 1개 이상이어야 한다는 점입니다. 

In [11]:
r = re.compile( "ab+c" )
r.search( "ac" )

In [12]:
r.search( "abc" )

<re.Match object; span=(0, 3), match='abc'>

In [13]:
r.search( "abbbbc" )

<re.Match object; span=(0, 6), match='abbbbc'>

## ^기호 - 시작되는 글자를 지정합니다.

In [14]:
r = re.compile( "^a" )
r.search( "bbc" )

In [15]:
r.search( "ab" )

<re.Match object; span=(0, 1), match='a'>

## {숫자} 기호 - 문자에 해당 기호를 붙이면, 해당 문자를 숫자만큼 반복한 것을 나타냅니다.

In [16]:
r = re.compile( "ab{2}c" )
r.search( "ac" )

In [18]:
r.search( "abc" )

In [19]:
r.search( "abbc" )

<re.Match object; span=(0, 4), match='abbc'>

In [20]:
r.search( "abbbbbc" )

## {숫자1, 숫자2} 기호 - 문자에 해당 기호를 붙이면, 해당 문자를 숫자1 이상 숫자2 이하만큼 반복합니다.

In [21]:
r = re.compile( "ab{2,8}c" )

In [22]:
r.search( "ac" )

In [23]:
r.search( "abc" )

In [24]:
r.search( "abbc" )

<re.Match object; span=(0, 4), match='abbc'>

In [25]:
r.search( "abbbbbbbbc" )

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [26]:
r.search( "abbbbbbbbbc" )

## {숫자,} 기호 - 문자에 해당 기호를 붙이면 해당 문자를 숫자 이상 만큼 반복합니다.

In [27]:
r = re.compile( "a{2,}bc" )

In [28]:
r.search( "bc" )

In [29]:
r.search( "aa" )

In [30]:
r.search( "aabc" )

<re.Match object; span=(0, 4), match='aabc'>

In [31]:
r.search( "aaaaaaaabc" )

<re.Match object; span=(0, 10), match='aaaaaaaabc'>

## [] 기호 - []안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치라는 의미를 가집니다.  범위를 지정하는 것도 가능합니다. 

In [32]:
r = re.compile( "[abc]" )

In [33]:
r.search( "zzz" )

In [34]:
r.search( "aaaaaaa" )

<re.Match object; span=(0, 1), match='a'>

In [35]:
r.search( "baac" )

<re.Match object; span=(0, 1), match='b'>

### 알파벳 소문자에 대해서만 범위 지정하여 정규 표현식 실습

In [36]:
r = re.compile( "[a-z]" )

In [37]:
r.search( "AAA" )

In [38]:
r.search( "111" )

In [39]:
r.search( "aBC" )

<re.Match object; span=(0, 1), match='a'>

## [^문자] 기호 - ^ 기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치하는 역활을 합니다.

In [40]:
r = re.compile( "[^abc]" )

In [41]:
r.search( "a" )

In [42]:
r.search( "ab" )

In [43]:
r.search( "b" )

In [44]:
r.search( "d" )

<re.Match object; span=(0, 1), match='d'>

In [45]:
r.search( "1" )

<re.Match object; span=(0, 1), match='1'>

## 정규 표현식 모듈 함수

## re.match() 와 re.search()의 차이 

### search()가 정규 표현식 전체에 대해서 문자열이 매치하는지를 본다면, match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지를 확인합니다.

### 문자열 중간에 찾을 패턴이 있다고 하더라도, match 함수는 문자열의 시작에서 패턴이 일치하지 않으면 찾지 않습니다.

In [47]:
r = re.compile( "ab." )

In [48]:
r.search( "kkkabc" )

<re.Match object; span=(3, 6), match='abc'>

In [49]:
r.match( "kkkabc" )

In [50]:
r.match( "abckkk" )

<re.Match object; span=(0, 3), match='abc'>

## re.split()

### 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴합니다. 자연어 처리에 있어서 가장 많이 사용되는 정규 표현식 함수중 하나인데, 토큰화에 유용하게 사용

In [52]:
text = "사과 딸기 수박 멜론 바나나"
re.split( " ", text )

['사과', '딸기', '수박', '멜론', '바나나']

In [53]:
text = """사과
딸기
수박
멜론
바나나
"""
re.split( "\n", text )

['사과', '딸기', '수박', '멜론', '바나나', '']

In [54]:
text = "사과+딸기+수박+멜론+바나나"
re.split( "\+", text )

['사과', '딸기', '수박', '멜론', '바나나']

## re.findall()

### 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴합니다. 단, 매치되는 문자열이 없다면 빈 리스트를 리턴합니다.

In [55]:
text = """
이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남
"""

In [56]:
re.findall( "\d+", text )

['010', '1234', '1234', '30']

In [57]:
re.findall( "\d+", "문자열입니다." )

[]

## re.sub()

### 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체할 수 있습니다.

In [58]:
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

In [59]:
re.sub( '[^a-zA-Z]', ' ', text )

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

# 정규 표현식 텍스트 전처리

In [60]:
text = """
100 John    PROF
101 James   STUD
102 Mac     STUD
"""

In [61]:
re.split( '\s+', text )

['', '100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD', '']

### '\s+'는 공백을 찾아내는 정규 표현식, +는 최소 1개 이상의 패턴을 찾아낸다는 의미, s는 공백을 의미, 최소 1개 이상의 공백인 패턴을 찾아낸다.

### 공백을 기준으로 구분되었으며, 이제 숫자만을 뽑아온다.

In [62]:
re.findall( '\d+', text )

['100', '101', '102']

### \d는 숫자에 해당하는 정규 표현식. +를 붙였으므로 최소 1개 이상의 숫자에 해당하는 값을 의미

### 텍스트로부터 대문자인 행의 값만 추출

In [63]:
re.findall( '[A-Z]', text )

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

### 대문자가 연속으로 4번 등장하는 경우로 조건 추가

In [64]:
re.findall( '[A-Z]{4}', text )

['PROF', 'STUD', 'STUD']

### 이름인 경우에는 대문자와 소문자가 섞여있는 상황입니다. 처음 대문자가 등장하고, 그 후에 소문자가 여러번 등장한다.

In [65]:
re.findall( '[A-Z][a-z]+', text )

['John', 'James', 'Mac']

In [67]:
letters_only = re.sub( '[^a-zA-Z]', ' ', text )
print( letters_only )

     John    PROF     James   STUD     Mac     STUD 


# 정규 표현식을 이용한 토큰화

### NLTK에서는 정규 표현식을 사용해서 단어 토큰화를 수행하는 RegexpTokenizer는 지원

In [70]:
import nltk
from nltk.tokenize import RegexpTokenizer

In [71]:
tokenizer = RegexpTokenizer( "[\w]+" )
print( tokenizer.tokenize( "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pas try shop" ) )

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pas', 'try', 'shop']


### \+는 문자 또는 숫자가 1개 이상인 경우를 인식, 문자에서 구두점을 제외하고 단어들만을 가지고 토큰화를 수행

In [73]:
tokenizer = RegexpTokenizer( "[\s]+", gaps = True )
print( tokenizer.tokenize( "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pas try shop" ) )

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pas', 'try', 'shop']


### RegexpTokenizer()에 토큰을 나누기 위한 기준을 입력할 수도 있다. gaps = True는 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용한다는 의미, 없으면 공백들만 추출