# 정규 표현식 모듈 함수 예제

serach()가 정규 표현식 전체에 대해서 문자열이 매치하는지 파악

match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지 파악

In [1]:
import re
r=re.compile("ab.")

r.search("kkkabc")  

<re.Match object; span=(3, 6), match='abc'>

In [2]:
r.match("abckkk") 

<re.Match object; span=(0, 3), match='abc'>

split() 함수는 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴

In [3]:
import re
text="사과 딸기 수박 메론 바나나"
re.split(" ",text)

['사과', '딸기', '수박', '메론', '바나나']

In [4]:
import re
text="""사과
딸기
수박
메론
바나나"""
re.split("\n",text)

['사과', '딸기', '수박', '메론', '바나나']

In [5]:
import re
text="사과+딸기+수박+메론+바나나"
re.split("\+",text)
['사과', '딸기', '수박', '메론', '바나나']  

['사과', '딸기', '수박', '메론', '바나나']

re.findall() 함수는 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴한다

In [6]:
import re
text="""이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""  
re.findall("\d+",text)

['010', '1234', '1234', '30']

re.sub() 함수는 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체

In [7]:
import re
text="Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]',' ',text)

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

# 정규 표현식 텍스트 전처리 예제

In [8]:
import re  

text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

re.split('\s+', text)   #'\s+'는 공백을 찾아내는 정규표현식

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [10]:
re.findall('\d+',text)   
#''\d'는 숫자에 해당되는 정규표현식 , 
# +를 붙였으므로 최소 1개 이상의 숫자에 해당하는 값을 의미

['100', '101', '102']

In [11]:
re.findall('[A-Z]',text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [12]:
re.findall('[A-Z]{4}',text)  #대문자가 연속적으로 4번 등장하는 경우로 조건을 추가

['PROF', 'STUD', 'STUD']

In [13]:
re.findall('[A-Z][a-z]+',text)
#이름의 경우에는 대문자와 소문자가 섞여있는 상황입니다. 
#이름에 대한 행의 값을 갖고오고 싶다면 처음에 대문자가 등장하고, 
#그 후에 소문자가 여러번 등장하는 경우에 매치

['John', 'James', 'Mac']

# 정규 표현식을 이용한 토큰화

In [15]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+") 
# RegexpTokenizer()에서 괄호 안에 원하는 정규 표현식을 넣어서 토큰화
# \+는 문자 또는 숫자가 1개 이상인 경우를 인식하는 코드
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [16]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\s]+", gaps=True)
# 공백을 기준으로 문장을 토큰화
# gaps=true는 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용한다는 의미
# 만약 gaps=True라는 부분을 기재하지 않는다면, 토큰화의 결과는 공백
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [17]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\s]+")
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']
