# 텍스트 전처리

## 정규표현식(Regular Expression)

In [1]:
import re

### 정규표현식 실습

- . 기호 : 한 개의 임의의 문자

In [2]:
re.search('a.c', 'kkk')

In [3]:
re.search('a.c','abc')

<re.Match object; span=(0, 3), match='abc'>

- ? 기호 : 문자가 0개 또는 1개

In [4]:
r = re.compile('ab?c')
r.search('abbc')

In [5]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [6]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

- \* 기호 : 앞의 문자가 0개 이상

In [7]:
r = re.compile('ab*c')
r.search('a')

In [8]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

In [9]:
r.search('abbbbbc')

<re.Match object; span=(0, 7), match='abbbbbc'>

- \+ 기호 : 앞의 문자가 1개 이상

In [10]:
r = re.compile('ab+c')
r.search('ac')

In [11]:
r.search('abbbbbc')

<re.Match object; span=(0, 7), match='abbbbbc'>

- ^ 기호 : 시작되는 글자 지정

In [12]:
re.search('^a', 'bbc')

In [13]:
re.search('^a','ab')

<re.Match object; span=(0, 1), match='a'>

- {숫자} 기호 : 해당 문자를 숫자만큼 반복

In [14]:
r = re.compile('ab{2}c')
r.search('ac')
r.search('abc')

In [15]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

- {숫자1, 숫자2} : 해당 문자를 숫자1 이상 숫자2 이하만큼 반복

In [16]:
r = re.compile('ab{2,8}c')
r.search('ac')
r.search('abc')

In [17]:
r.search('abbbbbc')

<re.Match object; span=(0, 7), match='abbbbbc'>

- \[ \] 기호 : 문자들 중 한개의 문자와 매치

In [18]:
r=re.compile("[abc]") # [abc]는 [a-c]와 같다.
r.search("zzz")

In [19]:
r.search('baac')

<re.Match object; span=(0, 1), match='b'>

In [20]:
# 소문자
re.search('[a-z]', 'ABC')

In [21]:
re.search('[a-z]', 'AbC')

<re.Match object; span=(1, 2), match='b'>

In [22]:
# 문자 또는 숫자
re.search('[0-9A-Za-z]', '$%^&')
re.search('\w', '$%^&')

- [^문자] 기호 : 해당 문자를 제외한 문자를 매치

In [23]:
r=re.compile("[^abc]")
r.search("a")
r.search("ab") 
r.search("b") 

In [24]:
r.search("d1")

<re.Match object; span=(0, 1), match='d'>

In [26]:
# 한글과 공백 이외의 모든 문자를 제거
re.sub('[^ㄱ-ㅎㅏ-ㅣ가-힣 ]', '', '^ 기호 뒤에 붙은 문자.')

' 기호 뒤에 붙은 문자'

### re 모듈함수

- re.match() : 문자열의 처음이 정규표현식과 매치되는지를 검색
- re.search() : 문자열 전체에 대해서 정규표현식과 매치되는지를 검색

In [27]:
re.match('ab', 'kkkabc')

In [28]:
re.search('ab.', 'kkkabc')

<re.Match object; span=(3, 6), match='abc'>

- re.split() : 정규표현식을 기준으로 문자열을 분리하여 리스트로 리턴

In [29]:
text="사과 딸기 수박 메론 바나나"
re.split(" ",text)

['사과', '딸기', '수박', '메론', '바나나']

In [30]:
text.split()

['사과', '딸기', '수박', '메론', '바나나']

In [31]:
text="""사과      딸기
 수박
메론            바나나"""
text.split()        # '\s+'가 default

['사과', '딸기', '수박', '메론', '바나나']

In [32]:
re.split('\s+', text)

['사과', '딸기', '수박', '메론', '바나나']

- re.findall() : 문자열에서 정규표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴

In [33]:
text="""이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""  
re.findall("\d+",text)

['010', '1234', '1234', '30']

In [34]:
# 매치되는 문자열이 없다면 빈 리스트가 리턴
re.findall('\d+', '김철수')

[]

- re.sub() : 문자열에서 정규표현식과 일치하는 부분에 대해서 다른 문자열로 대체

In [35]:
text = """Regular expression : A regular expression, regex or regexp[1] 
(sometimes called a rational expression)[2][3] 
is, in theoretical computer science and formal language theory, 
a sequence of characters that define a search pattern."""
re.sub('[^a-zA-Z]',' ',text)

'Regular expression   A regular expression  regex or regexp      sometimes called a rational expression         is  in theoretical computer science and formal language theory   a sequence of characters that define a search pattern '

### 정규표현식 텍스트 전처리 예제

In [36]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

re.split('\s+', text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [37]:
re.findall('\d+',text)

['100', '101', '102']

In [39]:
re.findall('[A-Z]+',text)

['J', 'PROF', 'J', 'STUD', 'M', 'STUD']

In [40]:
# 대문자만 연속적으로 4번 등장하는 문자
re.findall('[A-Z]{4}',text)

['PROF', 'STUD', 'STUD']

In [41]:
# 첫글자 대문자, 나머지 소문자
re.findall('[A-Z][a-z]+',text)

['John', 'James', 'Mac']