# 딥 러닝을 이용한 자연어 처리 입문

https://wikidocs.net/22660

## 02. 텍스트 전처리(text preprocessing)

분석에 앞서 텍스트를 사전에 분류하는 작업

### 02-5 정규표현식(Regular Expression) 



### 1. 정규 표현식 문법과 모듈 함수

#### 1) 정규 표현식 문법

    . : 한개의 임의의 문자(줄바꿈 \n제외)
    ? : 앞의 문자가 0개 or 1개
    * : 앞의 문자가 0개 이상
    + : 앞의 문자가 1개 이상
    ^ : 뒤의 문자로 문자열 시작
    $ : 앞의 문자로 문자열 끝남
    {숫자} : 숫자만큼 반복
    {숫자1, 숫자2} : 숫자1 <=  <= 숫자2 만큼 반복
    {숫자, } : 숫자 이상만큼 반복
    [] : 안의 문자들 중 한개(one character) 문자와 매치
        ex) [amk] : a 또는 m 또는 k
            [a-zA-Z] : 알파벳 전체(대소문자 둘다) 중에 하나
    [^문자] : 해당 문자를 제외한 문자
    | : 또는

    \\ : 역슬래쉬 문자 자체
    \d : 모든 숫자 중 하나 [0-9]와 동일
    \D : 숫자를 제외한 모든 문자 [^0-9]와 동일
    \s : 공백 의미
    \S : 공백을 제외한 문자
    \w : 문자 or 숫자 [a-zA-Z0-9] 와 동일
    \W : 문자 또는 숫자가 아닌 문자 [^a-zA-Z0-9]와 동일

#### 2) 정규표현식 모듈 함수

    re.compile()
    re.search() : 문자열 전체에 대해 정규표현식과 매치되는지 검색
    re.match() : 문자열 처음이 ~~
    re.split() : 정규표현식 기준으로 문자 분리
    re.findall() : 문자열 전체에 대해 정규표현식과 매치되는 문자열 모두 검색
    re.finditer() : 매치되는 모든 경우의 문자열에 대한 iterator 객체 리턴
    re.sub() : 정규표현식과 일치하는 부분을 다른 문자열로 대체

### 2. 정규 표현식 실습

#### 1) . 기호

임의의 한개의 문자를 나타낸다. 

In [4]:
import re
r = re.compile("a.c")

print(r.search('kkk'))
print(r.search('abc'))
print(r.search('ac'))

None
<_sre.SRE_Match object; span=(0, 3), match='abc'>
None


#### 2) ?기호

?앞의 문자가 존재 or 존재 X : 즉, 0개 or 1개

In [5]:
import re
r = re.compile('ab?c')

print(r.search('abbc'))
print(r.search('abc'))
print(r.search('ac'))

None
<_sre.SRE_Match object; span=(0, 3), match='abc'>
<_sre.SRE_Match object; span=(0, 2), match='ac'>


#### 3) * 기호

앞의 문자가 0개 이상인 경우 : 존재할수도 있고 하지 않을수도 있다.

In [6]:
import re
r= re.compile('ab*c')

print(r.search('a'))
print(r.search('ac'))
print(r.search('abc'))
print(r.search('abbbbbbbbbbbbbbc'))

None
<_sre.SRE_Match object; span=(0, 2), match='ac'>
<_sre.SRE_Match object; span=(0, 3), match='abc'>
<_sre.SRE_Match object; span=(0, 16), match='abbbbbbbbbbbbbbc'>


#### 4) + 기호
 '* 과 유사 : 대신 1개 이상인 경우

In [7]:
import re
r = re.compile('ab+c')

print(r.search('a'))
print(r.search('ac'))
print(r.search('abc'))
print(r.search('abbbbbbbbbbbbbbbbc'))

# 위와 결과가 다르다. 'ac' 인 경우에 대해
# b 가 1개 이상 나와야 매칭되기 때문

None
None
<_sre.SRE_Match object; span=(0, 3), match='abc'>
<_sre.SRE_Match object; span=(0, 18), match='abbbbbbbbbbbbbbbbc'>


#### 5) ^ 기호

시작되는 문자를 지정

주의 : [] 안의 ^와는 다른 개념이다

In [13]:
import re
r = re.compile('^ab[0-9]') # ab로 시작하는 문자

print(r.search('ab8'))
print(r.search('abc9'))
print(r.search('aaa'))
print(r.search('bcaaa'))

# re객체(정규표현식) 에 해당되는 부분만 match로 나온다.

<_sre.SRE_Match object; span=(0, 3), match='ab8'>
None
None
None


#### 6) {숫자} 기호

앞의 문자가 숫자 만큼 반복

In [9]:
import re
r = re.compile('ab{2}c')

print(r.search('ac'))
print(r.search('abc'))
print(r.search('abbc'))
print(r.search('abb'))

None
None
<_sre.SRE_Match object; span=(0, 4), match='abbc'>
None


#### 7) {숫자1, 숫자2} 기호

앞의 문자가 숫자1 이상 숫자2 이하만큼 반복

In [15]:
import re
r = re.compile('ab{1,3}c')

print(r.search('ac'))
print(r.search('abc'))
print(r.search('abbc'))
print(r.search('abbbc'))
print(r.search('abbbbc'))

None
<_sre.SRE_Match object; span=(0, 3), match='abc'>
<_sre.SRE_Match object; span=(0, 4), match='abbc'>
<_sre.SRE_Match object; span=(0, 5), match='abbbc'>
None


#### 8) {숫자, } 기호

앞의 문자가 숫자 이상만큼 반복

In [16]:
import re
r = re.compile('ab{2,}c')

print(r.search('ac'))
print(r.search('abc'))
print(r.search('abbc'))
print(r.search('abbbbbbbbbbbbbc'))

None
None
<_sre.SRE_Match object; span=(0, 4), match='abbc'>
<_sre.SRE_Match object; span=(0, 15), match='abbbbbbbbbbbbbc'>


#### 9) [] 기호

안의 문자들 중 하나만 매치

[abc] : a 또는 b 또는 c

[a-zA-Z] : 알파벳 전체 중 하나

[0-9] : 0 ~ 9 중 하나

In [17]:
import re
r = re.compile('[abc]')
print(r.search('z'))
print(r.search('a'))
print(r.search('b'))
print(r.search('c'))
print(r.search('ab'))

None
<_sre.SRE_Match object; span=(0, 1), match='a'>
<_sre.SRE_Match object; span=(0, 1), match='b'>
<_sre.SRE_Match object; span=(0, 1), match='c'>
<_sre.SRE_Match object; span=(0, 1), match='a'>
