###### 2020-10-26 월요일

# 05 정규표현식(Regular Expression)
   - 텍스트데이터를 전처리하다보면, 정규표현식은 아주 유용한 도구로써 사용된다.
   - 이번 챕터에서는 파이썬에서 지원하는 정규표현 모듈인 **re**의 사용법과 `NLTK`를 통한 정규표현식을 이용한 토큰화에 대해 알아보자

### 목차

##### 5-1 정규표현식문법과 모듈함수

##### 5-2 정규표현식 실습

##### 5-3 정규표현식 모듈함수 예제

##### 5-4 정규표현식 텍스트 전처리 예제

##### 5-5 정규표현식을 이용한 토큰화

## 5-1 정규표현식문법과 모듈함수
   - 파이썬에서 지원하는 정규표현식 모듈 **re**를 사용하여 텍스트데이터를 빠르게 정제할 수 있다.
   - 본격적인 정규표현식을 알아보기 전에 정규표현식에 사용되는 특수문자와 모듈함수에 대해 알아보자

### (1) 정규표현식 문법
   **정규표현식을 위해 사용되는 문법 중 특수 문자들은 다음과 같다.**


   1. `.` : 한 개의 임의의 문자를 나타낸다. (줄바꿈 문자인 `\n`은 제외)
   2. `?` : 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있다. (문자가 0개 또는 1개)
   3. `*` : 앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있다. (문자가 0개 이상)
   4. `+` : 앞의 문자가 최소 한 개 이상 존재한다. (문자가 한개 이상)
   5. `^` : 뒤의 문자로 문자열이 시작된다.
   6. `$` : 앞의 문자로 문자열이 끝난다.
   6. `{숫지}` : 숫자만큼 반복한다.
   7. `{숫자1,숫자2}` : `숫자1` 이상 `숫자2`이하만큼 반복한다. `?`, `*`, `+`를 이것으로 대체할 수 있다.
   8. `{숫자,}` : `숫자` 이상만큼 반복한다.
   9. `[]` : 대괄호 안의 문자들 중 한개의 문자와 매치한다.
       - 예를들어 `[amk]`라고 한다면, `a`, `m`, `k`중 하나라도 존재하면 매치를 의미한다.
       - `[a-z]`와 같이 `-`를 이용하여 범위를 지정할 수도 있다.
       - `[a-zA-Z]`는 알파벳 전체를 의미하고, `[가-힇]`은 한글 전체를 의미한다.
   10. `[^문자]` : 해당 문자를 제외한 문자를 매치한다.
   11. `|` : `A|B`와 같이 쓰이며 A 또는 B의 의미를 가진다.

##### 정규표현식문법에는 역 슬래쉬(`\`)를 이용하여 자주 쓰이는 문자 규칙들이 있다.

   13. `\\` : 역 슬래쉬 문자 자체를 의미한다.
   14. `\d` : 모든 숫자를 의미한다. `[0-9]`와 의미가 같다
   15. `\D` : 숫자를 제외한 모든 문자를 의미한다. `[^0-9]`와 의미가 동일하다.
   16. `\s` : 공백을 의미한다. `[\t\n\t\f\v]`와 의미가 동일하다.
   17. `\S` : 공백을 제외한 문자를 의미한다. `[^\t\n\r\f\v]`와 의미가 동일하다.
   18. `\w` : 문자 또는 숫자를 의미한다. `[a-zA-Z0-9]`와 의미가 동일하다.
   19. `\W` : 문자 또는 숫자가 아닌 문자를 의미한다. `[^a-zA-Z0-9]`와 의미가 동일하다.

### (2) 정규표현식 모듈 함수
   **정규표현식에서 지원하는 함수들은 다음과 같다.**

   1. `re.compile()` : 정규표현식을 컴파일 하는 함수이다. 찾고자 하는 패턴이 빈번한 경우에는 미리 컴파일해놓고 사용하면 속도와 편의성 면에서 유리하다.
   2. `re.search()` : 문자열 전체에 대해서 정규표현식과 매치되는지를 검색한다.
   3. `re.match()` : 문자열의 처음이 정규표현식과 매치되는지를 검색한다.
   4. `re.split()` : 정규표현식을 기준으로 문자열을 분리하여 리스트로 리턴한다.
   5. `re.finall()` : 문자열에서 정규표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴한다. 만약, 매치되는 문자열이 없다면 빈 리스트가 된다.
   6. `re.finditer()` : 문자열에서 정규표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체를 리턴한다.
   7. `re.sub()` : 문자열에서 정규표현식과 일치하는 부분에 대해서 다른 문자열로 대체한다.

## 5-2 정규표현식 실습
   - `5-1`에서 정리한 정규표현식문법과 함수에 대해 실습을 진행하자

### (1) `.`기호
   - `.`은 한개의 임의의 문자를 나타낸다.
   - 예를들어 `a.c`라는 정규표현식은 `a`와 `c` 사이에 어떠한 문자 1개가 올 수 있다는 뜻이다.
       - 즉, `aBc`, `a5c`, `akc`, `a&c` 따위의 문자는 모두 `a.c`의 정규표현식과 매치된다.
   - 실습을 해보자

In [1]:
import re
r = re.compile('a.c')
r.search('kkk')

##### 위 결과에서
'kkk'라는 문자는 `a.c`라는 정규표현식과 매치되지 않기 때문에 아무런 결과도 출력되지 않는다.

In [2]:
import re
r = re.compile('a.c')
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

##### 위 결과에서
'abc'라는 문자는 a.c라는 정규표현식과 매치되기 때문에 매치결과 'abc'를 출력한다.

### (2) `?`기호
   - `?`는 `?`앞의 문자가 존재할 수도 있고 존재하지 않을 수도 있다.
   - 더욱 긴소리 하지 않고 실습해보자

In [9]:
import re
r = re.compile("ab?c")
print(r.search('abc'))
print(r.search('ac'))

<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 2), match='ac'>


##### 위 결과에서
문자열 'abc'와 'ac' 모두 정규표현식 `ab?c`와 매치됨을 확인할 수 있다.

### (3) `*`기호
   - `*`는 *의 바로앞의 문자가 0개 이상일 경우를 나타낸다.
   - `*`의 바로 앞의 문자가 하나 혹은 그 이상 존재할 수도 있고 없을 수도 있다.

In [15]:
import re
r = re.compile("ab*c")
print(r.search("c"))
print(r.search("ac"))  # *앞에 문자(b)가 존재하지 않거나
print(r.search("abc"))  # *앞에 문자(b)가 하나 존재하거나
print(r.search("abbbc")) # *앞에 문자(b)가 여러개 존재하거나

None
<re.Match object; span=(0, 2), match='ac'>
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 5), match='abbbc'>


### (4) `+` 기호
   - `+`는 `*`과 유사하지만 한가지 차이점은 `+`앞의 문자는 최소 하나이상 이어야한다.

In [16]:
import re
r = re.compile('ab+c')
print(r.search('ac'))  # + 앞에 지정문자(b)가 존재하지 않는경우 매치되지 않는다
print(r.search('abc'))
print(r.search('abbbc'))

None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 5), match='abbbc'>


### (5) `^` 기호
   - `^`는 시작되는 글자를 지정한다. 
   - 정규표현식 `^a`는 a로 시작하는 단어들을 매치한다.

In [18]:
import re
r = re.compile("^a")
print(r.search("abcdefg"))
print(r.search("bbbccc"))

<re.Match object; span=(0, 1), match='a'>
None


### (6) `{숫자}` 기호
   - 문자 뒤에 해당기호`{숫자}`를 붙이면, 해당기호 숫자만큼 문자가 반복되는 것을 의미한다.

In [19]:
import re
r = re.compile("ab{2}c")
print(r.search('abc'))
print(r.search('abbc'))
print(r.search('abbbc'))

None
<re.Match object; span=(0, 4), match='abbc'>
None


### (7) `{숫자1,숫자2}` 기호
   - 문자 뒤에 해당기호 `{숫자1, 숫자2}`를 붙이면, 해당 문자를 숫자1이상 숫자2이하 만큼 반복되는 것을 의미한다.

In [21]:
import re
r = re.compile("ab{2,5}c")
print(r.search('abc'))
print(r.search('abbc'))
print(r.search('abbbbbbc'))

None
<re.Match object; span=(0, 4), match='abbc'>
None


### (8) `{숫자,}` 기호
   - 문자 뒤에 해당기호 `{숫자,}`를 붙이면, 숫자이상 만큼 반복되는 것을 의미한다.

In [23]:
import re
r = re.compile("a{2,}bc")
print(r.search("abc"))
print(r.search("aabc"))
print(r.search("aaaabc"))

None
<re.Match object; span=(0, 4), match='aabc'>
<re.Match object; span=(0, 6), match='aaaabc'>


### (9) `[ ]` 기호
   - `[ ] `안에 문자들을 넣으면, `[ ]`안에 포함된 문자중 한개와 매치되는 것을 의미한다.

In [24]:
import re
r = re.compile('[abc]')
print(r.search('kkk'))
print(r.search('a'))
print(r.search('b'))
print(r.search('c'))
print(r.search('ab'))
print(r.search('bc'))
print(r.search('abc'))

None
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='b'>
<re.Match object; span=(0, 1), match='c'>
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='b'>
<re.Match object; span=(0, 1), match='a'>


### (10) `[^문자]` 기호
   - `(5) ^ 기호`와는 완전 다른 의미이다.
   - 괄호안(`[]`)의 `^` 기호는 `^`뒤에 붙은 문자들을 제외한 모든 문자를 매치하는 것을 의미한다.
  

In [26]:
import re
r = re.compile("[^abc]")
print(r.search("ahhhhh"))
print(r.search("hhhhh"))
print(r.search("bhhhhh"))
print(r.search("chhhhh"))
print(r.search("ab"))
print(r.search("abc"))

<re.Match object; span=(1, 2), match='h'>
<re.Match object; span=(0, 1), match='h'>
<re.Match object; span=(1, 2), match='h'>
<re.Match object; span=(1, 2), match='h'>
None
None


## 5-3 정규표현식 모듈함수 예제

   - **5-2**에서는 `re.compile()`과 `re.search()`만 사용하였다.


###### 이번에는 다른 정규표현식 모듈함수에 대해서도 직접 실습해 보자

### (1) `re.match()`와 `re.search()`의 차이
   - `re.search()`은 문자열 전체 부분에 대하여 정규표현식에 매치되는 부분이 있으면 모두 찾는다.
   - `re.match()`는 문자열의 첫 부분부터 정규표현식과 매치하는지를 확인한다. 만약 문자열 중간에 찾을 패턴이 있더라도, 문자의 시작부분의 패턴이 정규표현식과 일치하지 않는다면, 찾지 않는다

In [27]:
import re
r = re.compile('abc')

print(r.search("kkkabc"))
print(r.search("abckkk"))

print(r.match("kkkabc"))  # re.match()는 문자열 중간에 정규표현식과 매치되는 부분이 있어도, 문자열 시작부분이 일치하지 않기떄문에 매치되지 않는다.
print(r.match("abckkk"))

<re.Match object; span=(3, 6), match='abc'>
<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 3), match='abc'>


### (2) `re.spilt()`
   - 입력한 정규표현식을 기준으로 문자열을 나누고 리스트형식으로 리턴한다
   - 직접 실습해보는 것이 가장 이해가 빠르다.

In [29]:
import re

r = re.compile('ab')
print(r.split("hhhabkkk"))

r = re.compile('\+')
print(r.split("사과+바나나+딸기+수박"))

['hhh', 'kkk']
['사과', '바나나', '딸기', '수박']


##### 위의 `r = re.compile('\+')`의 경우처럼..
   - `+`는 정규표현식문법에서 많이 사용되지만, 앞에 `\`를 붙인 `\+` 형태가 된다면, `+`는 더이상 정규표현식 문법이 아니라 문자 그자체로 인식된다. 

### (3) `re.findall()`
   - 문자열에서 정규표현식과 매치되는 모든 문자열을 리스트형태로 반환한다.

In [33]:
import re

text = "My number is 010-2222- 2999. Please call me back at 9pm?"

r = re.compile("\d+")  # 숫자가 하나이상인 경우 매치되었음
r.findall(text)

['010', '2222', '2999', '9']

### (4) `re.sub()`
   - 문자열에서 정규표현식과 일치하는 문자열을 다른 문자열로 대체한다.

In [37]:
import re
text="Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

re.sub("[^a-zA-Z]", '', text) # 모든 대소문자 알파벳을 제외한 문자를 지운다

'RegularexpressionAregularexpressionregexorregexpsometimescalledarationalexpressionisintheoreticalcomputerscienceandformallanguagetheoryasequenceofcharactersthatdefineasearchpattern'

## 5-4 정규표현식 텍스트 전처리 예제
   - 바로 실습해보자~

##### 주어진 텍스트(`text`)에서
   1. 빈칸을 기준으로 나누어 `split_list` 리스트에 담아라
   2. `text`에서 숫자만을 추출하라
   3. `text`에서 대문자로만 이루어진 문자열을 추출하라
   4. `text`에서 첫글자가 대문자인 문자열만 추출하라. 

##### 1. 빈칸을 기준으로 나누어 `split_list` 리스트에 담아라

In [39]:
import re

text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

split_list = re.split('\s+', text)
print(split_list)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']


##### 2. `text`에서 숫자만을 추출하라

In [42]:
only_number = re.findall("\d+", text)
only_number

['100', '101', '102']

##### 3. `text`에서 대문자로만 이루어진 문자열을 추출하라

In [46]:
re.findall("[A-Z]{2,}", text)

['PROF', 'STUD', 'STUD']

##### 4. `text`에서 첫글자가 대문자인 문자열만 추출하라.

In [53]:
re.findall("[A-Z][a-z]{2,}", text)

['John', 'James', 'Mac']

보강 예정

https://www.machinelearningplus.com/python/python-regex-tutorial-examples/ https://docs.python.org/3.6/library/re.html#re.regex.search https://kimdoky.github.io/tech/2017/06/11/regular-2.html http://blog.naver.com/javaking75/220702756707


##### 이게 무슨뜻인지 모르겟다 홈페이지에 이렇게 적혀있던데..?

## 5-5 정규표현식을 이용한 토큰화

   - `NLTK` 에서는 정규표현식을 사용하여 단어토큰화를 수행하는 `RegexpTokenizer`를 지원한다. 
   - `RegexpTokenizer()`에서 괄호안에 원하는 정규표현식을 넣어 토큰화를 수행하는 것이다.

In [2]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+")
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


   - 위 정규표현식 `[\w]+`는 문자 또는 숫자가 1개이상인 경우를 인식하는 코드이다.
   - 즉, 이 코드는 문장에서 구두점을 제외하고, 단어들만을 가지고 토큰화를 수행한다.

##### 위에서 `RegexpTokenizer()`안에 정규표현식을 입력하고, 정규표현식에 맞는 단어들만 토큰을 진행한다고 하였다.
##### `RegexpTokenizer()`안에 정규표현식을 입력하고 `gaps=True`라는 옵션을 주게되면, 토큰을 나누는 `기준`으로 설정할 수도 있다.

In [3]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\s]+", gaps=True)
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


   - `RegexpTokenizer("[\s]+", gaps=True)`라고 지정하였다. 그러므로 정규표현식인 `[\s]+`(공백)을 기준으로 토큰화를 진행하였다고 생각하면 된다