# Ch02. 텍스트 전처리 (Text Preprocessing)

# v05. 정규 표현식 (Regular Expression)

## 5.1 정규 표현식 문법과 모듈 함수

- 파이썬에서는 정규 표현식 모듈 `re`을 지원
- 이를 이용하면 특정 규칙이 있는 텍스트 데이터를 빠르게 정제할 수 있다

<br>

### 5.1.1 정규 표현식 문법

#### 5.1.1.1 특수문자

- 정규 표현식을 위해 사용되는 문법 중 **특수 문자들**은 아래와 같다.

|     특수문자     | 설명                                                         |
| :--------------: | ------------------------------------------------------------ |
|       `.`        | - 한 개의 임의의 문자를 나타냄<br />- 줄바꿈 문자인 `\n`은 제외 |
|       `?`        | - 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있다.<br />- 문자가 0개 또는 1개 |
|       `*`        | - 앞의 문자가 무한 개로 존재할 수도 있고, 존재하지 않을 수도 있다.<br />- 문자가 0개 이상 |
|       `+`        | - 앞의 문자가 최소 한 개 이상 존재<br />- 문자가 1개 이상    |
|       `^`        | - 뒤의 문자로 문자열이 시작됨                                |
|       `$`        | - 앞의 문자로 문자열이 끝남                                  |
|     `{숫자}`     | - 숫자만큼 반복                                              |
| `{숫자1, 숫자2}` | - 숫자1 이상 숫자2 이하만큼 반복<br />- `?`, `*`, `+`를 이것으로 대체할 수 있다. |
|    `{숫자,}`     | - 숫자 이상만큼 반복                                         |
|       `[]`       | - 대괄호 안의 문자들 중 한 개의 문자와 매치<br />- `[amk]` : `a` 또는 `m` 또는 `k` 중 하나라도 존재하면 매치를 의미<br />- `[a-z]` : `-`를 이용해 범위를 지정할 수 있음<br />- `[a-zA-Z]` : 알파벳 전체를 의미하는 범위 (문자열에 알파벳이 존재하면 매치를 의미) |
|    `[^문자]`     | - 해당 문자를 제외한 문자를 매치                             |
|       `|`        | - `A|B` : `A` 또는 `B`의 의미를 가짐                         |

<br>

#### 5.1.1.2 역 슬래쉬(`\`)를 이용한 문자 규칙

- 정규 표현식 문법에는 역 슬래쉬(`\`)를 이용하여 자주 쓰이는 문자 규칙들이 있다.

| 문자 규칙 | 설명                                                         |
| :-------: | ------------------------------------------------------------ |
|   `\\`    | - 역 슬래쉬 문자 자체를 의미                                 |
|   `\d`    | - 모든 숫자를 의미<br />- `[0-9]`와 의미가 동일              |
|   `\D`    | - 숫자를 제외한 모든 문자를 의미<br />- `[^0-9]`와 의미가 동일 |
|   `\s`    | - 공백을 의미<br />- `[\t\n\r\f\v]`와 의미가 동일            |
|   `\S`    | - 공백을 제외한 문자를 의미<br />- `[^ \t\n\r\f\v]`와 의미가 동일 |
|   `\w`    | - 문자 또는 숫자를 의미<br />- `[a-zA-Z0-9]`와 의미가 동일   |
|   `\W`    | - 문자 또는 숫자가 아닌 문자를 의미<br />- `[^a-zA-Z0-9]`와 의미가 동일 |

<br>

### 5.1.2 정규 표현식 모듈 함수

- 정규 표현식 모듈에서 지원하는 함수는 이와 같다.

|    모듈 함수    | 설명                                                         |
| :-------------: | ------------------------------------------------------------ |
| `re.compile()`  | - 정규표현식을 컴파일하는 함수<br />- 다시 말해, 파이썬에게 전해주는 역할을 함<br />- 찾고자 하는 패턴이 빈번한 경우에는 미리 컴파일해놓고 사용하면 속도와 편의성면에서 유리 |
|  `re.search()`  | - 문자열 전체에 대해서 정규표현식과 매치되는 지를 검색<br />- 매치된다면 `Match Object`를 리턴<br />- 매치되지 않으면 아무런 값도 출력되지 않음 |
|  `re.match()`   | - 문자열의 처음이 정규표현식과 매치되는 지를 검색            |
|  `re.split()`   | - 정규표현식을 기준으로 문자열을 분리하여 리스트로 리턴      |
| `re.findall()`  | - 문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴<br />- 만약, 매치되는 문자열이 없다면 빈 리스트가 리턴됨 |
| `re.finditer()` | - 문자열에서 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체를 리턴 |
|   `re.sub()`    | - 문자열에서 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체 |

<br>

## 5.2 정규 표현식 실습

- 앞서 표로 봤던 정규 표현식 특수 문자에 대해서 직접 예제를 통해 이해

<br>

### 5.2.1 `.` 기호

- `.`은 한 개의 임의의 문자를 나타낸다.  
  
  
- ex) 정규표현식이 `a.c`
  - `a`와 `c` 사이에는 어떤 1개의 문자라도 올 수 있다.
  - `akc`, `azc`, `avc`, `a5c`, `a!c` 와 같은 형태는 모두 `a.c` 정규 표현식과 매치된다.

In [None]:
import re

r = re.compile("a.c")
r.search("kkk") # 일치하지 않으므로 아무런 결과도 출력되지 않는다.

In [2]:
r.search("abc") # 매치되므로 Match Object 리턴

<_sre.SRE_Match object; span=(0, 3), match='abc'>

<br>

### 5.2.2 `?` 기호

- `?`는 `?` **앞의 문자**가 존재할 수도 있고, 존재하지 않을 수도 있는 경우를 나타냄  
  

- ex) 정규표현식이 `ab?c`
  - 이 경우 정규 표현식에서의 `b`는 있다고 취급할 수도 있고, 없다고 취급할 수도 있다.
  - 즉, `abc`와 `ac` 모두 매치할 수 있다.

In [None]:
import re

r = re.compile("ab?c")
r.search("abbc") # 일치하지 않으므로 아무런 결과도 출력되지 않는다.

In [4]:
r.search("abc") # 매치되므로 Match Object 리턴

<_sre.SRE_Match object; span=(0, 3), match='abc'>

In [5]:
r.search("ac") # 매치되므로 Match Object 리턴

<_sre.SRE_Match object; span=(0, 2), match='ac'>

<br>

### 5.2.3 `*` 기호

- `*`은 바로 **앞의 문자**가 0개 이상일 경우를 나타낸다.
- 앞의 문자는 존재하지 않을 수도 있으며, 또는 여러 개일 수도 있다.  
  

- ex) 정규표현식이 `ab*c`
  - `ac`, `abc`, `abbc`, `abbbc` 등과 매치할 수 있다.
  - `b`의 개수는 무수히 많아도 상관없다.

In [None]:
import re

r = re.compile("ab*c")
r.search("a") # 일치하지 않으므로 아무런 결과도 출력되지 않는다.

In [7]:
r.search("ac") # 매치되므로 Match Object 리턴

<_sre.SRE_Match object; span=(0, 2), match='ac'>

In [8]:
r.search("abc") # 매치되므로 Match Object 리턴

<_sre.SRE_Match object; span=(0, 3), match='abc'>

In [9]:
r.search("abbbbc") # 매치되므로 Match Object 리턴

<_sre.SRE_Match object; span=(0, 6), match='abbbbc'>

<br>

### 5.2.4 `+` 기호

- `+`는 `*`와 유사하다.
- 하지만 다른 점은 **앞의 문자**가 최소 1개 이상이어야 한다는 점이다.  
  

- ex) 정규표현식이 `ab+c`
  - `ac`는 매치되지 않음
  - `abc`, `abbc`, `abbbc` 등과 매치할 수 있음
  - `b`의 갯수는 무수히 많을 수 있다.

In [None]:
import re

r = re.compile("ab+c")

r.search("ac") # 일치하지 않으므로 아무런 결과도 출력되지 않는다.

In [11]:
r.search("abc") # 매치되므로 Match Object 리턴

<_sre.SRE_Match object; span=(0, 3), match='abc'>

In [12]:
r.search("abbbbc") # 매치되므로 Match Object 리턴

<_sre.SRE_Match object; span=(0, 6), match='abbbbc'>

<br>
<a id="525"></a>

### 5.2.5 `^` 기호

- `^`는 시작되는 글자를 지정  
  
  
- ex) 정규표현식이 `^a`
  - `a`로 시작되는 문자열만 찾아낸다.

In [None]:
import re

r = re.compile("^a")

r.search("bbc") # 일치하지 않으므로 아무런 결과도 출력되지 않는다.

In [14]:
r.search("ab") # 매치되므로 Match Object 리턴

<_sre.SRE_Match object; span=(0, 1), match='a'>

<br>

### 5.2.6 `{숫자}` 기호

- 문자 뒤에 해당 기호를 붙이면, 해당 문자를 숫자만큼 반복한 것을 나타낸다.  
  

- ex) 정규표현식이 `ab{2}c`
  - `a`와 `c` 사이에 `b`가 존재하면서 `b`가 2개인 문자열에 대해서 매치한다.

In [None]:
import re

r = re.compile("ab{2}c")

In [None]:
r.search("ac") # 일치하지 않으므로 아무런 결과도 출력되지 않는다.

In [None]:
r.search("abc") # 일치하지 않으므로 아무런 결과도 출력되지 않는다.

In [18]:
r.search("abbc") # 매치되므로 Match Object 리턴

<_sre.SRE_Match object; span=(0, 4), match='abbc'>

In [None]:
r.search("abbbbbc") # 일치하지 않으므로 아무런 결과도 출력되지 않는다.

<br>

### 5.2.7 `{숫자1, 숫자2}` 기호

- 문자 뒤에 해당 기호를 붙이면, 해당 문자를 `숫자1` 이상 `숫자2` 이하만큼 반복한다.  
  

- ex) 정규표현식이 `ab{2,8}c`
  - `a`와 `c` 사이에 `b`가 존재하면서 `b`는 2개 이상 8개 이하인 문자열에 대해서 매치한다.

In [None]:
import re

r = re.compile("ab{2,8}c")

In [None]:
r.search("ac") # 일치하지 않으므로 아무런 결과도 출력되지 않는다. (b가 0개)

In [None]:
r.search("abc") # 일치하지 않으므로 아무런 결과도 출력되지 않는다. (b가 1개)

In [23]:
r.search("abbc") # 매치되므로 Match Object 리턴 (b가 2개)

<_sre.SRE_Match object; span=(0, 4), match='abbc'>

In [24]:
r.search("abbbc") # 매치되므로 Match Object 리턴 (b가 3개)

<_sre.SRE_Match object; span=(0, 5), match='abbbc'>

In [25]:
r.search("abbbbc") # 매치되므로 Match Object 리턴 (b가 4개)

<_sre.SRE_Match object; span=(0, 6), match='abbbbc'>

In [26]:
r.search("abbbbbbbbc") # 매치되므로 Match Object 리턴 (b가 8개)

<_sre.SRE_Match object; span=(0, 10), match='abbbbbbbbc'>

In [None]:
r.search("abbbbbbbbbc") # 일치하지 않으므로 아무런 결과도 출력되지 않는다. (b가 9개)

<br>

### 5.2.8 `{숫자,}` 기호

- 문자 뒤에 해당 기호를 붙이면 해당 문자를 `숫자` 이상 만큼 반복한다.  
  

- ex) 정규표현식이 `a{2,}bc`
  - `bc`가 붙으면서 `a`의 갯수가 2개 이상인 경우인 문자열과 매치된다.  


- `{0,}` 는 `*`과 동일한 의미를 가짐
- `{1,}` 는 `+`와 동일한 의미를 가짐

In [None]:
import re

r = re.compile("a{2,}bc")

In [None]:
r.search("bc") # 일치하지 않으므로 아무런 결과도 출력되지 않는다. (a가 0개)

In [None]:
r.search("aa") # 일치하지 않으므로 아무런 결과도 출력되지 않는다. (bc가 없음)

In [31]:
r.search("aabc") # 매치되므로 Match Object 리턴

<_sre.SRE_Match object; span=(0, 4), match='aabc'>

In [32]:
r.search("aaaaaaaabc") # 매치되므로 Match Object 리턴

<_sre.SRE_Match object; span=(0, 10), match='aaaaaaaabc'>

<br>

### 5.2.9 `[]` 기호

- `[]` 안에 문자들을 넣으면 그 **문자들 중 한 개의 문자와 매치**라는 의미를 갖는다.  
  

- ex) 정규표현식 : `[abc]`
  - `a` 또는 `b` 또는 `c`가 들어있는 문자열과 매치됨  


- 범위를 지정하는 것도 가능하다.
  - `[a-zA-Z]` : 알파벳 전부를 의미
  - `[0-9]` : 숫자 전부를 의미

In [None]:
import re

r = re.compile("[abc]") # [abc]는 [a-c]와 동일

In [34]:
r.search("a")

<_sre.SRE_Match object; span=(0, 1), match='a'>

In [35]:
r.search("aaaaaaa")

<_sre.SRE_Match object; span=(0, 1), match='a'>

In [36]:
r.search("baac")

<_sre.SRE_Match object; span=(0, 1), match='b'>

In [37]:
r.search("abcde")

<_sre.SRE_Match object; span=(0, 1), match='a'>

- 알파벳 소문자에 대해서만 범위를 지정하여 정규 표현식을 만들고 문자열과 매치

In [None]:
import re

r = re.compile("[a-z]")

In [None]:
r.search("AAA")

In [40]:
r.search("aBC")

<_sre.SRE_Match object; span=(0, 1), match='a'>

In [None]:
r.search("111")

<br>

### 5.2.10 `[^문자]` 기호

- `[^문자]` 는 [5.2.5](#525)에서 설명한 `^`와는 완전히 다른 의미로 쓰인다.
- `[]` 안의 `^` 기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치하는 역할을 한다.  
  
  
- ex) 정규표현식 : `[^abc]`
  - `a` 또는 `b` 또는 `c`가 들어간 문자열을 제외한 모든 문자열을 매치한다.

In [None]:
import re

r = re.compile("[^abc]")

In [None]:
r.search("a")

In [None]:
r.search("b")

In [None]:
r.search("ab")

In [46]:
r.search("d")

<_sre.SRE_Match object; span=(0, 1), match='d'>

In [47]:
r.search("1")

<_sre.SRE_Match object; span=(0, 1), match='1'>

<br>

## 5.3 정규 표현식 모듈 함수 예제

- `re.compile()`과 `re.search()` 이외의 다른 정규 표현식 모듈 함수에 대해 실습 진행

<br>

### 5.3.1 `re.match()` 와 `re.search()` 의 차이

- `search()`
  - 정규 표현식 전체에 대해서 문자열이 매치하는 지를 확인  


- `match()`
  - 문자열의 **첫 부분**부터 정규 표현식과 매치하는 지를 확인
  - 문자열 중간에 찾을 패턴이 있다고 하더라도, `match` 함수는 문자열의 시작에서 패턴이 일치하지 않으면 찾지 않는다.

In [None]:
import re

r = re.compile("ab.") # ab 다음에는 어떤 한 글자가 존재할 수 있다는 패턴을 의미

In [49]:
r.search("kkkabc")

<_sre.SRE_Match object; span=(3, 6), match='abc'>

In [None]:
r.match("kkkabc") # 앞부분이 ab. 와 매치되지 않음

In [51]:
r.match("abckkk")

<_sre.SRE_Match object; span=(0, 3), match='abc'>

<br>

### 5.3.2 `re.split()`

- 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴
- 자연어 처리에 있어서 가장 많이 사용되는 정규 표현식 함수 중 하나  
(토큰화에 유용하게 쓰일 수 있기 때문)

In [52]:
import re

text = "사과 딸기 수박 메론 바나나"
re.split(" ", text) # 공백을 기준으로 문자열 분리 수행

['사과', '딸기', '수박', '메론', '바나나']

In [53]:
import re

text = """사과
딸기
수박
메론
바나나"""
re.split("\n", text) # 줄바꿈(\n)을 기준으로 문자열 분리 수행

['사과', '딸기', '수박', '메론', '바나나']

In [54]:
import re

text="사과+딸기+수박+메론+바나나"

re.split("\+", text) # "+" 기호를 기준으로 문자열 분리 수행

['사과', '딸기', '수박', '메론', '바나나']

<br>

### 5.3.3 `re.findall()`

- 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴
- 단, 매치되는 문자열이 없다면 빈 리스트를 리턴

In [55]:
import re

text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""

re.findall("\d+", text) # 1개 이상(+)의 숫자(\d)

['010', '1234', '1234', '30']

In [56]:
# 빈 리스트 리턴 확인
re.findall("\d+", "문자열입니다.")

[]

<br>

### 5.3.4 `re.sub()`

- 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체할 수 있다.

In [58]:
import re

text="Regular expression : A regular expression, regex or regexp[1] \
(sometimes called a rational expression)[2][3] is, in theoretical computer science and formal \
language theory, a sequence of characters that define a search pattern."

# 알파벳이 아닌 문자열(":", "[", "]", "(", ")", 숫자, ",", ".)을 띄어쓰기로 대체
re.sub("[^a-zA-Z]", " ", text) 

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

- 자연어 처리를 위해 특수 문자를 제거하고 싶다면 아래의 코드를 알파벳 외의 문자는 공백을 처리하는 등의 사용 용도로 쓸 수 있다.

```python
re.sub("[^a-zA-Z], "", 문자열)
```

<br>

## 5.4 정규 표현식 텍스트 전처리 예제

In [None]:
import re

text = """100 John    PROF
101 James   STUD
102 Mac   STUD""" 

- 입력으로 테이블 형식의 데이터를 텍스트에 저장
- 각 데이터가 공백으로 구분되어 있음

<br>

### 5.4.1 공백으로 문자열 분리하기

- `\s+` : 1개 이상의 공백을 찾아내는 정규표현식
  - 뒤에 붙는 `+`는 최소 1개 이상의 패턴을 찾아낸다는 의미이다.
  - `s`는 공백을 의미한다.

In [60]:
re.split("\s+", text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

- `split()` 은 주어진 정규표현식을 기준으로 분리한다.

<br>

### 5.4.2 숫자만 뽑기

- `\d` : 최소 1개 이상의 숫자에 해당되는 정규표현식
  - `+` : 최소 1개 이상의 패턴을 찾아낸다.

In [61]:
re.findall("\d+", text)

['100', '101', '102']

- `findall()` 은 해당 정규 표현식에 일치하는 값을 찾아내는 메서드이다.

<br>

### 5.4.3 텍스트로부터 대문자인 행의 값만 가져오기

- 정규 표현식에 대문자를 기준으로 매치시키면 된다.
- 하지만 정규 표현식에 대문자라는 기준만을 넣을 경우에는 문자열을 가져오는 것이 아니라 모든 대문자 각각을 가져오게 된다.

In [62]:
re.findall("[A-Z]", text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

- 대문자가 연속적으로 4번 등장하는 경우로 조건을 추가

In [63]:
re.findall("[A-Z]{4}", text)

['PROF', 'STUD', 'STUD']

<br>

### 5.4.4 이름과 같은 대문자와 소문자가 섞인 값 가져오기

- 이름에 대한 행의 값을 가져오고 싶다면 처음에 대문자가 등장하고, 그 후에 소문자가 여러번 등장하는 경우에 매치하게 한다.

In [64]:
re.findall("[A-Z][a-z]+", text)

['John', 'James', 'Mac']

<br>

### 5.4.5 영문자가 아닌 문자는 모두 공백으로 치환

In [66]:
letters_only = re.sub("[^a-zA-Z]", " ", text)
letters_only

'    John    PROF     James   STUD     Mac   STUD'

<br>

### 5.4.6 정규 표현식 텍스트 전처리 예제 링크

- [링크1](https://www.machinelearningplus.com/python/python-regex-tutorial-examples/)
- [링크2](https://docs.python.org/3.6/library/re.html#re.regex.search)
- [링크3](http://blog.naver.com/javaking75/220702756707)

<br>

## 5.5 정규 표현식을 이용한 토큰화

### 5.5.1 `RegexpTokenizer`

- NLTK에서는 정규 표현식을 사용해서 단어 토큰화를 수행하는 `RegexpTokenizer`를 지원한다.
- `RegexpTokenizer()`에서 괄호 안에 원하는 정규 표현식을 넣어서 토큰화를 수행할 수 있다.

In [67]:
import nltk
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer("[\w]+") # 1개 이상의 모든 문자와 숫자

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as \
cheery goes for a pastry shop"

print(tokenizer.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


- `[\w]+` 가 문자 또는 숫자가 1개 이상인 경우를 인식하는 코드이다.
- 그렇기 때문에 이 코드는 문장에서 **구두점(`.`)**을 제외하고, 단어들만을 가지고 토큰화를 수행한다.


<br>

### 5.5.2 `RegexpTokenizer()`의 파라미터로 토큰을 나누기 위한 기준 입력

- 공백을 기준으로 문장을 토큰화  
  

- `gaps=True`
  - 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용한다는 의미이다.
  - 이 코드를 기재하지 않으면, 토큰화의 결과는 공백들만 나오게 된다.  

In [68]:
import nltk
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer("[\s]+", gaps=True)

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as \
cheery goes for a pastry shop"

print(tokenizer.tokenize(text))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


- [5.5.2](#552)의 예제와는 달리 아포스트로피(`'`)나 온점(`.`)을 제외하지 않고 토큰화가 수행된 것을 확인할 수 있다.