# 딥 러닝을 이용한 자연어 처리 입문

## 정규 표현식(Regular Expression)
- 파이썬 정규 표현식 모듈 re

### **.** 기호
- 1개의 임의의 문자
- `a.c` : akc, azc, avc, a5c, a!c

In [1]:
import re

r = re.compile("a.c")
r.search("kkk")  # 아무런 결과도 출력되지 않는다.

In [2]:
r.search("abc")  # abc는 a.c에 매칭된다.

<re.Match object; span=(0, 3), match='abc'>

### ? 기호
- ? 앞의 문자가 존재할 수도, 존재하지 않을 수도 있는 경우
- `ab?c` : abc, ac

In [3]:
import re

r=re.compile("ab?c")
r.search("abbc")  # 아무런 결과도 출력되지 않는다.

In [4]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [5]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

### * 기호
- 바로 앞 문자가 0개 이상인 경우
- `ab*c` : ac, abc, abbc, abbbc

In [6]:
import re

r=re.compile("ab*c")
r.search("a")  # 아무런 결과도 출력되지 않는다.

In [7]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [8]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [9]:
r.search("abbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbc") 

<re.Match object; span=(0, 36), match='abbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbc'>

### **+** 기호
- 바로 앞 문자가 1개 이상인 경우
- `ab+c` : abc, abbc, abbbc ...

In [10]:
import re

r=re.compile("ab+c")
r.search("ac")  # 아무런 결과도 출력되지 않는다.

In [11]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [12]:
r.search("abbbbbbbbbbbbbbbbbbbbbbbbbc") 

<re.Match object; span=(0, 27), match='abbbbbbbbbbbbbbbbbbbbbbbbbc'>

### **^** 기호
- 시작되는 글자 지정
- `^a` : a로 시작되는 문자열

In [13]:
import re

r=re.compile("^a")
r.search("bbc") # 아무런 결과도 출력되지 않는다.

In [14]:
r.search("ab")

<re.Match object; span=(0, 1), match='a'>

In [15]:
r.search("aqwjfwjifkqjfijqf52w6dfwqf13fqwf134aadd1")

<re.Match object; span=(0, 1), match='a'>

### **{숫자}** 기호
- 앞의 문자를 숫자만큼 반복
- `ab{2}c` : abbc

In [16]:
import re

r=re.compile("ab{2}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [17]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [18]:
r.search("abbbbbc")  # 아무런 결과도 출력되지 않는다.

### **{숫자1, 숫자2}** 기호
- 앞의 문자를 숫자1 이상 숫자2 이하만큼 반복
- `ab{2, 8}c` : abbc, abbbc, ... abbbbbbbbc

In [19]:
import re

r=re.compile("ab{2,8}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [20]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [21]:
r.search("abbbbbbbbc")  # b 8개

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [22]:
r.search("abbbbbbbbbc")  # 9개라 아무런 결과도 출력되지 않는다.

### **{숫자,}** 기호
- 앞의 문자를 숫자 이상만큼 반복
- `a{2,}bc` : aabc

In [23]:
import re

r=re.compile("a{2,}bc")
r.search("bc") # 아무런 결과도 출력되지 않는다.
r.search("aa") # 아무런 결과도 출력되지 않는다.

In [24]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [25]:
r.search("aaaaaaaaaabc")

<re.Match object; span=(0, 12), match='aaaaaaaaaabc'>

### **[]** 기호
- [] 안의 문자 중 1개라도 겹치는 문자열
- `[abc]` : a, aaaaaaaa, baac ... (a 또는 b또는 c가 들어간 문자열)

In [26]:
import re

r=re.compile("[abc]")  # [abc]는 [a-c]와 같다.
r.search("zzz")  # 아무런 결과도 출력되지 않는다.

In [27]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [28]:
r.search("aaaaaaaaaaaaaa")  

<re.Match object; span=(0, 1), match='a'>

In [29]:
r.search("bcabaabcaaaab")

<re.Match object; span=(0, 1), match='b'>

- 소문자 범위만 지정

In [30]:
import re
r=re.compile("[a-z]")
r.search("AAA")  # 아무런 결과도 출력되지 않는다.

In [31]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

In [32]:
r.search("111")  # 아무런 결과도 출력되지 않는다.

### **[^문자]** 기호
- ^ 뒤의 문자를 제외한 모든 문자


In [33]:
import re

r=re.compile("[^abc]")
r.search("a")  # 아무런 결과도 출력되지 않는다.
r.search("ab")  # 아무런 결과도 출력되지 않는다.
r.search("b")  # 아무런 결과도 출력되지 않는다.

In [34]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

In [35]:
r.search("1")

<re.Match object; span=(0, 1), match='1'>

## 정규 표현식 모듈 함수
- re.compile()과 re.search()는 위에서 사용함

### re.match()와 re.search()의 차이
- re.search() : 정규 표현식 전체에 대해 매치 여부 확인
- re.match() : 문자열 첫 부분부터 정규 표현식과의 매치 여부 확인

In [36]:
import re

r=re.compile("ab.")

In [37]:
r.search("kkkabc")

<re.Match object; span=(3, 6), match='abc'>

In [39]:
r.match("kkkabc")  # k로 시작하므로 아무런 결과도 출력되지 않는다.

In [40]:
r.match("abckkk")  # 처음부터 abc가 나오므로 매칭된다.

<re.Match object; span=(0, 3), match='abc'>

### re.split()
- 입력한 정규 표현식을 기준으로 문자열을 분리하여 리스트로 리턴
- 토큰화에 유용하게 사용된다.

In [41]:
import re

text = "사과 딸기 수박 메론 바나나"
re.split(" ", text)

['사과', '딸기', '수박', '메론', '바나나']

In [45]:
import re

text = \
"""사과
딸기
수박
메론
바나나"""
re.split("\n",text)

['사과', '딸기', '수박', '메론', '바나나']

In [47]:
import re

text = "사과+딸기+수박+메론+바나나"
re.split("\+", text)

['사과', '딸기', '수박', '메론', '바나나']

### re.findall()
- 입력한 정규 표현식과 매치되는 모든 문자열을 리스트로 리턴
- 매치되는 문자열이 없으면 빈 리스트를 리턴

In [48]:
import re

text = \
"""이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""  
re.findall("\d+", text)

['010', '1234', '1234', '30']

In [49]:
re.findall("\d+", "문자열입니다.")  # 매치되는 게 없다.

[]

### re.sub()
- 정규 표현식과 일치하는 문자열을 찾아 다른 문자열로 대체

In [51]:
import re

text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]', ' ', text)

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

- 알파벳이 아닌 모든 문자를 공백 처리

## 정규 표현식 텍스트 전처리 예제

In [52]:
import re  

text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

re.split('\s+', text)  

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

- `\s` : 공백을 찾는 정규 표현식 (+는 최소 1개 이상)

In [53]:
re.findall('\d+', text)

['100', '101', '102']

- `\d`는 숫자에 해당되는 정규 표현식(+는 최소 1개 이상)

In [54]:
re.findall('[A-Z]', text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

- 대문자만 가져오고 싶은 게 아니라 대문자로 시작하는 토큰을 가져오고 싶다. 어떻게?

In [55]:
re.findall('[A-Z]{4}', text)  

['PROF', 'STUD', 'STUD']

- 대문자가 연속해서 4번 등장하는 경우를 설정하면 된다.

In [56]:
re.findall('[A-Z][a-z]+', text)

['John', 'James', 'Mac']

- 이름은 대문자와 소문자가 섞여 있으므로, 이름을 가져오고 싶으면 처음에 대문자, 이후 소문자가 여러 번 등장하는 경우를 넣어 주면 된다.

## 정규 표현식을 이용한 토큰화

### nltk : RegexpTokenizer
- `RegexpTokenizer()` 괄호 안에 원하는 정규 표현식을 넣어서 토큰화를 수행

In [57]:
import nltk
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer("[\w]+")  # \w : 문자 또는 숫자, +가 붙었으므로 1개 이상, [] 안에 있으므로 [] 안의 아무거나 포함하면 매칭

print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


- `\w+`, 즉 문자열만을 기준으로 토큰화를 수행하라는 것이므로 구두점을 제외하고 토큰화가 이루어진다.

In [58]:
import nltk
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer("[\s]+", gaps = True)

print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


- `RegexpTokenizer()` 괄호 안에 토큰을 나누기 위한 기준을 입력할 수도 있다.
- `gaps = True` : 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용