# 딥 러닝을 이용한 자연어 처리 입문

[구글 코랩에서 실행하기](https://colab.research.google.com/drive/1onJhDWO7JH09xc88crutVwIfWB6OkZkS?usp=sharing)

1. 정규 표현식 문법과 모듈 함수

텍스트 전처리에서 정규 표현식은 아주 유용한 도구입니다. 이번에는 파이썬에서 지원하고 있는 정규 표현식 모듈 re의 사용 방법과 NLTK를 통한 정규 표현식을 이용한 토큰화에 대해서 알아봅니다.



1) 정규 표현식 문법\
2) 정규표현식 모듈 함수

https://wikidocs.net/21703

2. 정규 표현식 실습

In [1]:
import re

1) . 기호

In [3]:
r = re.compile("a.c")
r.search("kkk") # 아무런 결과도 출력되지 않는다.

In [4]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

.은 어떤 문자로도 인식될 수 있기 때문에 abc라는 문자열은 a.c라는 정규 표현식 패턴으로 매치됩니다.

2) ?기호

?는 ?앞의 문자가 존재할 수도 있고 존재하지 않을 수도 있는 경우를 나타냅니다.

In [5]:
r = re.compile("ab?c")

re: The re module in Python provides support for regular expressions. It allows you to work with regular expressions in Python.

re.compile(): This is a method in the re module used to compile a regular expression pattern into a regular expression object. The regular expression object can then be used to match or search for patterns in strings efficiently.

"ab?c": This is the regular expression pattern. Let's break it down:

a: This matches the character 'a' literally. It means the pattern must have an 'a' in it.

b?: The '?' is a quantifier that matches the preceding character ('b' in this case) zero or one time. So, 'b?' means that the pattern may have zero or one occurrence of the character 'b'.

c: This matches the character 'c' literally. It means the pattern must have a 'c' in it.

Therefore, the regular expression ab?c will match strings that follow the pattern: 'ac' or 'abc', where the 'b' character can appear zero or one time in the string.

Here are some examples of how the regular expression matches strings:

"ac": This matches the pattern because it contains 'a' followed by 'c'.
"abc": This also matches the pattern because it contains 'a' followed by 'b' (which appears once) and then 'c'.
"abbc": This does not match the pattern because the 'b' character appears more than once.
"accc": This does not match the pattern because there is no 'b' character between 'a' and 'c'.
In summary, the regular expression ab?c is a pattern that matches strings with an 'a' followed by zero or one 'b' and then followed by 'c'.

In [6]:
r.search("abbc")

In [7]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [8]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

3) *기호

*은 바로 앞의 문자가 0개 이상일 경우\
앞의 문자는 존재하지 않을 수도 있으며, 또는 여러 개일 수도 있습니다. 정규 표현식이 ab*c라면 ac, abc, abbc, abbbc 등과 매치할 수 있으며 b의 개수는 무수히 많을 수 있습니다.

In [9]:
r = re.compile("ab*c")
r.search("a") # 아무런 결과도 출력되지 않는다.

In [10]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [11]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [12]:
r.search("abbbc")

<re.Match object; span=(0, 5), match='abbbc'>

4) +기호

+는 *와 유사합니다. 다른 점은 앞의 문자가 최소 1개 이상이어야 합니다. \
정규 표현식이 ab+c라고 한다면 ac는 매치되지 않습니다. 하지만 abc, abbc, abbbc 등과 매치할 수 있으며 b의 개수는 무수히 많을 수 있습니다.

In [13]:
r = re.compile("ab+c")
r.search("ac")

In [14]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [15]:
r.search("abbbbc")

<re.Match object; span=(0, 6), match='abbbbc'>

5) ^기호

^는 시작되는 문자열을 지정합니다. 정규표현식이 ^ab라면 문자열 ab로 시작되는 경우 매치

In [16]:
r = re.compile("^ab")

In [17]:
r.search("bbc")
r.search("zab")

In [18]:
r.search("abz")

<re.Match object; span=(0, 2), match='ab'>

6) {숫자} 기호

문자에 해당 기호를 붙이면, 해당 문자를 숫자만큼 반복한 것을 나타냅니다. \
예를 들어서 정규 표현식이 ab{2}c라면 a와 c 사이에 b가 존재하면서 b가 2개인 문자열에 대해서 매치합니다.

In [19]:
r = re.compile("ab{2}c")

In [20]:
r.search("ac")
r.search("abc")
r.search("abbbbbc")

In [21]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

7) {숫자1, 숫자2} 기호

문자에 해당 기호를 붙이면, 해당 문자를 숫자1 이상 숫자2 이하만큼 반복합니다. \
예를 들어서 정규 표현식이 ab{2,8}c라면 a와 c 사이에 b가 존재하면서 b는 2개 이상 8개 이하인 문자열에 대해서 매치

In [22]:
r = re.compile("ab{2,8}c")

In [25]:
# 아무런 결과도 출력되지 않는다.
r.search("ac")
r.search("abc")
r.search("abbbbbbbbbc")

In [26]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [27]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

8) {숫자,} 기호

문자에 해당 기호를 붙이면 해당 문자를 숫자 이상 만큼 반복합니다. \
예를 들어서 정규 표현식이 a{2,}bc라면 뒤에 bc가 붙으면서 a의 개수가 2개 이상인 경우인 문자열과 매치합니다. 또한 만약 {0,}을 쓴다면 *와 동일한 의미가 되며, {1,}을 쓴다면 +와 동일한 의미가 됩니다.

In [29]:
r = re.compile("a{2,}bc")

In [30]:
# 아무런 결과도 출력되지 않는다.
r.search("bc")
r.search("aa")

In [31]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [32]:
r.search("aaaaaaaabc")

<re.Match object; span=(0, 10), match='aaaaaaaabc'>

9) [ ] 기호

[ ]안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치라는 의미를 가집니다.\
 예를 들어서 정규 표현식이 [abc]라면, a 또는 b또는 c가 들어가있는 문자열과 매치됩니다. 범위를 지정하는 것도 가능합니다. [a-zA-Z]는 알파벳 전부를 의미하며, [0-9]는 숫자 전부를 의미합니다.

In [33]:
r = re.compile("[abc]")

In [34]:
r.search("zzz")

In [35]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [36]:
r.search("aaaaaaa")

<re.Match object; span=(0, 1), match='a'>

In [37]:
r.search("baac")

<re.Match object; span=(0, 1), match='b'>

이번에는 알파벳 소문자에 대해서 범위 지정하여 정규 표현식을 만들어보고 문자열과 매치해보겠습니다.

In [38]:
r = re.compile("[a-z]")

In [39]:
# 아무런 결과도 출력되지 않는다.
r.search("a")
r.search("ab")
r.search("b")

<re.Match object; span=(0, 1), match='b'>

In [40]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

In [42]:
r.search("l")

<re.Match object; span=(0, 1), match='l'>

3. 정규 표현식 모듈 함수

(1) re.match() 와 re.search()의 차이

In [43]:
r = re.compile("ab.")

In [44]:
r.match("kkkabc")

In [45]:
r.search("kkkabc")

<re.Match object; span=(3, 6), match='abc'>

In [46]:
r.match("abckkk")

<re.Match object; span=(0, 3), match='abc'>

(2) re.split()

In [47]:
text = "사과 딸기 수박 메론 바나나"

In [48]:
re.split("", text)

['',
 '사',
 '과',
 ' ',
 '딸',
 '기',
 ' ',
 '수',
 '박',
 ' ',
 '메',
 '론',
 ' ',
 '바',
 '나',
 '나',
 '']

In [49]:
["사과", "딸기", "수박", "메론", '바나나']

['사과', '딸기', '수박', '메론', '바나나']

In [50]:
text = """사과
딸기
수박
메론
바나나"""

In [53]:
re.split("\n", text)

['사과', '딸기', '수박', '메론', '바나나']

In [54]:
text = "사과 + 딸기 + 수박 + 메론 + 바나나"

In [55]:
re.split("\+", text)

['사과 ', ' 딸기 ', ' 수박 ', ' 메론 ', ' 바나나']

In [56]:
['사과', '딸기', '수박', '메론', '바나나']

['사과', '딸기', '수박', '메론', '바나나']

(3) re.findall()

findall() 함수는 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴합니다.\
 단, 매치되는 문자열이 없다면 빈 리스트를 리턴합니다. 임의의 텍스트에 정규 표현식으로 숫자를 의미하는 규칙으로 findall()을 수행하면 전체 텍스트로부터 숫자만 찾아내서 리스트로 리턴합니다.

In [57]:
text = """이름 : 김철수
전화번호 : 010-1234-1234
나이 : 30
성별 : 남"""

In [58]:
re.findall("\d+", text)

['010', '1234', '1234', '30']

In [59]:
re.findall("\d+", "문자열입니다.")

[]

(4) re.sub()

sub() 함수는 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체할 수 있습니다. \
아래와 같은 정제 작업에 많이 사용되는데, 영어 문장에 각주 등과 같은 이유로 특수 문자가 섞여있는 경우에 특수 문자를 제거하고 싶다면 알파벳 외의 문자는 공백으로 처리하는 등의 용도로 쓸 수 있습니다.

In [62]:
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is,\
 in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

In [63]:
preprocessed_text = re.sub('[^a-zA-Z]', ' ', text)
print(preprocessed_text)

Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern 


4. 정규 표현식 텍스트 전처리 예제

In [64]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""

\s+는 공백을 찾아내는 정규표현식입니다. 뒤에 붙는 +는 최소 1개 이상의 패턴을 찾아낸다는 의미입니다. s는 공백을 의미하기 때문에 최소 1개 이상의 공백인 패턴을 찾아냅니다. split은 주어진 정규표현식을 기준으로 분리하므로 결과는 아래와 같습니다.

In [65]:
re.split('\s+', text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

공백을 기준으로 값이 구분되었습니다. \
해당 입력으로부터 숫자만을 뽑아온다고 해봅시다. \
여기서 \d는 숫자에 해당되는 정규표현식입니다. +를 붙이면 최소 1개 이상의 숫자에 해당하는 값을 의미합니다. \
findall()은 해당 표현식에 일치하는 값을 찾아냅니다.

In [66]:
re.findall('\d+', text)

['100', '101', '102']

In [67]:
re.findall('[A-Z]', text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [68]:
re.findall('[A-Z]{4}', text)

['PROF', 'STUD', 'STUD']

In [69]:
re.findall('[A-Z][a-z]+', text)

['John', 'James', 'Mac']

5. 정규 표현식을 이용한 토큰화

NLTK에서는 정규 표현식을 사용해서 단어 토큰화를 수행하는 RegexpTokenizer를 지원

In [70]:
from nltk.tokenize import RegexpTokenizer

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"

In [71]:
tokenizer1 = RegexpTokenizer("[\w]+")
tokenizer2 = RegexpTokenizer("\s+", gaps = True)

In [72]:
print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
