## 불용어(Stopword)

 예를 들면, I, my, me, over, 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없는 경우가 있습니다. 이러한 단어들을 불용어(stopword)라고 하며, NLTK에서는 위와 같은 100여개 이상의 영어 단어들을 불용어로 패키지 내에서 미리 정의하고 있습니다
 


In [1]:
from nltk.corpus import stopwords  
# stopwords !
stopwords.words('english')[:10]  

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [5]:
stopwords.words('english')[-5:]

["weren't", 'won', "won't", 'wouldn', "wouldn't"]

In [6]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example)

result = []
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 

print(word_tokens) 
print(result) 

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


## 한국어 불용어 제거하기

한국어에 경우 토큰화 후에 조사 접속사 제거하는 방법이 있음 -> 제거하다보면 명사나 형용사 등이 제거될 수 가 있어 불용어 사전을 만들게 되는 경우가 많음

In [7]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "아무거나 아무렇게나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 하면 아니거든"
# 위의 불용어는 명사가 아닌 단어 중에서 저자가 임의로 선정한 것으로 실제 의미있는 선정 기준이 아님
stop_words=stop_words.split(' ')
word_tokens = word_tokenize(example)

result = [] 
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 
# 위의 4줄은 아래의 한 줄로 대체 가능
# result=[word for word in word_tokens if not word in stop_words]

print(word_tokens) 
print(result)

# 한국어 불용어를 제거하는 더 좋은 방법은 코드 내에서 직접 정의하지 않고 
#txt 파일이나 csv 파일로 수많은 불용어를 정리해놓고, 이를 불러와서 사용하는 방법입니다.


['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']
['고기를', '구우려고', '안', '돼', '.', '고기라고', '다', '같은', '게', '.', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']


## 정규 표현식(Regular Expression)

### 정규 표현식 문법과 모듈 함수
파이썬에서는 정규 표현식 모듈 re을 지원하므로, 이를 이용하면 특정 규칙이 있는 텍스트 데이터를 빠르게 정제할 수 있음

#### 정규 표현식 문범

![re1](./img/re1.png)

정규 표현식 문법에는 역슬래쉬를 이용하여 자주 쓰이는 문자 규칙들이 있음

![re2](./img/re2.png)

#### 정규표현식 모듈 함수

![re3](./img/re3.png)

앞으로 진행될 실습에서는 re.compile()에 정규 표현식을 컴파일하고, re.search()를 통해서 해당 정규 표현식이 입력 텍스트와 매치되는지를 확인하면서 각 정규 표현식에 대해서 이해해보도록 하겠습니다. re.search() 함수는 매치된다면 Match Object를 리턴하고, 매치되지 않으면 아무런 값도 출력되지 않습니다.

In [9]:
#.은 한 개의 임의의 문자를 나타냅니다. 예를 들어서 정규 표현식이 a.c라고 합시다. a와 c 사이에는 어떤 1개의 문자라도 올 수 있습니다. 
#즉, akc, azc, avc, a5c, a!c와 같은 형태는 모두 a.c의 정규 표현식과 매치됩니다. 실제 예제를 통해 이해해보도록 하겠습니다.
import re
r=re.compile("a.c")
r.search("kkk") # 아무런 결과도 출력되지 않는다.
print(r.search("abc")) 

<re.Match object; span=(0, 3), match='abc'>


In [10]:
#?는 ? 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있는 경우를 나타냅니다. 예를 들어서 정규 표현식이 ab?c라고 합시다. 
#이 경우 이 정규 표현식에서의 b는 있다고 취급할 수도 있고, 없다고 취급할 수도 있습니다. 즉, abc와 ac 모두 매치할 수 있습니다.
import re
r=re.compile("ab?c")
r.search("abbc") # 아무런 결과도 출력되지 않는다.
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [11]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [12]:
# *은 바로 앞의 문자가 0개 이상일 경우를 나타냅니다. 앞의 문자는 존재하지 않을 수도 있으며, 또는 여러 개일 수도 있습니다.
#예를 들어서 정규 표현식이 abc라고 합시다. 
#그렇다면 ac, abc, abbc, abbbc 등과 매치할 수 있으며 b의 갯수는 무수히 많아도 상관없습니다.
import re
r=re.compile("ab*c")
r.search("a") # 아무런 결과도 출력되지 않는다.

In [13]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

In [14]:
#+는 *와 유사합니다. 하지만 다른 점은 앞의 문자가 최소 1개 이상이어야 한다는 점입니다.
#예를 들어서 정규 표현식이 ab+c라고 한다면, ac는 매치되지 않습니다. 
#하지만 abc, abbc, abbbc 등과 매치할 수 있으며 b의 갯수는 무수히 많을 수 있습니다.
import re
r=re.compile("ab+c")
r.search("ac") # 아무런 결과도 출력되지 않는다.

In [22]:
r.search("aaaaabc") 

<re.Match object; span=(4, 7), match='abc'>

In [23]:
# ^는 시작되는 글자를 지정합니다. 가령 정규표현식이 ^a라면 a로 시작되는 문자열만을 찾아냅니다.
import re
r=re.compile("^a")
r.search("bbc") # 아무런 결과도 출력되지 않는다.

In [24]:
r.search("aaaaaaaaaaaaaac")               

<re.Match object; span=(0, 1), match='a'>

In [25]:
# 문자에 해당 기호를 붙이면, 해당 문자를 숫자만큼 반복한 것을 나타냅니다. ({숫자})
#예를 들어서 정규 표현식이 ab{2}c라면 a와 c 사이에 b가 존재하면서 b가 2개인 문자열에 대해서 매치합니다.
import re
r=re.compile("ab{2}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [28]:
r.search("aaaabbc") # b가 2개라면 a가 몇개든 상관없음

<re.Match object; span=(3, 7), match='abbc'>

In [29]:
r.search("abbccccccccccccc") # b가 2개라면 c가 몇개든 상관없음

<re.Match object; span=(0, 4), match='abbc'>

In [31]:
#문자에 해당 기호를 붙이면, 해당 문자를 숫자1 이상 숫자2 이하만큼 반복합니다. ({숫자1, 숫자2})
#예를 들어서 정규 표현식이 ab{2,8}c라면 a와 c 사이에 b가 존재하면서 b는 2개 이상 8개 이하인 문자열에 대해서 매치합니다.
import re
r=re.compile("ab{2,8}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [33]:
r.search("abbbbbbbcccc")

<re.Match object; span=(0, 9), match='abbbbbbbc'>

In [34]:
#문자에 해당 기호를 붙이면 해당 문자를 숫자 이상 만큼 반복합니다. 
#예를 들어서 정규 표현식이 a{2,}bc라면 뒤에 bc가 붙으면서 a의 갯수가 2개 이상인 경우인 문자열과 매치합니다. 
#또한 만약 {0,}을 쓴다면 *와 동일한 의미가 되며, {1,}을 쓴다면 +와 동일한 의미가 됩니다.

import re
r=re.compile("a{2,}bc")
r.search("bc") # 아무런 결과도 출력되지 않는다.
r.search("aa") # 아무런 결과도 출력되지 않는다.


In [35]:
r.search("aaaaaaaabc")

<re.Match object; span=(0, 10), match='aaaaaaaabc'>

In [37]:
#[ ]안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치라는 의미를 가집니다.
#예를 들어서 정규 표현식이 [abc]라면, a 또는 b또는 c가 들어가있는 문자열과 매치됩니다. 범위를 지정하는 것도 가능합니다. 
#[a-zA-Z]는 알파벳 전부를 의미하며, [0-9]는 숫자 전부를 의미합니다.
import re
r=re.compile("[abc]") # [abc]는 [a-c]와 같다.
r.search("zzz") # 아무런 결과도 출력되지 않는다.

In [38]:
r.search("azzz") # 위에 반대로 abc 중에 a가 있기에 출력이 되옵니다.

<re.Match object; span=(0, 1), match='a'>

In [39]:
#[^문자]는 5)에서 설명한 ^와는 완전히 다른 의미로 쓰입니다. 여기서는 ^ 기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치하는 역할을 합니다. 
#예를 들어서 [^abc]라는 정규 표현식이 있다면, a 또는 b 또는 c가 들어간 문자열을 제외한 모든 문자열을 매치합니다.

import re
r=re.compile("[^abc]")
r.search("a") # 아무런 결과도 출력되지 않는다.
r.search("ab") # 아무런 결과도 출력되지 않는다.
r.search("b") # 아무런 결과도 출력되지 않는다.

In [40]:
r.search("love")

<re.Match object; span=(0, 1), match='l'>

### re.match vs re.search

search()가 정규 표현식 전체에 대해서 문자열이 매치하는지를 본다면, match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지를 확인합니다. 문자열 중간에 찾을 패턴이 있다고 하더라도, match 함수는 문자열의 시작에서 패턴이 일치하지 않으면 찾지 않습니다.

In [41]:
import re
r=re.compile("ab.")
r.search("kkkabc")  

<re.Match object; span=(3, 6), match='abc'>

In [42]:
r.match("kkkabc")  #아무런 결과도 출력되지 않는다.

In [43]:
# split() 함수는 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴합니다. 
#자연어 처리에 있어서 가장 많이 사용되는 정규 표현식 함수 중 하나인데, 토큰화에 유용하게 쓰일 수 있기 때문입니다.
import re
text="사과 딸기 수박 메론 바나나"
re.split(" ",text)

['사과', '딸기', '수박', '메론', '바나나']

In [44]:
import re
text="""사과
딸기
수박
메론
바나나"""
re.split("\n",text)

['사과', '딸기', '수박', '메론', '바나나']

In [45]:
import re
text="사과+딸기+수박+메론+바나나"
re.split("\+",text)
['사과', '딸기', '수박', '메론', '바나나']  

['사과', '딸기', '수박', '메론', '바나나']

In [47]:
# findall() 함수는 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴합니다. 단, 매치되는 문자열이 없다면 빈 리스트를 리턴합니다.
import re
text="""이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""  
re.findall("\d+",text)

['010', '1234', '1234', '30']

In [49]:
re.findall("\d+", "문자열입니다.") # 빈리스트를 추출함(d는 숫자)

[]

In [51]:
# sub() 함수는 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체할 수 있습니다.
import re
text="Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]',' ',text)

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

In [None]:
# NLTK에서는 정규 표현식을 사용해서 단어 토큰화를 수행하는 RegexpTokenizer를 지원합니다.
#RegexpTokenizer()에서 괄호 안에 원하는 정규 표현식을 넣어서 토큰화를 수행하는 것입니다.

In [52]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+")
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


tokenizer=RegexpTokenizer("[\w]+")에서 \+는 문자 또는 숫자가 1개 이상인 경우를 인식하는 코드입니다. 그렇기 때문에 이 코드는 문장에서 구두점을 제외하고, 단어들만을 가지고 토큰화를 수행합니다.

RegexpTokenizer()에서 괄호 안에 토큰으로 원하는 정규 표현식을 넣어서 사용한다고 언급하였습니다. 그런데 괄호 안에 토큰을 나누기 위한 기준을 입력할 수도 있습니다. 이번에는 공백을 기준으로 문장을 토큰화해보도록 하겠습니다.

In [53]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\s]+", gaps=True)
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
