# 딥 러닝을 이용한 자연어 처리 입문

## 불용어(Stopword)
- 데이터에서 유의미한 단어 토큰만을 선별하기 위해서는 큰 의미가 없는 단어 토큰을 제거하는 작업이 필요하다.
- 자주 등장하지만 실제 의미 분석에 기여하는 바가 거의 없는 I, my, me, over, 조사 같은 단어들을 **불용어(Stopword)**라고 한다.

### nltk 불용어 확인
- `stopwords.words('')`

In [5]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [3]:
from nltk.corpus import stopwords

stopwords.words('english')[:10]  # nltk가 정의한 영어 불용어 리스트 10개만 리턴

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

### nltk 불용어 제거

In [6]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example)  # nltk 단어 기준 토큰화 함수

result = []
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 

print(word_tokens)  # word_tokenize()로 토큰화한 것 목록
print(result)  # 불용어와 겹치지 않는 토큰만 result에 담아 출력

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


### 한국어에서 불용어 제거
- 주로 조사, 접속사 등을 제거
- 불용어 사전을 직접 정의할 수 있어야 함
- 코드 내에서 직접 정의하지 않고 txt나 csv 파일로 정리해 놓고 불러와 사용하는 것이 좋다.
- 보편적으로 선택할 수 있는 한국어 불용어 리스트 : https://www.ranks.nl/stopwords/korean

In [8]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."

stop_words = "아무거나 아무렇게나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 하면 아니거든"
# 위의 불용어는 명사가 아닌 단어 중에서 임의로 선정한 것으로 실제 의미 있는 선정 기준이 아님
stop_words = stop_words.split(' ')
# print(stop_words) # ['아무거나', '아무렇게나', '어찌하든지', '같다', '비슷하다', '예컨대', '이럴정도로', '하면', '아니거든']

word_tokens = word_tokenize(example)

# result = []
# for w in word_tokens:
#   if w not in stop_words:
#     result.append(w)
# 위의 4줄은 아래의 한 줄로 대체 가능

result = [word for word in word_tokens if not word in stop_words]

print(word_tokens) 
print(result)

['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']
['고기를', '구우려고', '안', '돼', '.', '고기라고', '다', '같은', '게', '.', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']
