# 불용어(Stopword)
- 갖고 있는 데이터에서 유의미한 단어 토큰만 선별해야 한다.
- 분석에 도움이 크게 되지 않는 단어들
- I/ my / me / over / 조사 / 접미사
- NLTK에서는 100여개 이상의 영단어들을 불용어로 패키지 내에서 정리해준다

라이브러리 불러오기

In [1]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from konlpy.tag import Okt


In [2]:
stop_words_list = stopwords.words('english')
print("불용어 개수 : ", len(stop_words_list))
print("10개만 출력", stop_words_list[:10])

불용어 개수 :  179
10개만 출력 ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


## NLTK로 불용어 제거하기

In [4]:
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english'))

word_tokens = word_tokenize(example)

result = []

for word in word_tokens:
    if word not in stop_words:
        result.append(word)
        
print("불용어 제거 전 : ", word_tokens)
print("불용어 제거 후 :", result)

불용어 제거 전 :  ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후 : ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


## 한글에서 불용어 제거하기

- 토큰화 후에 조사/접속사 등을 제거하는 방법
    - 하지만, 불용어를 제거하려고 하다 보면 조사/접소갓/명사/형용사와 같은 단어들 중 제거하고 싶은 단어도 있다
    - 따라서 직접 불용어 사전을 만드는 경우가 많다
    - 직접 불용어 정의 및 삭제해보자
    - https://www.ranks.nl/stopwords/korean <- 불용어 리스트>

In [5]:
okt = Okt()

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "를 아무렇게나 구 우려 고 안 돼 같은 게 구울 때 는"

stop_words = set(stop_words.split())
word_tokes = okt.morphs(example)

result = [word for word in word_tokes if not word in stop_words]

print("불용어 제거 전 :", word_tokes)
print("불용어 제거 후 :", result)

불용어 제거 전 : ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']
불용어 제거 후 : ['고기', '하면', '.', '고기', '라고', '다', '아니거든', '.', '예컨대', '삼겹살', '을', '중요한', '있지', '.']
