갖고 있는 데이터에서 유의미한 단어 토큰만을 선별하기 위해서는 큰 의미가 없는 단어 토큰을 제거하는 작업 필요  
ex) I, my, me, over, 조사, 접미사 : 문장에서 자주 등장하지만 실제 의미 분석에 있어 거의 기여하는 바가 없다 → 불용어

In [1]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from konlpy.tag import Okt

# 1. NLTK에서 불용어 확인하기

In [4]:
stop_word_list=stopwords.words('english')
print('불용어 개수 :', len(stop_word_list))
print('불용어 10개 출력 :',stop_word_list[:10])

불용어 개수 : 179
불용어 10개 출력 : ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


# 2. NLTK를 통해서 불용어 제거하기

In [5]:
example="Family is not an important thing. It's everything."
stop_words=set(stopwords.words('english'))

word_tokens=word_tokenize(example)
result=[]
for word in word_tokens:
    if word not in stop_words:
        result.append(word)
print('불용어 제거 전 :', word_tokens)
print('불용어 제거 후 :', result)

불용어 제거 전 : ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후 : ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


# 3. 한국어에서 불용어 제거하기
토큰화 후에 조사, 접속사 등을 제거  
하지만, 조사나 접속사와 같은 단어들뿐만 아니라 명사, 형용사와 같은 단어들 중에서 불용어로서 제거하고 싶은 단어들도 생긴다.  
→직접 불용어 사전을 만들게 된다.

In [7]:
okt=Okt()

example="고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words='를 아무렇게나 구 우려 고 안 돼 같은 게 구울 때 는'

stop_words=set(stop_words.split(' '))
word_tokens=okt.morphs(example)

result=[word for word in word_tokens if word not in stop_words]

print('불용어 제거 전 :',word_tokens)
print('불용어 제거 후 :',result)

불용어 제거 전 : ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']
불용어 제거 후 : ['고기', '하면', '.', '고기', '라고', '다', '아니거든', '.', '예컨대', '삼겹살', '을', '중요한', '있지', '.']
