<a href="https://colab.research.google.com/github/dak-sh-kim/selfstudy-wikidocs-tensorflow-nlp-tutorial-notebooks/blob/main/20220611_NLP_2_04)_Stopword.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 04) 불용어 (Stopword)

+ (자주 등장하지만) 의미적 측면에서 기여하는 바가 적은 경우
+ ex. I, my, me, over, 조사, 접미사
+ NLTK에서는 100여개의 영어 단어들을 불용어로 패키지 내에서 미리 정의 (개발자가 정하기도 가능)

In [None]:
pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.2 MB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.4.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (453 kB)
[K     |████████████████████████████████| 453 kB 67.7 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.0 konlpy-0.6.0


## 1. nltk에서 불용어 확인하기

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from konlpy.tag import Okt

In [None]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
stop_words_list = stopwords.words('english')
print("불용어 개수: {}".format(len(stop_words_list)))
print("불용어 10개 출력: {}".format(stop_words_list[:10]))

불용어 개수: 179
불용어 10개 출력: ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


In [None]:
import pandas as pd

In [None]:
df_stopwords = pd.DataFrame()
df_stopwords['words'] = stop_words_list
df_stopwords.reset_index()

Unnamed: 0,index,words
0,0,i
1,1,me
2,2,my
3,3,myself
4,4,we
...,...,...
174,174,weren't
175,175,won
176,176,won't
177,177,wouldn


## 2.nltk를 통해서 불용어 제거하기

In [None]:
example = "Family is not an important thing. It's everything"
stop_words = set(stopwords.words('english'))

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
words_tokens = word_tokenize(example)

In [None]:
words_tokens

['Family',
 'is',
 'not',
 'an',
 'important',
 'thing',
 '.',
 'It',
 "'s",
 'everything']

In [None]:
result = []
for word in words_tokens:
  if word in stop_words:
    pass
  else:
    result.append(word)

result

['Family', 'important', 'thing', '.', 'It', "'s", 'everything']

In [None]:
print("불용어 제거 전: {}".format(words_tokens))
print("불용어 제거 후: {}".format(result))

불용어 제거 전: ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything']
불용어 제거 후: ['Family', 'important', 'thing', '.', 'It', "'s", 'everything']


## 3. 한국어에서 불용어 제거하기

+ 간단한 버전: 토큰화 --> 조사 및 접속사 제거
+ 하지만, 불용어 제거하려 하다보면 명사, 형용사와 같은 단어들 중 불용어로서 제거하고싶은 단어가 생기기도 함
+ 이런 경우 사용자가 직접 불용어 사전을 만들게 되는 경우가 있음 

In [None]:
okt = Okt()

In [None]:
example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "를 아무렇게나 구 우려 고 한 돼 같은 게 구울 때는"

In [None]:
stop_words = set(stop_words.split(" "))
word_tokens = okt.morphs(example)

In [None]:
result = [word for word in word_tokens if not word in stop_words]

In [None]:
print("불용어 제거 전: {}".format(stop_words))
print("불용어 제거 후: {}".format(result))

불용어 제거 전: {'한', '게', '고', '때는', '를', '돼', '구', '아무렇게나', '같은', '구울', '우려'}
불용어 제거 후: ['고기', '하면', '안', '.', '고기', '라고', '다', '아니거든', '.', '예컨대', '삼겹살', '을', '때', '는', '중요한', '있지', '.']


+ 보편적으로 선택할 수 있는 한국어 불용어 리스트(절대적인 기준은 아닙니다.)
+ 불용어가 많은 경우, 코드 내에서 직접 정의하지 않고 txt나 csv로 정리하고 불러와서 사용하기도 함
+ 링크 : https://www.ranks.nl/stopwords/korean
+ 추가링크 : https://bab2min.tistory.com/544