- 영어 문장에서 NLTK가 정의한 영어 불용어를 제거하는 실습을 하고
- 한국어 문장에서 직접 정의한 불용어를 제거해보기

In [1]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize 
from konlpy.tag import Okt

In [2]:
stop_words_list = stopwords.words('english')
print('불용어 개수: ', len(stop_words_list))
print('불용어 20개 출력: ', stop_words_list[:20])

불용어 개수:  179
불용어 20개 출력:  ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [3]:
# nltk이용해서 불용어 제거해보기
example = "The sun dipped below the horizon, casting a warm glow across the tranquil meadow. The aroma of freshly baked bread wafted through the air, enticing everyone in the vicinity. Lost in thought, she wandered through the bustling city streets, absorbing the vibrant energy around her."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example)

result = []
for word in word_tokens: 
    if word not in stop_words: 
        result.append(word) 

print('불용어 제거 전 :',word_tokens) 
print('불용어 제거 후 :',result)


불용어 제거 전 : ['The', 'sun', 'dipped', 'below', 'the', 'horizon', ',', 'casting', 'a', 'warm', 'glow', 'across', 'the', 'tranquil', 'meadow', '.', 'The', 'aroma', 'of', 'freshly', 'baked', 'bread', 'wafted', 'through', 'the', 'air', ',', 'enticing', 'everyone', 'in', 'the', 'vicinity', '.', 'Lost', 'in', 'thought', ',', 'she', 'wandered', 'through', 'the', 'bustling', 'city', 'streets', ',', 'absorbing', 'the', 'vibrant', 'energy', 'around', 'her', '.']
불용어 제거 후 : ['The', 'sun', 'dipped', 'horizon', ',', 'casting', 'warm', 'glow', 'across', 'tranquil', 'meadow', '.', 'The', 'aroma', 'freshly', 'baked', 'bread', 'wafted', 'air', ',', 'enticing', 'everyone', 'vicinity', '.', 'Lost', 'thought', ',', 'wandered', 'bustling', 'city', 'streets', ',', 'absorbing', 'vibrant', 'energy', 'around', '.']


- 직접 불용어를 정의해보고, 예시 문장에서 사용자가 정의한 불용어 사전으로부터 불용어를 제거해 보자.
- 아래의 불용어는 임의로 선정한 것이다.

In [10]:
okt = Okt()

# 배열로 바꿔보자
examples = ["최근 다이어트 보조제 리뷰 데이터 모아줘", "한 달간 조회수가 높은 지진 관련 기사 찾아줘", "6개월간 블랙핑크 관련 영상 찾아줘", "1년간 밀리의 서재 후기 모아줘", "1년간 올라온 맛집 게시글 모아줘"]

stop_words = "간 관련"
stop_words = set(stop_words.split(' '))

word_tokens = []
results = []
# okt
for example in examples:
  word_token = okt.morphs(example)
  word_tokens.append(word_token)
  result = [word for word in word_token if not word in stop_words]
  results.append(result)

for i in range(len(word_tokens)):
  print(i, ' 불용어 제거 전 :',word_tokens[i]) 
  print(i, ' 불용어 제거 후 :',results[i])
  print()


0  불용어 제거 전 : ['최근', '다이어트', '보조', '제', '리뷰', '데이터', '모아줘']
0  불용어 제거 후 : ['최근', '다이어트', '보조', '제', '리뷰', '데이터', '모아줘']

1  불용어 제거 전 : ['한', '달', '간', '조회', '수가', '높은', '지진', '관련', '기사', '찾아줘']
1  불용어 제거 후 : ['한', '달', '조회', '수가', '높은', '지진', '기사', '찾아줘']

2  불용어 제거 전 : ['6', '개', '월간', '블랙', '핑크', '관련', '영상', '찾아줘']
2  불용어 제거 후 : ['6', '개', '월간', '블랙', '핑크', '영상', '찾아줘']

3  불용어 제거 전 : ['1년', '간', '밀리', '의', '서재', '후기', '모아줘']
3  불용어 제거 후 : ['1년', '밀리', '의', '서재', '후기', '모아줘']

4  불용어 제거 전 : ['1년', '간', '올라온', '맛집', '게시', '글', '모아줘']
4  불용어 제거 후 : ['1년', '올라온', '맛집', '게시', '글', '모아줘']



In [12]:
from konlpy.tag import Kkma

kkma = Kkma()

examples = ["최근 다이어트 보조제 리뷰 데이터 모아줘", "한 달간 조회수가 높은 지진 관련 기사 찾아줘", "6개월간 블랙핑크 관련 영상 찾아줘", "1년간 밀리의 서재 후기 모아줘", "1년간 올라온 맛집 게시글 모아줘"]

stop_words = "간 관련 데이터 가 "
stop_words = set(stop_words.split(' '))

word_tokens = []
results = []
# okt
for example in examples:
  word_token = kkma.morphs(example)
  word_tokens.append(word_token)
  result = [word for word in word_token if not word in stop_words]
  results.append(result)

for i in range(len(word_tokens)):
  print(i, ' 불용어 제거 전 :',word_tokens[i]) 
  print(i, ' 불용어 제거 후 :',results[i])
  print()


0  불용어 제거 전 : ['최근', '다이어트', '보조제', '리뷰', '데이터', '모으', '아', '주', '어']
0  불용어 제거 후 : ['최근', '다이어트', '보조제', '리뷰', '모으', '아', '주', '어']

1  불용어 제거 전 : ['한', '달', '간', '조회', '수가', '높', '은', '지진', '관련', '기사', '찾', '아', '주', '어']
1  불용어 제거 후 : ['한', '달', '조회', '수가', '높', '은', '지진', '기사', '찾', '아', '주', '어']

2  불용어 제거 전 : ['6', '개월', '간', '블랙', '핑크', '관련', '영상', '찾', '아', '주', '어']
2  불용어 제거 후 : ['6', '개월', '블랙', '핑크', '영상', '찾', '아', '주', '어']

3  불용어 제거 전 : ['1', '년', '간', '밀', '리', '의', '서재', '후기', '모으', '아', '주', '어']
3  불용어 제거 후 : ['1', '년', '밀', '리', '의', '서재', '후기', '모으', '아', '주', '어']

4  불용어 제거 전 : ['1', '년', '간', '올라오', 'ㄴ', '맛', '집', '게시', '글', '모으', '아', '주', '어']
4  불용어 제거 후 : ['1', '년', '올라오', 'ㄴ', '맛', '집', '게시', '글', '모으', '아', '주', '어']

